5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

CPUアーキテクチャについて語れ 21

1 :Socket774@組み続けて12年:2011/12/22(木) 01:08:42.53 ID:iru+Z0GZ
ヘネシー&パターソン
あるいは河童の屁

前スレ
CPUアーキテクチャについて語れ 20
http://anago.2ch.net/test/read.cgi/jisaku/1318113870/

【過去スレ】

Part 1 http://pc5.2ch.net/test/read.cgi/jisaku/1082357989/
Part 2 http://pc7.2ch.net/test/read.cgi/jisaku/1101041110/
Part 3 http://pc7.2ch.net/test/read.cgi/jisaku/1139046363/
Part 4 http://pc7.2ch.net/test/read.cgi/jisaku/1151732227/
Part 5 http://pc9.2ch.net/test/read.cgi/jisaku/1159238563/
Part 6 http://pc9.2ch.net/test/read.cgi/jisaku/1169393906/
Part 7 http://pc11.2ch.net/test/read.cgi/jisaku/1172923824/
Part 8 http://pc11.2ch.net/test/read.cgi/jisaku/1178140550/
Part 9 http://pc11.2ch.net/test/read.cgi/jisaku/1186887760/
Part10 http://pc11.2ch.net/test/read.cgi/jisaku/1202913839/
Part11 http://pc11.2ch.net/test/read.cgi/jisaku/1214999146/
Part12 http://pc11.2ch.net/test/read.cgi/jisaku/1219884494/
Part13 http://pc11.2ch.net/test/read.cgi/jisaku/1223189876/
Part14 http://pc11.2ch.net/test/read.cgi/jisaku/1231064800/
Part15 http://pc11.2ch.net/test/read.cgi/jisaku/1235699613/
Part16 http://pc11.2ch.net/test/read.cgi/jisaku/1253517890/
Part17 http://hibari.2ch.net/test/read.cgi/jisaku/1274809074/
Part18 http://hibari.2ch.net/test/read.cgi/jisaku/1290758715/
Part19 http://hibari.2ch.net/test/read.cgi/jisaku/1305200489/

2 :Socket774@組み続けて12年:2011/12/22(木) 01:17:04.36 ID:pplPdPj6
>>1
ヘネパタ信者は氏ね。

3 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 01:19:34.43 ID:fp200XlI
>> 前スレ999
そういうの前からあるじゃん。古くはSunの提唱してたNCとかか?
むしろUNIXより更にもっと前からあるマルチユーザーシステムか。

クラウド(笑)って結局クライアントの処理性能が必要なくなったわけじゃなくてネットワークの向こうに
性能要求を押し付けてるだけなんだよね。
スマホが急激に普及したけど3G回線を圧迫して無線LANスポットだWiMAXだと言ってる。
Webサービスはサーバがパンク状態。

おかげでIntelはXeonが売れて万々歳だし、AndroidもOSの全ビルドにメモリ16GB以上のx64マシン推奨。
アプリ開発環境の要求も決して低スペックではない。
なんやかんやでパワーバランスは維持されるんだよな。

4 :Socket774@組み続けて12年:2011/12/22(木) 01:21:31.29 ID:Mpuc64Yp
>>1
激しく乙です

ヘネパタもパタヘネも読んだことがない。。。
たぶん死ぬまで読まないだろう

5 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 01:21:58.50 ID:fp200XlI
前のPS3がどうとかよりはマシだと思うw
(そろそろ古いし)

6 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 01:24:50.10 ID:fp200XlI
>>4
読む必要なし。

KnuthもHacker's Delightsも読む必要なし。
大概の使いそうなビット操作はIntelの新命令対応リストに入ってるしw
(パズル的プログラミングすら楽しめなくなって個人的には面白くないが)

7 :Socket774@組み続けて12年:2011/12/22(木) 01:31:58.80 ID:RxuR1TVT
TAOCPは面白いのに

8 :Socket774@組み続けて12年:2011/12/22(木) 02:00:37.84 ID:ev7SLT8g
ところでさ、団子ってアーキテクチャの教科書的なもの、なんでもいいけど一冊でも読んだことあるの?

9 :Socket774@組み続けて12年:2011/12/22(木) 02:01:24.11 ID:icVKOZob
>>3
端末はシンクライアントで十分
サーバ1台あたり80台の仮想PCを動かせるそうだ
PCサーバ向けCPUがPC向けCPUと比べて80倍の利益稼げるのかな?


[VMworld 2010]三菱東京UFJ銀行が「デスクトップ仮想化」事例を講演
ttp://itpro.nikkeibp.co.jp/article/NEWS/20100902/351679/
テスト結果から見ると1サーバー当たり仮想マシンを100台動かせると分かったが、
障害対策の観点から80台に抑えた。「物理サーバーは5台を一組としてグループ化してある。
もし1台のサーバーに障害が発生しても、他の4台に仮想マシンを20台づつフェールオーバーすれば、
業務が継続できる計算だ」。徳永 上席調査役はこう理由を説明した

10 :Socket774@組み続けて12年:2011/12/22(木) 02:05:25.99 ID:icVKOZob
こうも書かれてる
NCはほとんど普及せずに絵に描いた餅だったがこの件は実際に導入されたケース


「最新サーバーであれば、1台当たりの仮想マシンを120台ぐらいまで増やせそうだ。
メモリーは96Gバイトから72Gバイトに減らす」。徳永 上席調査役は今後の方針をこう話す。
2010年度末までに、仮想デスクトップを1万6000台まで増やす計画である。


11 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 02:09:05.65 ID:fp200XlI
>>8
常識がなさすぎるお前にこそ問いたいわwww

なにを言い出すかと思えばループアンローリングだのなんだのwww
ソニーがCellで一時的に先祖がえり刺せようとしたけど結局一般に受け入れられずに終わったじゃないか。

12 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 02:14:10.27 ID:fp200XlI
>>10
この1サーバのスペック次第だな。Xeonも1ソケット30万以上で最大8ソケットまで対応している。
1台あたり240万なら1クライアント当たり3万。

これより一桁安くとも企業クライアントによく使われるCeleronなんて1個5000円程度だぜ。

13 :Socket774@組み続けて12年:2011/12/22(木) 02:18:24.86 ID:ev7SLT8g
>>11
団子の性格だと読んだことがあるなら超偉そうに報告するはずだが、やはり…

14 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 02:19:46.66 ID:fp200XlI
と思ったがスライドにHS22っておもっきし書いてあった
http://www-06.ibm.com/systems/jp/bladecenter/hardware/hs22/

少なくともたとえばCADとかCGとか使うような事業部に適用できるソリューションではないし
こういう事例を一般化するのは難しい。

15 :Socket774@組み続けて12年:2011/12/22(木) 02:21:08.84 ID:RxuR1TVT
CPUよりメモリは遅く、ネットワークIOは輪をかけて遅い
歴史的にこの乖離は悪化する一方っぽいので
いわゆるシンクライアントはあんまり筋が良いとは思わない

まあ集中管理できる事を利用して
運用コストを下げて元を取ろうって発想は分かるんだが

16 :Socket774@組み続けて12年:2011/12/22(木) 02:24:25.89 ID:X4I59Q8F
どっちにしろ、シンクライアントのシンってのは
サーバ機より性能が悪いって程度の意味しかないからな…
クライアントにさ、メモリ1Gでデュアルコア1GHzとかで動画や暗号化のアクセラレータもってんじゃ、
それこそ旧PCでも再利用した方が安上がりというか
わざわざarmとかで再設計するのもアレだよな…

17 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 02:26:47.08 ID:fp200XlI
>>13
お前の性格分析なんて下らないな。
K&RもStroustrup当然のことながらLoki本、More Effective C++は当然のことながら
HDも輸入した原書持ちだがハードカバーがよれよれになってコード丸暗記するくらい読んだわ
個人的に役に立ったのはMSの人の書いたassert本とATL Internalかな。

「Linuxは時代遅れだ」の迷言を残した教授さんの本も大学生協で買った訳書を何冊か
持ってたけどとっくに捨てた。

18 :Socket774@組み続けて12年:2011/12/22(木) 02:29:31.64 ID:ev7SLT8g
>>17
読んだことがあるなら超偉そうに報告するはずだが、やはり…

19 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 02:31:07.24 ID:fp200XlI
お前は俺の例示した本のタイトル半分も理解できなかったな。無理するな低スペックw
Knuthは一冊も買わなかったけど図書館で読んだわ。

20 :Socket774@組み続けて12年:2011/12/22(木) 02:32:34.14 ID:ev7SLT8g
>>19
読んだことがあるなら超偉そうに報告するはずだが、やはり…

21 :Socket774@組み続けて12年:2011/12/22(木) 02:35:31.72 ID:Bulym8iP
シンクライアントにスマホ使う必要なんてないわな

22 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 02:36:08.54 ID:fp200XlI
>>13, >>18, >>19
なるほど、これがループアンロール(笑)か

冗長なコードは害悪だぞ

23 :Socket774@組み続けて12年:2011/12/22(木) 02:40:56.72 ID:cNoS0R6V
しばらく前のスレでも書いたんだが、最近シンクライアントの導入が進んでるのは
鯖と端末との計算機資源の綱引きの結果じゃなくて端末毎にソフトをインスコしたり
ウイルス対策したり情報流出制限したりとかの手間かけるより鯖側で集中管理した方が
端末ユーザが余計なことを出来ないようにする方が楽で安上がりだから。

24 :Socket774@組み続けて12年:2011/12/22(木) 02:48:19.85 ID:ev7SLT8g
団子の引き出しがつきたようだ。

俺は
>>8
> ところでさ、団子ってアーキテクチャの教科書的なもの、なんでもいいけど一冊でも読んだことあるの?
と聞いたわけ。

25 :Socket774@組み続けて12年:2011/12/22(木) 02:52:22.83 ID:ev7SLT8g
団子の返答は
>>11
> 常識がなさすぎるお前にこそ問いたいわwww
>
> なにを言い出すかと思えばループアンローリングだのなんだのwww
> ソニーがCellで一時的に先祖がえり刺せようとしたけど結局一般に受け入れられずに終わったじゃないか。
と、はぐらかしに始まり、

26 :Socket774@組み続けて12年:2011/12/22(木) 02:55:46.27 ID:RxuR1TVT
こんなスレでさえ粘着が付くとは
団子も一人前のコテだな

27 :Socket774@組み続けて12年:2011/12/22(木) 02:57:47.26 ID:ev7SLT8g
規制で書けんのう

28 :Socket774@組み続けて12年:2011/12/22(木) 03:00:27.18 ID:ev7SLT8g
>>17
(本文長すぎ規制により省略)
と、アーキテクチャとは関係のないプログラミングの本の自慢ばかりをし、

29 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:02:28.95 ID:fp200XlI
P&Hとか以外に教科書的なものなんてあるか?あれも古臭いけどな。
ちなみに1年のときに使ってた教科書の巻末にはSPARCの命令フォーマットのリファレンスが載ってたw

ていうかループアンロールがナウいなんてどこの世界の事象だよ20年時間軸がずれてんぞww

30 :Socket774@組み続けて12年:2011/12/22(木) 03:03:35.56 ID:ev7SLT8g
>>19
> お前は俺の例示した本のタイトル半分も理解できなかったな。無理するな低スペックw
> Knuthは一冊も買わなかったけど図書館で読んだわ。
ふたたび、アーキテクチャの教科書「以外」の本を読んだことを自慢し、

31 :Socket774@組み続けて12年:2011/12/22(木) 03:08:06.51 ID:ev7SLT8g
>>22
> なるほど、これがループアンロール(笑)か
>
> 冗長なコードは害悪だぞ
読書ネタが尽きた模様。

32 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:09:57.02 ID:fp200XlI
MMIX本も教科書っていえるのかなあれw
あんな玩具みたいな架空のCPUをテキストに使うくらいなら
基本情報試験のCASL-II/COMET-IIの試験対策本のほうがまだマシだが

33 :Socket774@組み続けて12年:2011/12/22(木) 03:11:24.89 ID:ev7SLT8g
>>29
> P&Hとか以外に教科書的なものなんてあるか?あれも古臭いけどな。
> ちなみに1年のときに使ってた教科書の巻末にはSPARCの命令フォーマットのリファレンスが載ってたw
ここまで、関係のないプログラミングの本ばかり挙げた挙句、ようやくこれだ。

34 :Socket774@組み続けて12年:2011/12/22(木) 03:13:52.07 ID:ev7SLT8g
もちろん団子がどちらもまともに読んだ素振りはない。(読んだなら偉そうに読んだと真っ先に報告するはずだ)
そしてまた>>32でトンチンカン。
俺はアーキテクチャの教科書は読んだのかと聞いたんだけどね…

35 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:13:57.78 ID:fp200XlI
関係が無い?

ループアンロール君がソフトウェアアーキテクチャなのかハードウェアアーキテクチャなのかすら示さずに
「アーキテクチャ」っていうから俺わけがわかんなかったんだよ、素で。

36 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:15:57.72 ID:fp200XlI
ループアンロールがナウいなんて時代錯誤の人間が「教科書」と思ってるような本なら少なくとも必要ないな。

37 :Socket774@組み続けて12年:2011/12/22(木) 03:16:18.34 ID:ev7SLT8g
> ループアンロール君がソフトウェアアーキテクチャなのかハードウェアアーキテクチャなのかすら示さずに
> 「アーキテクチャ」っていうから俺わけがわかんなかったんだよ、素で。
そいつぁかわいそうにな。手帳と年金もらいな。

38 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:18:22.17 ID:fp200XlI
http://e-words.jp/w/E382A2E383BCE382ADE38386E382AFE38381E383A3.html

> ハードウェア、OS、ネットワーク、アプリケーションソフトなどの基本設計や設計思想のこと。
> 元来、建築学における設計術あるいは建築様式を表していたのが、転じて、コンピュータ
> 用語として用いられるようになった。

ITに限定してもCPUに限定した用語ではないね「アーキテクチャ」は。

39 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:22:03.99 ID:fp200XlI
> 今日びインライン展開やループアンローリングのコストが下がり、ライブな値はますます増える一方だ

今日びレジスタ大量でインオーダのCPUなんてソニーすら放棄したし
どこの異次元の話なんだろうこれは?謎過ぎるwww

40 :Socket774@組み続けて12年:2011/12/22(木) 03:22:14.77 ID:ev7SLT8g
CPUアーキテクチャのスレで
> ITに限定してもCPUに限定した用語ではないね「アーキテクチャ」は。
こんな居直りをする厚顔無恥は、教師生活25年初めてみた。

じゃあ、知恵遅れのためにもう一回聞くよ。
団子は計算機アーキテクチャの教科書的な本は、何を読んだんだい?

41 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:23:17.54 ID:fp200XlI
俺が真の意味で教科書だと思ってるのは「Intelアーキテクチャ最適化マニュアル」だけだよ

42 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:23:48.80 ID:fp200XlI
> じゃあ、知恵遅れのためにもう一回聞くよ。
ああ、お前自身のためか

43 :Socket774@組み続けて12年:2011/12/22(木) 03:24:23.99 ID:ev7SLT8g
とうとう一冊も読んでいないことを白状したな。
嘘をつかなかったことだけは褒めてもいい。

44 :Socket774@組み続けて12年:2011/12/22(木) 03:27:16.75 ID:IjOTp632
何この気持ち悪い教師…、団子以下だよ

45 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:27:59.64 ID:fp200XlI
大学の教科書そのものでディレイスロットとか分岐予測とかそのへんまで解説してたけどな。
いわゆる「Adapted from Computer Organization and Design」は副読本というか暇なら読んどけ
ってポジションだったけど教授も古臭くて実用性がないって言ってたしな。

46 :Socket774@組み続けて12年:2011/12/22(木) 03:30:28.99 ID:pplPdPj6
今のところ口汚く団子罵る事しかしていないしな。
教師にしては教養がなさすぎるw

47 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:32:16.40 ID:fp200XlI
最後にこれだけ聞いて寝るか
> 今日びインライン展開やループアンローリングのコストが下がり、ライブな値はますます増える一方だ

こんなCPUどこにあるの?www
むしろコンパイラやCPUのアウトオブオーダ実行機構の進化で
コードレベルの明示的なループアンロールの必要なんてほとんどなくなったし
最近どころかPentium IIとかIIIとかのあたりで既にアンロールの効果なんて実感できなくなってたよ。

48 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:33:07.73 ID:fp200XlI
>>46
教師だとしたらとんでもないロートルだな

49 :,,・´∀`・,,)っ-○○○:2011/12/22(木) 03:35:43.58 ID:fp200XlI
NOP命令を12000個以上アンロールしたらPentium 4で速度1/3になった

50 :Socket774@組み続けて12年:2011/12/22(木) 03:44:02.72 ID:ev7SLT8g
>>47
> 最近どころかPentium IIとかIIIとかのあたりで既にアンロールの効果なんて実感できなくなってたよ。
レジスタが8個しかなければ無理にアンロールしても意味がないのは当然。
どうして、「x86では」アンロールはさほど効かないということが、「あらゆるアーキテクチャでも」効かないと短絡できるんだよ。

51 :Socket774@組み続けて12年:2011/12/22(木) 03:46:43.19 ID:ev7SLT8g
>>44>>46
俺は好き嫌いで判断するやつも嫌いでね
有益な情報はなるべく書く

52 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 03:51:42.37 ID:fp200XlI
マジで頭が悪いんだな。

もともとeax,ecx,edxの3つだけ使ってたのがesi,ediも使うようになっただけで
実行時間は誤差の範囲でしか変化しなかったオチ(むしろ若干落ちた)
同じコードをx86からx64に変えても大して変わらなかったね。

レジスタリネームもあるんだし、論理レジスタが増えさえすれば性能が伸びるとかいう辺りが
既に痴呆老人の思考パターンですよ。
ロートルはさっさと寝ろよ

53 :Socket774@組み続けて12年:2011/12/22(木) 03:52:24.65 ID:pplPdPj6
>>51
じゃあ、ev7SLT8gの言う「計算機アーキテクチャの教科書的な本」で
まともな物って何があるの?

54 :Socket774@組み続けて12年:2011/12/22(木) 03:55:10.03 ID:IjOTp632
気持ち悪い教師から嫌われても特にw
あんたの書き込みのどこが有益なの?

55 :Socket774@組み続けて12年:2011/12/22(木) 03:55:13.55 ID:ev7SLT8g
>>49
> NOP命令を12000個以上アンロールしたらPentium 4で速度1/3になった
意味のない例をムキになってあげるのは、普通の社会では軽蔑の的になるから。
このスレは毒されてるかもしらんね。

56 :Socket774@組み続けて12年:2011/12/22(木) 03:56:18.30 ID:IjOTp632
>普通の社会では軽蔑の的になるから
ブーメランブーメラン♪

57 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 03:57:05.22 ID:fp200XlI
ID:ev7SLT8g ほど無益な人間は他に居ないな

58 :Socket774@組み続けて12年:2011/12/22(木) 03:57:14.59 ID:ev7SLT8g
>>54
団子叩き以外の全部と、「団子のどこが悪いか」の指摘全部が有益

59 :Socket774@組み続けて12年:2011/12/22(木) 03:58:54.08 ID:IjOTp632
自分にとっての間違いだろ>有益
公開オナニーショーもそういう趣味の人間には有益、と完全に一致

60 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 03:59:08.98 ID:fp200XlI
> 普通の社会では軽蔑の的になるから。
お前の「普通の社会」ではそうなんだろうな
お前の中だけではなw

61 :Socket774@組み続けて12年:2011/12/22(木) 03:59:46.63 ID:ev7SLT8g
>>59
好き嫌いでしか物事を考えられない奴は、ちょっと不快感を覚えると、すぐに自ら煽りはじるのが常

62 :Socket774@組み続けて12年:2011/12/22(木) 04:00:50.22 ID:IjOTp632
>すぐに自ら煽りはじるのが常
なんでこんなにブーメランが好きなの?

63 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:01:23.44 ID:fp200XlI
> 好き嫌いでしか物事を考えられない奴は、ちょっと不快感を覚えると、すぐに自ら煽りはじるのが常

その典型がこれか→ >>13>>18>>20

64 :Socket774@組み続けて12年:2011/12/22(木) 04:04:15.85 ID:ev7SLT8g
>>62
君自身に煽っている自覚はないのか?

65 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:04:33.04 ID:fp200XlI
> はじるのが常
恥じるのが常

66 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:05:02.77 ID:fp200XlI
>>64 ←見事なまでのブーメラン発言

67 :Socket774@組み続けて12年:2011/12/22(木) 04:05:50.38 ID:IjOTp632
自分が来る前から団子煽りまくりの人間の言う事じゃないってだけさ>君自身に煽っている自覚
気持ち悪い教師にはそれ相応の対応だと思うね、残念ながら

68 :Socket774@組み続けて12年:2011/12/22(木) 04:06:37.92 ID:ev7SLT8g
ああ、俺はもちろん自覚して煽っているよ。前で宣言したつもりだったが忘れてたか。すまんね。

69 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:07:06.47 ID:fp200XlI
ループアンローリングなんて近代ソフトウェア工学では廃れた最適化手法などは恥じるのが常

70 :Socket774@組み続けて12年:2011/12/22(木) 04:07:08.21 ID:OTsTDsGJ
急に団子擁護が沸いてきて気持ち悪い

71 :Socket774@組み続けて12年:2011/12/22(木) 04:09:31.52 ID:IjOTp632
本当に気持ちの悪い教師
教師とか言い出したあたりその気持ち悪さにでスルー出来なくなったwww
前スレから延々と自称有益情報とやらを書き込んでるつもりらしいが
こんなキチガイの講義受けてる生徒もかわいそうだね
気に入らない生徒いびりとか、それこそ自覚を持って行ってるんだろうね、陰湿だね

72 :Socket774@組み続けて12年:2011/12/22(木) 04:09:31.93 ID:pplPdPj6
ev7SLT8gはどうでもいい煽りあいをしていないで、

>有益な情報はなるべく書く
って書いたんだから、
「計算機アーキテクチャの教科書的な本」で、まともな物をはやく教えてよ。

73 :Socket774@組み続けて12年:2011/12/22(木) 04:10:01.44 ID:IjOTp632
団子擁護に見えるのもどうかと思うよw

74 :Socket774@組み続けて12年:2011/12/22(木) 04:10:54.65 ID:RxuR1TVT
擁護とか以前にID:ev7SLT8gが色々とメチャクチャ

75 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:11:56.42 ID:fp200XlI
いまどきのCPUでループアンローリング(笑)なんてincrement+branchの命令がちょっと減る程度の
実用性しかないんですけどね
内側でたとえばロード・ストアのスループットがネックになってる場合は効果が無い

76 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:15:16.59 ID:fp200XlI
Intelアーキテクチャマニュアル以上の教科書は無いよ。
東大出の某○oogle社員も言ってた

77 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:20:15.10 ID:fp200XlI
どーせ3流大学出の専門学校講師だろ

78 :Socket774@組み続けて12年:2011/12/22(木) 04:23:42.53 ID:ev7SLT8g
>>72
ごめん
俺の好きなのはこれ
MODERN PROCESSOR DESIGN: Fundamentals of Superscalar Processors, Beta Edition by John P. Shen, Mikko Lipasti and John Shen (Jul 22, 2002)
LipastiはValue Predictionの発明者。


79 :Socket774@組み続けて12年:2011/12/22(木) 04:25:53.29 ID:ev7SLT8g

もうひとつ。1999だからちょっと古い。
The Microarchitecture of Pipelined and Superscalar Computers by Amos R. Omondi
この辺を読んでおけばあとで論文読むときに困らない。

どちらも、たくさん読んだ中のベストじゃなくて、たまたま読んでみて悪くなかったやつだ。

日本語のだと中澤先生のが定評あるようだ。

80 :Socket774@組み続けて12年:2011/12/22(木) 04:28:15.52 ID:ev7SLT8g
ちなみにMODERN PROCESSOR DESIGNのほうは、NexGenのRISC86がそこそこ載ってるから物好きにもいいぞ

81 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:29:22.71 ID:fp200XlI
ループアンローリングがどうとか言ってる時点で知識が無いのは明白。
こいつググった程度の知識しか無いから絡むだけ無駄だよ。

L1Iの容量が増えない理由がただしく理解できてればあんなトンデモ発言できねーしw

82 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:32:40.22 ID:fp200XlI
まさに、恥じるのが常

83 :Socket774@組み続けて12年:2011/12/22(木) 04:39:08.87 ID:ev7SLT8g
>>75
いつの時代の認識だよ。
今日日のループアンローリングは演算やメモリアクセスの遅延を隠蔽できるよう
スケジューリングの対象領域を広くするためのものだ。
前スレで俺以外の落ち着いた人に指摘されたのを忘れたのか。
というか、都合の悪いことは意図的に聞かなかったフリをするのが団子だったな。

84 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:40:04.30 ID:fp200XlI
はいご老人がまた蒙昧な発言を反復し始めました。

85 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:45:01.20 ID:fp200XlI
ループアンローリングはほとんど無意味なんてこと最適化マニュアルにも普通に書いてあることなんだけどね
別にレジスタ本数の話じゃないんだけどね。レジスタ本数のせいにするあたりが既に痴呆。

86 :Socket774@組み続けて12年:2011/12/22(木) 04:46:33.71 ID:ev7SLT8g
これでも読んどけ http://www.cs.iastate.edu/~prabhu/Tutorial/PIPELINE/loopUnrolling.html

団子は痛いところをつかれると
> はいご老人がまた蒙昧な発言を反復し始めました。
と人格攻撃に走るのでわかりやすいですね。

87 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:55:58.10 ID:fp200XlI
これ前提とするアーキがインオーダっぽいなw
テキトーにググってごまかしても知識の無さを露呈するだけなのに。

> for (i=1; i<=1000; i++)
> x[i] = x[i] + s;

こんなコードはリネーミング機構さえあればx87のスタックレジスタ1本+ecxだけで十分だろwww
SSEサポート不要、Pentium Proで十分wwww
直感でレジスタリネーミングきくかどうかなんてわかるぞ。

88 :Socket774@組み続けて12年:2011/12/22(木) 04:56:52.70 ID:vs5AB1eZ
ID:ev7SLT8gが同じセリフを延々繰り返す人工無能なのはわかった

89 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 04:58:16.92 ID:fp200XlI
こんなレジスタリネーミングが効くケースの判別すらできない無能の知識なんて薄っぺら過ぎる

90 :Socket774@組み続けて12年:2011/12/22(木) 05:07:45.10 ID:OTsTDsGJ
おいいいいいいいいいいい

91 :Socket774@組み続けて12年:2011/12/22(木) 05:07:58.54 ID:OTsTDsGJ
ごばーく

92 :Socket774@組み続けて12年:2011/12/22(木) 05:19:58.47 ID:ev7SLT8g
>>87
原理を学ぶための例を特定の実装を基準に考えてどうするよ…

>>88
やる気か?w

93 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 05:21:38.09 ID:fp200XlI
ちなみにMODERN〜読んだならレジスタリネーミングについては詳しく載ってたはずだけどな
おそらく目を通しただけで頭に入って無いんだろうな

SSE2スカラで処理した場合

  movsd xmm0, qword ptr [s]
  mov ecx, 1000
lp1:
  movsd xmm0, [esi+ecx*8]
  addsd xmm0, xmm1
  movsd [esi+ecx*8], xmm0
  dec ecx
  jnz lp1

Sandy Bridgeならこんなコード1000サイクル+αで処理できるよ。
アンロール?いらねーよバーカwww

94 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 05:25:16.33 ID:fp200XlI
Sandy Bridgeなら、と断ったのはこれ未満のアーキでは勿論同時命令発行数の縛りがあるから。
3issue以下なら【dec+jnzの回数を削る目的でのみ】アンロールは有効。

95 :Socket774@組み続けて12年:2011/12/22(木) 05:25:19.64 ID:ev7SLT8g
アンロールすべきループとそうでないループの区別がつかない(あるいはそういう区別があるということすら知らない)から
こんなクソみたいな例をあげて喜んでいられるんだよな。
自分の無知に気づかずにいられるのは決して幸せなことじゃないぞ、団子。

96 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 05:26:46.04 ID:fp200XlI
お前がそのクソみたいな例を出したんだが?
少ない論理レジスタでも十分性能が出せる、リネームが効く典型をなww

97 :Socket774@組み続けて12年:2011/12/22(木) 05:29:44.03 ID:ev7SLT8g
団子は数行の、ほとんど意味のないコード片がx86ではこれだけ速いとご満悦だが
もしかして、プロセッサの性能評価の方法論があることすら知らないのかもしれないという気がしてきた。

98 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 05:31:45.02 ID:fp200XlI
もう涙吹けよwww
知識レベルが低すぎて話にならないwwww

99 :Socket774@組み続けて12年:2011/12/22(木) 05:40:24.21 ID:ev7SLT8g
>>96
俺が出した例は、例題プログラムと例題プロセッサが組になっているわけだがな…

100 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 05:43:02.38 ID:fp200XlI
x86に限定しなくてもこの程度でアンローリングが必要なのはかなりレトロなCPUだぞ
お前はMODERN〜を本当に読んだのか?内容をまったく理解してない人間にしか見えない。

というかアンローリング同等のことをハード的にやってくれるのがレジスタリネーミングの目的ですし。
(IPFにはレジスタローテーションという機能があるしね)
こんなこともMODERN〜には書いてあった気がするが、読んでない人に説明しても無駄か。

しょせんID:ev7SLT8g の必死でググった知識なんてこんなもんだよ

101 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 05:47:06.78 ID:fp200XlI
>>99 ←愚者は忙しいな。言い訳を考えるのに忙しいな。

102 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 05:51:08.77 ID:fp200XlI
賢者は間違ったときには「私が間違っていた」と言う。
愚者は「私のせいではない」と言う。
賢者は勝因は「運が良かった」と言う。例え運ではなかったとしても。
愚者は敗因を「運が悪かった」と言う。でも、運が原因ではない。
賢者は愚者よりも勤勉に働く。しかも時間は愚者より多い。
愚者はいつでも忙しい。文句を言うのに忙しい。
賢者は問題を真っ直ぐ通り抜ける。
愚者は問題の周りをグルグル回る。
賢者は償いによって謝意を示す。
愚者は謝罪をするが同じ間違いを繰り返す。
賢者は戦うべきところと妥協すべきところを心得ている。
愚者は妥協すべきでないところで妥協し、戦う価値がない所で戦う。
賢者は「自分はまだまだです」と言う。
愚者は自分より劣るものを見下す。
賢者は自分より勝るものに敬意を払い学び取ろうとする。
愚者は自分より勝るものを不快に思い、アラ捜しをする。
賢者は職務に誇りを持っている。
愚者は「雇われているだけです」と言う。
賢者は「もっと良い方法があるはずだ」と言う。
愚者は「何故変える必要があるんだ?今までうまくいっていたじゃないか」と言う。


ID:ev7SLT8g =愚者の典型だな

103 :Socket774@組み続けて12年:2011/12/22(木) 05:52:35.68 ID:ev7SLT8g
>>85
> ループアンローリングはほとんど無意味なんてこと最適化マニュアルにも普通に書いてあることなんだけどね
こんなことは書いていたがな

> 例 13-5c は、命令レベルの並列性を高め、乗算と加算におけるレイテンシーの発生をさら
> に抑える手法を示している。


104 :Socket774@組み続けて12年:2011/12/22(木) 05:54:40.61 ID:ev7SLT8g
> アンロールを 4 回行うことにより、各 ADDPS 命令を依存関
> 係がある更新命令の MULPS から離して配置できる。
> また、インターリーブ手法を使用することにより、
> 依存関係がない ADDPS と MULPS を近くに配置できる。

105 :Socket774@組み続けて12年:2011/12/22(木) 05:56:46.84 ID:ev7SLT8g
> MULPS と ADDPS
> を実行するハードウェアはパイプライン化されているので、この手法では、例 13-5b と比
> べてはるかに効果的にレイテンシーを隠すことができる。

106 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 05:57:28.70 ID:fp200XlI
この例題は乗算なんて全くつかわねーよボケ
知ったかぶり必死だな

107 :Socket774@組み続けて12年:2011/12/22(木) 06:03:59.80 ID:ev7SLT8g
>>100
団子> というかアンローリング同等のことをハード的にやってくれるのがレジスタリネーミングの目的ですし。
教師生活25年、こんな斬新な理解は初めてだ(号泣)
世界中さがしても唯一無二じゃないか。おめでとう。

108 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:05:35.85 ID:fp200XlI
ぶっちゃけ>>86は極論をいえば1000並列のベクトル演算器があれば1サイクルのスループットで処理できる問題ですし。
もしSSE単精度ベクトルなら250サイクル+αだね。

109 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:06:35.85 ID:fp200XlI
>>86
そんな薄っぺらい理解力でよく自称教師なんてやってられるなwww
馬鹿の典型

110 :Socket774@組み続けて12年:2011/12/22(木) 06:07:51.13 ID:ev7SLT8g
>>106
>>103は、インテル? 64 アーキテクチャーおよび IA-32 アーキテクチャー最適化リファレンス・マニュアル
http://download.intel.com/jp/developer/jpdoc/248966-024JA.pdf
の13-16ページだな。

111 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:08:38.02 ID:fp200XlI
俺はフレックス使うけどあんた授業大丈夫か?www
脳内教師の生保だから問題ないかwww

112 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:09:23.02 ID:fp200XlI
>>110
アホか全然別の問題じゃねーか(真に依存関係がある場合の並列化)

113 :Socket774@組み続けて12年:2011/12/22(木) 06:14:30.52 ID:ev7SLT8g
団子> というかアンローリング同等のことをハード的にやってくれるのがレジスタリネーミングの目的ですし。
これは本当にひどい誤解ですが、君が自分で調べて訂正してここに報告すればこれ以上は叩きません。

114 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:15:23.95 ID:fp200XlI
> の13-16ページだな。
目次ですが?www
あたまおかしすぎるwww

> 13 インテル? Atom? マイクロアーキテクチャーとソフトウェアの最適化
ここならまだわかるがw

115 :Socket774@組み続けて12年:2011/12/22(木) 06:16:00.57 ID:gdFUtaYs
お前らいつ寝てるんだよ・・・

116 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:16:39.45 ID:fp200XlI
>>113
恥の上塗りにしかならないからやめとけ低脳www
残念ですがお前の完全敗北ですwww

117 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:17:08.38 ID:fp200XlI
>>115
電車の中かな

118 :Socket774@組み続けて12年:2011/12/22(木) 06:18:24.43 ID:ev7SLT8g
>>112
インテルのマニュアルに、アンロールがレイテンシの改善に役立つと書いてある例を出しました。
団子は> ループアンローリングはほとんど無意味なんてこと最適化マニュアルにも普通に書いてあることなんだけどね
これを立証できていません。

119 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:21:04.25 ID:fp200XlI
>>86とその移植版の>>93のケースで明示的なアンロールは無意味だ。
ロード命令をヒントにレジスタリネーミングで前後の依存関係が断ち切れて別々の物理レジスタが割り振れるからな

120 :Socket774@組み続けて12年:2011/12/22(木) 06:22:23.22 ID:ev7SLT8g
団子は「無意味な場合がある」と「あらゆる場合に無意味だ」の区別がつかないかわいそうな子のようです。

121 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:24:05.45 ID:fp200XlI
お前が出してきた例だろ
話すり替えんなアホ

122 :Socket774@組み続けて12年:2011/12/22(木) 06:27:27.55 ID:cs7dH0Cx
Core2以降ループが安くなりすぎてるしSandyBridgeは長いループが不利なのはわかるけど
Bulldozerは結構アンロール効くよ
マイクロアーキテクチャ依存だろう

x86が使いにくいなと思うのは x16のアドレッシングモードがない事かな

123 :Socket774@組み続けて12年:2011/12/22(木) 06:27:51.60 ID:ev7SLT8g
団子> というかアンローリング同等のことをハード的にやってくれるのがレジスタリネーミングの目的ですし。
団子> というかアンローリング同等のことをハード的にやってくれるのがレジスタリネーミングの目的ですし。
団子> というかアンローリング同等のことをハード的にやってくれるのがレジスタリネーミングの目的ですし。
おやすみ

124 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:29:16.78 ID:fp200XlI
> アンロールを 4 回行うことにより、各 ADDPS 命令を依存関
> 係がある更新命令の MULPS から離して配置できる。
> また、インターリーブ手法を使用することにより、
> 依存関係がない ADDPS と MULPS を近くに配置できる。

て書いてあるとおり、これは依存関係がある例の並列化。
NehalemはMULPSのレイテンシが4なので4並列化で十分ってことだろう

>>86のようなループの場合値の依存関係がないのでレジスタリネーミングだけで自動アンロール可能

125 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:29:57.25 ID:fp200XlI
>>123
ばいばい負け犬

126 :Socket774@組み続けて12年:2011/12/22(木) 06:30:32.43 ID:cs7dH0Cx
disp32もCore2の時はフェッチ帯域を消費するから
disp8になるように書き換えたりしたけど
uOPキャッシュができてからはほぼタダで使えるようになったし

127 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:32:32.87 ID:fp200XlI
>>122
>>86のケースはBulldozerでもそれほど必要ないと思うよ。
dec+jccとかはfusion効かなかったと思うからその分だけはアンロールでの命令削減が有効だけど

128 :Socket774@組み続けて12年:2011/12/22(木) 06:36:33.36 ID:cs7dH0Cx
>>86のケースは問題ないのかもしれないが
BulldozerはALUが少ないから
SSEのコードのadd 16とかも地味に効いてくる

129 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 06:41:20.22 ID:fp200XlI
レジスタリネーミングがどういう場合に聞くのかこれはわかりやすいな
http://ocw.u-tokyo.ac.jp/wp-content/uploads/lecture-notes/IS_02/aca_04.pdf

「偽のデータ依存」のパターンなら同じ論理レジスタを読み替えて実行できる。
これは論理レジスタを無駄遣いしないための基本的なテクニックなんだけどな。


オッサンは \x86はレジスタが足りないからクソ/ ばっかし言ってるけど本当に足りてないのはこいつの脳味噌
本当にこんな馬鹿が教師なら生徒が気の毒すぎる。まあありえないが。

130 :Socket774@組み続けて12年:2011/12/22(木) 07:01:25.51 ID:cs7dH0Cx
五島先生のアドバンストコンピュータアーキテクチャは
ここの住人なら必修にしていいレベル

131 :Socket774@組み続けて12年:2011/12/22(木) 07:58:08.85 ID:ev7SLT8g
>>129
おはよ
それを読んで、どうして
団子> というかアンローリング同等のことをハード的にやってくれるのがレジスタリネーミングの目的ですし。
こういう理解になるのか…

132 :Socket774@組み続けて12年:2011/12/22(木) 08:16:25.19 ID:ev7SLT8g
レジスタリネーミングというかOoOが、アンローリング+スケジューリングと同じようなことを動的にやってくれる「場合もある」
しかしOoOはアンローリングだけでない、もっとずっと一般的な技術だわな。

それがなぜ団子にかかると
> というかアンローリング同等のことをハード的にやってくれるのがレジスタリネーミングの目的ですし。
こうなってしまうのだ。

133 :Socket774@組み続けて12年:2011/12/22(木) 08:47:04.74 ID:ev7SLT8g
団子> オッサンは \x86はレジスタが足りないからクソ/ ばっかし言ってるけど本当に足りてないのはこいつの脳味噌

団子はバカなだけならまだしも、他人が言ってもないことを言ったと主張するから困る。
俺は「一般論として」整数レジスタは16個あればまあ問題はなく、逆に浮動小数点レジスタはいくらでも欲しい、と言ったのだ。

134 :Socket774@組み続けて12年:2011/12/22(木) 08:51:08.85 ID:ev7SLT8g
団子> オッサンは \x86はレジスタが足りないからクソ/ ばっかし言ってるけど本当に足りてないのはこいつの脳味噌

「x86は」とも言ってないし、「足りないから」とも言ってないし、「クソ」とも言ってない。
言ったのは「レジスタ」だけだ。(言ったのも一回だけだ。「ばっかし言ってる」わけではない)
どうよ、この捏造ぶり。

135 :Socket774@組み続けて12年:2011/12/22(木) 09:08:35.02 ID:kfHa230d
なんか団子さんが少し太った気がするw

136 :Socket774@組み続けて12年:2011/12/22(木) 10:17:31.61 ID:6hOI6KT7
レイテンシがある命令を順次に実行する命令列ならアンロールした方がスループットがあがる
というだけで終わる話ではないのかな?

137 :Socket774@組み続けて12年:2011/12/22(木) 11:07:59.78 ID:HnO8KuL4
>>136
上にでてる例はAtomのインオーダパイプライン向けの最適化だから
レジスタリネーミング付きのOoOのマイクロアーキテクチャのほとんどでは
アンロールしてもmulapsのレイテンシの隠ぺいという意味はない

アンロールすると
add esi, 16/add edi, 16/sub ecx, 1/jnz top
はアンロールした分でまとめられるから
フェッチ帯域・デコード帯域・Int ALUの実行帯域がボトルネックの場合は有利になる

ただこの例では
SNB/BDの場合addpsのループ間の依存関係が支配的だから
アンロールしなくても変わんないと思う

138 :Socket774@組み続けて12年:2011/12/22(木) 11:12:15.45 ID:HnO8KuL4
例13-5 a〜cの話ね

139 :Socket774@組み続けて12年:2011/12/22(木) 12:51:09.53 ID:qRpp5KnY
なんにしろ、
> 今日びインライン展開やループアンローリングのコストが下がり、ライブな値はますます増える一方だ
これは無いわ。時代の推移を含めて一般論を言うならともかく、「今日び」で限定して
これは無いわー。日本の組み込み屋で自分の廻りが世界の全てな人なら、こういうこと言いそうだけど。

140 :Socket774@組み続けて12年:2011/12/22(木) 13:34:00.99 ID:zNa89zfv
>>135
元々焼け太りの豚ですよ

141 :Socket774@組み続けて12年:2011/12/22(木) 17:22:37.83 ID:8Zmq069N
13-5cみたいに加算の順序を変えていいならいろいろできるね
SandyBridgeはaddpsのレイテンシが3だから

top:
movaps xmm3, [esi]
movaps xmm4, [esi+16]
movaps xmm5, [esi+32]
mulps xmm3, [edi]
mulps xmm4, [edi+16]
mulps xmm5, [edi+32]
addps xmm0, xmm3
addps xmm1, xmm4
addps xmm2, xmm5
add esi, 48
add edi, 48
sub ecx, 3
jnz top

ただこれだと ALUボトルネックだから
ループ2回をアンロールして

top:
movaps xmm3, [esi]
movaps xmm4, [esi+16]
movaps xmm5, [esi+32]
mulps xmm3, [edi]
mulps xmm4, [edi+16]
mulps xmm5, [edi+32]
addps xmm0, xmm3
addps xmm1, xmm4
addps xmm2, xmm5
movaps xmm3, [esi+48]
movaps xmm4, [esi+64]
movaps xmm5, [esi+80]
mulps xmm3, [edi+48]
mulps xmm4, [edi+64]
mulps xmm5, [edi+80]
addps xmm0, xmm3
addps xmm1, xmm4
addps xmm2, xmm5
add esi, 96
add edi, 96
sub ecx, 6
jnz top

とするのが最強かな
試してないけど

142 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 19:38:39.52 ID:fp200XlI
>>137
あーあ、敢えて黙ってたのに言っちゃったw
馬鹿すぎて面白いからもっと無知を曝け出させようと思ったのにww

>>139
そもそも組み込みですらそういうCPUって皆無な気がするんだが
(ARM9以下のレンジになるとこいつが馬鹿の一つ覚えのように言ってるFPU自体が実装されてないことも珍しくない)

143 :Socket774@組み続けて12年:2011/12/22(木) 20:02:57.19 ID:wwVGv5kp
そもそもARMは整数の割り算命令が無いCPU…
積和演算命令はあるけど。
ARMv7もA系では整数割り算命令無い。コプロにお任せ!!

使用頻度から言えば妥当な判断だし、そういう割り切りは結構好きだけど。

144 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 20:16:38.36 ID:fp200XlI
RISCに分類されるCPUって除算命令がないのは別に珍しくないけどね。
SPARC厨がパイプラインを乱すから除算命令はクソだとかドヤ顔で言ってたな。

145 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 21:27:19.83 ID:fp200XlI
Teslaが載る前のRICC(Nehalem-DPベースのクラスタ)でTop500登録したときに
理論性能の9割オーバーのFLOPS数たたき出してたよな。

OoO+レジスタリネーミングつきのCISC ISAでFP/SIMDレジスタ16本って十分足りるし
逆にコアあたりのレジスタ128本PowerXCell採用クラスタが実効性能比7割どまり。
いまどき単純な論理レジスタの数なんて性能の決定的要因ではない。

146 :Socket774@組み続けて12年:2011/12/22(木) 21:53:11.99 ID:icVKOZob
スパコン1位の京で使われてるSPARC64 VIIIfxは浮動小数点レジスタを256本持ってる

147 :Socket774@組み続けて12年:2011/12/22(木) 21:55:38.51 ID:icVKOZob
スーパーコンピュータ向けCPUSPARC64 VIIIfx について
ttp://www.ssken.gr.jp/MAINSITE/download/newsletter/2009/20091125-sci-2/lecture-4/ppt.pdf

148 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 21:59:01.33 ID:fp200XlI
だからなんだ?
SPARCの命令セットは積和命令のソースオペランドにメモリ(L1)を指定できないし
Venusはレジスタリネーミング機構を持っていない

149 :Socket774@組み続けて12年:2011/12/22(木) 22:05:00.94 ID:icVKOZob
SPARC64 VIIIfxの後継で16コアのSPARC64 IXfxがあるらしい

LSI、富士通と「SPARC64 IXfx」を共同で開発したことを発表
ttp://news.mynavi.jp/news/2011/11/16/001/index.html

150 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 22:05:25.35 ID:fp200XlI
しっかし、くっだらないガラパゴスCPUなんてこしらえた物だな
京こそ日本の科学技術の発展を阻害する害悪

151 :Socket774@組み続けて12年:2011/12/22(木) 22:07:35.27 ID:icVKOZob
SPARC64 VIIIfxは8コアなのに消費電力58W

ttp://www.ssken.gr.jp/MAINSITE/download/newsletter/2009/20091125-sci-2/lecture-4/ppt.pdf
SPARC64 VIIIfx Chip 概要? アーキテクチャ
8 コア
5 MB の共有L2キャッシュ
メモリコントローラ内蔵
クロック2 GHz
FMLの45nm CMOS
22.7mm x 22.6mm
760M トランジスタ
信号ピン数1271
ピーク性能
演算性能128GFlops
メモリスループット64GB/s
消費電力
58W (TYP, 30℃)
水冷

152 :Socket774@組み続けて12年:2011/12/22(木) 22:09:43.07 ID:icVKOZob
SPARC64 VIIIfxはTSMCの45nmで製造してるのに8コアで消費電力58W

153 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 22:10:47.12 ID:fp200XlI
富士通のFab維持に血税投資して結局TSMC?
何が国産だよ。
とっとと仕分けろ

154 :Socket774@組み続けて12年:2011/12/22(木) 22:11:24.57 ID:icVKOZob
あ、SPARC64 VIIIfxは富士通の45mnか
SPARC64 IXfxがTSMC 40nmだった

155 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 22:15:20.91 ID:fp200XlI
どっちみちくだらねーな。
そもそも45nmだ40nmだって言ってる時点で既に競争すべき分野を間違えてる。
2013年には22nmで50コア・150W以内で1TDLOPSのチップが出てくる。
1000億も投じてガラスパ確定じゃ世界の笑いものだな。

156 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 22:16:01.54 ID:fp200XlI
1T DP FLOPSね

157 :Socket774@組み続けて12年:2011/12/22(木) 22:25:20.37 ID:6hOI6KT7
互換性を求められる汎用CPUとリコンパイル前提なHPC・組み込み専用CPUでは最適なアプローチも違ってくる
京はライバルが更新の谷間の上手いタイミングで世界一取ったものだと思うよ

158 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 22:27:52.09 ID:fp200XlI
東工大のTSUBAME2.0でも1回だけとはいえ1位とれたんだが?
故意に無かったことにしたがってる文部科学省の馬鹿には呆れる。

159 :Socket774@組み続けて12年:2011/12/22(木) 22:27:52.63 ID:Mpuc64Yp
floatはレジスタが多いほど性能よい
これが現実世界での事実
XEONがいくら性能よくても変えられない

160 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 22:28:54.50 ID:fp200XlI
> floatはレジスタが多いほど性能よい
FLOPS数は演算ユニットの数に比例するがレジスタの個数に比例しません

161 :Socket774@組み続けて12年:2011/12/22(木) 22:43:59.01 ID:8Zmq069N
レジスタリネーミングは強力だけど
SandyBridgeレベルのものは相応のトランジスタ・消費電力と引き換えだから
論理レジスタを多くする代わりにスケジューラを単純にして
浮いた分のリソースを演算器に投入するというのは選択肢の一つだと思うよ

SPARC64 IXfxがTSMC 45nmで2GFlops/Wを実現しているということは
そうしたアプローチの有効性をいくらか支持していると思われる

まぁ京とかあの辺は正直仕分けたほうがいいとは思うけどね

162 :Socket774@組み続けて12年:2011/12/22(木) 22:51:20.76 ID:8Zmq069N
>>158
1位にはなってないよ

163 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 22:52:12.96 ID:fp200XlI
22nmプロセスのHaswellの3.2GHz・8コアで理論上400GFLOPS程度、0.9かけでも360GFLOPSか。
ぶっちゃけるとMICにはそれほど市場規模を期待してないが
(とはいってもクソVenusよりは遙かに売れるだろうが)
世界で最も売れてるサーバプロセッサが、近々1チップでこれだけの性能を獲得することになるわけで
日本は1000億もかけるべきところを間違えてるとしかいいようがない。

45nmだ40nmだの割には効率がいいって言いたいんだろうけど、それが日本の技術(笑)の限界だし
遙か先のプロセスルールの製品を市場投入するIntelは、同じ土俵におりてきてくれない。

164 :Socket774@組み続けて12年:2011/12/22(木) 22:55:48.15 ID:8Zmq069N
ああいう誰得なプロジェクトが通ってしまう原理がよくわからんよね

165 :Socket774@組み続けて12年:2011/12/22(木) 22:57:39.53 ID:icVKOZob
TSMCの28nm使った製品出てますけどね
Intelの22nmには敵わないけど
ttp://pc.watch.impress.co.jp/docs/news/20111222_501056.html

166 :Socket774@組み続けて12年:2011/12/22(木) 23:05:49.76 ID:vs5AB1eZ
アレも富士通の独自のインタコネクトとか3次元トラス配線とか見るべきポイントもあると思うけどね
SPARCにする理由は1ミリもなかったと思うけど

167 :Socket774@組み続けて12年:2011/12/22(木) 23:09:07.65 ID:RxxuXFkb
>>163
ちなみにintelの2010年の研究開発費は66億ドル

日本産のステッパーも使われてる


168 :Socket774@組み続けて12年:2011/12/22(木) 23:11:00.34 ID:6hOI6KT7
富士通が作るHPCチップのベースに
SPARC64でなかったら何がありうるだろう?

169 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 23:14:12.48 ID:fp200XlI
京の筐体って8プロセッサの1ノードで1千万くらいだっけ。
価格競争力なさすぎるだろ。

170 :Socket774@組み続けて12年:2011/12/22(木) 23:16:42.60 ID:icVKOZob
>>168
富士通が使えて、ある程度今まで使われた実績のあるISAは
SPARC、MIPS、ARMくらいじゃないの?
もともとSPARC64やってたからSPARCを拡張するのは自然の流れでしょう
中国はMIPSで独自のマイクロアーキテクチャのCPU開発してるね

171 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/22(木) 23:17:24.40 ID:fp200XlI
Transmeta Efficeonの製造だけならやってた

172 :Socket774@組み続けて12年:2011/12/22(木) 23:22:20.26 ID:8Zmq069N
PRIMEHPC FX10
SPARC64 IXfx 16コア
1ラック 12ノード 5000万円

約2万円/GFlops
高いね


173 :Socket774@組み続けて12年:2011/12/22(木) 23:26:36.07 ID:Wusm8A16
京は世界一にはなったけど、ある意味行き止まりなんだよな。
こっから伸びしろはない。ガラパゴスに税金つぎ込むなよ。

174 :Socket774@組み続けて12年:2011/12/22(木) 23:45:19.89 ID:k1rjxQyZ
いい加減にABS命令載せろよクソインテル
クロックの上がらない命令は避けてんじゃねぇよ


175 :Socket774@組み続けて12年:2011/12/22(木) 23:56:28.77 ID:hOfurBZ1
MACオタがいないだけでこの勢いw
いないならいないで問題だよな。

176 :Socket774@組み続けて12年:2011/12/23(金) 00:02:04.58 ID:8Zmq069N
>>174
つPABSB/PABSW/PABSD

177 : 忍法帖【Lv=40,xxxPT】 :2011/12/23(金) 00:08:39.14 ID:IDfz1VU0
>>163
Ivyで10コアいくから
Haswellも10コアでしょう

178 :Socket774@組み続けて12年:2011/12/23(金) 00:12:11.88 ID:jSTuGRDZ
加減算が1サイクルでできるのになんでクロック上がらないと思ったんだろう?
ひょっとしてなんか別のABS?

179 :Socket774@組み続けて12年:2011/12/23(金) 00:18:30.85 ID:lPMKoBA6
>>136
ループをアンロールすると、ループボディが大きくなるので、
静的スケジューリングでレイテンシの大きな命令をできるだけ前に持ってくる時に、候補が増える。

180 :Socket774@組み続けて12年:2011/12/23(金) 00:27:54.55 ID:lPMKoBA6
>>139
単純に、昔にくらべて命令キャッシュが増えたので、例えば同じループならアンロールできる段数が増えたとか、そういう話なんだけど。
まさに
> 時代の推移を含めて一般論
のつもりだけど、「今日び」のどこが気に食わなかったのか理解しかねる。

181 :Socket774@組み続けて12年:2011/12/23(金) 00:31:12.54 ID:jSTuGRDZ
最近のRSエントリが山盛りのCPUだと
そもそも静的スケジューリングの効果が薄いんでないの?

182 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 00:32:37.15 ID:C06mwHs6
L2以下なら増えてるけどL1Iの容量なんて16〜64KBのまま10年以上停滞してるけどな

183 :Socket774@組み続けて12年:2011/12/23(金) 00:53:33.43 ID:lPMKoBA6
>>137
ありがとう。ありゃAtomだったのか。

>>145
団子はどうして条件もそろってない比較ひとつで結論を出すんだ。
x86とPowerXCellにはレジスタ本数差よりもはるかに大きなアーキテクチャ的な差があるじゃないか。

184 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 00:59:19.70 ID:C06mwHs6
アンローリングやインライン展開が効果的なんていわれたのなんて近年だとCell(SPE)くらいじゃないのwww
あれは256KBに収まる範囲内でならレイテンシは同じだし。
というかここ近年でinlineキーワードとかunrollオプションでめいっぱいコードサイズを展開できるCPU
(およびそれ用のコンパイラ)なんてCell(当然オワコン)以外知らないwww

俺もテンプレ使って故意にループを展開したりあと関数の強制インライン化のオプション
試すことがあるけど、展開させることあるけど、多用するとキャッシュミスが多発して
かえって全体のパフォーマンス落ちるケースの方が多いんだよね。
(このへんの実践テクニックは「C++パフォーマンス戦略」あたりでも触れている)

本当に必要なのはプロファイルをとり一番実効時間を食ってる関数を特定することと
命令・データともキャッシュミス率をいかに抑えるかだ。

いまどきのCPUでは小手先の手動命令スケジューリングなんて殆ど役たないし
キャッシュミスを減らすことに尽力した方がいい。
特に無闇にやたらに「アンロールすれば速くなる」なんて思ってる知ったかぶりには
コードを触らせないことが特効薬かもしれないね。

185 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 00:59:46.41 ID:C06mwHs6
13章まるまるAtom向けの最適化って書いてあるんだがwww
バカジャネーノwww

186 :Socket774@組み続けて12年:2011/12/23(金) 01:04:42.34 ID:lPMKoBA6
>>161
> 論理レジスタを多くする代わりにスケジューラを単純にして
> 浮いた分のリソースを演算器に投入するというのは選択肢の一つだと思うよ

論理レジスタが多ければ、逆依存や出力依存は少なくできるからね
レイテンシも読みきって静的スケジューリングするなら、OoOの出る幕ではないな
ま、そこまで完璧にいくことはまあないけどね

187 :Socket774@組み続けて12年:2011/12/23(金) 01:09:43.62 ID:qVl4Pt5G
団子さん、x86最適化の本書いてください。
アセンブラの本で勉強したけど、あれじゃぁ内部のレイテンシやスループットを意識した組み方ができまへん。

188 :Socket774@組み続けて12年:2011/12/23(金) 01:11:46.36 ID:jSTuGRDZ
http://www.agner.org/optimize/
最適化するならここは基本

189 :Socket774@組み続けて12年:2011/12/23(金) 01:13:36.59 ID:ZhwomRL5
>>183
レジスタ本数込みでのアーキテクチャ差だろ
自分がレジスタ本数がどうこう言ってたのの反証出されると今度は条件が揃ってないからって子供の言い訳かよ
お前団子が嫌いだから団子を腐すための反論のための反論してるようにしか見えん

190 :Socket774@組み続けて12年:2011/12/23(金) 01:21:29.29 ID:lPMKoBA6
>>189
> レジスタ本数込みでのアーキテクチャ差だろ

レジスタ本数の違いが性能に与える影響を調べるには、レジスタ本数以外の条件を(なるべく)一緒にしなけりゃならん。
これは、わかるよな?
x86はいいとしてPowerXCellはCELLアーキテクチャだ。プログラミングモデルからして違う。

191 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 01:22:33.42 ID:C06mwHs6
>>187
それさ、ちゃんとボトルネック分析はできてる?

本当に最適化すべき場所を特定しないでいきなりコードレベルの最適化に走ると
ドツボにはまりますよ。
SSEを使えば2倍4倍に速くなるとか思う前にまずは問題を切り分けること。
LUTだのハード依存のコードだのを選択するのはそれからでいい。

Intel固有の最適化ならIntelが出してる本以上のことを書いてるものなんてほとんど無いと思うよ。
SSE*なんちゃらとか書籍として出てるものは最適化マニュアルを若干噛み砕いた劣化コピー。

ぶっちゃけIntelにメールで頼めばPDFの内容を製本したもの送ってくれますよ。

192 :Socket774@組み続けて12年:2011/12/23(金) 01:23:29.62 ID:jSTuGRDZ
x86とAMD64で比べればいいじゃない
その程度の差だよ

193 :Socket774@組み続けて12年:2011/12/23(金) 01:30:51.19 ID:lPMKoBA6
>>192
それができればそれですむことなんだが、
知りたいのは8個と16個の差じゃないからね。
浮動小数点レジスタが16個と、それ以上の場合の違いが論点になっている。

194 :Socket774@組み続けて12年:2011/12/23(金) 01:33:54.82 ID:ZhwomRL5
同じアーキテクチャの系統でもスループット重視かシングルタスク性能重視かで設計変えるから違うコアになるのに
レジスタ本数が違うほど変えて"なるべく一緒に"なんて端から無理な注文じゃん

195 :187:2011/12/23(金) 01:34:18.75 ID:qVl4Pt5G
>>188
ぎゃー、英語ムズいっす orz

>>191
どもです。
やっぱIntelのドキュメントですか。
がんばって読みますん。

196 :Socket774@組み続けて12年:2011/12/23(金) 01:36:49.54 ID:jSTuGRDZ
>>193
x86とAMD64の
8本と16本の差で数%しか変わらんのだから
それ以上増やしてもほとんど変わらんだろ

レジスタ本数を増やす効果は逓減すると思ってるんだけど
そうじゃない理由があるの?

197 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 01:37:23.50 ID:C06mwHs6
SONY CSラボの人が昔Agnerの最適化マニュアルを日本語訳してvectorのページにあげてたけど
あれ無くなったっけ?

大分古い奴だけどさ。

198 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 01:40:14.13 ID:C06mwHs6
富士通がNehalemクラスタで理論FLOPSの90%を超えるHPLの数字叩き出してるのに
16レジスタが足りないだのわめくのは頭が悪い証拠です。

199 :Socket774@組み続けて12年:2011/12/23(金) 01:41:54.94 ID:lPMKoBA6
>>194
> レジスタ本数が違うほど変えて"なるべく一緒に"なんて端から無理な注文じゃん

ちゃんとした論文ではエミュレーションでやりますね。
だいたいの傾向がわかればいいのなら、VenusとVenus前で比較すればいいし。

200 :Socket774@組み続けて12年:2011/12/23(金) 01:56:04.93 ID:lPMKoBA6
>>196
> レジスタ本数を増やす効果は逓減すると思ってるんだけど
> そうじゃない理由があるの?

浮動小数点計算をするプログラムは、多くの場合、コンパイル時にレジスタを使い切るまでループアンロールするよう指示します。
アンロール後のループ本体は、オリジナルの本体よりもかなり大きくなります。
ループ本体が大きくなると、静的スケジューリングの対象が増え、より高速なバイナリがされます。


201 :Socket774@組み続けて12年:2011/12/23(金) 02:01:03.24 ID:jSTuGRDZ
俺が今使ってるコンパイラはそんなことしないよ
ICC 12.1

最近のx86は極めて特殊なCPUだから議論の外ってこと?

202 :Socket774@組み続けて12年:2011/12/23(金) 02:04:03.61 ID:lPMKoBA6
>>198
サンプル一つだけで、よりによってベンチマークとしては非常に筋が悪いと叩かれているLINPACKの結果だけで判断する団子に乾杯。

203 :Socket774@組み続けて12年:2011/12/23(金) 02:06:50.34 ID:lPMKoBA6
>>201
それはアンロールができるほどレジスタがないからでは。

204 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 02:07:23.41 ID:C06mwHs6
別にFFTでもいいけどTOP500はHPLのスコア順だし、LINPACKの否定は京の否定にもなるわな。

205 :Socket774@組み続けて12年:2011/12/23(金) 02:07:33.37 ID:ndH6CZNa
特にSandyだと下手にアンロールしまくるとuop cacheが効かなくなるからな
agnerもアンロールすんなって言ってる

206 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 02:07:59.53 ID:C06mwHs6
>>203
お前はレジスタリネーミングできるケースを理解できる脳味噌が足りないのでは?

207 :Socket774@組み続けて12年:2011/12/23(金) 02:09:24.24 ID:ndH6CZNa
そもそもこの人はOoOもレジスタリネーミングもしないアーキを前提に言ってるのか知らんが
とにかく噛み合ってない

208 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 02:10:02.59 ID:C06mwHs6
>>205
というかμOPs cacheの格納効率考えると強制インライン展開とかもたいがい蛇足だね。

209 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 02:14:14.93 ID:C06mwHs6
N-bodyのコアループもXMMレジスタ13本でお釣りが来るしな(リネーム前提)
レジスタ16本で不足するケースって何があるだろ?

210 :Socket774@組み続けて12年:2011/12/23(金) 02:15:32.68 ID:lPMKoBA6
>>205
なるほど。
でもまあ今はそれは特殊例だな。将来はともかく。

>>206
アンロールはコンパイラか人手で行うもので、レジスタリネームはハードウェアが行うものだが、一体どういう繋がりが…

211 :Socket774@組み続けて12年:2011/12/23(金) 02:17:14.79 ID:jSTuGRDZ
>>203
いや、例えばループ内ではxmm0~2までしか使わずに
アンロールはしないようなコードも出てくるよ

最近のx86でアンロールした方が速いケースというのは
ループ本体が数命令程度と小さい場合か
特殊化することでコードを簡単にできる場合くらいじゃないの?

インオーダやRSの小さいOoOでループアンロールが
命令のレイテンシ隠蔽に効果が高いのは理解するけど
SandyBridgeの54エントリのRSでどうにもならないってどんな場合?

212 :Socket774@組み続けて12年:2011/12/23(金) 02:20:20.45 ID:jSTuGRDZ
あとまぁこれはCore2〜Nehalemの特殊例かもしれないけど
register fileのポート数が少ないから
loop invariantはレジスタに置かずにL1から読んだ方が速いケースが結構ある

213 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 02:23:32.82 ID:C06mwHs6
> SandyBridgeの54エントリのRSでどうにもならないってどんな場合?

L1キャッシュ範囲内のRead+FADD+FMUL+Shuffle+Writeのレイテンシ全部足しても54には届かないので
実用上皆無だね。
逆にL2以下のデータなんてそもそもスケジューリングそのものが不可能だし

214 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 02:34:28.38 ID:C06mwHs6
>>212
ロード融合命令推奨ってむしろAMDのほうがその傾向つよくね?
理由はマニュアルにしっかり書いてあるが(むしろ分けるとボトルネック)

215 :Socket774@組み続けて12年:2011/12/23(金) 02:46:16.53 ID:lPMKoBA6
>>211
アンロールの目的は、
ループ本体を大型化し、スケジューラによる並列度の抽出やレイテンシの隠蔽の機会を増大させることです。
で、スケジューラが頑張るほどliveな値が増え、より多くの「論理」レジスタが必要とされるわけです。

>>211
> いや、例えばループ内ではxmm0~2までしか使わずに
> アンロールはしないようなコードも出てくるよ

上にも書いたとおり、アンロールしてもスケジューラが頑張る機会がない場合には、アンロールしないんでしょう。

> SandyBridgeの54エントリのRSでどうにもならないってどんな場合?

アンロールでがんばると、スケジューリング対象の範囲がアンロール後ループ本体になります。
これはRSの54エントリよりはずっと大きい。

216 :Socket774@組み続けて12年:2011/12/23(金) 02:59:48.57 ID:jSTuGRDZ
隠蔽しなければならないレイテンシに対して
RSで並べ替えられる範囲が十分大きければ
静的なスケジューラが頑張る必要はない
ゆえに論理レジスタ数も必要ないと理解してるんだけど

そうではないということ?
それとも隠蔽すべきレイテンシとしてL2とかの大きいものが想定されているということ?

217 :Socket774@組み続けて12年:2011/12/23(金) 03:16:29.08 ID:lPMKoBA6
>>216
> 隠蔽しなければならないレイテンシに対して
> RSで並べ替えられる範囲が十分大きければ
> 静的なスケジューラが頑張る必要はない
> ゆえに論理レジスタ数も必要ないと理解してるんだけど

おっしゃる通りです。

> それとも隠蔽すべきレイテンシとしてL2とかの大きいものが想定されているということ?

その通りです。
レイテンシ隠蔽の埋め草を、非常に遠く先の命令まで探しにいく必要があるということです。
また、長レイテンシ命令は、すべて見つけ出し可能な限り早く実行しなければなりません。(これはRSでは困難です)

これを静的に実現するのがループアンロールとスケジュールの組み合わせです。
レジスタリネーム+RSがやっていることとは本質的には同じですから、
論理レジスタより物理レジスタのほうが多いという事実から、アンロールが論理レジスタを要求するということは類推できるでしょう。


218 :Socket774@組み続けて12年:2011/12/23(金) 03:44:37.09 ID:dx4bUTzx
大本営発表だけど
http://www.ssken.gr.jp/MAINSITE/download/newsletter/2010/20101020-sci-2/lecture-4/ppt.pdf
にレジスタ拡張についての評価が載ってる

219 :Socket774@組み続けて12年:2011/12/23(金) 07:55:32.88 ID:peDTzj1A
>>197
まだあるよ
http://hp.vector.co.jp/authors/VA003988/how_to_o.htm

220 :Socket774@組み続けて12年:2011/12/23(金) 08:14:22.03 ID:9XCpuVci
x86以外ならレジスタ間の演算はともかく、メモリの読み書きをリオーダーしないOoOは結構あるんじゃないの?

221 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 09:18:40.94 ID:C06mwHs6
RAWハザードの回避ってコストでかいからね
でもメモリの読み込み(レジスタ全更新)でリネームできないOoOは欠陥としか言いようが無いぞ

> > SandyBridgeの54エントリのRSでどうにもならないってどんな場合?
>
> アンロールでがんばると、スケジューリング対象の範囲がアンロール後ループ本体になります。
> これはRSの54エントリよりはずっと大きい。

これはつまり、アンロールをするからアンロールが必要になるという手段と目的が自己完結した
もっとも馬鹿な例だな。

222 :Socket774@組み続けて12年:2011/12/23(金) 09:26:54.18 ID:lPMKoBA6
>>221
おお、確かに意味不明だな。さんきゅ。

> アンロールでがんばると、スケジューリング対象の範囲がアンロール後ループ本体になります。

アンロールを行うと、スケジューリング対象の範囲がループの1イテレーション分からアンロール段数分に拡大します。

に訂正しとく。

223 :Socket774@組み続けて12年:2011/12/23(金) 09:29:43.02 ID:qTMpsOz6
>>217
ランダムアクセスでなければL1ヒットの場合が多いと期待できるから
レイテンシは確率的でかつ平均レイテンシと最悪レイテンシが乖離するので
SMTの方が効果が高い場合も多いんじゃない?

>>218
>HPC-ACEで、使用するFR数を32個と256個として性能を比較
>約140本の実コード中、73%のコードで効果を確認、平均で1.2倍の
>性能向上
分布が興味深いね
半分くらいのコードではほとんど効果がない
一定以上のレジスタ数で効果が飽和してくるのかな

224 :Socket774@組み続けて12年:2011/12/23(金) 09:39:32.34 ID:hd4kzFDp
CPUがいろいろだから最適化のアプローチもいろいろなわけで

例えば話をIntelのHPCに限ったとしても
MICの方はなかなかOoOにならないわけで

アンロールするかしないかなんて
使ってる環境が○○ならする、××ならしない、という話にしか
ならないんじゃないかな?

225 :Socket774@組み続けて12年:2011/12/23(金) 10:05:38.01 ID:lPMKoBA6
> ランダムアクセスでなければL1ヒットの場合が多いと期待できるから

浮動小数点アプリの場合はメモリアクセスパターンが比較的シンプルなので
逆に「L1にはあたらない」ということがわかることも少なくありません。

Itanium2みたいに浮動小数点レジスタがL1にアクセスできないものもあります。

226 :Socket774@組み続けて12年:2011/12/23(金) 10:08:08.61 ID:lPMKoBA6
>>224
なぜ○○ならアンロールするのか、何段すればよいのか決めなければなりませんが、
そのための根拠が必要です。
その根拠となる考え方を、一般論で語ってきたわけですが。

227 :Socket774@組み続けて12年:2011/12/23(金) 10:08:52.60 ID:qTMpsOz6
ストライドアクセスとかならHWプリフェッチが有効になるんじゃない?

228 :Socket774@組み続けて12年:2011/12/23(金) 10:14:51.85 ID:lPMKoBA6
>>227
L2へのプリフェッチなら有効だと思います。
L1へのプリフェッチはかわりに必要なラインを追い出してしまうため、まずやらないと思います。

229 :Socket774@組み続けて12年:2011/12/23(金) 10:19:03.82 ID:qTMpsOz6
たしかにL1へのプリフェッチは次ライン読み込みくらいだね

230 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 10:19:39.50 ID:C06mwHs6
> SMTの方が効果が高い場合も多いんじゃない?

1スレッドあたりで使えるL1キャッシュが半分になり、L2の読み書き頻度が増えるので
必ずしもパフォーマンスにいい影響を与えるわけではないね。

LinpackやFFTなんかだとHyper-Threading使うとかえって性能が落ちることが多かったはず。
Nehalem以降のXeonスパコンはSMTを無効にして納入されてることが多いし、
「HPC用」という位置づけのマルチソケット対応Nehalem-EXの6コア
Xeon X7542は同シリーズ中最高クロックながら2000ドルを切る価格設定だが
そのかわりにHTサポートを無効化(有効にできない)して出荷してる。

>>223
HPC-ACEは256ビット分のFMAC操作で8ビットのオペランドフィールドをフルに使うと
前置命令+命令1+命令2で3命令かかるクソISAですから。
FRが32本といってもレジスタリネーミングもメモリ間接アドレッシングもないのでx86のSSEと比べて
決してリッチというわけではない。

256本とはいっても2命令で追加レジスタにアクセスするのに1命令の前置命令が必要になるので
単純に命令数は1.5倍になる。
デコード帯域が4命令/サイクルしかないのに2つのSIMD-FMACを操作するだけで3命令。
当然ロード・ストア命令もFR32-127を指定するのに前置命令が必要になるので
L1キャッシュへのアクセスを同時発行してる余裕なんて最初からないんです。

HPC-ACEアーキテクチャにおける同時アクセス可能なレジスタが多いというメリットは、
レジスタ上でこね回さないと性能が出ないというパフォーマンスの制約と紙一重ってこと。

231 :Socket774@組み続けて12年:2011/12/23(金) 10:28:07.11 ID:qTMpsOz6
>>228
コンパイラがアクセスパターンをそれなりに認識できるという前提なら
コンパイラによるプリフェッチ命令の挿入で
静的な命令並べ替えと同様の効果を論理レジスタを消費せずに得られるんでない?

232 :Socket774@組み続けて12年:2011/12/23(金) 10:31:21.23 ID:qTMpsOz6
>>230
逆に言えばGEMMやFFTでは1スレッド16本の論理レジスタで
十分レイテンシを隠蔽できているということなんだよね

233 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 10:54:03.15 ID:C06mwHs6
Sandy Bridgeは128b/256bの Load(+broadcast)+FMUL+FADDをしてついでに
時々ストアもやる程度の余裕はあるのでそれほどレジスタが少ないことはデメリットにならないね。
論理レジスタが多いよりは毎サイクルL1にアクセスできるほうが俺は使いやすいと思うね。

234 :187:2011/12/23(金) 11:20:44.79 ID:qVl4Pt5G
>>219
ありがとうございます!
しっかり読ませていただきます!

235 :Socket774@組み続けて12年:2011/12/23(金) 11:26:30.73 ID:lPMKoBA6
>>231
プリフェッチはメモリアクセスなので実行ユニットも使い、オーバーヘッドがある。
プリフェッチはタイミングが難しい。早すぎても遅すぎてもいけない。
動的スケジューリングのみで適切なタイミングで発行するのは難しい。


236 :Socket774@組み続けて12年:2011/12/23(金) 11:28:35.34 ID:lPMKoBA6
>>231
レイテンシがわかっている場合は、静的スケジューリングのほうが有利。
アンローリングによる並列度の向上。
RSエントリ数よりはるかに広い範囲から並列発行可能な命令を探せる。

237 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 12:36:59.36 ID:C06mwHs6
お前の言ってる最適化ってCell SPEにしか通用しねーんだよ

インオーダで鍛えられたからアウトオブオーダでもやれると無駄にプライド高いとww
自作錯誤のゴミ人材をゲーム業界に大量に生み出したソニーは罪深いな。

238 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 12:37:21.96 ID:C06mwHs6
時代錯誤ね

239 :Socket774@組み続けて12年:2011/12/23(金) 12:47:04.49 ID:8DU7eyYg
スレ伸びてると思ったら団子が寝ないで必死だった。

240 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 12:56:55.54 ID:C06mwHs6
寝ないで出勤したのは金曜だけ。
徹夜明けはローソンVLの900mlのブラック無糖コーヒーをラッパ飲みまじでおすすめ。
105円でみんみんだはより効く。

デメリットは今日の今まで胃がもたれて変にテンションがおかしくなること。

241 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 12:57:22.66 ID:C06mwHs6
しまった今日が金曜で昨日が木曜だった

242 :Socket774@組み続けて12年:2011/12/23(金) 14:03:52.00 ID:4uNDifjr
>>235
実行ユニット使ってしまうのはともかく、タイミング難しいのはアンロールも一緒じゃない?
- L2に乗ってるかどうかわからん
- メモリアクセスしたらレイテンシ予測できない
- ものによってはL2もレイテンシ予測できない


243 :220:2011/12/23(金) 14:17:32.19 ID:RaRIGJMH
読み込みの問題でなくて、
for () { a = read b = f(a); store(b); }
みたいなループがあった時に、アンロールして手でメモリアクセス並び替える必要があるから、
x86以外だと、OoOでもアンロール有効な場合って結構あるんではないの?と、言いたかった。
とは言っても、大半の人は、そんなプロセッサで最適化することはないからアンロールが必要な場面なんてほとんど無いと思うけど。


244 :Socket774@組み続けて12年:2011/12/23(金) 14:43:37.37 ID:f1WoKH/y

【社説】 「韓国大統領、慰安婦問題で日本に誠意求める…なぜそう主張するのか」「韓国の人は、日本の資金出しや謝罪知って」…朝日★4
http://uni.2ch.net/test/read.cgi/newsplus/1324371760/


245 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 14:48:05.76 ID:C06mwHs6
ゲーム業界もハード屋のわがままで潰しのきかない最適化技術わざわざ覚えさせられて大変だな。
SONYもVitaでコモディティなプロセッサ採用したからCellプログラマは見捨てられたようなもんだが。

>>243
たとえば関数f()が1命令だけなら使うレジスタは1本だけだろ?
readの時点で依存関係を解消して別の物理レジスタをアロケートするヒントになるから
そういう単純なケースではアンロールは必要ないな。
問題になるのはストアアドレスが予測しづらい場合だけだ。

246 :Socket774@組み続けて12年:2011/12/23(金) 14:55:10.98 ID:rKqnFwc4
典型的な2ch脳だな。
最後に主張したら勝ち。
非を認めなければ負けではないと言う考え。
2chでは強制力のある存在がほとんどいないからそれで通るが、
社会では無視して強制執行されて終了。

247 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 14:58:00.53 ID:C06mwHs6
ちなみに次のイテレーションが前の値に依存関係がある場合アンロールしてもどうにもならない。
ループの内側の命令がすくなすぎてインクリメント・条件分岐のオーバーヘッドが相対的に
大きい場合に限ってx86を含むモダンなプロセッサでもアンロールは有効だが、そもそも内側の命令数が
少ないならレジスタが不足しようがない。

248 :Socket774@組み続けて12年:2011/12/23(金) 16:09:33.13 ID:xgYtB27w
コンパイラで自動的に静的スケジューリングする場合は
C言語の制約は大きいよね

例えばsourceとdestinationのポインタを取る関数だと
そのメモリ上での位置関係が明らかでないから
読み書きの順序にプログラマの意図しない制約ができてしまう

その場合でもmemory disambiguationは投機実行であるので
読み書き順の入れ替えが可能になる

Fortran使えという話はあるが

249 :Socket774@組み続けて12年:2011/12/23(金) 17:53:25.44 ID:3snKE2/K
ARMならストアアドレスの予測とかしないでは?
ttps://gist.github.com/1513601
とりあえず手元にあったCortex-A9だけ測ってみた。
一応、Cortex-A9はOoOだけど、アンロール+ハンドスケジューリングが効くように見える。
というか、Cortex-A9がOoOに見えないんだけど、FPUはin-orderとかの制限あるんだっけ…

250 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 18:03:49.70 ID:C06mwHs6
A9はROBもないしRSも浅いよ

251 :249:2011/12/23(金) 18:09:12.91 ID:aRvaHy77
>>250
そうなのか。情報どうも。
じゃあ、数命令程度並びかわるぐらいなのか…

252 :Socket774@組み続けて12年:2011/12/23(金) 18:32:39.30 ID:qVl4Pt5G
Intel、次世代Hyper-Threadingテクノロジを公開
http://pc.watch.impress.co.jp/docs/2003/0222/kaigai01.htm

>投機的マルチスレッディングはこの問題を解決する『打ち出の小槌』だ。
>投機スレッドを走らせることで、必要なデータを完全にプリフェッチしてしまう。
>それによって、DRAMアクセスのレイテンシを完全に隠蔽して、CPUの性能をブーストする。

これ、すごくイイ機能だと思ったんですが、
なぜ採用されずに今に至っているんでしょう??

253 :Socket774@組み続けて12年:2011/12/23(金) 18:54:17.46 ID:hd4kzFDp
投機失敗した分がまるまる無駄な電力増になって
電力性能が大変なことになるから

254 :Socket774@組み続けて12年:2011/12/23(金) 18:56:36.23 ID:qVl4Pt5G
なるほど・・・。
ちょうどプレスコで騒ぎ出してた頃だから、なおさらっスね・・・。

255 :Socket774@組み続けて12年:2011/12/23(金) 19:02:19.33 ID:XyiEB3Le
>>252
こういう自動処理って融通利かないから下手すりゃ帯域食って逆に遅くなる
予想できるなら横着しないでプログラムにプリフェッチさせとけばいいだけだし
そもそもレイテンシを隠蔽するためにハイパースレッディングが作られたんだし

256 :Socket774@組み続けて12年:2011/12/23(金) 19:09:02.73 ID:qVl4Pt5G
SSEのプリフェッチもやり過ぎると帯域圧迫することになりますし、あれと同じですね。

やはりレイテンシの隠蔽が大きなポイントですね。
メインメモリをSRAMにするなりして、そもそものレイテンシを小さくするアプローチも是非とってほしい次第です。
DRAMコントローラ内蔵とかで少しずつ良くはなってるみたいですが。

257 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 19:10:26.46 ID:C06mwHs6
Sunも一時期(潰れる前)やってたけど再コンパイルして投機処理用のスレッドをわざわざ生成する必要があるとか。
そういう方法とるなら明示的にプリフェッチした方がマシだし決してタダメシ食い用の技術ではない。

258 :Socket774@組み続けて12年:2011/12/23(金) 19:16:54.56 ID:5xs8RIos
Sandy Bridgeのダイを全てSRAMで埋めたとしても32MBぐらいにしかならないじゃん。
http://pc.watch.impress.co.jp/img/pcw/docs/318/033/html/kaigai4.jpg.html

価格的に全くペイしないと思う。

実際に作ったところで、基板まで配線を引き出して結線するんじゃ、アクセスが遅くなっちゃうよ。
オンチップで配線しないと意味無い。

259 :Socket774@組み続けて12年:2011/12/23(金) 19:26:03.10 ID:qVl4Pt5G
>オンチップで配線しないと意味無い。
それもそうですね。
TSVなんかでスタックすれば配線のスピードは稼げるかと思うんですが、
アクセス粒度が大きいのが問題でしょうか。
WideIOではリージョン分けでマシにはしてるようですが、やはりアプリケーションは選ぶような気が・・・。

メインメモリとはしなくても、GPUのローカルシェアみたいな、
独立したメモリ空間を持つ領域を設ければ、
クリティカルな部分はプログラマが明示的にアロケートできると思うんですが、
実際のところプログラミングを煩雑にするだけでしょうか・・・。
GPUプログラミングも、性能をフルに出す難しさが取り沙汰されてるようですし・・・。

260 :Socket774@組み続けて12年:2011/12/23(金) 19:32:01.06 ID:ZhwomRL5
オンダイとは言わないまでもオンパッケージなら…
それなんてSlot1

261 :Socket774@組み続けて12年:2011/12/23(金) 19:39:06.86 ID:5xs8RIos
>>259
メインメモリとはしなくても、高速なSRAMをDRAMの間に設けて、
メモリアクセスのレイテンシを隠蔽する技術がありましてね、キャッシュって言うんですよ。

キャッシュは既存のプログラミングモデルを大きく変えずに使えるので重宝されています。

262 :Socket774@組み続けて12年:2011/12/23(金) 19:47:57.03 ID:q1waIYeX
>>261
キャッシュを明示的に操作する必要が出るくらいなら、もはやキャッシュじゃ
なくてもっとプリミテブなオンダイのスクラッチパッドメモリで良くね?
って話かと。

263 :Socket774@組み続けて12年:2011/12/23(金) 19:50:53.35 ID:5xs8RIos
>>262
CellのLSが上手く行ってるとは思えないなぁ。
あれはプログラムをしにくくしただけだと思う。

264 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 19:53:03.75 ID:C06mwHs6
スクラッチパッドメモリならアンロールしてもキャッシュヒット率を気にする必要も無いしね。
PSVitaのCPU(Cortex-A9ベース)の設計は、実はCellのときと同じソニー・東芝・IBMの3社連合。
もはやCellは生みの親にも否定された鬼子だよ。

265 :Socket774@組み続けて12年:2011/12/23(金) 20:00:18.37 ID:dx4bUTzx
SPARC64 VIIIfxのセクタキャッシュじゃだめなんか

266 :Socket774@組み続けて12年:2011/12/23(金) 20:11:50.64 ID:dfNisTRB
>>265
これインテルのアーキには載らないのかな?
ちょっと使ってみたい。
Cellよりもずっと使いやすそうだ。

267 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 20:17:27.03 ID:C06mwHs6
別に従来キャッシュでいいじゃん。
明示的なノンテンポラルロード・ストア命令を活用し、一度読み書きしたら二度とキャッシュ上に
残しておく必要の無いデータはさっさと追い出せばよい。

268 :Socket774@組み続けて12年:2011/12/23(金) 20:36:21.83 ID:sh8PQaw+
DDR SD RAM系のDRAMの性能向上は既に物理的に頭打ち状態だから、
この状況を打開する為にはRD RAM系のDRAMに移行しなきゃ駄目って事?

269 :Socket774@組み続けて12年:2011/12/23(金) 20:41:29.72 ID:hd4kzFDp
>>264
携帯機でのMIPSからARMへの乗り換えであって
据え置きコンソールの行方はまだ定まってはいないかと。
IBM&PowerPCに依らずに、東芝とARMではたして作れるのかどうか。

270 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 20:57:18.35 ID:C06mwHs6
いや、PSPはPS2のモバイル版、VitaはPS3のという関係を当てはめるなら
PS3プログラマ居場所ないよってことでしょ。

PS2・PSPのはMIPSとはいっても独自にカスタマイズした実装だし、
スマホやタブレットにも使われてるCortex-A9のIPをそのまま採用したのは
ガラパゴスなハードウェアアーキテクチャに囲い込む戦略の終焉を意味する。

東芝もソニーもファブライトあるいはファブレス化の流れだし独自アーキテクチャで
ゴリ押しするのはもう難しいのでは?

271 :Socket774@組み続けて12年:2011/12/23(金) 21:04:46.53 ID:hd4kzFDp
>>270
元々コンシューマゲーム機は世代毎にノウハウ使い捨てだから心配しなくて大丈夫だよ

272 :Socket774@組み続けて12年:2011/12/23(金) 21:06:47.43 ID:sh8PQaw+
>>271
互換性を捨てたハードや互換を軽視したハードは苦戦するし、
旧世代ハードが壊れた後の救済策が無いとレトロゲーマーの反感を買う事になる。

273 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/23(金) 21:07:54.04 ID:C06mwHs6
PS3はPS2切り捨てたしVitaもUMDドライブないぞ

274 :Socket774@組み続けて12年:2011/12/23(金) 21:11:53.21 ID:sh8PQaw+
レゲーを遊ぶにはエミュしかないのか

275 :Socket774@組み続けて12年:2011/12/23(金) 21:17:42.86 ID:5xs8RIos
>>268
DRAMチップの進化は、大した進歩ができないDRAMセルを、
DRAMチップ内部でインターリーブする事でバーストアクセス時の速度を改善したり、
クロックの両エッジで転送のタイミングを捉えて、データの転送を高速化したり、
プロセッサーとのインターフェースをシリアル化したりパケット化したり、超並列化する事で行われてる。

DRAMのレイテンシを短くする為には、DRAMセルの改良が必要だが、
これはDRAMセルからデータを読み出す部分に、
チャージされる電荷量や、センスアンプのスルーレートなどの物理的な、
制約があるので、今のところ大きく改善するような兆候は無い。

ポストDRAMは研究されているけど、DRAMの圧倒的な大容量と低価格に勝てないので、
今のところPC用のDRAMの代わりにはなれない。

つまりまだ当分は、この遅いDRAMとなんとか上手く付き合っていくしか無いって事。

276 :Socket774@組み続けて12年:2011/12/23(金) 21:23:33.19 ID:sh8PQaw+
この遅いDRAMでも十分なアプリはいいけど、
高速なDRAMが必要なソフトは厳しいだろうな。

277 :Socket774@組み続けて12年:2011/12/23(金) 21:35:08.94 ID:H9icAdcG
ま〜大概はプログラミングで対処可能だけどね

278 :Socket774@組み続けて12年:2011/12/23(金) 21:54:10.52 ID:hd4kzFDp
サーバ・デスクトップ・モバイル・組み込み・スマートフォン・HPC
ハードウェア要件がいろいろならCPUもいろいろ、ソフトウェアの書かれ方もいろいろよ

279 :Socket774@組み続けて12年:2011/12/23(金) 22:00:49.21 ID:dfNisTRB
DRAMのレイテンシはどうにもならんのは仕方がないから、
もっと帯域を増やしてほしいわ。
8chくらいになれば、嬉しんだけどな。

280 :Socket774@組み続けて12年:2011/12/23(金) 22:19:12.87 ID:5xs8RIos
>>279
チャネル数を増やすと、データやアドレスラインが並列の場合、
CPUソケットのピン数が増えまくってしまい、
CPUパッケージのコストや、CPUソケットのコストが上がってしまう。
もちろん基板上の配線コストも高くなる。

通信をシリアル化すると、信号の周波数が上がってしまい、
通信を行うトランジスターの発熱量が増えてしまう。

メモリ速度が上がって高帯域になると、
スタブ配線での信号の反射が問題になるので、
1chに1モジュールしか接続できなくなる。

信号品質的には差動伝送が望ましいが、
差動伝送にするとピン数が倍になるのと、
1chに1モジュールしか接続できなくなる。

DRAMの高速化は難しい。

281 :Socket774@組み続けて12年:2011/12/23(金) 22:22:17.07 ID:+wU7Ggww
DDR系は限界をとっくに超えてる。

DDR2以降、レイテンシと消費電力が上がっていくばかり

282 :Socket774@組み続けて12年:2011/12/23(金) 22:37:49.19 ID:dfNisTRB
>>280
まあ、現状のDIMM形式出やるなら、後半の部分の問題はあるわなあ。
XDR2あたり使えればDDR3とかのPHYまわりの問題は解決できるが、
コストとレイテンシはもっと増えるよなあ。
そろそろGPU並のメモリ帯域がほしい。

283 :Socket774@組み続けて12年:2011/12/23(金) 22:44:12.04 ID:5xs8RIos
LGA6000とかきたら胸熱w

#こないと思うけどw

284 :Socket774@組み続けて12年:2011/12/23(金) 22:48:08.37 ID:PIrpJb/2
TSVなんかで、DRAM載っけるしかあるまいて

インテルがTDPを下げてきてるのも
熱に弱いDRAMを載せる為の準備じゃないかと
妄想してる

285 :Socket774@組み続けて12年:2011/12/23(金) 22:50:33.70 ID:5xs8RIos
シリコン貫通ビアでDRAM積層の願いは1980年代からある。

実現されるといいね。

286 :Socket774@組み続けて12年:2011/12/23(金) 22:59:25.12 ID:PIrpJb/2
すでに動く試作はインテル作ってなかったか?
多コアの奴でさ

DRAMだけのTSV積層ならもう製品化されてるし

昔からあるから〜的な否定的物言いはなんか、気分悪くなるわ
内容ないし

287 :Socket774@組み続けて12年:2011/12/23(金) 23:11:16.23 ID:5xs8RIos
>>286
これでしょ?
http://www.brightsideofnews.com/news/2011/9/19/intel-micron-hybrid-memory-cube-the-future-of-exascale-computing.aspx
まずはHPC向けらしいけど「Haswellでは何か乗せてくるのでは?」なんて想像している人もいるね。

俺は全てSoC化されるのを望んでいるよ。否定的だなんてとんでもない。


288 :Socket774@組み続けて12年:2011/12/23(金) 23:16:38.75 ID:PIrpJb/2
最後の一文を否定的に感じてしまった
すまぬ


ダイ面積は余り気味なんだしチップセット機能も
どんどん取り込んで欲しい

289 : 忍法帖【Lv=40,xxxPT】 :2011/12/23(金) 23:17:16.42 ID:IDfz1VU0
Haswellは、性能++、統合+++、省電力++++らしい
Skaylakeだと、統合が++++くらいかも

290 :Socket774@組み続けて12年:2011/12/23(金) 23:39:39.92 ID:dEac7g7a
>>281
レイテンシは実時間ベースだと伸びてない

291 :Socket774@組み続けて12年:2011/12/23(金) 23:41:24.45 ID:5xs8RIos
延びてるのはレイテンシじゃなくて、ウェイトだね。
バスの速度が上がったのに、レイテンシが変わらないから、ウェイトが増える。

292 :Socket774@組み続けて12年:2011/12/23(金) 23:47:37.97 ID:lPMKoBA6
とってもご機嫌ななめだわ!

293 :Socket774@組み続けて12年:2011/12/24(土) 00:20:46.52 ID:GPCF4sjo
》249
atomよりアンローリングが効くっていったい。。。

294 :Socket774@組み続けて12年:2011/12/24(土) 00:38:45.56 ID:6mezbFEh
>>281
RDRAM系はDDR系よりレイテンシが長い
レイテンシを短くしたいなら1T-SRAMかね

295 :Socket774@組み続けて12年:2011/12/24(土) 00:41:47.34 ID:8h3teeeR
もし仮に、レイテンシ1で無尽蔵の容量のメインメモリがあったと過程すると、
それだけで今のプログラムは何倍くらい早くなりそうでしょうか?
メモリアクセスがネックであればあるほど効果が大きいと思いますが、
特に大きいアプリって何でしょう?
そしてそれはどれくらい改善されそうでしょうか?

実際にはありえなくても、理論限界は知りたいな、と。

296 :Socket774@組み続けて12年:2011/12/24(土) 00:50:53.91 ID:5xmEIgeg
2倍くらいか?

297 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/24(土) 01:10:29.51 ID:31CyS27S
>>293
Atomは2パイプでA9は3パイプだからね。
レジスタ間オペレーションだけに限ればもともとA9のほうがクロックあたりの理論性能は高い。

x86の強みはメモリアドレッシングにこそあるわけで
ご丁寧にもAtomはL1キャッシュのレイテンシ分をパイプラインステージとして組み込んでて
L1キャッシュから読んで処理してもは同速となりうるわけだが、こーいうコード例では
addssにメモリロードを組み込んで命令数を減らすとかできない。
1.1の定数をレジスタ上に保持しなきゃいけないでしょ?
ロード+乗算に分けるか、あるいは1.1の値をコピーしてからロード付乗算、
いずれにしても2命令になってしまうね。

3オペランドのAVXなら、vaddss dest, src1, [src2]みたいなこともできるが
22nmでアウトオブオーダ採用が確定してるし
インオーダのままAVXを採用するx86アーキを見ることはなさそうだ。

298 :Socket774@組み続けて12年:2011/12/24(土) 02:00:24.80 ID:4D07CoGd
>>294
1T-SRAMって要はフルCMOSプロセス化したMDRAMだろ。
何か馬脚を現しそうな予感がするんだがw

299 :Socket774@組み続けて12年:2011/12/24(土) 02:22:29.50 ID:iUnGQHUp
>>295
実アプリケーションとなると、各アプリケーションでメモリアクセスの頻度がまちまちだし、
CPUの速度を律速しているのは、メモリだけじゃなく、I/Oにも待たされるし、
現状でもキャッシュの恩恵は受けているので、100倍とかにはならないとは思うけど、
じゃあ、どのくらい?って言われるとそれに答えるのはなかなか難しい。

ちなみに並列処理では、I/Oの他にThread間の同期処理にも待たされる。

CPUメーカーの技術者で、実際にどのようにメモリが使われているかを、
各種アプリケーションを分析して、
広範囲にプロファイリングしてる人なら答えを出せるかもしれない。

L1キャッシュの中に収まるような小さなコードを書いて、
その実行速度をプロファイラか何かで計ってみれば、
そこから想像を膨らませる事はできるかもね。

300 :Socket774@組み続けて12年:2011/12/24(土) 02:27:39.17 ID:8h3teeeR
>>299
おお、詳細な回答ありがとうございます。

>L1キャッシュの中に収まるような小さなコードを書いて、
>その実行速度をプロファイラか何かで計ってみれば、
>そこから想像を膨らませる事はできるかもね。
それイイですね!
すごくクリーンなプログラムですw


301 :Socket774@組み続けて12年:2011/12/24(土) 03:33:18.70 ID:xQDY04Sm
現実には分岐予測ミスによる性能低下も厳しい

302 :Socket774@組み続けて12年:2011/12/24(土) 05:32:41.25 ID:RDlpEctR
>>295
rdpmcでMIPSを測ると
普通のアプリケーションでも1.0 x86ops/cycle位は出てるよ
よく最適化されたプログラムで2.0ちょい位

L1に入っても2か3位が限度だから
3倍より速くなるってことはないだろ

303 :Socket774@組み続けて12年:2011/12/24(土) 05:49:34.70 ID:RDlpEctR
>>250
ROBなくてARMの仕様を満たすのはあり得なくないか?

http://www.arm.com/images/A9-Pipeline-hres.jpg
この図の"OoO write back stage"ってのが相当するものだと思うよ
write backする前に並び替えているはず

304 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/24(土) 13:35:01.70 ID:31CyS27S
WBそのものは古典的なRISCにもあるステージだよ。
すくなくともブロック図には値(あるいは物理レジスタ番号)をRSから参照させるような
機構は書かれてないね。
トランジスタを食うし消費電力が大きくなるから採用を見送ったという話ではなかったかな?

305 :Socket774@組み続けて12年:2011/12/24(土) 17:59:11.58 ID:xQDY04Sm
一知半解の団子の面目躍如だな

306 :Socket774@組み続けて12年:2011/12/24(土) 19:03:35.03 ID:CbERriYt
ARMのスライドには
Leverages OoO without traditional power/resource hungry reoder buffers
とあるから少なくとも普通のROBはないのだろう

http://www.arm.com/files/downloads/cortex-a9_devcon-talk_introduction_final-02.pdf

307 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/24(土) 20:35:57.49 ID:31CyS27S
> ROBなくてARMの仕様を満たすのはあり得なくないか?
何故こう思ったのか聞きたいな

308 :Socket774@組み続けて12年:2011/12/24(土) 22:08:46.15 ID:XmJkwtfx
PowerPCですら成し得なかったx86 CPU実機より速いPCエミュをARMに託しても大丈夫ですか。


309 :Socket774@組み続けて12年:2011/12/25(日) 01:35:57.30 ID:trdTBxHw
>>249
Android NDK r7でコンパイルしたら
impossible constraint in 'asm'
と出て動かなかったのだけど、どうすれば動く?Scorpionで試してみたい

310 :Socket774@組み続けて12年:2011/12/25(日) 05:26:47.45 ID:emvnZjMx
A9なんてコア単体の速度で言ったら
Atomの毛をむしった程度のものだ。
あくまでPCの1/10、1/20の電力しか使えない理不尽な制約のある世界での「速い」なので
x86を性能で凌駕出来るとは思わない方がいい。

311 :Socket774@組み続けて12年:2011/12/25(日) 07:35:32.77 ID:exNWgtpF
組み込みの10倍、20倍の電力を使えるx86の方が理不尽な世界なんだけどな。

312 :Socket774@組み続けて12年:2011/12/25(日) 09:39:02.42 ID:fiK3awaR
組み込みで組み込みの設計が出来ればそれも理解できるかな

313 :249:2011/12/25(日) 09:52:08.84 ID:M6M2t1x9
>>309
FPUオプション付けてないんでは?
手元では
arm-linux-androideabi-gcc -B $SYSROOT -c -O2 memdep.c -mfloat-abi=softfp -mfpu=vfp
でコンパイルしてる


314 :Socket774@組み続けて12年:2011/12/25(日) 10:27:44.53 ID:AajsGYOe
>>306
ROBがないと先行して発行した命令がリタイアするまでは
後続命令をリタイアできなくてパイプラインストールするから性能上のメリット薄くないか?

特にレイテンシ差の大きいFPUだといまいちそうだけど

315 :Socket774@組み続けて12年:2011/12/25(日) 10:28:55.52 ID:S2SIT9sH
>>310
そう考えると、ネットブックよりサクサク感のあるiPadやAndroidタブはなんなんだと。
MSが悪いのかね。

316 :Socket774@組み続けて12年:2011/12/25(日) 10:29:54.92 ID:S2SIT9sH
そういえば最近Android3.xのソース公開になったからネットブックにもAndroid入れられるんだっけか。

317 :Socket774@組み続けて12年:2011/12/25(日) 11:12:34.48 ID:HVIWwiaN
>>315
結局そういうユーザ体験が大事ってことだよね。

318 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/25(日) 12:35:48.28 ID:eniyBtXL
>>315
Windowsは高いハードを買わせるためのものですし。
安い・古いマシンで動くことなんて考慮してるわけがない。

iOSもMacOSとおなじ同じXNUカーネルを使ってるけど、MacOSそのものは使ってないでしょ?

319 :Socket774@組み続けて12年:2011/12/25(日) 14:27:29.99 ID:bPoAJkjs
>>315
だぶん今Windows95をAtomで動かしたらかなりのサクサク感になるだろうなあ。


320 :Socket774@組み続けて12年:2011/12/25(日) 18:47:31.94 ID:Qgo3Jwq8
無駄に滑らかにアニメーションしてサクサク動いてるように見せかけてるけど、
ブラウザ起動すると馬脚を現しませんか?

個人的にはアニメーションなんぞ全部切りたい。
無駄に使えるは電池ねえんだっつーの。

321 :Socket774@組み続けて12年:2011/12/25(日) 18:49:24.41 ID:HVIWwiaN
あ、確かに、アニメーション系全部切って同じ操作したときの電力改善がどれほどかは気になるね。

322 :Socket774@組み続けて12年:2011/12/25(日) 18:56:50.58 ID:exNWgtpF
>>315
Windows Phone 7.5やWindows 8 for ARMにご期待ください。

Window生成やGUI描画にGPUを使わない「遅いアプリ」は強制的に退場させられるので
ARM上でも快適な動作をするWindowsが出来上がりそうです。

Atom上で動作するWindows 8は今までのGDIをサポートするからそれだけ性能があるという判断なんだろうね。
ARM版と同じようにMetro UIとWinRT用アプリに限定すればより快適に動作するみたいだよ。

323 :Socket774@組み続けて12年:2011/12/25(日) 19:02:58.74 ID:exNWgtpF
>>320-321
CPUがメインのAndroidはまだしもGPUメインのiPhoneやWP7は大して消費電力は減らないと思うぞ。

特に全てをDirect3Dで描画しているWP7なんて回転も拡大も移動も
UIの頂点(ポリゴン)を指定してやれば後はGPUが勝手にアニメーションしてくれる。

たぶんオフに出来たとしても10分程度延びればいい方じゃないかな?
それならレスポンスタイムを減らすためにアニメーションしてくれた方がいい。

324 :Socket774@組み続けて12年:2011/12/25(日) 19:07:46.15 ID:HVIWwiaN
>>323
それくらいだったらアニメありのほうがイイに賛成!
心理的な気持ちよさや分かりやすさに繋がるからね。

325 :Socket774@組み続けて12年:2011/12/25(日) 19:26:53.06 ID:Qgo3Jwq8
GPU描画をハードウェアスプライトか何かと混同していないか?

326 :Socket774@組み続けて12年:2011/12/25(日) 19:38:43.61 ID:trdTBxHw
>>313
ありがとう。NDKはFPUなしを前提にすることを忘れていた。armeabi-v7aで解決。
_android_log_printするようにして測った。そしたら、測る度に5cyc程度ズレる。酷いとnoschedが45cycになったり。
なのでブレが小さい結果の中で最も速かったものを選んでみた。参考値ということで。
投稿制限の関係でcycのみ。
Qualcomm MSM8255 (Scorpion)
// 1024
nosched 11.81[cyc/data]

sched 4.25[cyc/data]

read only 11.53[cyc/data]

read only sched 5.05[cyc/data]

nosched-hazard 33.61[cyc/data]

sched-hazard 10.99[cyc/data]
// 16384
nosched 13.25[cyc/data]
sched 4.55[cyc/data]
read only 10.99[cyc/data]
read only sched 5.04[cyc/data]

nosched-hazard 21.38[cyc/data]
sched-hazard 9.58[cyc/data]

327 :Socket774@組み続けて12年:2011/12/25(日) 23:24:38.09 ID:exNWgtpF
>>325
実際、各UI要素はテクスチャとしてGPU内に描画されますよ。

それでタイルなどのタップしたときに浮いている板を押したようなアニメーションや
画面遷移時のページをめくるような動作をポリゴンの回転で表現していますし。

328 :Socket774@組み続けて12年:2011/12/26(月) 03:06:23.89 ID:8v2ZZIXg
命令レベルの最適化が必要なプログラマってどれくらいいるの?

329 :Socket774@組み続けて12年:2011/12/26(月) 08:41:40.81 ID:Hk/N8BNQ
>>314
出力依存消せば、リオーダーされるとかじゃないの?
>>249 をちょっと修正した、
https://gist.github.com/1513601
これの、func_read_only_no_output_depと、func_read_only_output_dep比べると
- 出力依存無し : 7.0[cyc/data]
- 出力依存有り : 9.0[cyc/data]
こんな感じで、出力依存無いほうがちょっと速い。
まあ、メリット薄い気がするのは同意だが…つかA9のOoOが有効な場面て殆ど無いんでは?という気が。

330 :Socket774@組み続けて12年:2011/12/26(月) 11:25:27.83 ID:CY2Z9u2g
>>258
メモリーがオンチップでもオフチップでも配線遅延がアクセス速度を律速するわけではない。オンチップにすると配線本数を桁違いに多くできるけど、レイテンシは変わらない。
DDR3-1600でカラムアドレス出てから9とか10クロックも掛かるDRAMの構造を根本から変えないと解決しないので、SRAM使ったら、と思うわけ。

331 :Socket774@組み続けて12年:2011/12/26(月) 13:46:24.01 ID:qpAasEkG
>>327
アニメーションを描画するために
ポリゴン座標をちょっと移動・回転させ、テクスチャを貼り付け、二次元のフレームバッファに書き込む、という演算を
1/60秒毎にCPU/GPUが行っている。
アニメーションがなければ、一回フレームバッファに書いてしまえば、後は次のユーザ操作まで
CPU/GPUはまるまる休んでいられるところである。

332 :Socket774@組み続けて12年:2011/12/26(月) 16:25:47.15 ID:rzJgE7yw
,, ・´ ∀ `・ ,,)っ-○○○ はホームページ持ってないの?
主張とか技術的な書き込みをまとめてくれよ。

333 :Socket774@組み続けて12年:2011/12/26(月) 17:42:33.16 ID:BgTXcYVg
http://vr-zone.com/articles/chinese-high-end-cpus-are-now-in-the-game--details--part-2-alpha/14347.html

334 :Socket774@組み続けて12年:2011/12/26(月) 19:40:52.52 ID:9kVg86uk
ていうか団子はまずトリップ付けろや

335 :Socket774@組み続けて12年:2011/12/26(月) 20:27:59.34 ID:OubQtL+r
>>329
Scorpionで最新版をやってみた。結果は1cyc弱。それなりに効いているっぽい。
// 16384
read only no oputput dep 14.44cyc
read only output dep 15.27cyc

336 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/26(月) 20:44:09.22 ID:CIEsbcpC
>>332
誰かサーバスペース貸してよ

>>334
キーを平文でpostする時点でトリップなんざ論外
実質個人証明としての機能は何も持ってないのと同じ

337 :Socket774@組み続けて12年:2011/12/26(月) 21:16:06.73 ID:RD1qVaq+
その割にはつまんね〜機能をやたら高性能に作って遊んでたじゃね〜かw

338 :Socket774@組み続けて12年:2011/12/26(月) 21:19:53.68 ID:2/+le2RQ
>>332
>主張とか技術的な書き込みをまとめて
無理だろう。良くも悪くもプログラマーに「しか」なれなかった人だから。

339 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/26(月) 21:45:37.73 ID:CIEsbcpC
駐車場の警備のバイトもやったよwwww

340 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/26(月) 21:49:21.94 ID:CIEsbcpC
そのくらいの覚悟もないと独立なんてできないよ

341 :Socket774@組み続けて12年:2011/12/26(月) 22:49:59.12 ID:EmoVIabC
団子さん、独立してるのか!
自信と覚悟がないとできないことだね。
ここで有益な情報も出してくれるし、尊敬する!

342 :Socket774@組み続けて12年:2011/12/26(月) 23:04:43.11 ID:Kya5Lryq
デタラメばっかりだけどな

343 :Socket774@組み続けて12年:2011/12/26(月) 23:06:29.16 ID:8XrUt2Wc
まあ、元の能力があっても国家プロジェクトの予算にたかってるだけの
自覚症状のない生活保護研究者たちにくらべたら遥かにマシだわな > 独立

344 :Socket774@組み続けて12年:2011/12/26(月) 23:08:48.18 ID:Kya5Lryq
他人の嫉妬ってどうしてこんなに心地いいんだろう

345 :,, ・´ ∀ `・ ,,)っ-○○○:2011/12/27(火) 02:34:18.57 ID:f1EyYFR6
ぶっちゃけ半端な覚悟じゃ今の時期は食いっぱぐれる。
会長に拾ってもらって今に至る。

超絶馬鹿アンロールの発狂具合が心地よすwww

346 :Socket774@組み続けて12年:2011/12/31(土) 14:04:46.84 ID:8dcVcK3D
Xilinx、SSIを利用したVirtex-7 2000Tの出荷開始を発表
http://news.mynavi.jp/news/2011/10/26/012/index.html

TSVが出るまではこれ使ってCPUとDRAMを繋いでみてはどうか?

347 :Socket774@組み続けて12年:2011/12/31(土) 17:19:28.74 ID:ilN/f7hN
このシリコンインターポーザはTSVを使っているよ
でないと表と裏にパッドを作れないでしょ

348 :Socket774@組み続けて12年:2012/01/01(日) 03:05:46.12 ID:CnE9p1tr
インターポーザ遅延が1nsでしょ
クロック分配の資料は出たっけ?
Tデバイスは避けたいなぁ

349 :Socket774@組み続けて12年:2012/01/01(日) 16:04:48.05 ID:Etx4ODGY
http://news.mynavi.jp/articles/2010/10/27/xilinx_ssi/index.html
200Mbps 11000本で0.5Wってのは魅力だな

350 :Socket774@組み続けて12年:2012/01/01(日) 18:45:10.47 ID:b/UWffOF
インターポーザは複数ダイを平面上に並べたその底に敷くってことは
かなりデカいシリコンになりそうだけど
2世代落ちの枯れたプロセスとはいえコスト的にはどうなの?

多積層のTSVより熱密度は有利そうだけど最終的にコストは増えそうだよね

351 :Socket774@組み続けて12年:2012/01/01(日) 18:57:03.53 ID:Etx4ODGY
メタル層だけだからそこまで高くないんじゃないの?

352 :Socket774@組み続けて12年:2012/01/01(日) 19:03:21.63 ID:b/UWffOF
>>349
Microbumpって言えばPSPでeDRAMの代替に使ってたけど
ソニーが世界に先駆けて、みたいな発表で唐突感もあったけど
この記事読むとImage Sensor製造技術の応用とあるから
センサー屋のソニーが初になったのはある意味当然だったのね

353 :Socket774@組み続けて12年:2012/01/01(日) 19:13:15.90 ID:BE7pDCoJ
http://techon.nikkeibp.co.jp/article/NEWS/20111220/202822/?ST=lsi
> なお、2011年12月に開かれた「Semicon Japan 2011」の技術セミナーでは、
> フランスYole Developpement社がXilinx社のSiインターポーザに関し、コスト
> 推定の結果を示した。それによると、40mm×40mmのSiインターポーザ1枚
> 当たりの製造コストは、約32米ドルと推定されるという。

354 :Socket774@組み続けて12年:2012/01/01(日) 19:40:50.91 ID:b/UWffOF
>>353
そこそこコストは掛かりそうだね
シリコンの原価はメインダイの1、2割って感じで
実装工程に加わる分含めてトータル3、4割増とかそんな感じなのかな

355 :,, ・´ ∀ `・ ,,)っ-○○○:2012/01/04(水) 23:56:30.11 ID:x1ZgxyFz
さすがに TSMCも40nmはいい値段するんだなあ
牧野さんのGRAPE-DR関連の日記は読んでて面白かった。

356 :Socket774:2012/01/05(木) 00:14:04.82 ID:IHC3rBiS
団子さん、あけおめ。
団子さんのホムペ教えて。

357 :Socket774:2012/01/05(木) 01:02:16.33 ID:UqhXAlhj
AMDは知らんが今のCPUは比較+条件分岐のところにintよりunsigned intを使ったほうが速いんだな
こんだけ詰め込んでもEX-ORゲート使いたくないんだろうか

358 :,, ・´ ∀ `・ ,,)っ-○○○:2012/01/05(木) 01:37:59.85 ID:85jgPo98
> AMDは知らんが今のCPUは比較+条件分岐のところにintよりunsigned intを使ったほうが速いんだな
どんなコードをどんなCPUで試したの?
単純な大小比較+分岐ならどんな条件でも2命令(Macro Ops Fusion次第で1オペレーション)で処理できるはずだけど。

>>356
個人ページなら破棄したから誰か作ってw

359 :Socket774:2012/01/05(木) 01:56:55.48 ID:UknEd59a
Core2までだとsignedな大小比較はmacro-fusionが効かないから、というのはあるかもね

360 :,, ・´ ∀ `・ ,,)っ-○○○:2012/01/05(木) 02:06:01.29 ID:85jgPo98
条件フラグを2ビットみないといけないからか。なるほどね。

361 :Socket774:2012/01/05(木) 08:00:27.85 ID:WzmXW2Od
それぐらいでfusion出来なくなる男の人って……

まあCore2 MAは64bitなだけでも出来なくなるから、macro fusionはおまけか。

362 :Socket774:2012/01/06(金) 00:30:36.31 ID:k51OWeoZ
フラグが直前の命令に依存するのでオペランドをチェックする必要がないから
プリデコード段階でfusionして構わないというのがミソなわけだよね

だからcmp+jcc系以外にもcmp+cmov/setccはfusion出来そうだね
add/sub/inc/dec+jccはどうだろう
PCとレジスタで別のライトバックパスを持ってたら1uOPでできそうなものだけど

363 :,, ・´ ∀ `・ ,,)っ-○○○:2012/01/06(金) 00:50:46.13 ID:d4ezQMIM
> add/sub/inc/dec+jccはどうだろう
Sandy Bridgeからできるようになったね。
あとand/or/xorとか、Port5で発行できてフラグを更新する命令は大体対応みたいな感じ。
ライトバックパスが大幅に強化されたんだろうね。

364 :Socket774:2012/01/06(金) 01:03:25.35 ID:k51OWeoZ
SandyBridgeすごいな
ループの dec+jz も1uOPでできるということか
最近のコンパイラが吐いてるのは見ないが

365 :Socket774:2012/01/06(金) 01:06:20.73 ID:1tyGv0cx
Sandyさんは要る子。

366 :Socket774:2012/01/06(金) 01:14:34.75 ID:p6wZDiDO
条件ジャンプの前にLEAを埋めこんだオレバカス

367 :Socket774:2012/01/06(金) 03:59:54.32 ID:qN9ADlHF
他のスレに書き込んだのですが回答がないので、

SandayBridgeのL3キャッシュについて3点質問です。
1.L3キャッシュはリングバスでつながっているそうですが、このリングバスとは、トークンを使ったバスのことでしょうか?
2.L3キャッシュは各コアごとのL3キャッシュ2Mb〜4Mbをリングバスでつないでいますが、
  各コアごとのL3キャッシュと他のコアのL3キャッシュではアクセス速度は同じでしょうか?
3.2.でアクセス速度が同一コア上と他のコアで異なるならば、SandayBridgeのキャッシュの構成は、
 L1,L2,同一コアのL3、他のコアのL3キャッシュ、の事実上4段キャッシュになると考えて様でしょうか?


368 :Socket774:2012/01/06(金) 08:11:15.96 ID:Mq4RqYEu
http://pc.watch.impress.co.jp/docs/column/kaigai/20100924_395972.html

369 :Socket774:2012/01/06(金) 12:42:30.16 ID:ibQP1ZTm
なぜTokenRingにトークンが必要かというと
バスを流れるパケットが可変長で、新しいパケットを流せるタイミングがトークンなしではわからないからで、
CPU内部のリングバスは1サイクルに1パケットの固定長だから、トークンは必要ない。
前サイクルに回送すべきデータが届いていなければ、今サイクルで新しいパケットを流すことができる。

370 :Socket774:2012/01/06(金) 12:44:53.68 ID:k51OWeoZ
SandyBridgeのLLは単純にウェイ単位で各コアに割り当てられてるから
ウェイごとにレイテンシは異なるけどキャッシュ階層としては1段
局所性は利用されていない

371 :Socket774:2012/01/06(金) 13:00:42.02 ID:ibQP1ZTm
>>370
本当に?
局所性を利用しないのも、コア数でway数変わっちゃうのもおかしくない?

372 :Socket774:2012/01/06(金) 13:43:42.88 ID:k51OWeoZ
http://news.mynavi.jp/articles/2011/08/25/hot_chips23_intel/index.html
HotChips23のIntelの発表の解説
>LLCは物理的には各コアとペアになっているが論理的には一体のキャッシュとなっており、
>各コアがアクセスしたメモリデータはアドレスに従って4つのLLCに振り分けられ、自分のペアとなっているLLCだけに入るわけではない。
ウェイ単位ってのは嘘だったごめん
でも局所性は使ってないぽいよ
振り分けにはなんらかのハッシュをつかってるのかな

373 :Socket774:2012/01/06(金) 13:55:02.37 ID:ibQP1ZTm
興味深い
局所性を利用しないのはアクセスが集中しないようにかな
アドレスで単純に振り分けてるなら、6コア品でもLLCは8コア全部使ってるのかなあ

374 :Socket774:2012/01/06(金) 14:15:41.11 ID:Dd6Gk5z6
>>362
>>363
間接分岐のためにデータパスからフロントエンドへのパスはあるが、
条件分岐ではそんなものは使わない
分岐先アドレスの計算もフロントエンドで行う

375 :Socket774:2012/01/06(金) 21:48:46.20 ID:k51OWeoZ
なるほど分岐先アドレスはフロントエンドで決定できるね

376 :Socket774:2012/01/07(土) 00:01:56.05 ID:Dd6Gk5z6
分岐ミスが確定したのなら、分岐命令まで状態を巻き戻さねばならない
これは例外と同じメカニズム

377 :Socket774:2012/01/07(土) 11:57:29.79 ID:znEAU1hQ
例外って分岐ミス程度のコストと考えると意外に安い?

378 :Socket774:2012/01/07(土) 12:01:05.48 ID:znEAU1hQ
>>363
javascriptのV8 JITとかは
intの演算に全部joがおまけでついてくるからfusionは旨いのかな
まぁintの演算ボトルネックなjsのコードはありえなそうだけど

379 :Socket774:2012/01/07(土) 13:17:13.44 ID:LHcRCHxf
>>377
特権レベルが切り替わったりするので軽くはない

380 :Socket774:2012/01/07(土) 16:19:08.20 ID:vm8cjqT/
HT/CT/LT/VT−4つのテクノロジを拡張できるNetBurstの秘密
http://pc.watch.impress.co.jp/docs/2004/0309/kaigai071.htm

MicroCodeで拡張性と柔軟性を得たのは分かるんですが、
その場合、デコードに手間がかかる(レイテンシが多くなる)というデメリットがありますよね?
パイプラインを深くして配線のクリティカルパスを短くし、高周波にすることと共に、
ますますサイクル数がかかってしまうわけです。

ネトバは、それに対し、分岐予測精度を上げてパイプラインストールを現象させたり、
SMTによってレイテンシを隠蔽するというアプローチを取ることで欠点を補おうとしたと。

そしてリーク電流の増大によってパフォーマンスは頭打ちになって幕を閉じたと。

こういう認識であってますか??

381 :Socket774:2012/01/07(土) 18:40:40.38 ID:ZydjzuMu
トレースキャッシュでデコードそのものをパイプラインから分離した、だろ

382 :Socket774:2012/01/07(土) 20:47:14.67 ID:Q6v6sk5T
シンプルにin orderにしていればもっとクロック上げられたと思う。


383 :Socket774:2012/01/07(土) 21:22:50.13 ID:vm8cjqT/
なるほど〜。

384 :380:2012/01/08(日) 18:25:59.94 ID:HG0xecwG
これが真のNetBurstアーキテクチャだ
http://pc.watch.impress.co.jp/docs/2004/0310/kaigai072.htm

次の日のコラムにも説明がありました。

>最後に、このレポートと前回のレポートで説明している内容を、最初に洞察した人物は塩田紳二氏だ。
>彼はIA-32e発表の直前から「機能の多くをMicrocodeとして実装し、マイクロアーキテクチャを仮想化することで
>拡張性を実現しているから、柔軟なアーキテクチャ拡張ができるのでは。カギとなるのはデコーダだ」と推察していた。
>その推論を、Gelsinger氏にぶつけた結果、まさにその通りの答えが出てきたわけだ。
>オリジナルの洞察は彼のものだ。

塩田さんって人、すごいですね。

385 :Socket774:2012/01/09(月) 15:19:33.50 ID:Mt5dZy+k
プレスコはあのような設計ながら 大きく性能を落とさなかったのが奇跡だ。


386 :Socket774:2012/01/10(火) 01:34:40.13 ID:zqErxjMb
まあ、プレスコは過小評価されてるとは思うけどね。
バックアッププランを用意していたインテル偉いとしか言いようがない。

387 :Socket774:2012/01/10(火) 10:53:40.58 ID:pfFlJpNM
ネトバ自体がItaniumのバックアップだった訳だが、
イスラエルチームがとんでもなく優秀なのに救われたね。
あとインテルの90nmは酷すぎた。半導体産業はこれで頭打ちかと思ったくらい。
AMDの90nmもさぞかしと思ったら、低発熱で拍子抜けした。

388 :Socket774:2012/01/10(火) 11:39:21.49 ID:PdVfp75n
イスラエルチームは神。

389 :Socket774:2012/01/10(火) 14:05:33.23 ID:4xr6MpPL
自作PC板でもイスラエルチームか否かでスレを立て分けるべき

390 :Socket774:2012/01/10(火) 15:04:19.25 ID:EAHSs5uL
イスラエルチームなんてオレゴンチームが造ったものを改良してるだけじゃん。

391 :Socket774:2012/01/10(火) 16:00:02.43 ID:lc9OuqDO
>>387
同じ90nでPenM作ってたんだけど?

392 :Socket774:2012/01/10(火) 23:35:42.26 ID:gB1lovUi
>>390
その改良ってのが改良の域を超えて
半端無い程、徹底してるから神って言われるんだと思われ

393 :Socket774:2012/01/11(水) 14:44:49.25 ID:RhOpLyrH
神ならなんでTimnaはキャンセルされたんだっての。


394 :Socket774:2012/01/11(水) 14:49:34.14 ID:iK/7TzTG
Timna内蔵のメモコンがRIMM対応だったから。
MTHくっつけてSDRAM仕様にしたらチップ数増えて、
i810+Celeronに比べてコスト的メリットもそんなに無い上に
新たにバリデーションの手間が増える

395 :Socket774:2012/01/11(水) 14:52:25.94 ID:KLL5KsRb
DRDRAMが(技術的にでは無く市場的に)ダメダメになるのが読めなかった
事はハイファチームの責任じゃないだろ>Timna

396 :Socket774:2012/01/11(水) 14:58:14.42 ID:NAvgTjae
その程度なのに神とか呼ぶから違和感があるんだろ…

397 :Socket774:2012/01/11(水) 15:00:49.59 ID:vFBIbZb6
>>387
あの頃のAMDは良かったな。
今じゃインテルみたいに上手く方針転換しないとCPUは本当にやばそう

398 :Socket774:2012/01/11(水) 15:08:13.10 ID:prmcUuTA
あまり、イスラエルかオレゴンかで気にしても仕方ない気がするけど。
オレゴンチーム率いていたゲルシンガーがintel辞めてから、
intelでx86CPUのアーキを決定するトップはイスラエルチームのトップになってるんだし。

399 :Socket774:2012/01/11(水) 15:13:22.75 ID:iK/7TzTG
>>396
Timnaは128KBのL2含むCeleronとi810相当の機能を統合しているにも関わらず、
河童Pentium!!!と共通ダイの河童Celeronと比較してダイサイズはほぼ同じと言われている。
(チップセットはCPUより古いプロセスで製造されているので、当時最新のCPUと同じプロセスで製造すれば小型化可能、
プラス、Pentium!!!の機能制限版のCeleronは一部無効にされているL2を含んだダイサイズなので驚異と言う程ではない)
んで、Timnaの経験を生かしてBanias(初期のPentiumM/CeleronM)を設計したらしい。
ハイファチームはこのように元々モバイルや小型省電力なチップの設計を担当しているのでそういう方面の改良が得意。
ネトバショックを引き摺っている人にとっては正に神に見えるんだろう。

400 :Socket774:2012/01/11(水) 18:02:43.56 ID:pKHVSn18
Timna出て欲しかったなPS2のおかげでRDRAMは後に激安品になってコスト問題も
解決したのに。

401 :Socket774:2012/01/11(水) 20:42:47.20 ID:aoW07Ztr
インテルはチップセットとドライバを何とかしる!!

402 :Socket774:2012/01/11(水) 20:46:16.71 ID:ZhbexOK/
CPUもGPUもメモリ空間統一すりゃぁ、転送のコスト0でウマーじゃん。
AMDのFusion構想マンセー。


って思ってたんだけど、
よく考えたら、メモリ空間別なほうが、プロセッサ間のスヌープなくせるし、
そういうややこしい制御にトランジスタ割かず、転送は必要になるけど、シンプルな構造にしておいて、
転送のオーバーヘッドは膨大なスレッドで隠蔽するって方針のほうが合理的だったりする可能性が気になってきた。

みんなはどう思う?

403 :Socket774:2012/01/11(水) 20:53:09.05 ID:P1aHpdDa
メモリ空間が共通という話と
メモリコントローラを共有しているという話と
キャッシュのコヒーレンシの有無の話は
全部別

404 :Socket774:2012/01/11(水) 21:21:16.77 ID:RhOpLyrH
GDDRが使えないならGPUで計算させる意味なくね?


405 :Socket774:2012/01/12(木) 00:47:12.55 ID:LegYaMV1
Intelが次世代デスクトップCPU「Tejas」をキャンセル
http://pc.watch.impress.co.jp/docs/2004/0509/kaigai088.htm

これほどまでに大きな転換を行ったことってなくない??
時代が変わったと感じる出来事だね。

>そして、おそらくNetBurst(Pentium 4系)アーキテクチャは、そうしたチャレンジの中で、消える運命にある。
なんか泣けてきた ;_;

406 :Socket774:2012/01/12(木) 02:05:02.65 ID:uXO+k8KQ
しかたないね、物理法則に勝てる人間がいるとしたら実際神だからね

>399
こういうレベルなら神でいいと思うねw

407 :Socket774:2012/01/12(木) 02:09:35.30 ID:OchKSmiB
>>404
メモリ律速なアプリケーションじゃなければ意味はある
APUやQPI接続のKnightsほどCPUと近ければデータ転送のコストが高いディスクリートGPUより有利な場面もある

408 :Socket774:2012/01/12(木) 16:58:08.05 ID:oY92wp4x
GPGPUのCPUに対する利点ってbandwidth/FLOPSなんだがな

409 :Socket774:2012/01/12(木) 18:27:40.87 ID:F5If69Iu
>>408
単精度

SandyBridge 2600K DDR3 1333
21.2[GB/s] / 217[GFLOPS] = 0.097[B/FLOPS]

Radeon HD7970
264[GB/s]/3790[GFLOPS] = 0.070[B/FLOPS]


410 :Socket774:2012/01/12(木) 19:57:09.33 ID:A/NPic11
Radeonがベンチ番長で実際のHPCに使われない証左ですな

411 :Socket774:2012/01/12(木) 21:36:26.80 ID:G4PDd7Qr
Tesla C2070は単精度1030GFlopsで144GB/s、B/Flopsは約0.14とその辺のx86やGPUよりは良好なのだろうが、
さりとてこれで十分かと言えばそんなことはないわけで、昔のベクトル機のごとく2B/Flopsとまではいかないまでも0.5ぐらいは欲しいところ。
現状のTeslaとかの値段でそれを実現するのはTSVが来ないと困難だろうけど。

412 :Socket774:2012/01/12(木) 21:45:39.27 ID:wV+N5pRU
実際上、メモリバンド幅ネックのアプリで重要なのは
絶対バンド幅もしくはバンド幅あたりの電力、コスト。
B/FはFを下げれば好きなだけ上がる。

413 :Socket774:2012/01/13(金) 13:47:08.32 ID:3Pn9j4oZ
来る来る言ってなかなか来ない狼少年の一角TSVがとうとう来そうなんだが
既存のアーキテクチャの延長という枠では収まらないので
設計から製造まで含めてどこをどう割り切るかで性能に劇的な違いが生じる気がするぞ

414 :Socket774:2012/01/13(金) 14:32:21.29 ID:CeXnTVhX
単純なフィルター処理でも一個のデータで何十回も積和計算するから
キャッシュが効いてりゃ0.1で充分でないのか

415 :Socket774:2012/01/13(金) 17:31:53.01 ID:qPZtWSap
数GBのデータにFFTをかける仕事でもしてるんじゃないか?

416 :Socket774:2012/01/14(土) 11:32:53.89 ID:Sd+/VOad
キャッシュが効く、という仮定が成立しない局面もある

417 :Socket774:2012/01/14(土) 13:19:40.98 ID:TOJm3CUm
【フリーメーソン】ユダヤの陰謀【イルミナティ】13
http://toro.2ch.net/test/read.cgi/occult/1323947324/
 ユダヤが解ると、アメリカ経済が見えてくる 
http://kohada.2ch.net/test/read.cgi/eco/1213792124/

418 :Socket774:2012/01/15(日) 14:07:57.05 ID:FS/o4PAk
なぜRambus方式のDRAMが主流にならないのでしょうか?
どう見てもDDR系より帯域広くできますよね??

419 :Socket774:2012/01/15(日) 14:10:08.29 ID:fbhIrnxo
優れている物が主流になるわけではない。
RIMMはバカ高かったから市場から消えたんだよ。

420 :Socket774:2012/01/15(日) 14:20:22.29 ID:FS/o4PAk
あれって談合で吊り上げたんですよね?
馬鹿馬鹿しいです。
コンピューティングの進化を妨げる由々しき行為です。

421 :Socket774:2012/01/15(日) 14:37:49.42 ID:fCT2UY57
出て欲しかったキャンセルされたCPUがTimnaとTejas
出てたらどうなったかな?
Timnaが出たらRIMMもPC市場でもう少し長生きできただろうに。


422 :Socket774:2012/01/15(日) 14:40:25.45 ID:fCT2UY57
それからItaniumがKittsonで終わらないかどうどうか不安である


423 :Socket774:2012/01/15(日) 15:15:22.18 ID:TD4yIhOF
>>421
DRDRAMが安価で普及する見込みが立たなかったためにTimnaはキャンセルされた
わけだから、鶏と卵だな。

424 :Socket774:2012/01/15(日) 17:30:33.91 ID:8WwLx6if
1970年ころから続いてきた、プロセッサの高集積・高クロック・高消費電力の進化が、
Pentium4で高クロック・高消費電力の進化が止まってしまったのが残念だな

たかだか100W程度で文句言うやつの責任だな
これくらいの消費電力で文句言うやつがいなけりゃ、いまごろデスクトップCPUは、
クロック10GHz・消費電力1kwで超高速の方向に進化してた

425 :Socket774:2012/01/15(日) 17:47:21.40 ID:fbhIrnxo
CPUが溶けそうだなそれ

426 :Socket774:2012/01/15(日) 18:06:24.84 ID:4isuLZ0p
問題は消費電力じゃなくて、高クロック版のPenDが空冷では放熱が間に合わず自動クロックダウン状態だった方。
空冷の限界≒個人向けCPUの限界

427 :Socket774:2012/01/15(日) 20:56:48.80 ID:e9AJpobA
CPUが溶けて、マザボが焦げて、電源が爆発しそう

428 :Socket774:2012/01/15(日) 21:02:04.60 ID:yKRNaLSt
今はヒートパイプが安く普及してるから空冷でももっと行けそうだけどね
10年くらい前と比べると発熱密度で一桁くらいは緩和されている

429 :Socket774:2012/01/15(日) 21:02:14.47 ID:2LNwz5Fp
水冷はメンテナンスがめんどくさいからな。

430 :Socket774:2012/01/15(日) 21:14:47.61 ID:TD4yIhOF
爆熱ネトバのお陰で冷却系が飛躍的に進化して、TDPの下がった現代のCPUでは
さほど苦労せずに静音と冷却が両立できたり、また300W超のGPUも利用可能に
なったりしたわけだから塞翁が馬だな。

431 :Socket774:2012/01/15(日) 21:44:41.47 ID:fCT2UY57
>>423
上でも書いてあるけどPS2の爆発的な普及で量産効果が働きRDRAMは馬鹿みたいに
コストダウンした上に利益があったのでラムバス的にはおいしかった様子。
でもPS2が本格的に普及しだしてRIMMのコストが下がりだしたのはTimnaがキャンセル
された直後だったのは皮肉。
インテルがPCとかサーバーしかみておらずゲーム機市場を軽視していたから読み違えた。
初代X-BOXだってCPUはインテルだったのに理解不足でX-BOX720では逃げられたし。

432 :Socket774:2012/01/15(日) 21:45:53.35 ID:IQkqX2fS
>>420
基板の製造コストも高いみたい。

>>428
かつて爆熱呼ばわりされたK6ファミリ(特にK6-IIIなど)でさえ、
いまのノート用省電力CPU程度の電気で動いてたってのがな。

433 :Socket774:2012/01/16(月) 00:03:58.69 ID:Xq66lT3/
優れた物が主流になるのなら,今頃世界はPOWER一色だった。

434 :,, ・´ ∀ `・ ,,)っ-○○○:2012/01/16(月) 00:53:09.35 ID:nuN9xL3P
>>409
キャッシュの少ないGPUでこれは致命的

435 :,, ・´ ∀ `・ ,,)っ-○○○:2012/01/16(月) 01:01:25.76 ID:nuN9xL3P
>>433
優れれてクライアントサイドの高パフォーマンスコアではPPC970みたいなのが精一杯なら
ARMなんて論外だろうなぁ

436 :Socket774:2012/01/16(月) 08:25:46.13 ID:EM2hSIeo
>>431
Rambusはまだ特許ゴロ商売に慣れてなかったからライセンス料をふっかけ過ぎたんだろ。
あと必ず2枚ひと組で増設しなければならなかったのも面倒だった。
空きスロットにはダミー基盤をつけなければいけなかったし。

437 :Socket774:2012/01/16(月) 08:40:33.14 ID:64mCj87l
>>436
あの基板はdummyじゃない。
終端のために使っていた。
今はODTがあるから必要なくなった。

しかし今のメモリ価格を考えると、XDRなんて使えんわな〜。

438 :Socket774:2012/01/16(月) 10:42:55.04 ID:34fN+tpr
2倍の価格で2倍速ければ需要はあるだろう

439 :Socket774:2012/01/16(月) 11:25:45.31 ID:Zk2fGCUG
RAMBUSは商売の基本である独占したら値上げを守らず、
独占してないのにもかかわらずライセンス料ふっかけたからな

独占したのはインテルのマザーボードのメモリ規格のみで、インテル以外がついていかなかったから

440 :Socket774:2012/01/16(月) 14:36:54.87 ID:TsUs3weT
ハイエンドデスクトップ限定で良いからXDR使わせてくれよ〜
インテルさん、DDR4の後どうするんだよ
今の技術の延長でDDR5なんて可能なのか?

441 :Socket774:2012/01/16(月) 14:41:10.86 ID:W8+uk/5V
HMCみたいなのが来るからメインメモリなんてどうでも良くなる
それがあるからメインメモリの進化にどこも力を入れていない

442 :Socket774:2012/01/16(月) 17:37:30.57 ID:EM2hSIeo
メモリセルにDRAM使ってる限りXDRもDDRも大して変わんないって。

443 :Socket774:2012/01/16(月) 20:14:19.53 ID:X6/ylvOS
>>438
用途しだいだろう。
メモリ速度が二倍になっても動作速度は2%も上がらんしなあ。

メモリ速度を二倍にするよりメモリ容量を二倍にする方が、PCの動作環境が向上するんだから。

過去のRIMM全盛期みたいに、速度二倍で価格五倍とかよりはマシだろうし、
いまのメモリ価格での二倍価格程度なら誤差みたいなもんだから、需要は作れるんだろうけど。

>>436
二枚一組は、CPUバスよりメモリの方が低速だったからデュアルチャンネルアクセスにしようとして設計したせいだろ。
Pen4の時のは。

Pen3(i820チプセト)のときのRIMMはどうたっだっけ? 忘れた。

ま、30pinSIMM時代末期みたいな、4枚一組での増設に比べたらマシだ。

444 :Socket774:2012/01/16(月) 21:09:55.92 ID:za4v+tRv
SRAMをメインメモリにしたいなぁ。
500MBくらいあれば大概のことはできるっしょ。

100万円くらい出せばいけるかな?
これで10年はいけるし、10万円/年なら安いもんだ。

445 :Socket774:2012/01/16(月) 21:13:56.20 ID:ALqJbtGs
メモリが早くなっても性能伸びないのは周波数が早くなってもDRAMのメモリセル自体の動作速度がほとんど変わってないから
周波数に合わせてレイテンシも伸びてるからだ
SRAMといわずともMRAMとか低レイテンシ化出来るメモリセルになれば高速メモリにも意味はあるよ

446 :Socket774:2012/01/16(月) 21:23:35.66 ID:za4v+tRv
MRAMは速いんか!?
そら楽しみだ。

447 :Socket774:2012/01/16(月) 21:57:24.63 ID:vxHqhuWk
>>437
違うよ。
DirectRambusはデイジーチェーン接続だからマザーボード上の終端まで信号線をつなげる必要があったから、continuity module(CRIMM)ってのが必要だったのさ。
28Ωって変態的なインピーダンスを要求されたけどマザーボードのコストは並だった。
それよりライセンス料のおかげでDRAM の値段が下がらないのがネックだった。
モジュールを追加、交換して容量を変えるような用途には構造的に不向きだし。

448 :Socket774:2012/01/16(月) 23:13:14.63 ID:tAaukS2w
>>442
DDR3になってもSDRAMの頃と中の人のクロックは同じで
バンクが増えただけだしな
古いPCに増設させないためにちまちま規格を変えてんじゃねぇのか

449 :Socket774:2012/01/16(月) 23:24:51.91 ID:za4v+tRv
中の人は200MHzくらいで息切れ・・・

450 :Socket774:2012/01/16(月) 23:58:12.48 ID:+cDKU3RB
>>448
いやクロックは普通に上がってるから
レイテンシが変わってないだけ

451 :Socket774:2012/01/17(火) 00:40:24.67 ID:edg0qhJq
>>450
SDR→DDR→DDR2→DDR3で各々プリフェッチを倍にしてるからスループットも
倍々で増えてるけど、メモリセルそのものの速度はPC3200もPC2-6400も
PC3-12800も全部一緒。
なのでプリフェッチが有効なシーケンシャルアクセスではスループット向上の
恩恵が受けられるがランダムアクセスだと一向に向上しないレイテンシの悪さが
馬脚を現す

452 :Socket774:2012/01/17(火) 02:08:16.55 ID:DhCDK5EV
http://techon.nikkeibp.co.jp/article/NEWS/20111220/202842/

やっぱりSTT-MRAMが本命なんかな
これ以上DRAMの微細化を進めていくと
電荷の保持ができなくなるとかいわれてたし
10年後にはSTT-MRAMが取って代わるのかな

453 :Socket774:2012/01/17(火) 03:01:50.29 ID:DcGQEklb
>>452
DRAMの電荷保持はすでに限界だけどね。
レーストラックメモリは容量密度が高いみたいだけどどうなるのかね。

454 :Socket774:2012/01/17(火) 03:06:31.86 ID:E5WlTFta
>>444
たとえメインメモリがSRAMでも、汎用インタフェースを使う限り早くならないだろ
オンダイのSRAMが早いのは専用の高速接続を使ってるからっていうのもある

455 :Socket774:2012/01/17(火) 03:28:53.44 ID:OABNtjxk
そのうちアクセスする前にデータが出てくるタキオンメモリができるさ

456 :Socket774:2012/01/17(火) 09:28:24.51 ID:xl+FWa0Y
レイテンシの弊害を考えると、個人用PCのメモリはDDR2で十分だと思うんだよね。
シングルスレッドの性能はもう上がらないんだし。
オンボで4kやるとDDR3が必要なのかな。

457 :444:2012/01/17(火) 19:57:59.86 ID:Q/GSUlAI
>>454
そっかぁ・・・。
TSVでもダメかな?

458 :Socket774:2012/01/17(火) 20:40:49.09 ID:HTPMf8VJ
>>456
レイテンシはDDR2もDDR3も変わらないけど?
もしDDR2で帯域が十分だというならDDR3で低電圧化してビット幅を減らした方が
電力も実装面積もコストも減らせる

459 :Socket774:2012/01/18(水) 01:01:18.50 ID:SIYX5UyS
DangoBurst
DangoWood
DangoField
DangoBridge

460 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/01/19(木) 00:26:24.15 ID:dUBMgRgt
DangoQuest

461 :Socket774:2012/01/19(木) 00:50:26.73 ID:r+gpj91S
DgonQuest

462 :Socket774:2012/01/19(木) 00:51:17.80 ID:r+gpj91S
DagonQuest

463 :Socket774:2012/01/19(木) 03:35:26.37 ID:O2ZABsYW
>>448-449
いや、SDR-SDRAMのころは66MHzスタートで、133MHzで打ち止めだったじゃん
それより早いヤツは、PCでは普及しなかった。

DDR-SDRAMのときは、133MHzぐらいからスタートだっけ?
最後、200MHz(DDR400)まで、時間はかかったが普及した。

現行DDR3は、133(DDR3-1066)でスタートし、
いまは166(DDR3-1333)から200(DDR3-1600)への以降が進行中で、
233(DDR3-1866)やら266(DDR3-2133)への移行が進みそうな気配もある。

転送レート向上速度より大幅に遅いとは言え、コアクロックも上がってはいるだろ。
まあ、4倍まであげるのに15〜20年ぐらいかかってる気がするが。

レイテンシの短縮速度は、もっと遅いんだっけ。

464 :Socket774:2012/01/19(木) 03:55:50.58 ID:+P35StCJ
ベースクロック133MHz以上は何かと物理的に難しいんじゃなかった?
今時は100MHzに抑えてるくらいだし
消費電力からの要請かね?、知らんけど

465 :Socket774:2012/01/19(木) 04:06:12.35 ID:uNSmaBC2
世代を追う毎に次世代規格の立ち上げが困難になって来てるんで、それまでの
繋ぎとして(特に生産立ち上げ時の)スピードイールドが悪化するからメモリ
メーカーとしては本音ではできるだけやりたくないベースクロックupを強い
られてるってのが実情だがなw
ttp://pc.watch.impress.co.jp/img/pcw/docs/486/032/html/01.jpg.html


466 :Socket774:2012/01/19(木) 14:12:29.82 ID:43sRxhcO
DRAMにもキャッシュメモリ積もうぜ

467 :Socket774:2012/01/19(木) 16:52:06.86 ID:nwXaomDg
CPUから遠い位置のキャッシュって効果あるのか?

468 :Socket774:2012/01/19(木) 17:22:32.87 ID:ubTl7Qe/
VC-SDRAMはそれなりに効果があった

469 :Socket774:2012/01/19(木) 21:53:44.81 ID:/oUPLQGb
>>463
何をどう勘違いしているのか知らないけど、DDR3-1066は533MHzだし、DDR3-1600は800MHzだよ?

470 :Socket774:2012/01/19(木) 22:04:07.93 ID:ubTl7Qe/
えっ
メモリセルのクロックの話ならDDR3-1066は133MHzのプリフェッチ8であってるはずだが

471 :Socket774:2012/01/19(木) 22:11:06.12 ID:ArNEw+f6
ランダムアクセス性能なら16MHz相当なのにムチャしやがって

472 :Socket774:2012/01/19(木) 22:16:00.44 ID:uNSmaBC2
だからそれは1bitのアクセスに対して8bitを一度に読み出して(プリフェッチ)
内部インターリーブで8倍のクロックで1bitずつ転送する結果であって、メモリ
セル自体の速度はその1/8(ダブルエッジ・クロックなので表記としては1/4)
なんだってば。

473 :Socket774:2012/01/19(木) 22:58:43.23 ID:eXU/apPN
実際レイテンシの激増でどんくらいロスって発生してるもんなんだろ、今時のL2L3キャッシュ山盛りCPUで

474 :Socket774:2012/01/19(木) 23:23:12.79 ID:cHRfiszi
>>466
任天堂が使ってる1T-SRAMってそんな感じのメモリーじゃなかったっけ?

475 :Socket774:2012/01/19(木) 23:58:41.19 ID:qMndsDu0
いまのDDR3ってレイテンシは50nsくらいだったと思うから、イニシャルアクセスに170cpuサイクルくらいかかる。
LLCは60サイクルくらいだから、CPUのクロックあげないとLLCの効果は薄いよな。


476 :Socket774:2012/01/20(金) 01:26:23.27 ID:s2ffxJng
>>475
そんなもんだっけ?と思ってsamsungのDDR3-1600見たら
CL=11 tRCD=11となってるから27.5nsじゃないのかい?
DDR2-800がCL=6 tRCD=6とCL=5 tRCD=5の2種類だから
レイテンシはほぼ変わってないな

477 :Socket774:2012/01/20(金) 01:39:32.45 ID:fvX/a87q
DDR3-1600でCL11はかなり遅い部類じゃねーか?

478 :Socket774:2012/01/20(金) 08:36:53.55 ID:Xmot+QLd
>>472
メモリーセルの話ならクロックでなくアクセス速度で話をしないと。SDRAMであってもクロック同期なのはI/Oとかのロジックだけで、セルは非同期だからね。

479 :Socket774:2012/01/20(金) 16:07:57.76 ID:IapQZmp4
マザーボード上のL2キャッシュをサードキャッシュとして利用したK6-IIIマシン思い出した。
Slotを復活させて4GB SRAM L4キャッシュでも積むかい?
階層深過ぎて性能でないのがオチだけどw

480 :Socket774:2012/01/20(金) 21:53:45.80 ID:dopWnmGr
>>479
SRAMを4GBも使えるなら、わざわざキャシュにせずにメインメモリで使うでしょ。

481 :Socket774:2012/01/20(金) 22:06:29.13 ID:lW2TwCX/
>>479
その時代なら今のSSDがメインメモリでもいけそうだな。

482 :Socket774:2012/01/20(金) 22:29:07.25 ID:+3H30n5Y
メインメモリは256GBあるんだろう

483 :Socket774:2012/01/21(土) 00:04:33.95 ID:wEZRl0Pq
>>481
フラッシュメモリーってDRAMの100万倍遅いぞ

484 :Socket774:2012/01/21(土) 06:15:50.94 ID:1OmXqVXR
NOR型フラッシュはメインメモリに直接マッピングできるくらい早い

485 :Socket774:2012/01/21(土) 10:04:35.60 ID:5y7eq9KY
でっていう

486 :Socket774:2012/01/22(日) 13:17:58.72 ID:zm9dH7uo
スパンションはNOR型でも首位から転落か

487 :Socket774:2012/01/22(日) 13:37:53.19 ID:blTXymh3
“Many-Core CPU”へと向かうIntel
〜CTO Gelsinger氏インタビュー(1)
http://pc.watch.impress.co.jp/docs/2004/1112/kaigai133.htm

【Gelsinger】 その通りだ。我々が今研究しているのは、多くのコアを使う並列化マシンだ。
Intelはデュアルコアとマルチコアをアナウンスしたが、私が携わっているのは
もっとCPUコアの数が多い“メニイコア(Many-Core)”だ(笑)。


当時は「メニーコア(ワラ」だったのかw

488 :Socket774:2012/01/25(水) 12:52:20.69 ID:vhbBKDKk
オク出品の50万円のSX-8誰も落札せずに終了。
50万でベクトル機が入手できるチャンスだったのに。

489 :Socket774:2012/01/25(水) 12:55:50.38 ID:ABFaSMyJ
コンパイラもないのにどうするんだよ

490 :Socket774:2012/01/25(水) 13:30:42.75 ID:XvtWBhyj
そもそも、動くかどうかすらわからないしソフトウェア無い時点で使い物にならないでしょ?
一般家庭で使うには電源工事がいるから敷居が高いし

491 :Socket774:2012/01/25(水) 14:46:16.61 ID:szT2jbTh
所詮古いスパコンなんてオブジェ以上にはならんだろうな

492 :Socket774:2012/01/25(水) 15:17:47.14 ID:vhbBKDKk
SX-8 8年前だがメモリ帯域だけは今のPCより速い
1ch 64GB/秒


493 :Socket774:2012/01/25(水) 17:59:35.99 ID:9NcjnRag
SXをはじめとするベクトル型は、メモリ帯域が広いことで有名だからな
メモリ帯域が重要な計算は、TOP500でナンバーワンのKより現地球シミュレータのほうが速かったりする

494 :Socket774:2012/01/25(水) 18:18:33.38 ID:/pNdb28O
京はGlobal FFTでも一位だよ
ESが二位

495 :Socket774:2012/01/25(水) 19:27:13.32 ID:2FKBhNCM
しかも京の2/9しか使ってないのにES2の3倍の速度出てるしね

496 :Socket774:2012/01/25(水) 19:44:12.38 ID:vhbBKDKk
スパコンってOSがUNIXベースだから、UNIXの知識ないと使えんだろ。



497 :Socket774:2012/01/25(水) 19:46:51.53 ID:ld2MElCk
ところでDRAMの話が上がっているけどDDR5って将来的に可能なの?
どうもDDR4の延長では無理だって上で書いてあるんだけど・・・・

498 :Socket774:2012/01/25(水) 20:28:27.12 ID:HBxE3KWp
>>497
TSVやインターポーザーが来るので
ソケット介したメモリなどどうでも良くなる
あとは容量稼ぎの役目しか無い

499 :Socket774:2012/01/25(水) 21:42:12.88 ID:8Z1MhAkH
番組の途中ですがアフィサイトへの転載は禁止です 2012/01/17(火) 01:28:32.24 ID:tepO+ZU0
何個会ってもかわらねえよ
http://sakuraweb.homeip.net/uploader/src/up171516.jpg
http://sakuraweb.homeip.net/uploader/src/up171517.gif

500 :Socket774:2012/01/26(木) 00:10:48.85 ID:2JaUEeur
>>496
システム管理する人と、アプリを作って動かす人がいて、
後者ならべつにUNIXなんてごく基本的な知識があればいいだけだよ

501 :Socket774:2012/01/26(木) 00:14:46.06 ID:2JaUEeur
>>498
それで解決するのは、せいぜいモバイルや一般個人向けのデスクトップPCくらいなもんだろ

ハイエンドデスクトップやサーバ、HPCじゃ大量のメモリが必要なので、
何らかの汎用インタフェースは必要

たとえば個人向けのハイスペックPCは、TSVでCPUに1Gの大容量メモリキャッシュ+DRAMで16Gとか

502 :Socket774:2012/01/26(木) 00:22:12.50 ID:TAs3bHuy
>>501
トランスピュータ方式で、メモリ量が必要なら(メモリ混載した)プロセッサの
数を増やすw

503 :竹島は日本領土:2012/01/26(木) 01:34:34.12 ID:q9afEJFb
こいつの出番か
http://hothardware.com/News/CPU-Startup-Combines-CPUDRAMAnd-A-Whole-Bunch-Of-Crazy/

504 :Socket774:2012/01/26(木) 08:10:25.02 ID:MRINLggm
4096bitバスw

505 :Socket774:2012/01/26(木) 08:45:44.14 ID:/j5lVqrU
>>500
>アプリを作って動かす人がいて、
>後者ならべつにUNIXなんてごく基本的な知識があればいいだけだよ

基本知識ならまだしも、アプリ作って動かすってかなり難しいと思うんだが。




506 :Socket774:2012/01/26(木) 16:22:15.06 ID:9Vi9Lldi
>>501
だからその状況だと最後のメモリは容量のみ必要で
レイテンシも帯域もどう変わろうが性能に殆んど影響ないの
だからどこも力を入れてないのがその証拠

507 :Socket774:2012/01/26(木) 20:35:15.11 ID:60J5eaXC
容量こそが必要な部分のメモリの速度を上げる必要は無いわけね

508 :竹島は日本領土:2012/01/26(木) 22:38:10.66 ID:aty1rjD0
IBM creates 9nm carbon nanotube transistor that outperforms silicon
http://www.extremetech.com/computing/115657-ibm-creates-9nm-carbon-nanotube-transistor-outperforms-silicon

509 :Socket774:2012/01/26(木) 22:49:01.64 ID:MRINLggm
うお

510 :Socket774:2012/01/26(木) 23:37:58.29 ID:2emUaCXk
4096 ウェイインターリーブってマジですか
SRAMじゃダメなんですか

511 :Socket774:2012/01/27(金) 00:55:24.82 ID:WquCauIX
数十億トランジスタの複雑なパターンを印刷方式で製造できるのがシリコンの強み


512 :Socket774:2012/01/27(金) 20:15:51.27 ID:yuSskxT9
DDR5SD-RAM(6400Mhz)まだ〜?

513 :Socket774:2012/01/27(金) 22:26:17.94 ID:w1IX+jEY
まだ

514 :Socket774:2012/01/28(土) 18:32:45.64 ID:RLbHwGZG
整数演算性能のよさ,みたいなものを体感する,
方法って,あ・るのー?

515 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/02(木) 21:59:10.35 ID:5srwg8zN
たとえば浮動小数点がどうとかほざいてたPS3でLinuxを動かしてみる(ただしファーム更新前)
まだAtomなんかのほうがよっぽど速く、日ごろ整数演算性能の恩恵にあずかってたことがよくわかる。

516 :Socket774:2012/02/03(金) 00:44:10.60 ID:bz9UiIXH
団子ちゃん、久々

517 :Socket774:2012/02/06(月) 00:34:16.51 ID:tRMiDIQg
x86の汎用レジスタ8つとか少なすぎ!
x64で16個に増えたけど、何で最初からそれくらい用意しとかないかなぁ。
腹立つ。

518 :Socket774:2012/02/06(月) 02:33:07.62 ID:j/ixNHJZ
8bitの8080の頃からの名残
AXレジスタ←Aレジスタ
BXレジスタ←Hレジスタ、Lレジスタ
CXレジスタ←Bレジスタ、Cレジスタ
DXレジスタ←Dレジスタ、Eレジスタ
SPレジスタ←SPレジスタ
これに
SIレジスタ、DIレジスタ、BPレジスタを追加したのが8086
8086は8080の命令を一対一で8086の命令に変換できた

これを32bit化したのがIA-32
EAX←AX
EBX←BX
ECX←CX
EDX←DX
ESI←SI
EDI←DI
EBP←BP
ESP←SP

519 :Socket774:2012/02/06(月) 02:36:37.42 ID:j8MaW00k
8086〜80286(緑部分)と80386(緑+白)のレジスタセット
ttp://www5c.biglobe.ne.jp/~ecb/assembler/gif/1_1_1.gif
8080のry
ttp://www.onlyme.sakura.ne.jp/zu3_3.jpg

520 :Socket774:2012/02/06(月) 02:42:59.46 ID:j8MaW00k
8080の盲腸由来ってのもあるが、x86(特に16bitコード)は同時期の他の
CISCに比べてもレジスタ指定フィールドのビット数を少なくして命令
語長を短くする事を重視したISAだったからな。

521 :Socket774:2012/02/06(月) 02:48:26.90 ID:IgsoAjwh
むしろなんでx64でも16個なんだろう
IA64みたいに128個用意しろとはいわないが、
mipsとかpowerみたいに32個でも良かったんじゃないのだろうか

522 :Socket774:2012/02/06(月) 02:57:26.03 ID:j/ixNHJZ
8080トランジスター数6000個
Z80 トランジスター数8200個
8086トランジスタ数2万9000個
68000トランジスタ数6万8000個
32bitレジスタを16本持ってた68000はトランジスタ数でもダントツ
8bitや16bitCPUの時代はたくさんのトランジスタを集積できなかったし
トランジスタ数が価格に直結してた
32個のトランジスタが当たり前のRISC系CPUの時代は
トランジスタ数が数十万個が普通だった時期

参考
386 27万5000個
486 120万個
R3000 11万5000個
R4000 120万個


523 :Socket774:2012/02/06(月) 02:59:35.44 ID:j/ixNHJZ
>>520
8086は1バイトのオペコードの命令が多数あるな
68000は基本的にオペコードは16bit(2バイト)だった

524 :Socket774:2012/02/06(月) 03:02:07.01 ID:YNkrv2sJ
>>521
限られたオペコード空間でREXを1バイトにするためには16本が限度じゃない?
今時のx86CPUで論理レジスタを32本に増やしたところで性能上のメリットもほとんどないし妥当だろう
IA64はVLIWの静的スケジューリングを前提にしていたからレジスタ本数を増やす必要があった

525 :Socket774:2012/02/06(月) 03:08:36.82 ID:YNkrv2sJ
>>522
386が1.5~1um
486が1~0.6um
1世代しかプロセスがシュリンクしてないのにトランジスタ数増えすぎ
凄い時代だな

526 :Socket774:2012/02/06(月) 03:22:19.68 ID:j8MaW00k
486のトランジスタ数の1/3は(386には無かった)キャッシュだからな。
それを除いても386の倍以上になったのはマイクロコード主体から
ワイヤードロジック化を推し進めたため。
おかげで486のIPCは386の二倍近くに向上した。一世代でのIPC向上は
この時期が最大だったんじゃないかな?

527 :Socket774:2012/02/06(月) 03:27:25.34 ID:j8MaW00k
FPU内蔵化もあったの忘れてたわ >486のTr数

528 :Socket774:2012/02/06(月) 09:38:49.46 ID:J9Gi6+6r
レジスタリネーミングがあるX86じゃ16本もあれば十分じゃないか?

529 :Socket774:2012/02/06(月) 09:39:37.04 ID:cvhoE6z/
ダイの写真見る限り、ほとんどキャッシュに費やされた感はある。
http://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:80486dx2-large.jpg

530 :Socket774:2012/02/06(月) 21:33:51.11 ID:hPF8zCHR
ItaniumとかPower7とかのメインフレーム級の巨大ダイもかなりの部分がキャッシュだしなあ

531 :Socket774:2012/02/07(火) 02:21:08.57 ID:9IH7/a2c
>>519
あぁ、そういえば上位下位に分ければもう少し増えるなぁ。
んでも、パーシャルレジスタストール(だっけ?)があるんだっけ?
なんか損した気分になる・・・

532 :Socket774:2012/02/08(水) 03:56:58.21 ID:7akzrywI
整数演算程度なら16個もレジスタあれば、使い回しで余裕のコードを今時のコンパイラは吐くみたいだからね
レジスタは多ければいいってもんでもない、命令長にも関係するし
如何にメモリアクセスを少なくするかが早くするコツなのかも

533 :Socket774:2012/02/08(水) 08:28:30.73 ID:AFtoGSg0
実アプリケーションでは16では足りない。24欲しい。

534 :Socket774:2012/02/08(水) 08:30:06.53 ID:GjABH7E/
いまどきレジスタ数ケチる必要もないし、HPC用CPUみたいに、256個の倍精度演算にも使えるレジスタでものっけとけばいいよ

535 :Socket774:2012/02/08(水) 08:54:35.17 ID:AFtoGSg0
コンテキストスイッチが出来なくなるのでそれはやめて
ていうか命令長32bitに収まらんよ

536 :Socket774:2012/02/08(水) 09:20:34.69 ID:ZIdqB/ii
Itaniumみたいなレジスタ山盛りのアーキテクチャって
コンテキストスイッチのパフォーマンスはどうだったんだろう

今時のCPUは割り込みのペナルティが既に激重いし
数kB程度の退避復帰はどうということない気もする

537 :Socket774:2012/02/08(水) 09:52:05.72 ID:AFtoGSg0
割り込みは別に重くなってない。
割り込みの頻度が増えただけだ。

538 :Socket774:2012/02/08(水) 15:06:20.81 ID:U7VCg9qF
古典的RISCだと例えば256本のうち16本のみをバンクメモリのような感じで
アクセスして(レジスタ・ウィンドウ)コンテキストスイッチはバンクの
切り替えで行う。
IA64の場合は128本のうち32本(R0〜R31)のみが直接アクセス可能でR32〜R127は
リネーミング用及びコンテキストスイッチのための実メモリ上のスタックエリアの
上位部分のキャッシュ的な使い方だったと思う。

539 :Socket774:2012/02/08(水) 16:19:46.51 ID:0HDCvzHT
HPC用とかで大量にレジスタがあるやつの扱いは、
ほぼHPCアプリ専用レジスタとなってるレジスタ群は、OSやシステムアプリでは使わなくして、
その部分のレジスタの退避・復帰処理をおこなわないっていうことをすればいいんだよな

540 :Socket774:2012/02/08(水) 20:04:30.18 ID:7akzrywI
SH3/4が2バンク構成のレジスタ群つけたけど
コンテキストスイッチ?のせいで裏バンクレジスタ群はほとんど使われなかったような
armはレジスタ16個あるけど、使い方が固定されたレジスタがあるから
数としては微妙な感じ

541 :Socket774:2012/02/08(水) 22:28:34.25 ID:NCQzXPzg
今、GPGPUのプログラミングしてるんだけど、何千ってスレッドが超高速に生成・切り替えられる。
CPUのスレッド生成や切り替えはクソ遅くて腹立った。
なんで同じようにできないんすか??
つーかOSのせい??

542 :Socket774:2012/02/09(木) 00:04:32.02 ID:6ZmU76le
>>541の頭が悪いせいです

543 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/09(木) 00:15:51.28 ID:wvwDiGFp
レジスタの量を誇るアーキテクチャって概してL1キャッシュのロード・ストア性能がクソレベルなんだが

544 :Socket774:2012/02/09(木) 01:49:37.51 ID:pDLknz4o
>>541
Atomだと1クロックでスレッド切り替えられるよ。


545 :Socket774:2012/02/09(木) 03:23:04.54 ID:NZPKcSjW
>>541
スレッドと言っても別のもの
CPUもOpenCLとかで書けば超高速で多スレッドを"切り替え"できる
1スレッドにSIMDで展開されるだけだから

生成はスレッドプール系のライブラリだったらGPUのカーネル起動よりはるかに低コスト

>>543
L1やロードストアユニットに使う分のリソースを節約できているという見方はできる
同じリソースなら生FLOPSを上げることができるから特定アプリケーションでは有利
プログラマ的にはL1が速い方がうれしいけどね

546 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/09(木) 07:44:07.18 ID:wvwDiGFp
ルネサスと国内3社が家電用プロセッサ事業の統合の方針を打ち出したが・・・

547 :Socket774:2012/02/09(木) 14:52:11.97 ID:INnop2CL
いまごろ遅すぎるんだよ
国内半導体メーカーはどこも規模が小さすぎて新プロセスに投資できないし、
財務が悪くなりすぎて身動きできない

5年前に大合併してでかくなって、最先端プロセスに投資できるだけの大きさになるべきだった

548 :Socket774:2012/02/09(木) 14:57:47.08 ID:INnop2CL
>>541
プログラムでスレッド切り替えたからと言って、
それがOS/CPUから見てスレッド切り替わってるかどうかは、言語やライブラリの実装次第だな

549 :Socket774:2012/02/09(木) 15:07:33.74 ID:n+/T49VR
MCMCという逐次モンテカルロの中の重い処理をGPUとPTHREADで比較したら
PTHREADの方が早かったってことあったし一概に言えんわな
GPUの欠点でディバイス側にデータを送るコストとディバイス起動コストがあるからね

550 :Socket774:2012/02/09(木) 15:10:14.92 ID:INnop2CL
>>543
ベクトル型スパコンなんて、キャッシュ無しとか豪快なアーキテクチャだけどな
最近はベクトル型でもキャッシュ積む方向っぽいけど
メインメモリへのアクセスがボトルネックになるような演算をする場合、
あまりキャッシュ性能にこだわっても性能アップはしない
ベクトル型はもろにそういった設計だな

キャッシュ性能がそのまま実効性能の向上につながる計算なら、キャッシュ性能が高いほうがいいが、
HPC分野ではキャッシュ性能が実効性能向上につながらない計算も多いんでしょう

551 :Socket774:2012/02/09(木) 15:16:52.10 ID:q14AwlJT
>>550
ベクトル型はプログラミングモデルが高速なメモリを前提としてるからね
メモリ帯域か安くて演算器の実装コストは高かった時代の名残

>HPC分野ではキャッシュ性能が実効性能向上につながらない計算も多いんでしょう
極論を言うとHPCのアルゴリズムはGEMMとFFTに還元できる(!)
GEMMはもちろんFFTもそれなりにキャッシュは効く

552 :Socket774:2012/02/09(木) 15:18:44.91 ID:XzWtLo4l
レジスタとL1キャッシュの性能って同じにならないの?そろそろ

553 :Socket774:2012/02/09(木) 15:19:16.59 ID:q14AwlJT
今はDRAM帯域がもっともコストの高いリソースだから
そこを浪費するアーキテクチャは上手いとは思えない

GPUは帯域を浪費するアーキテクチャだけど
今のところGDDRのアドバンテージでどうにかなってる

554 :Socket774:2012/02/09(木) 15:23:50.05 ID:q14AwlJT
レジスタは常に絶対アドレスで読み書きされるメモリだから
アドレスの計算やアドレス変換は必要ないし
依存関係もレジスタ番号を見るだけで解決できる

555 :Socket774:2012/02/09(木) 16:13:43.53 ID:44UPuN1L
またスクラッチパッドメモリマンセー!!の流れかw

556 :Socket774:2012/02/09(木) 18:29:05.80 ID:ehytXSvM
>>551
HPC Challenge Benchmarkで、いまだにFFTで地球シミュレータが2位なことからして、(1位は京)
FFTでキャッシュが効くっていうのはかならずしも当てはまらないと思う

557 :Socket774:2012/02/09(木) 18:34:11.97 ID:hC0BhZ3k
>>556
Global FFTでESが速いのは
クロスバのインタコネクトが効いているのと
メインメモリが超マルチバンクだからFFTのアクセスパターンで実効帯域が出るため

キャッシュがなければもっと凄まじい差が出る

558 :541:2012/02/09(木) 20:08:21.36 ID:o0eb+wmZ
ご意見ありがとう〜。

>>544
マジで!?
Atomすげぇw
なんで他のIA-32プロセッサもそうしないんだろう・・・

>>545
>1スレッドにSIMDで展開されるだけだから
SIMD演算機をGPUでいうストリームマルチプロセッサみたいに使うってこと??

>生成はスレッドプール系のライブラリだったらGPUのカーネル起動よりはるかに低コスト
GPUのカーネル起動のコストがでかいだなんてショックだ・・・
ただでさえホストからのデータ転送で時間かかるのに。(ストリームで隠蔽する努力はするけどさぁ・・・)

>>548
やっぱそのへんが絡んでるんだね。
CPUの能力をフルに発揮するために、邪魔になるようなことはしないでもらいたいものだね。

>>549
>PTHREADの方が早かったってことあったし一概に言えんわな
衝撃・・・w
よほどGPUのアーキテクチャに合っていない処理だったのでは・・・??

559 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/09(木) 20:45:53.00 ID:wvwDiGFp
HPC専用設計のプロセッサなんて使えねーっての。いまだに夢みてんなぼけ老人は。
プログラムを選り好みしてるからニッチになって廃れる。
愚者は経験に学ぶというけど学ぶことすらしないのは愚者以下だな。

560 :Socket774:2012/02/09(木) 21:33:57.19 ID:pXBzJuR0
誰も流行るとか廃れるなんて話はしてないのになw
コンプレックスが酷い…

561 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/09(木) 22:59:54.89 ID:wvwDiGFp
当たり前の話をしてるのに「コンプレックス」って発想がまず酷いwww
コモディティの価値を理解できない頭の悪さw

562 :Socket774:2012/02/09(木) 23:51:59.82 ID:IELgKTpw
FFT専用アクセラレータをCPUに積むのとおとなしくSSEだのAVXだので最適化するのどっちがマシなんだろう
アクセラレートしてもメモリ律速しちゃうから意味ないとかGPUに放り投げろとかは考えない

563 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/09(木) 23:58:38.84 ID:wvwDiGFp
いかに大衆を騙してコモディティパーツの中に浸透させるかが大事だね。
CellはPS3さえ成功してればそこそこいけたのかもしれないね。
GPUは割と現実を見てるしVenusは何もわかってない。

564 :Socket774:2012/02/10(金) 00:00:27.68 ID:XhwK8q3J
今専用ハードを使ってメリットがあるのは
bit操作とかのCPUが苦手な処理か
FPでも完全にパイプライン化できる処理
前者はDESなんかのアクセラレータ
後者はGRAPEの6までとかかな

そうでなければデータパスや(オンチップに限定しても)メモリ操作が支配的になってしまうので
汎用プロセッサでいいやということになる

565 :Socket774:2012/02/10(金) 00:06:35.27 ID:Kn7FnRJB
>>563
Venusは
与えられた制約:富士通の45nm の中で
目標:10PFのLINPACK性能
を期間内に確実に実現するという点では仕様を満たしているからね
責められるとしたら仕様を決めた奴らだろう

566 :Socket774:2012/02/10(金) 00:12:41.56 ID:ZxxOhB3t
x86でノード作ると故障が多くて10PFなんて無理

567 :Socket774:2012/02/10(金) 00:24:06.69 ID:nW/fgsZj
XeonとKnightsのオールx86でエクサ狙ってるインテルを忘れんな
最近のXeonはRAS機能充実してきたお陰でItaniumがますますいらない子になっちゃうくらいまともなんだぜ…
Itaniumの未来はどっちだ…

568 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/10(金) 00:50:15.69 ID:iklyHzHq
decimal対応のFPUってどの程度需要あるかねえ

569 :Socket774:2012/02/10(金) 01:08:11.12 ID:IIK4qOa9
Itaniumは実質PA-RISC2みたいなもんだろ
HP-UX専用CPU

570 :Socket774:2012/02/10(金) 01:12:14.92 ID:1LiFMAM+
>>564
ビット操作みたいな命令レベル以下の細粒度処理が頻出であれば
FPGAでいいんじゃないのっていう
需要があるから改良され続けて陳腐化する事もないだろうし

規格化された処理なら専用ハードを作っても
元が取れるのかもしれないが、それは暗号化とかの話であって
いわゆる専用ハード(アクセラレータ)とはちょっと毛色が違うように思える

571 :Socket774:2012/02/10(金) 01:12:33.01 ID:IIK4qOa9
HPCは、TOP500対策にLinpack性能さえよければいいよっていうなら、汎用品のCPU・GPUでやるのが一番だけど、
Linpack以外の各種指標・いろんなアプリでの実行性能を求めるなら、現状汎用品寄せ集めでは無理

Linpackだけで評価するのはスパコンの性能を決める指標としてふさわしくないから、
HPC Challenge Benchmarkができたんだし

572 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/10(金) 01:16:44.19 ID:iklyHzHq
京ってさ、なんだかんだであの大失敗といわれてるΣプロジェクトより巨額を投じてるんだよ

573 :Socket774:2012/02/10(金) 01:21:48.30 ID:IIK4qOa9
IT分野での公共事業でいちばんの失敗作は、森総理時代にあやしいベンチャーとかにばら撒いた補助金だろ
かなりの額が補助金掠め取るだけの実体のないダミー会社や、ヤクザに流れたと思う

574 :Socket774:2012/02/10(金) 01:58:51.85 ID:i0OeJmdM
GPUをユニファイド・シェーダー単位で分解してCPUに統合,
CPUからは拡張命令で明示的かつ透過的にシェーダーで
演算を行えるようになるのか

575 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/10(金) 02:24:18.73 ID:iklyHzHq
インパク(笑)とかあったねえ

576 :Socket774:2012/02/10(金) 06:22:02.76 ID:OvgPcdED
>>561
x86プロセッサがコモディティ・・・だと・・・?

577 :Socket774:2012/02/10(金) 13:03:49.44 ID:vvarBslg
DSPの1割でもいいからコーディング時のことを配慮してくれ

578 :Socket774:2012/02/10(金) 15:19:20.93 ID:bQ0xaajz
>>574
そんな細かい単位でCPUに結合しなくてもC++AMPとか(あるいはOpenCL・・・)とか言語とランタイムレベルでの統合は進んでくでしょ
それがハードウェア的にAPUほど密なのかGPUほど離れてるか、QPI版Knight的な付かず離れずくらいなのかはともかく

579 :Socket774:2012/02/10(金) 20:53:51.29 ID:zqyRaQRG
>>576
アスペは放っておけよw

580 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/10(金) 21:27:47.44 ID:iklyHzHq
どこのPCショップや家電量販店でも買えるものがコモディティじゃない理由を聞きたいね
限られた代理店しか扱ってないような限定生産品と一緒にするなよ

581 :Socket774:2012/02/10(金) 21:29:40.71 ID:r49rftB/
>>569
だな

http://www.computerworld.jp/topics/597/201155/
http://www.computerworld.jp/topics/597/201605/
>HPはIntelに対し、年額8,800万ドルものお金をひそかに支払って同チップの
>寿命を伸ばすとともに、Itaniumへの長期にわたる関与を公衆にアピールしたが、
>こうした援助がなければIntelは同プロセッサの開発を止めていたはずだ

582 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/10(金) 21:30:33.14 ID:iklyHzHq
スパコンからx86サーバへ - コモディティ化が進むHPC市場におけるデルの戦略
http://news.mynavi.jp/articles/2009/12/07/dellhpc/index.html

君のコモディティの脳内定義とそぐわなかったからっていちいち噛み付く前に少しは
ググるなりしたっていいんだよ僕ちゃん

583 :Socket774:2012/02/10(金) 21:57:40.79 ID:zqyRaQRG
あれだけARMを馬鹿にしてきて、ここに来てコモディティのメリットを強調w

584 :Socket774:2012/02/10(金) 21:59:45.40 ID:OvgPcdED
>>582
そこでコモディティ化しているのはDellとか富士通といったメーカーが作っているPC(PCクラスタ)であって
x86プロセッサはコモディティ化していないからこそIntelは莫大な利益を上げ続けられていると思うんだが。
DRAMとか価格大暴落で大変なことになってるじゃん。x86プロセッサ市場ではそういうことは起こりえない。

585 :Socket774:2012/02/10(金) 22:09:31.37 ID:BFsQKCxd
x86はコモデティ(一般製品/日用品)ではあるけどコモデティ「化」(「枯れた」
製品市場にメーカーが乱立していて差別化が難しくなった状態)には至ってないな。

586 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/10(金) 22:14:39.30 ID:iklyHzHq
>>583
は?ARMのどこがコモディティなんだ?w

587 :Socket774:2012/02/10(金) 22:16:03.63 ID:fRvtIC+7
>>583
馬鹿にしてんのは最近多いx86を駆逐してPCは全部ARM化!!!みたいなこと云う馬鹿の戯言だろう
ARMがx86と同じパフォーマンスだそうとしたらx86並かそれ以上に電力と熱と開発費を要するからな


588 :,,  ・´  ∀  `・  ,,)っ-○○○:2012/02/10(金) 22:32:38.56 ID:iklyHzHq
> x86はコモデティ(一般製品/日用品)ではあるけどコモデティ「化」(「枯れた」
> 製品市場にメーカーが乱立していて差別化が難しくなった状態)には至ってないな。

CPUやOSのアーキテクチャが独占的な支配力を持ち競争が進んだが故に
PCは低価格競争が進んだんだが。
サウンドボードが廃れ次は単体GPUが廃れようとしてる。

君は何を見てるのか?

589 :Socket774:2012/02/10(金) 23:00:13.62 ID:BFsQKCxd
>>588
なんか食い違うと思ったらあんたはx86=PCと捉えてたのか。
俺はx86=プロセッサと捉えて>>585を書いたんだ。

590 :Socket774:2012/02/10(金) 23:32:34.28 ID:OvgPcdED
>>585
なるほど。勘違いしてた。

591 :Socket774:2012/02/16(木) 16:37:48.59 ID:YKPWWUBo
http://northwood.blog60.fc2.com/blog-entry-5678.html
H.265が策定されるようだ。8k4kのスーパーハイビジョン規格、最初に再生に対応する
CPUは何だろうな

592 :Socket774:2012/02/16(木) 20:51:31.76 ID:/AU2W5X5
HD動画16本分だから大して難しくないんじゃないの
規格が通ったらすぐ出るだろ

593 :Socket774:2012/02/16(木) 21:10:55.22 ID:9Zi18Stn
というか、今の流れならむしろGPUの仕事だろ動画再生は
タブレットの貧弱なCPUでそれなりに快適に動画見れるのもGPUのおかげ

594 :Socket774:2012/02/16(木) 21:22:32.47 ID:LDWj94kO
GPU?
ただの専用回路です

595 :Socket774:2012/02/17(金) 04:54:19.71 ID:IjlhmVdr
えっ

596 :Socket774:2012/02/17(金) 08:09:04.21 ID:2k6SCFQJ
別にGPUの演算器使ってるわけじゃないから

597 :Socket774:2012/02/17(金) 11:50:05.98 ID:Nma6raC5
GPGPUならエンコが爆速という話はどうなった?
最近はめっきり聞かなくなったが・・・

598 :Socket774:2012/02/17(金) 15:09:30.63 ID:6YizBurZ
そんなの言ってるやつ居たか?
メーカーの人間だってGPGPUで高速化できるのはエフェクト適用部分ぐらいだって言っていたが。

599 :Socket774:2012/02/17(金) 15:35:35.59 ID:SDXxnTIw
CPUに比べれば早いけど画質が悪いってのが定説だった気がする。

600 :Socket774:2012/02/17(金) 18:58:00.67 ID:Ijibs9aw
画質が悪いのは10何年かけて煮詰められたCPU向けのmpeg2エンコードエンジンと同等の実装が出来なかったりするからだし
単に分岐予想だらけだったり演算が整数オンリーだったりGPUに向いてない要素が多すぎるってのもある

601 :Socket774:2012/02/18(土) 02:36:33.46 ID:cg8u9IKe
8k4kなんてGPUが余裕で死ねる

602 :Socket774:2012/02/18(土) 02:55:23.00 ID:43I7IUxB
モニタが用意されない限り個人が心配する必要はないから大安心

603 :Socket774:2012/02/18(土) 17:10:08.65 ID:R8fU8kba
>>600
最近のGPUは整数演算にも強いからスピードだけなら6コアのCPUより早いよ

604 :Socket774:2012/02/18(土) 17:25:21.13 ID:HkGIp6+a
いや単純な足し算、掛け算ならそうなんだろうけど
離散コサインだから264は

605 :Socket774:2012/02/18(土) 18:24:51.41 ID:2gPUwLbz
DCTこそGPUが最も得意な分野の一つじゃないか

606 :Socket774:2012/02/18(土) 18:50:08.13 ID:R8fU8kba
同じHighPlofileでエンコードしてみたらPhenom×6の2倍くらい早かったな。
intelの6コアとは同等ぐらいかな。

607 :Socket774:2012/02/18(土) 19:02:24.63 ID:XcEULQjU
H264はデコード時に整数演算だけでOKってだけで、エンコード時に使う演算とかは規定されてないので、
エンコーダがどんな演算やってるかなんてそれこそエンコーダ次第だろ
造ろうと思えば浮動小数点演算を使うエンコーダだって可能でしょ?

608 :Socket774:2012/02/18(土) 20:13:12.21 ID:LDxm9vh8
超越関数

609 :Socket774:2012/02/19(日) 08:09:46.24 ID:jo5fx7S/
画質から考えてx264を使ったCPUエンコ以外考えられない
GPUエンコがCPUエンコと同等以上の画質にならない限りおれは使わないよ

610 :Socket774:2012/02/19(日) 10:01:28.50 ID:oQqnYiUv
H.265とか出てもモニターも対応できないし一般人にはしばらく関係ないね。
GPUが対応するのも20nm以降でしょうしね。

611 :Socket774:2012/02/19(日) 10:02:42.16 ID:oQqnYiUv
8k4kは2k1kのいわゆるハイビジョンの16倍の高負荷だから現行のGPUではどうにもならない。

612 :Socket774:2012/02/19(日) 10:31:52.77 ID:rsqcAFRN
初期は専用チップ積んで当然

613 :Socket774:2012/02/19(日) 10:46:20.14 ID:1+wRjKQl
どうせ作成側に回れるのは、それなりに機材が安くなってからだから
CPUにしろGPUにしろ大幅に向上してる

614 :Socket774:2012/02/19(日) 11:29:03.69 ID:wFfpuHc/
>>610
動画再生支援はもともと専用チップだし対応すんの何て簡単だろ。
それほどトランジスタ食うわけでもないし。

615 :Socket774:2012/02/19(日) 12:33:55.85 ID:bXHBkRa+
普通の2K1Kでも圧縮率上がるんだから一般人関係ないなんてこと全然ない。

616 :Socket774:2012/02/19(日) 12:49:03.72 ID:sEPR00nF
誰ももう圧縮率なんて気にしてねーだろ
気にするのは放送業界だけ

617 :Socket774:2012/02/19(日) 13:11:29.01 ID:H7Aou30k
>>616
さすがにそれは無い。

618 :Socket774:2012/02/19(日) 15:58:03.25 ID:qaL0X8bw
>>607
整数DCTな上に使う行列まで仕様で決まってるが?

619 :Socket774:2012/02/19(日) 16:56:36.87 ID:rH/lkLQg
整数DCTはMPEG4/H264では支配的な処理ではない
符号化では適切なモードを選択する必要がある
動き検出にしてもCPU用のエンコーダは適応的な探索パターンを使うから分岐が多い

MPEG2なんかだと分岐はあんまりなくてよかった
そもそもMPEG2はハードウェアでの実装を強く意識したものだった

620 :Socket774:2012/02/19(日) 17:15:07.16 ID:sEPR00nF
>>617
どこに需要があるか教えてほしい

621 :Socket774:2012/02/19(日) 17:19:05.54 ID:9ObpOC4q
youtubeのような動画共有サービスやってるところだと、
圧縮率上がる方が良いんじゃないの?
端末の性能との兼ね合いですぐに採用できないだろうけど、
圧縮率上がれば、ストレージやネットワークにかかるコスト節約できるし。

622 :Socket774:2012/02/19(日) 17:37:19.03 ID:pHEvz5Zb
>>618
決まってるのはデコーダの仕様
エンコーダの仕様は決まってないよ
整数DCTを使わないといけないなんてことは無い

623 :Socket774:2012/02/19(日) 17:56:51.94 ID:qaL0X8bw
>>622
いや使わなきゃいけないからw
誤差の蓄積を防ぐために直交変換には整数演算を使わなきゃいけない
>>619の言うように動き検出なんかで使う余地はあるけどね

624 :Socket774:2012/02/19(日) 18:06:39.03 ID:sEPR00nF
話のわからん奴だなw

625 :Socket774:2012/02/19(日) 19:02:04.39 ID:Jm6Ns29Y
MPEG2のときに手抜き演算が幅をきかせたので整数演算で縛ったら
動き検出で思いっきり手を抜かれたでござるの巻

626 :Socket774:2012/02/19(日) 19:47:10.29 ID:OXUVJKha
あぁ、intelがrealの特許買ったのってこういう流れも見込んでのことか

627 :Socket774:2012/02/19(日) 20:54:59.32 ID:rsqcAFRN
>>623
使わないといけないって決まりはないって。
デコーダで再生できるならどんな手段を使ってエンコードしても問題ない。

それこそ拡張倍精度浮動小数点数を使って最後に整数に変換してもいい。
精度が上がるかは知らないけど

628 :Socket774:2012/02/19(日) 21:04:55.20 ID:R7MlpKf2
Wikipediaを見る限り、整数変換を使わない実装は非現実的に見えるけど

629 :Socket774:2012/02/19(日) 21:27:38.75 ID:qaL0X8bw
>>627
エンコーダで想定してる残差とデコーダで得られた残差が違ったら困るだろ?

つーか仕様書見たことないのか
変換行列の係数の約0.416を0.5で近似して、その分をポストスケーリングで補正
かつポストスケーリング係数を量子化パラメータと一体化させてテーブル引きにしてるんだぞ
浮動小数点演算で実装する意味がない

630 :Socket774:2012/02/19(日) 21:29:08.41 ID:qaL0X8bw
0.416じゃなくて0.414だった

631 :Socket774:2012/02/19(日) 22:06:32.62 ID:rsqcAFRN
だから何?
整数を使わないといけないなんて仕様では決まってませんが?

なんて突っ込まれてるのか理解しろよ

632 :Socket774:2012/02/19(日) 22:20:03.74 ID:ygC/6jGx
そりゃお前、整数以外を使うとか普通ありえないから、
あたりまえすぎて仕様に書いてないってやつだろ
それを仕様に書いてない、仕様で決まってないとか主張したいなら、
いいから砂場から人生やりなおせよウザいから、ってことじゃないのこれ

633 :Socket774:2012/02/19(日) 22:31:54.59 ID:WJ0VKGx0
DCTの定義式どおりの変換とH.264の仕様で決まってる整数DCTは誤差があるので
定義式どおりに浮動小数点演算で実装するのは不可。

整数演算でできる事を仕様通りだけど浮動小数点演算でやるってのなら可能だろうね。
右シフトするところをわざわざ0.5掛けて丸めるとか。無意味だけど。

634 :Socket774:2012/02/19(日) 22:32:13.37 ID:OXUVJKha
仕様で整数なんだが

635 :Socket774:2012/02/20(月) 02:49:48.57 ID:wS64Vivv
16K9Kはいつの日か……

636 :Socket774:2012/02/20(月) 08:40:05.78 ID:sC9htsZm
>>632
デコードの規格しか決まっていないのは事実だ
当たり前すぎるとかじゃなくて、それだけ決めれば十分だから
エンコードで整数でやるしかないのは、事実上そうなるだけ
因果関係理解しようぜ


637 :Socket774:2012/02/20(月) 08:40:57.73 ID:VmilH5CW
GPUで整数演算がサポートされてなかったころからGPUを使ったエンコーダはあったから、
GPGPUを使ったエンコーダは浮動小数点演算で実装してると思う。

638 :Socket774:2012/02/20(月) 09:15:29.08 ID:1v3h328I
単にGPUに専用回路埋め込んでるだけじゃねえの? そのほうが何かと楽だし

639 :Socket774:2012/02/20(月) 09:36:17.89 ID:1l+U8Qpy
昔のati avivoはcpuしか使ってない

sandyのQSVやtrinityにもエンコ回路つくから
もうあんまりGPU使ってエンコはなくなっていくのかもしれん

640 :Socket774:2012/02/20(月) 11:28:06.24 ID:9DKHC7e6
GPGPUでも整数演算できるよ
浮動小数の仮数部を流用する

641 :Socket774:2012/02/20(月) 13:11:24.02 ID:P+iyBwjC
>>636
それを言い出すならデコードを整数でやるしかないのも事実上そうなるだけなんだが。
というかエンコード側の直交変換も仕様で決まってるっての。当たり前だが。

642 :Socket774:2012/02/20(月) 14:40:24.71 ID:VmilH5CW
>>638
GPUを上位のものに変えると変換速度がちゃんと上がるから、
専用回路ってことはないと思う。
QSVは専用回路だと思うけど。

643 :Socket774:2012/02/20(月) 17:56:19.60 ID:g75+BCQj
上位だとGPUクロックが上がっているからだったりして
専用回路はGPUクロックとは独立してるんだっけ?

644 :Socket774:2012/02/20(月) 18:00:50.79 ID:bqY90Ljt
GF6800に内蔵されてたエンコーダは固定機能のハードウェアエンコーダだったよねえ
その頃のmpegとかwmvのエンコードはfp演算メインだが当時のShaderでやらせるのは面倒だったろう

645 :Socket774:2012/02/20(月) 18:01:49.62 ID:1l+U8Qpy
エンコーダあったのか知らんかった

646 :Socket774:2012/02/20(月) 18:52:14.55 ID:RD5NzzHH
ハードウェアエンコーダ載せてたのか。

647 :Socket774:2012/02/20(月) 19:28:05.03 ID:VmilH5CW
GF6800にエンコーダ内蔵されてるなんて聞いたことないけどな。
デコーダと勘違いしてるんじゃないの。


648 :Socket774:2012/02/20(月) 19:29:46.48 ID:uvQqVDtV
デコーダだろうね

649 :Socket774:2012/02/20(月) 19:54:05.74 ID:H5MZoklg
動画のデコード支援ならATI 3D RAGEU+あたりのすっげえ昔からついてるし

650 :Socket774:2012/02/21(火) 00:01:08.39 ID:RD5NzzHH
Xbox 360コアとCellの類似性
http://pc.watch.impress.co.jp/docs/2005/0909/kaigai210.htm

http://pc.watch.impress.co.jp/docs/2005/0909/kaigai04l.gif

浮動小数点演算の前にあるキューが最初は「?」でしたが、
分岐によるストールを抑えるためと分かり感心しました。

クレバーなやり方だと思うのですが、
今どきのIntelCPUとかはこの方式は採用していないのでしょうか?
段数が増えて消費電力が上がるから避けているでしょうか?
(分岐ストールの抑制は分岐予測の精度を高めることのみで対応?)

651 :Socket774:2012/02/21(火) 00:08:33.01 ID:I1psJRI1
http://pc.watch.impress.co.jp/docs/2004/0415/kaigai27.jpg
nv40のビデオエンコーダはフル機能実装してるわけじゃなくて一部の処理をオフロードって形らしいね
対応してるソフトは結局でなかったが。

652 :Socket774:2012/02/21(火) 01:18:36.34 ID:xFA+R51T
>>650
>分岐によるストールを抑えるためと分かり感心しました。
ストールを抑えるためではなくてCompletionの巻き戻しの実装をケチるためじゃないの?
ストールはどのみち発生する
ROBがあるCPUならこれは必要ない

653 :650:2012/02/21(火) 20:05:36.10 ID:YitOo1Td
>>652
そうなんですか。
ありがとうございました。

654 :竹島は日本領土:2012/02/23(木) 02:15:36.23 ID:NVJFaZy2
いつの日か中華CPUを買える日が来るのだろうか
Chinese 16 core CPU uses message passing
http://semiaccurate.com/2012/02/21/chinese-16-core-cpu-uses-message-passing/

655 :Socket774:2012/02/23(木) 04:11:10.95 ID:M4ZBuZlu
中華オリジナル()なCPUは既にいくつか出てる

龍芯:MIPSの盗用。訴えられてその後ライセンス契約。これを搭載するLinux
 ベースのネットブック発売の計画が数年前にあったが頓挫したっぽい。

神威:Alphaの盗用疑惑あり。中華スパコン「神威藍光」に搭載

656 :Socket774:2012/02/23(木) 16:35:20.24 ID:dQ3rhCog
龍芯 Godson MIPSライセンス
飛騰 FeiTeng(FT) open source SPARC instruction set
申(神)威 ShenWei Alpha?

657 :Socket774:2012/02/23(木) 16:38:38.06 ID:nP5wGKZI
http://av.watch.impress.co.jp/docs/news/20120223_514066.html
8k4kで120fps対応の撮像素子が開発されました。これがビデオカメラに乗る日も近いですね


流石のHswellさんも内臓GPU程度の性能では手も足も出ないでしょう

658 :Socket774:2012/02/23(木) 20:19:56.26 ID:IuTRFgKA
近いわけあるかw

659 :Socket774:2012/02/23(木) 22:42:00.74 ID:09xjq6DD
8k4k以下でいいから120fps〜240fpsあるいはそれ以上で撮影できる
レンズ交換可能なデジカメOR民生用ビデオが早く欲しい
EXILIM直焦点化改造とかより正式なレンズマウンタ使いたい

>>655
おうごんせんし が おきあがり なかまに なりたそうに こちらをみている!

660 :Socket774:2012/02/24(金) 00:16:15.72 ID:4KSLSGfw
>>659
黄金戦士は歴としたIntel純正のMobile MMX Pentiumを下駄に直付けしただけ

661 :Socket774:2012/02/24(金) 09:40:13.34 ID:qZjsHzLs
それよりはPentiumの刻印書き換えの漢芯を出すべきだらう。

662 :Socket774:2012/02/26(日) 13:26:18.80 ID:YOrCf6d6
プロセッサの話でたまに出てくる「リタイア」と「コンプリーション」ってどういう意味ですか??

663 :Socket774:2012/02/26(日) 23:25:02.34 ID:d3gmkG2t
>>662
専門用語なので専門書を読んでください
コンプリーションはわりとIBM用語なので一般的ではないかもしれないが誤解の余地はない

664 :Socket774:2012/02/27(月) 20:50:49.30 ID:A2eIc0P3
CPUじゃないけどエルピーダ逝っちゃったね。
益々samsungばかりになっていくのか

665 :Socket774:2012/02/27(月) 20:57:13.98 ID:DHJHc1Zn
エルピーダは製造を継続するよ
でもメモリ価格は少し上がるかもね

666 :Socket774:2012/02/27(月) 22:25:53.04 ID:2ENC+rKT
エルピーダ社長はかつてメモリ製造は将来2社になるっていってたが、それが当たったな
のこる2社にエルピーダがなれなかっただけで、
サムスンとハイニックスの2社になった

667 :Socket774:2012/02/27(月) 23:05:35.12 ID:eUex9t7D
おいまだマイクロン生きてるぞ

668 :Socket774:2012/02/27(月) 23:18:36.51 ID:XMe6r6+m
CEOが死んだじゃん。
あれはやっぱり消されたと思うんだ

669 :Socket774:2012/02/28(火) 00:21:33.53 ID:b3io9Du2
映画の見すぎ

670 :Socket774:2012/02/28(火) 01:10:25.40 ID:R5jZH30U
両方、韓国政府が赤字を肩代わりしているわけで

671 :Socket774:2012/02/28(火) 04:28:08.66 ID:CHHWWw3p
日本の半導体会社はどこも電機メーカーの一部門で、自社の製品に使うことしか考えてないような製品ばかり作っていたな
もう少し早くファブレス化とファウンドリ化を進めたり外販を意識した製品を作っていれば今より少しはまともになっていたかな?

672 :Socket774:2012/02/28(火) 04:49:56.20 ID:pN1GL2i4
ファブレス化は嫌でも進行しちゃってるでしょ。日本電機メーカーの最大の失敗は規格を一般化というかデファクトスタンダードにできなかったことにあるかもな。

673 :Socket774:2012/02/28(火) 06:42:52.91 ID:PExvyi0O
ファブレス化、とか効率の面で(つまりコストの面で)有意義だったってだけで
そんなに持て囃してどうすんの?って感じ
食糧自給の話と間接的に同じで、効率だけで人間が生きていけるなら
こんなに人口増えてない…

674 :Socket774:2012/02/28(火) 08:50:01.45 ID:QJDjShYC
世の中振動したり螺旋だったりするんです。
今持て囃されている手管が普遍的かどうか見抜いたつもりは危険

675 :Socket774:2012/02/28(火) 10:13:11.33 ID:b3io9Du2
ま10年保障のDRAMとか、私は「は?」 とは思ってたけどね。

676 :Socket774:2012/02/28(火) 11:35:10.57 ID:U/gOPeNv
10年保証とか永久保証とか、そんな長期間使ってる人は少ない&本当に壊れた時に保証をうけに来る人は
非常に少ないっていう前提で設計してあるんだしな

そもそもPCパーツなんて10年たてば実質ゴミ同然で使い道がないし
こわれてたとしてもだれも気にしない

677 :Socket774:2012/02/28(火) 11:42:54.70 ID:KiH1hsH7
寒チョンは払ってる法人税より輸出還付政策で戻ってくる額が大きいからなあ
そんな超絶チート経営してる国策企業に勝つのは並大抵のことではないよ

678 :Socket774:2012/02/28(火) 12:29:19.59 ID:CHHWWw3p
10年間保障は10年間壊れないじゃなくて10年間供給し続けるという意味かな
組み込みなら10年保障はありがたいんじゃない?

679 :Socket774:2012/02/28(火) 13:48:36.51 ID:GERg3+0m
各社の製造部門が海外勢に各個撃破されて競争力が無くなった後に税金でゾンビ企業を誕生させてもな

露光装置も既に日系二社のシェア合わせても半分行かなくなっちまったのに未だに合併とか強化策が出てこない
現状まだ圧倒的なシェアを誇るもやはりインゴットやウェハを手掛ける二社もいずれああなりかねない

半導体族議員はいないのかよおい

680 :Socket774:2012/02/28(火) 17:46:07.81 ID:b3io9Du2
>>678
いや、PC向け。

「技術で勝って経営で負けた」という言い分の真実 日本半導体の栄枯盛衰(後篇)
http://jbpress.ismedia.jp/articles/-/2554

681 :Socket774:2012/02/28(火) 18:16:21.08 ID:XIEYsD28
技術力があるのが何人いたかってことじゃないの?
その他大勢な人たちの集団だった?

682 :Socket774:2012/02/28(火) 22:20:18.19 ID:TiDErbKz
技術者が自分のオナニー技術は世界一自慢してただけってこと
顧客がそんな技術いらんつって買ってくれないのに
んで客が欲しいものを作る技術は低いというアホさ
液晶も露光装置も太陽電池も全部同じ構図なんだな

683 :Socket774:2012/02/28(火) 22:38:16.35 ID:QJDjShYC
マクロの経済政策があんなでは、
一企業の多少の技術優位なんて簡単に覆される

684 :662:2012/02/28(火) 22:40:00.08 ID:hIadcYe6
>>663
分かりました。
調べてみます。

685 :Socket774:2012/02/28(火) 23:58:30.82 ID:xVriD+1Z
DRAMみたいな労働集約型産業は最初から日本に勝ち目ないよ。
知識集約型産業も衰退してるのが日本のエレクトロニクス業界の問題。

686 :Socket774:2012/02/29(水) 02:02:38.64 ID:n2KgQ/7o
一番の決め手はシャレにならないほど円高が進んだことと
逆にシャレにならないほどウォン安が進んだことだよ。

韓国ウォンは4年間で価値が半減しているからメモリのドル価格が半額になってもウォンベースではとんとん。
逆に日本円は4年間で価値が1.5倍しているからメモリのドル価格が同額だったとしても円ベースでは3割以上の減収。

これでは戦えるわけがない。

687 :Socket774:2012/02/29(水) 02:23:37.82 ID:bgJwWdqM
>>676
不具合があったら交換するから「検査を省略しますよ」
っていう、コスト低減のマジックだったりするしな。

688 :Socket774:2012/02/29(水) 03:38:23.62 ID:of6xfo1I
日本に技術力があるなんて、飛んだ戯言だ
いったい何を見て言っているんだか、理解に苦しむ。

エロPとイソр比べようにも、仕事の誠意も
組織的な目的遂行能力も、比べるべくもない。
そこに会社の大きさは関係ない。

技術力てのは新しいオリジナルを作っていく能力のことで、
古いものをコピーする力じゃないと思うんだがな。


689 :Socket774:2012/02/29(水) 04:26:25.33 ID:6lWDfMJn
古いものを安く高品質に作るのも立派な技術力。それをさらに効率化させるための技術にも当然価値はある。

効率化が限界を迎えたら、最後は人件費なんで貨幣価値の安い新興国にはかなわないわけだが。

690 :Socket774:2012/02/29(水) 04:55:12.87 ID:2btCc/ji
ペーパーカンパニーみたいなところは少ないような、日本の場合?

691 :Socket774:2012/02/29(水) 06:39:56.02 ID:CYgL0yy0
DRAMや液晶はその「古いものを安く高品質に作る」技術で負けたわけだがな

692 :Socket774:2012/02/29(水) 06:46:39.58 ID:pJG1mXfk
負けたというかダンピングに勝者はいない

693 :Socket774:2012/02/29(水) 09:09:24.66 ID:KCHEpsbc
まあ、メーカーが減ってきたら上がるだろ

694 :Socket774:2012/02/29(水) 09:21:38.92 ID:TakvVGG9
メーカーが2社とそれ以上の数とで一体どれだけの差があるのか

695 :Socket774:2012/02/29(水) 10:32:52.57 ID:L5pbia4S
この手のネタになると例に違わず
チョンとユダの工作員が湧いてくるな

696 :Socket774:2012/02/29(水) 11:59:23.55 ID:of6xfo1I
>>689
> 古いものを高品質に作る
この能力が日本にあることには同意

だが、
> 安く
これはないな。

そもそも、非効率こそが日本のお家芸だと思うんだがw


697 :Socket774:2012/02/29(水) 12:14:38.04 ID:UZXWAqjR
>>696
日本で効率が悪いのはホワイトカラーっていわれてるな。
工場はましな方だし、省エネのような明快な尺度がある方面も優秀

698 :Socket774:2012/02/29(水) 12:19:50.00 ID:UZXWAqjR
看板方式もセル方式も日本が発明。どっちも万能ではなく弱点はあるが。

ホワイトカラーの仕事において、こういう工場の例に匹敵するような
日本発の方法論てあまり聞かない。なにかあったっけ

699 :Socket774:2012/02/29(水) 18:09:06.23 ID:uYKUtu6m
>>698
「Karoshi」
幸い欧米ではあまり採用されていないようだが


700 :Socket774:2012/02/29(水) 19:18:37.59 ID:lXCaExvJ
>>699
Karoshiワロタw

701 :Socket774:2012/02/29(水) 23:20:26.82 ID:4FCnq1Kn
たとえ過労死で多少死のうが経済発展したほうがみんなが豊かになる

702 :Socket774:2012/03/01(木) 00:26:08.21 ID:/y8qnYz6
豊かって何だ
みんなって誰だ

703 :Socket774:2012/03/01(木) 00:28:33.91 ID:N1/cfOdA
福井県のことさ
ヤクルトの投手さ

704 :竹島は日本領土:2012/03/01(木) 00:51:22.53 ID:9D9iIawY
CPUスケーリングの将来について,今後は素材が鍵になる?
http://www.extremetech.com/extreme/120353-the-future-of-cpu-scaling-exploring-options-on-the-cutting-edge

705 :Socket774:2012/03/01(木) 01:02:47.97 ID:rZ683c/g
CPUアーキテクチャーは汚い方が勝つ。美しくてもコストが掛かるアーキテクチャーは消え去るのみ。その意味でARMの64bitは失敗が約束されている。

706 :Socket774:2012/03/01(木) 01:04:00.67 ID:rplGFEIT
>コスト
?

707 :Socket774:2012/03/01(木) 01:08:27.21 ID:/Zsrp7Au
綺麗なところから汚いものは作れる。
逆は無理。

708 :Socket774:2012/03/01(木) 01:13:17.98 ID:N1/cfOdA
速いCPUこそ美しい
それ以外の基準はバカの戯言

709 :Socket774:2012/03/01(木) 01:16:40.71 ID:rplGFEIT
速度競争に引き込んだけど、頭打ちが早かったよね

710 :Socket774:2012/03/01(木) 01:17:28.75 ID:N1/cfOdA
むろん電力効率など指標は様々だが、審美学を持ち出すのはバカに限るということは不変

711 :Socket774:2012/03/01(木) 01:17:30.04 ID:nOCIrzf3
?
放射線に強いのも美しいよ?

712 :Socket774:2012/03/01(木) 01:22:38.31 ID:N1/cfOdA
そういう意味では今日美しかったものが明日は醜くなるのは必然

713 :Socket774:2012/03/01(木) 01:35:56.87 ID:rplGFEIT
atomicな処理が苦手なのは今後不利になってくんじゃねえの?

714 :Socket774:2012/03/01(木) 03:03:07.50 ID:xQXxO0Ky
>>708
モトローラで68040とか68060とか開発してた奴らに言い聞かせてやりたくなる言葉だ。

たしかにプログラム開発の面では綺麗なアーキテクチャだったんだろうけど、
そのための能力(動作速度)コストが過剰で、結局は墓標に化けたんだよな。


715 :Socket774:2012/03/01(木) 03:35:39.97 ID:31Xr9VTO
壮大な神の経綸に依りて
人類を滅ぼす

716 :Socket774:2012/03/01(木) 03:40:30.46 ID:31Xr9VTO
異星人から技術供与を受けて開発中のCPUに期待したい。
コードネームは当然「Roswell」

717 :Socket774:2012/03/01(木) 03:42:35.60 ID:nOCIrzf3
モルダー、あなた疲れてるのよ

718 :Socket774:2012/03/01(木) 04:59:12.27 ID:0fRvi4V8
>>716
仮に異星人いるとしても、連中の使用してるコンピューターも2進数のデジタル
式だろ?単にシリコンよりスイッチング速度速い素材を使っているだけで。
基礎は地球製と変わらないと思うんだが。

719 :Socket774:2012/03/01(木) 06:15:57.02 ID:euTzijZw
異星人のテクノロジーも大したことなさそう。地上では普通に車で移動するっぽいし。

http://www.aliencomputertechnologies.com/

720 :Socket774:2012/03/01(木) 07:51:34.20 ID:V+1olasJ
>>716-717
ワロタw

721 :Socket774:2012/03/01(木) 07:54:52.62 ID:/HhzF3Rz
もともとCPU技術なんてない。メモリは死に、HDDは壊滅、Tronなんてなかった
一体エレクトリック大国神話の根拠は何だったのか

722 :Socket774:2012/03/01(木) 08:03:38.75 ID:V+1olasJ
電子立国日本とは一体何だったのか

723 :Socket774:2012/03/01(木) 08:04:22.66 ID:zBwXA64R
oioi
CPU技術はあったし、メモリは世界を席巻したし、HDDは優秀だったし、Tronはイケてたよ。
長期的に見れば我々は皆死んでいる。
神話の根拠よりも、神話崩壊の根拠を探そうぜ。

724 :Socket774:2012/03/01(木) 08:36:56.72 ID:/HhzF3Rz
はははCPUはコピペ
アップルの尻に乗っかることしかできない日本の携帯端末企業
何も変わってない

725 :Socket774:2012/03/01(木) 09:02:19.04 ID:T4B8X1v5
日本に足りないのは小汚いマーケティング力
言い換えれば必死さ

潰れる寸前になって汚い事をし始めるなら、最初からこずるくなっとけよ。
それか潔く座して氏ねと。

倒産寸前の会社が見苦しく詐欺まがいのことをし始めるのが見苦しい。

726 :Socket774:2012/03/01(木) 10:55:31.53 ID:79wJlxn9
小汚いビジネスをする人間は増えてるんじゃないかな
ソーシャルゲームとか。ハードウェアではいないけど

727 :Socket774:2012/03/01(木) 11:04:53.18 ID:rplGFEIT
ワークステーションがもてはやされた日本のバブル期
速さだけでも、普及はしなかったってことじゃあ

728 :Socket774:2012/03/01(木) 12:02:43.27 ID:rYTnfceb
まぁでもこういうハナシもあるワケで... http://anond.hatelabo.jp/touch/20120229223543

729 :Socket774:2012/03/01(木) 13:10:00.64 ID:79wJlxn9
>>728
>2chとかで、韓国ハイテク製品の劣悪さを書き込んでるやつらは
>何も知らないくせによく言うぜとか。

ネラーの言い草は噴飯物なのかもしれない。だが、
メモリーなどごく少数の品目で例外的に技術があるだけかもしれない。

鉄道や建築や韓国軍の装備品など数々の失策とかあるわけで、
韓国の人材はサムスンなど一部に偏ってるんだと思うよ

730 :Socket774:2012/03/01(木) 15:37:25.67 ID:X/VjkXRQ
・高い技術力があるから商売で成功する
・商売で成功してるから研究開発に巨費を投入して技術力が高くなる

日本メーカーや日本人の多くは前者が正解だとおもってたら実態は後者だったっていうオチ
アメリカの半導体メーカーでも、インテルなんかは商売で成功し続けてるから、
研究開発に巨費を投じて技術でもトップに立ってる
韓国の電機メーカーも、技術では劣勢だったのに商売で成功し、
それで研究開発に巨費を投じたので技術でもトップになった

731 :Socket774:2012/03/01(木) 15:39:29.98 ID:X/VjkXRQ
ちなみにインテルなんてかつては技術的にはたいした会社じゃなかったんだよな
それでも、商売の成功を生かして研究開発・設備投資に巨費を投じだから
技術でもトップになった

732 :Socket774:2012/03/01(木) 19:49:23.20 ID:+LuiOlX6
量は質に転嫁するって事かな
販売量増加→開発費捻出→質の向上
日本企業のこのサイクルが壊れ始めたのはいつ頃なんだろう
そしてどうして競合を見ないやせ我慢を続けたんだろう

733 :Socket774:2012/03/01(木) 20:53:26.87 ID:rJw5e/VN
劣等民族のチョパーリかわいそうニダ(´;ω;`)
ウリナラのCPUとメモリをOEM供給してやるニダ<丶`∀´>

734 :Socket774:2012/03/01(木) 21:45:03.08 ID:RZP1MZu7
>>732
だよな。SEDテレビも結局発売できなかったし

735 :Socket774:2012/03/01(木) 21:46:27.02 ID:V8QhLUeF
まとまった設備投資を必要とするような段階になると日本は弱いよな

736 :Socket774:2012/03/01(木) 21:50:33.77 ID:nBBRtX7L
SED
そんなのもありましたね

737 :Socket774:2012/03/01(木) 22:23:30.43 ID:MbBdnac+
日本の敗因の一つは、よく言われることだが
標準化を軽視したことだと思う。
デファクトスタンダード、ISO、等々。
ガラケーがいい例だ。

もっと言えば、市場の公正がもたらす意味を
理解せず、目先の利益で経営方針を
ころころ変える会社が多いと思う。

市場の公正はコンプライアンス上の縛り、と
のみ捉えるのは浅薄過ぎる。

むしろ積極的に競争相手を作ることで、
一時的に自社の利益を減らしてでも、
長期的に市場の存続と拡大を望む視点が
日本の経営陣には欠落しているのではないだろうか。


738 :Socket774:2012/03/01(木) 22:36:11.15 ID:79wJlxn9
>>737
携帯以外にも例をあげてくれるとうれしいな

739 :Socket774:2012/03/01(木) 22:40:23.55 ID:rJw5e/VN
スマートフォンもタブレットPCもOEM供給してやるニダ<丶`∀´>
チョパーリは従軍慰安婦を輸出すればいいニダ<丶`∀´>


740 :Socket774:2012/03/01(木) 22:42:56.85 ID:ObCLUQEw
民主党という根本的な原因に誰も触れない件

741 :Socket774:2012/03/01(木) 23:08:27.24 ID:97ZM6/Jl
>>737
むしろ製品が標準化されたことにより、技術がある一定のレベルに
達するとイノベーションが飽和してしまい、製品の差別化が要素が
価格に収れんしたにも拘らず、低コスト化戦略を取れなかったことが敗因。

標準を主導する企業は、その標準が陳腐化しないようにすることで
製品の脱成熟を図る。これが出来る企業をプラットフォームリーダという。

742 :Socket774:2012/03/01(木) 23:13:36.76 ID:N1/cfOdA
そんなこと書いていて恥ずかしくないの?

743 :Socket774:2012/03/02(金) 04:58:31.48 ID:zjDU/+Os
ダイスタッキングが進化すると今のような基板のメモリモジュールは消滅し、いくつかのメモリダイを搭載したLGAタイプの
チップをソケットに装着するような形式に移行するだろう
そうなれば接続の電気的特性が改善して現在の数倍の周波数で接続できるようになり、接続ピン数も大幅に増やせるため
帯域が大幅に向上する
この時代には一般のパソコン程度のメモリはすべてCPUパッケージ内に搭載されることになり、メモリソケットを持つコンピュータは
サーバのみになると予想する

744 :Socket774:2012/03/02(金) 07:07:33.61 ID:66XSrY+O
とはいえ、現在の(PC用)CPUでさえ、286のころのPCのメインメモリなみのキャッシュ積んでるからなあ

745 :Socket774:2012/03/02(金) 08:06:49.77 ID:VBLJWOQ5
98しか頭にないから640kbすか

746 :Socket774:2012/03/02(金) 08:54:38.50 ID:7ARSwjP0
486の頃でも4〜16MBくらいだったよな
DX2 8MBでWindows95動かしてたのが懐かしい

747 :Socket774:2012/03/02(金) 18:32:58.69 ID:NAo/evpT
イノベーションって簡単にやれるようなもんなの?

748 :Socket774:2012/03/02(金) 22:46:32.42 ID:AEdHC/Pa
やれません!

749 :Socket774:2012/03/02(金) 23:11:51.27 ID:cH+mJFAs
もしも簡単にやれたら、多数生まれてくることが当たり前になり、
そうなると、一段違う当たり前ではないモノにしか価値がなくなり、
そちらがイノベーションと呼ばれるようになる

750 :Socket774:2012/03/02(金) 23:20:31.35 ID:VD9+SeP/
コロンブスの西インド諸島発見はイノベーション?

751 :Socket774:2012/03/02(金) 23:39:42.17 ID:6FAYKOfP
ノーバントノーボール作戦

752 :Socket774:2012/03/02(金) 23:44:33.74 ID:TTsu9csH
あれは帰りの航路を見つけたのが大発見だったらしいから
あえていうとパラダイムシフトかな。

753 :Socket774:2012/03/04(日) 01:15:03.27 ID:vNSAhjQG
>>746
今だったら、OSを含め、すべてキャッシュに乗るんだよな。
と言うことは、20年後にはwindows7の環境がキャッシュに収まっているんだろうか?

754 :Socket774:2012/03/04(日) 01:19:38.49 ID:3EpX7vRq
今のアプリは肥大化してるから、全部乗せるのは無理なような
無駄な処理がhddに移動してるだけじゃ

755 :Socket774:2012/03/04(日) 01:40:08.94 ID:IYWSM9fN
あらゆる機能をCPUに集約する方向に進みそうだね
自作PCはますます廃れそうだ

しかしCPUとメモリをワンパッケージ化するとしたら
メモリメーカーと協業でできる範囲を超えそうな感じ
IntelはMicronを買収でもするのかな

756 :Socket774:2012/03/04(日) 02:04:24.94 ID:+dakupAO
>>753
ムーアの法則が健在なら約1000倍のトランジスタを使えるから載せられる
しかしまぁ無理だろう

757 :Socket774:2012/03/04(日) 02:17:49.68 ID:3EpX7vRq
頭打ちした法則に意味があるのかいな?

758 :Socket774:2012/03/04(日) 02:22:02.33 ID:+dakupAO
いままでどんなけ半導体の進歩にフリーランチしてたかを思い知るためだな

759 :Socket774:2012/03/04(日) 02:25:50.57 ID:6xRpUcuv
>>757
むしろ、その他の条件は頭打ちか悪化してる中で
ムーアの法則だけが続いてる感が

今後はトランジスタを無駄遣いしてでもワットパフォーマンスを上げるか、
マルチコア・メニーコアでソフトウェアに性能向上の責任をたらい回すか
たぶん両方を並行して試みる事になるんだろうけど

760 :Socket774:2012/03/04(日) 02:30:46.04 ID:+dakupAO
そこまでコストを掛けないと進歩できないならもう今くらいでいいんじゃね
という風になると悲しいな

IT業界の投資効率の高さは半導体の指数関数的な進歩に裏付けされていたわけで
製造業並みにしか進歩しないようになると金回りが一気に悪くなりそうだ

761 :Socket774:2012/03/04(日) 05:17:02.33 ID:ky2eo+8H
指数関数的に高性能化したおかげで、かつては50万くらい出してPC買ってた状況から、
PCなんて5万もあれば十分みたいになったけどな

あと、PCが安くなったのは、クロックが上がらなくなって一般人がなにで性能を判断すればいいか
わからなくなったのもあるとおもう

かつてはクロックが早ければ早いほど高性能っていうのは、かなりの素人でも理解できたので、
クロックが高いのを買おうとする動機がうまれて、結果として高いモデル買う人が多かった
いまじゃ安いモデルでも高いモデルでもあまりクロック変わらない

いまは、iPhoneは32Gより64Gのほうがいいみたいにフラッシュ容量で性能を判断する時代

762 :Socket774:2012/03/04(日) 19:23:59.24 ID:3EpX7vRq
周辺その他もろもろがコスト競争して、手頃な値段になったってだけでしょ
クロックうんぬんは一部のパワーユーザーが騒いでただけのような
パワー競争に引き込んだってのもあるかも
ゲームマシンとしてパソコン使うにはCPUパワーが必要な作りになってる?

763 :Socket774:2012/03/04(日) 20:13:25.69 ID:NVBWvH+s
ムーアの法則はアナリストみたいな人が法則と言ってるだけで実態はロードマップみたいなものなのでは?
まだしばらくは頑張るみたいだけど、現場ではあらゆるコストとデメリットが膨れ上がってて大変なんじゃないかと。

今後周辺回路のSoC化を終えれば、トランジスタの使い道も苦労しそうで状況や用途に合わせた専用モジュールが増えていきそうですね。

764 :Socket774:2012/03/06(火) 08:30:17.63 ID:yVkKTv2y
>>759
これもそうだね。トランジスタを省エネに使う。

ARMが次世代CPU「Atlas」と「Apollo」の計画を発表
http://pc.watch.impress.co.jp/docs/column/kaigai/20120214_511793.html
そして時代はARMサーバーとARMスパコンへ
http://pc.watch.impress.co.jp/docs/column/kaigai/20120221_513347.html

765 :Socket774:2012/03/07(水) 17:15:33.57 ID:04ITh559
微細化が色々厳しくなってるし今後
半導体産業の方向性が大きく変わりそうだね

Intelでさえファウンドリ事業やら450mmウェハーへ
移行推進だの言って
最先端プロセスで利益を維持しようと苦労してる
GFやTSMCはそれ以前に32、28nmで歩留まりをあげられない

未来の見通しにしても
EUV露光は光源開発で大幅に遅れてるらしいし
液浸+マルチパターニングで
コストが上がる一方じゃ微細化進める意味ない
下手すると14nmかその次ぐらいでCPUのプロセス開発は終了しそう

766 :Socket774:2012/03/07(水) 19:56:14.85 ID:v1o0/bll
以前に比べて絶対性能の向上を求めるCPUユーザーは減った。
しかし電力当たりの効率向上は依然として求められている
(モバイルではバッテリー、データセンターではランニングコストからの
プレッシャーが強いわけで)

後者だけでプロセス開発のコストが捻出されるかどうか、かなー

767 :Socket774:2012/03/08(木) 00:44:01.18 ID:aHagKqik
EUVはたった数社・・・しかも実質Intel以外息切れ状態じゃ、開発スピードが加速しなさそう
そのIntelも22nmの出荷が遅れているし。

768 :Socket774:2012/03/08(木) 05:43:00.55 ID:ThyS9x86
↓どう思う?
ttp://semiaccurate.com/2012/03/07/tsmc-suddenly-halts-28nm-production/

769 :Socket774:2012/03/08(木) 07:09:39.78 ID:RuRXxuCU
ガセニダ
NVのGK104が上手くいっているニダ

770 :Socket774:2012/03/08(木) 09:51:13.69 ID:1WxhnXZ/
>>766
データセンター等は、性能基準→性能/電力基準ときて
今では性能/電力/価格基準になってきているからな。
処理量当たり価格が導入コストを含めると下がらない、という状況になったら、
プロセスを進める余地があっても歩みは止まるだろう。

771 :Socket774:2012/03/08(木) 09:55:18.55 ID:xUPjuHSR
GFが2015年にEUV採用らしいけど、大丈夫なのかな。
IntelはEUV採用はどんどん遅らせて、11nmも液浸でいけるって言ってるけど。

772 :Socket774:2012/03/08(木) 15:22:48.06 ID:SpJcoCAz
iPhone・iPadで、モバイルでも高精細ディスプレーが当たり前になったが、
現状じゃディスプレー解像度に対して、モバイル用GPU・CPUパワーが十分ではない

デスクトップ用じゃCPU・GPUもコアゲーマー以外には十分なパフォーマンスを持ってる

773 :Socket774:2012/03/08(木) 20:44:31.01 ID:l1KcqrMK
あんな小さい画面にあの解像度は意味あんのかね。

774 :Socket774:2012/03/08(木) 21:38:39.72 ID:cf/kvMkX
3Dにすれば解像度は2倍必要だな
3D表示が必要かどうかは別の問題とする

775 :Socket774:2012/03/08(木) 21:39:47.15 ID:s07YhWne
>>773
至近距離でみる場合には、PCディスプレイは画素が粗すぎる


776 :Socket774:2012/03/08(木) 22:12:01.35 ID:hzHwCNOK
というか、一度見てみろ
新iPadはまだ見たことないけど、PC用の技術展みたいなので、あのくらいの密度のパソコン用ディスプレイ見たことあるんだが
目がすげえ楽だぞ。ものすごく見やすい。まるで紙を見てるような

早いとこパソコンにもあのくらいのディスプレイが出てきてほしいもんだ

777 :Socket774:2012/03/08(木) 22:39:33.56 ID:t1WIXIO1
本を読むように使うにはnew iPad くらい解像度がある方が楽だろう。
しかし、本のように見る場合はバックライトではなく
反射型(かつ高コントラスト)の方が楽だが

778 :Socket774:2012/03/09(金) 01:13:09.49 ID:+Zu1+NQJ
eInkは見やすくて良いね
アレみると液晶でブックリーダーはやっぱりちょっと……ってなる
欧米のペーパーバックみたく藁半紙に毛の生えたような代物の代替なら別だろうけど

779 :Socket774:2012/03/10(土) 16:07:31.02 ID:Mwp43MPU
新ipadはiphoneよりぜんぜんDPI低いじゃん
Samsungの新型は2560x1600らしいし、早いところ10型タブは3072x2304くらいが当たり前になってほしい

780 :Socket774:2012/03/10(土) 17:14:07.72 ID:YsH/Rxr4
フルHDのテレビやPCモニタより高解像度なのかよ
そんなに解像度あっても意味なさそう

781 :Socket774:2012/03/10(土) 17:28:57.72 ID:zlQ3UXV6
各原色が二階調だからタイリング(網点やFMスクリーニング)で中間色を
表現する印刷物だと600dpiとか1200dpiとかが必要だけど、ピクセル
自体の輝度が多諧調な液晶やELなら精々200〜300dpiで充分で、それ以上
精細化しても意味が無い。

782 :Socket774:2012/03/10(土) 17:30:02.52 ID:wqZgwy+Y
最初iPhone 4なんてイラネ言ってた3GSユーザーが
Retinaディスプレイ見て「もう3GSの画面見てらんない」と心変わりしたように
一度2048x1536を目にしたら旧iPadには戻れんよ

http://cdn.pocket-lint.com/images/Fq2W/ipad-retina-screen-how-good-0.jpg

783 :Socket774:2012/03/10(土) 22:54:31.47 ID:I1i8PDRY
たかが画質なんて3日使ってれば慣れる

784 :Socket774:2012/03/10(土) 22:57:20.24 ID:fVNLvEsn
>>782
こりゃすごいな・・・
10インチ程度の画面にオーバーフルHDは過剰かとオモタが、
これを見ると認めざるを得ないな・・・

785 :Socket774:2012/03/10(土) 23:07:39.38 ID:6eKwT4ha
>>783
新PC組むとその速さにすぐ慣れてしまう
そして前のやつ使うと超遅く感じる、その後3日使い続けても遅く感じる

進化にはすぐ慣れるけど、退化には違和感を感じるのが人間の感覚

786 :Socket774:2012/03/10(土) 23:20:07.02 ID:fVNLvEsn
そうやって人類は進化してきたんだな・・・

787 :Socket774:2012/03/11(日) 01:27:59.61 ID:JfM7yOiD
なんで早速ステマ沸きまくってんの?

788 :Socket774:2012/03/11(日) 02:59:43.20 ID:fyjyNR/z
ウルトラブック終わったかな

789 :Socket774:2012/03/11(日) 03:07:14.06 ID:YKbrlLJR
Intelの「ノートブックじゃありません!ウルトラブックです!」が笑けてしょうがないw

790 :Socket774:2012/03/11(日) 03:40:04.21 ID:JfM7yOiD
>>771
GFの場合は2015年どころか、今年の28nは大丈夫なのかっていう

791 :Socket774:2012/03/11(日) 08:55:52.06 ID:49O7Jr4i
Androidには、例の緻密なディスプレイの機種が出てくるんだよな
PCは本格的な作業用なはずなのに、iPadやAndroidタブレットに置いていかれてる

ドット細かくなくてもいいからせめてタブレットの全画面を表示できるディスプレイを安く出してくれ

792 :Socket774:2012/03/11(日) 19:38:32.36 ID:Y/ExEY6V
需要がないからでないだろ。

793 :Socket774:2012/03/11(日) 19:48:08.97 ID:ElYNqETY
高精細なモニタはいいんだけど、結局大きいモニタの代わりにならないからな。

794 :Socket774:2012/03/11(日) 19:49:17.50 ID:nibdnmrZ
デスクトップPC用には、23インチ4k2kディスプレーが必要だな

795 :Socket774:2012/03/11(日) 20:30:33.29 ID:Y/ExEY6V
なんでだよ

796 :Socket774:2012/03/11(日) 20:40:37.17 ID:mqo25yMZ
Pentium4時代には15インチQXGAのノートPCが売られていたわけだが…

797 :Socket774:2012/03/11(日) 20:58:03.49 ID:QYR2iPRh
Windows側が高精細に対応したインターフェースじゃなかったからな
文字が小さいだけで読みにくくなったり、文字大きくしてもアイコンその他のサイズがうまくマッチングできなかったり

798 :Socket774:2012/03/11(日) 20:59:21.45 ID:qXp4phcU
Windowsとアプリが高解像度のディスプレイに対応しきれていないのがな
今は亡きLonghornの理想はどこへいったのやら

799 :Socket774:2012/03/11(日) 21:11:38.07 ID:Xx4uAkbc
OSやアプリの高解像度ディスプレー対応が先か、高解像度ディスプレーの普及が先かってところだな

iPhone/iPadは、ハード作ってる会社と、OS・標準アプリ作ってる会社が同じだったから、
ハード・OS・標準アプリ足並みそろえて対応した

800 :Socket774:2012/03/11(日) 22:34:15.14 ID:1glAnz0/
NeXT STEP の時代に既にDisplayPostscript で解像度非依存が
目指されたのに普及は遅々として進まない

801 :Socket774:2012/03/12(月) 02:06:28.73 ID:64cNB2mf
安藤さんの経歴詳しい人いない?
SPARCに携わってたらしいけど、アーキテクトレベルだった??

802 :Socket774:2012/03/12(月) 11:36:39.48 ID:jXtcuU7j
http://www.ieice-hbkb.org/portal/doc_writer_detail.html?wid=81

803 :801:2012/03/12(月) 18:49:04.35 ID:64cNB2mf
>>802
ありがとう!
やはり、なかなかの経歴!

804 :Socket774:2012/03/13(火) 12:12:52.51 ID:26S3dBJ4
htmlで解像度非依存化が進むかと思ったけど、結局、見た目にコダワルでざいな〜達によって
解像度非依存は達成されていない…

flashとか使いまくってるしな。

805 :Socket774:2012/03/13(火) 12:34:24.26 ID:szME4YoM
Retina iPad並みの高解像度でFlash描画したらCore i7レベルでも
フレーム落ちするコンテンツはザラにありそうだが

806 :Socket774:2012/03/13(火) 17:02:31.30 ID:B5o3vgqC
html で論理構造、意味的内容と
視覚的具体化とを分離するはずだったのになー

807 :Socket774:2012/03/13(火) 18:00:35.38 ID:IEk60nAw
でざいな〜様には歯向かえませんわ。

808 :Socket774:2012/03/13(火) 19:27:55.23 ID:htH2St66
フレーム落ちを防ぐためには、GPGPUとか、FPGAや専用のDSPとか、ASICなんかを
混載させたりすればいい。

809 :Socket774:2012/03/13(火) 21:41:00.20 ID:T8i/X/Ry
単純スケーリングだからそれほど高負荷にはならないだろ。

810 :竹島は日本領土:2012/03/14(水) 01:29:08.25 ID:rQE6mdJQ
Freescale Releases 28nm 12-Core and 8-Core 64-bit Power CPUs
http://www.brightsideofnews.com/news/2012/3/12/freescale-releases-28nm-12-core-and-8-core-64-bit-power-cpus.aspx

811 :Socket774:2012/03/17(土) 05:35:25.36 ID:PN/Q0xI9
ところがどっこい
Flashの2DレンダラーはCPU描画なんです。

GPUアクセラレーションがきくのはあくまで埋め込み動画の再生の部分だけ
そりゃAppleが嫌うわけだ

812 :Socket774:2012/03/17(土) 19:13:48.17 ID:9ROe3+PV
CPUはバク速頭打ち、そのかわり、GPUその他の周辺がインテリジェント化って流れになっちゃたよね

813 :Socket774:2012/03/18(日) 15:44:02.88 ID:PvXIbDA7
Flashは、10.0ベータ版の初期の頃はかなりの部分をGPUで処理してCPU負荷がかなり軽くなった
でも、たぶん特定のGPUやデバイスドライバでうまく動かない等の互換性問題の解決のためか、
いろんな部分をCPU処理に戻して、CPU負荷がどんどん高くなった

814 :Socket774:2012/03/19(月) 20:49:02.67 ID:MeKN07U8
久々に来たんだけどコテハンを初めとして
熱い闘いを繰り広げてた人達はどこいったのー?
(´・ω・`)

815 :Socket774:2012/03/19(月) 21:45:45.61 ID:egPtCAvI
団子さんは闘志を失ったのかな?

816 :Socket774:2012/03/19(月) 23:59:12.05 ID:B5h/pvzv
たぶんこっちで虐められてる↓
http://awabi.2ch.net/test/read.cgi/phs/1331128938

817 :Socket774:2012/03/20(火) 05:32:36.90 ID:1uAQerWS
団子ならAMDスレかプ板にいきゃ見られるよ

818 :Socket774:2012/03/20(火) 07:40:58.22 ID:wBD5UFGJ
>>817
え?プロレス板?

819 :Socket774:2012/03/20(火) 22:45:40.30 ID:5kMMT8Y2
A5Xデカすぎじゃね?
http://www.anandtech.com/show/5685/apple-a5x-die-size-measured-16294mm2-likely-still-45nm

820 :Socket774:2012/03/21(水) 09:27:22.44 ID:/nD9vbu4
Appleくらい売れないと元が取れないな

821 :Socket774:2012/03/21(水) 10:06:21.56 ID:mGdMfk1k
>>819
28〜32nmで出る次のiPadまてばよろしい

822 :Socket774:2012/03/21(水) 12:18:29.18 ID:1lDzW+Ux
まあ、GPUだろうしな、でかくなった分は
そのくらい足回りしっかりさせとかないと、画面が4倍になってるんだから厳しいんだろう

823 :Socket774:2012/03/21(水) 21:18:22.29 ID:zRmohq8I
http://semiaccurate.com/2012/03/21/ibm-power-7-spotted-and-it-is-a-monster/

きたか…

824 :Socket774:2012/03/21(水) 21:26:42.06 ID:k60sQUHp
>>823
要約してちょ〜。

825 :Socket774:2012/03/21(水) 21:45:05.35 ID:zRmohq8I
リンクを開け。英語読め。




次世代Power7+(のプロトタイプ?)は4CPUダイをひとつのInterposerに搭載してパッケージングされるとのこと。
でもCharlie割とDisり気味だな。4つも乗せての熱問題とか、なんでeDRAM乗せないとかInterposer以外の点で。まあそんな冒険してほしくもあるがIBMらしいといえばらしい。

826 :Socket774:2012/03/21(水) 22:01:46.89 ID:k60sQUHp
>>825
ありがと〜 ( *´3)゚д゚) -chu!

827 :Socket774:2012/03/21(水) 23:03:45.60 ID:VmmxW5eP
Power7がでかくて熱くてしょうもない子だっただけに熱の問題はまあたしかにあるな
あの大容量eDRAMキャッシュなくなったら足回りに不安があるのも確かだし

次期Itaniumちゃんとどっちがマシか勝負?

828 :Socket774:2012/03/21(水) 23:07:24.29 ID:OHfxebcM
無印の45nm からシュリンクされるだろうから
こういうMCMからインターポーザーに切り替えるってだけなのでは

ttp://news.mynavi.jp/photo/articles/2010/01/03/supercomputer2010/images/004l.jpg
ttp://news.mynavi.jp/articles/2010/01/03/supercomputer2010/

829 :Socket774:2012/03/21(水) 23:45:08.70 ID:mcTM8TPp
放熱機構が支配的なので実装密度だけでいえばMCMとそう変わらないだろうから
あえてシリコンインターポーザ(?)を使うというのは
チップ間インタコネクトの消費電力が馬鹿にならないということなんかな

830 :Socket774:2012/03/21(水) 23:58:55.71 ID:zRmohq8I
>>827
対象市場が一応は有利なのとクロック落とせば何とかなるだろうから、これぐらいならいけると踏んだんじゃ?シングルスレッドもいるけど基本鯖でスレッド偏重だし。
ItaniumはOracleといまだに揉めてる。


>>828
どーなんだろね。HPC向けなのかいまいちわからん。確かメインフレーム向けならL4キャッシュを外付けしてたはずで、
それをMCMにしろとCharlieが言うんだったらわかるが、ただ低コストになるだけであんまメリットないし帯域より容量重視が基本だしな。
BlueWatersをもう一度やるにしてもさすがにここまでやるか?と思う。

831 :Socket774:2012/03/22(木) 00:12:20.16 ID:H67+OuOY
POWER7は小規模なシステムはそこそこ売れてるだろう。
巨大HPCとしては設置されてないけど

安価だかプアバンド幅のx86 クラスタとバンド幅リッチだが
高価すぎるSXの間を埋めてる感じ

832 :Socket774:2012/03/22(木) 01:36:10.01 ID:lMKy8CxM
あれはHPCだと大規模SMP用だろう

833 :Socket774:2012/03/22(木) 11:53:39.36 ID:RQshs0t1
>>825
| でもCharlie割とDisり気味だな。4つも乗せての熱問題とか、なんでeDRAM乗せないとかInterposer以外の点で。
どこにそんなことが書いてあるんだ? 全文転載しとくから具体的に指摘よろ。

==
[1/2]
http://semiaccurate.com/2012/03/21/ibm-power-7-spotted-and-it-is-a-monster/
IBM Power 7+ spotted, and it is a monster
Common Platform 2012: Mine is bigger than yours
Mar 21, 2012 in analysis, Channel, Chips, Memory, Microprocessors, Opinion, Rumors, Servers Tweet
by Charlie Demerjian

Every once in a while, a company will do something really unexpected, like IBM’s laying down the law in packaging last week.
Yes, they showed off a chip, two actually, that does things no one else is even talking about doing.

If you look at the chips below, you will see, well, a really advanced packaging set-up. How advanced? Well, this is four CPU
dies on an interposer, and not a small interposer at that. Each black spot is a 32nm multi-core die, and a very hot one too?
How hot? Well, the chips below are the first Power 7+ parts spotted in the wild, so think really stinking hot.


834 :Socket774:2012/03/22(木) 11:54:03.81 ID:RQshs0t1
>>833
[2/2]
Power 7+ package minus lid

To be specific, the two on the left are four P7+ dies on an interposer, and that is mounted to a ceramic package far left,
organic to the right of that. On the right, there is an unnamed stacked die chip with and without lid. This means IBM can
stack die directly, do a PoP on both ceramic and organic, and most importantly do it on a higher power part than anyone else
will ever need. We won’t mention reliability, if there was any question about that, IBM wouldn’t put it on Power chips, those
customers don’t cherish their downtime. It’s one of the few platforms deemed too reliable for Windows.

OK, so IBM is laying out the law on advanced packaging, and no one else has shown this type of tech, not to mention anything
on this scale. Could it get any better? Sure it can. What if I told you that the interposer wasn’t a passive part, but an active
one with lots of embedded RAM. Need a few, oh, lets say tens of MB cache with a silly wide interface? See above. Also see
your local IBM rep because no one else can do this. S|A

835 :Socket774:2012/03/22(木) 13:16:36.87 ID:H67+OuOY
>>829
MCMの中の1チップがDRAMインターフェース 100GB/s分、
MCM内接続用 360GB/s分とか持ってるから、
電力への寄与がかなりあるのかもしれないな

836 :Socket774:2012/03/22(木) 13:22:08.13 ID:H67+OuOY
>>835
DRAMは実効100GB/s でグロスだと180GB/sだった。
あとCPU MCMとインターコネクトモジュール間接続
48GB/s (4チップで192GB/s) も

837 :,, ・´ ∀ `・ ,,)っ-○○○:2012/03/23(金) 17:33:01.06 ID:ZfPO9TiJ
>>815
ちょっとしんどい仕事とってきたのよー。
報酬はまあまあでかい。

838 :Socket774:2012/03/23(金) 19:11:33.60 ID:9EEj8gee
団子さんキターーーーー!!
お仕事お疲れさんです!

nVIDIAの新GPU、Keplerについてどう思いますか??

839 :Socket774:2012/03/23(金) 19:33:32.18 ID:7MCP3rMb
団子さん的にはL/Sが少ないから論外なのでは
いまもCUDAの開発者のサンプルってもらえるなかな

840 :Socket774:2012/03/23(金) 19:45:32.38 ID:0zyfSaJn
181 : ,,・´∀`・,,)<一番良い -○○○ を頼む : 2010/12/17(金) 02:28:15 ID:B5m/oTnv
>>179
残念ながら俺は【店員】のバイトなんてやったことは一度も無いんだわ。
よくできてると思ったのはあなたの自己紹介としてという意味でいいのかな?

あ、ちなみに今は時給換算1900円くらいのしょっぱい仕事だけど
顧客からもちゃんと高い評価は得てるよ。

少しは報酬上がったのかな?

841 :Socket774:2012/03/23(金) 19:56:20.16 ID://y/JohT
んな薄給なの?
俺が雇うぞ

842 :,, ・´ ∀ `・ ,,)っ-○○○:2012/03/23(金) 20:49:47.42 ID:4zxpu17O
いくらで?

843 :,, ・´ ∀ `・ ,,)っ-○○○:2012/03/23(金) 20:50:55.26 ID:4zxpu17O
Webは概して単価安いよ。

844 :Socket774:2012/03/23(金) 21:53:52.73 ID://y/JohT
団子の知識でwebかよw
HPC関連やんないの?

845 :,, ・´ ∀ `・ ,,)っ-○○○:2012/03/23(金) 22:09:20.84 ID:4zxpu17O
Nの営業に仕事クレクレしたことあるけど断られたけど?

846 :Socket774:2012/03/23(金) 22:13:05.46 ID://y/JohT
市場が未成熟HPCは分かる人間少ないからうまく分かる人間にく当たらないと難しいと思う
線形代数、数値計算は問題ないよな

847 :Socket774:2012/03/26(月) 13:04:57.09 ID:13nV7msN
古いマシンで使う分にはFermiの方がKeplerより良いと思う。

848 :Socket774:2012/03/26(月) 16:15:19.38 ID:vtIThQbY
目をつぶって数学公式集を開いて、どの公式に当たっても
既存のライブラリと同等以上のものが書ければ
HPC関連で自営業始められるかもな

849 :Socket774:2012/03/26(月) 21:42:50.70 ID:RtYAqkMO
そのテクニックがライブラリに反映されておしまいじゃね?

850 :,, ・´ ∀ `・ ,,)っ-○○○:2012/03/27(火) 13:31:34.28 ID:AE+H86tm
派遣屋さんに近所の某旧帝大の研究室常駐の仕事紹介してもらったことがあるけど
マージン抜いたらしょっぱい時給になったよ。
経歴に書く程度には役立つかもしれないけど上手い飯は食えないな。

851 :Socket774:2012/03/27(火) 19:24:56.96 ID:9eeU5qOy
自分で仕事取ってきて稼ぐなんてカッコイイ!!
団子さん、憧れる!

852 :,, ・´ ∀ `・ ,,)っ-○○○:2012/03/27(火) 20:12:39.01 ID:5uJEGfRx
ただのフリーターだろ

853 :,, ・´ ∀ `・ ,,)っ-○○○:2012/03/27(火) 20:13:33.90 ID:5uJEGfRx
むしろ自分でパッケージを開発して売り出さないとね

854 :Socket774:2012/03/28(水) 01:46:12.64 ID:gFhFgM1Y
まあ、大学の研究室常駐の仕事ってバイト扱いだしな。

マージン抜かれなくても、時給千いくらとかだろ?


855 :Socket774:2012/03/28(水) 10:45:00.65 ID:6G6mbdm/
プロジェクト付きの助教とか講師なら掛け持ちでも結構出るけどな
飾りでも学位と業績がないと採るのが難しいのがあれだが

856 :Socket774:2012/03/28(水) 12:30:50.02 ID:XVWDQkua
テクニシャン?

857 :,, ・´ ∀ `・ ,,)っ-○○○:2012/03/28(水) 21:00:25.91 ID:RK5YXy+Q
CellできますCUDAできますなんて言ってもなかなか食えない

858 :Socket774:2012/03/28(水) 21:34:48.44 ID:7ENK1t7W
厳しい世界なんだなぁ・・・
難しいことできるのに・・・

859 :こばやし:2012/03/28(水) 21:55:36.53 ID:WGV+pe2S
本当に難しいのは誰もやりたがらないつまらない仕事のことだ。
Cell, CUDAは楽しいけど、殆ど役に立たないから金にならんのだよ。
HPCも一部の研究者が必死に宣伝しているけど、同じで
実際やれば大したスキルが必要ないことがわかるぜ。
(HPCユーザである研究者の殆どは、シミュレーションの方式と結果に感心があっても
最適化コードの些細な速度差には関心がないからそんな技術は元々いらない。
ネットで騒いでいるコンピュータオタク兼研究者の人たちは特殊な人たちなので、誤解が広がってるだけ。)

860 :Socket774:2012/03/28(水) 22:07:32.18 ID:7ENK1t7W
そんなぁ・・・
でも今まで何日もかかってたMRIの計算が数十分でできるようになったとか、
すごく世の中に役立ってるじゃないスか。

861 :こばやし:2012/03/28(水) 22:15:32.52 ID:WGV+pe2S
百倍はやくなるとか、オーダー違いで3乗が2乗になるとかだったら
価値はあるが、それはコードの最適化スキルというより、アルゴリズムの研究だな。
コードの最適化というのならどっちかっていうとコンパイラ屋とかOS屋の方が向いていると思う。

シミュレーションの世界で2倍, 3倍じゃできること殆ど変わらんのよ。
それにこだわるのはPCのCPUで10%の性能差に目くじらたてるのと同じで、
一般ユーザの考えではないから。
宇宙の空間だけで3次元あるということが既にきびしいだろ。

862 :Socket774:2012/03/28(水) 22:27:31.97 ID:9ONJ1uUG
2倍3倍違えば大きいぞ
20%30%じゃたいしたことないが

863 :Socket774:2012/03/29(木) 01:16:27.13 ID:BQ7GVRC2
一般ユーザが使用している資源とハイエンドの全体近くを使うような物では
2桁3桁の規模の違いがあるからシミュレーションに質的な変化を起こせる
可能性は多くのユーザにある。
またそれだけの並列度の違いを乗り越えるにはそれなりのスキルも必要だろ。

864 :Socket774:2012/03/29(木) 02:28:08.90 ID:QWwpxExh
PS4の噂
http://kotaku.com/5896996/the-next-playstation-is-called-orbis-sources-say-here-are-the-details
http://orbis.scedev.net/

・コードネームでOrbisと呼ばれている
・2013年のホリデーに発売予定
・PS3互換はなし
・中古対策あり
・ゲームはBDとダウンロードで供給

スペック
・AMD x64 CPU
・AMD Southern Islands GPU

・開発キットは今年初めから出回っている
・Orbisの性能は次世代箱より低く、EAは失望したようだ

GPUはまだ解かるがCPUもAMDってのはなあ。GPUもSouthern Islands積むなら時期的にKeplarもいけるだろ。

865 :Socket774:2012/03/29(木) 02:54:15.69 ID:A2QMOuil
据え置きゲーム自体がオワコン

866 :Socket774:2012/03/29(木) 05:38:11.35 ID:EMyT+KT2
空間が3次元だから厳しいとか、70年代からタイムマシンで来た方ですか?

867 :Socket774:2012/03/29(木) 05:46:51.93 ID:niRFp/Dc
1次元よりは厳しい

868 :Socket774:2012/03/29(木) 06:28:08.23 ID:mUVQuP3o
1年で200倍くらい性能を伸ばせない所が人間の限界だわ。

869 :Socket774:2012/03/29(木) 08:31:50.97 ID:cT2A0hZD
x86とかx64はゲーム機に向かないよ。アーキテクチャがどうこうじゃなくて
えんえんとゲーム機の寿命まで同スペック(シュリンクや省電力化はアリ)で生産し続けるわけで
PC向けがどんどん性能あげていく中で、明らかに遅い旧式スペックをわざわざ作る羽目になる

生産や改良の非効率もだけど、PCと直で比較されるからそう長く売ってられない
たとえばPS3に出た当時のx86が積まれてたとして、Pentium4積んでるゲーム機ってCore2くらいの時点でもう売れないだろ
多少の非互換覚悟して新型CPUを低クロックで動かすにしても、今度はその低いクロックでがっかりだしな

870 :Socket774:2012/03/29(木) 09:02:34.12 ID:EFQOQz1r
x86載せるならゲームのルール変えなきゃならんよなあ

871 :Socket774:2012/03/29(木) 09:09:33.55 ID:nbHAxmSA
>>869
学生さん?
古くなろうが金になるなら作りますよ

872 :Socket774:2012/03/29(木) 09:26:15.16 ID:4UAq1HBp
アーケード筐体のtypeXはwindows PCなんだが

873 :Socket774:2012/03/29(木) 09:26:49.72 ID:D1qD0wpJ
ごく単純なことで、修士、博士、オーバードクターの持つ
ソースコード生産性(能力xコーディングへ向けられる時間)に
明瞭な差をつけるような人間でなければ、給料払って雇う意味がない

874 :Socket774:2012/03/29(木) 10:41:41.25 ID:cT2A0hZD
>>871
作らないって話じゃなくて無駄ってことねw ちょっと表現がわかりにくかったかスマン
ま、一番「向かない」理由はPCにスペックでおいていかれるのが目に見えるってほうだけど

875 :Socket774:2012/03/29(木) 11:25:58.06 ID:ful+RO5r
>>869
Pentium3相当を積んでいる初代XBoxもずっと売ってたし
Geforce7800相当を積んでるPS3も今のPCより明らかにしょぼいがまだ売っている

XBoxがコストダウンに苦しんだのは設計情報を持っていなかったからで
>>864の噂はCPU/GPUともにAMDということだから 特注で設計情報は押さえて
将来的にシュリンクしたらワンチップ化してコストダウンという想定なんじゃなかろうか

876 :Socket774:2012/03/29(木) 14:44:28.27 ID:cT2A0hZD
>>875
その初代箱が、シュリンクも周辺のワンチップ化もやらない(できない?)で、高コストのままだったのも
苦戦した原因のひとつって話を見たことがあるんだよな(原因がこれだけって話ではないので念のため)

AMDがらみならAPUってことで、グラフィック関連の統合はできるというか出来てるとして
低性能CPU(機器の寿命後半ね)は組み込み向けとかを使うつもりなんだろうか
シュリンク版とかを別系統で開発する余力はないだろうしな

877 :Socket774:2012/03/29(木) 16:34:47.78 ID:TRHv6BIi
>>864
これは嘘だろうな
SCEのハード設計部門が海外主導にならない限り、あり得ない話
PSVitaを見ても中身は東芝製が主で、体制体質はPS2、PSPと大きく変わってない

どっちかと言うと次世代Xboxの話なら信じられる話
新型Xbox360の1チップ化、設計はAMDが担当したって言われてるし

878 :Socket774:2012/03/29(木) 17:24:07.80 ID:DpHANHVf
GPU部分がAMDなのはほぼ確実だし、その部分がAPUってならありかもしれん
Cell+APU

879 :Socket774:2012/03/29(木) 17:33:56.64 ID:4UAq1HBp
cellにする意味なし

880 :Socket774:2012/03/29(木) 17:50:23.53 ID:r4jM4sEB
>>877
設計はどう見てもIBMだが
ttp://pc.watch.impress.co.jp/docs/column/kaigai/20100825_389002.html

881 :Socket774:2012/03/29(木) 18:29:59.92 ID:yYfq+caT
>>869
今でも80386(30年近く前のx86CPU。動作周波数は12〜40MHz)がえんえんと生産されて
実際に宇宙開発や兵器用途に使われているという実績があるのは無視かい?

そして性能比較されるっていうけどゲーム機用のCPUなんて
ファミコンにARMを積んでいたころから数ランクも格下だった歴史も無視かい?

882 :Socket774:2012/03/29(木) 19:12:14.07 ID:RD0il5vZ
そういえば韓国軍のK9自走榴弾砲のCPUがi386だか486だって書いてあったな。
つっても所詮用途が用途だし受注生産に近いだろうから同じCPUでも高騰してしまってるだろうけど。

883 :Socket774:2012/03/29(木) 20:57:40.23 ID:3isH/9jP
最先端のCPUって宇宙放射線で動かなくなるんじゃなかったっけ
軍用も現場で使われるのは性能よりファンレスで動く事の方が重要だろうな。

884 :Socket774:2012/03/29(木) 21:26:32.55 ID:RD0il5vZ
新鋭CPUを使わない理由は安定性重視してる面が強いな。
枯れたCPUは一般ユーザーがベータテストしてバグ出し協力しきったモノと言う見方が出来る。
あと宇宙用途だとなお信頼性が高い必要がある上にシュリンクされすぎてるものはビットエラーしやすくて使いにくい。


885 :Socket774:2012/03/29(木) 21:50:06.38 ID:x7c1Zawb
設計開始から運用開始まで20年かかったりするからな
最新CPUは採用したくてもできない

F22はi960を使っているが、
開発開始(YF22)が1986年、初飛行1990年(YF22)、1997年(F22)、運用開始2005年だ

886 :Socket774:2012/03/29(木) 21:52:46.41 ID:6skv2pcq
>>885
えらい長期間なんだな。
そんだけかかると、さすがにテクノロジー背景が大きく変わってそう。

887 :Socket774:2012/03/29(木) 22:05:12.63 ID:cT2A0hZD
>>881
まず「コスト競争で不利」であって、「作れない」ではないよね?
現に初代箱がCPU作ってもらえなくて終了って話は見たことも聞いたこともない

次に、ファミコンは6502系カスタムチップ、ARMはゲームボーイアドバンス

888 :Socket774:2012/03/29(木) 22:58:25.84 ID:5XbMvLGT
純正品としては486やPentiumあたりも製造終了らしいけど、
互換チップは現役で作られてるよなあ。パッケージ(ピン形状も)は変わってるだろうけど。

K6だって、PCでは見かけなくなったあとも、けっこう長い間作られ続けたはず。

889 :Socket774:2012/03/29(木) 23:04:07.03 ID:RD0il5vZ
Z80も未だに作られてるんじゃね

890 :Socket774:2012/03/29(木) 23:10:16.41 ID:CRA1sl70
Z80とか最悪エミュかFPGAでどうとでもなるレベルだけどな。

891 :Socket774:2012/03/29(木) 23:47:59.46 ID:ojUiF3bf
>>875
設計情報つーか、NVIDIAがチップを卸して宝だったはず

892 :Socket774:2012/03/30(金) 02:26:58.96 ID:lBEgYYi+
>>886
F-22(つか90年代開発の兵器の少なからず)は冷戦終結のあおりで計画着手〜
量産のスパンが延びてるけど、軍用機はおおむね設計から量産開始まで10年、
量産開始から配備定数生産完了までまた10年程度が普通。
要素技術は設計開始時点で既に十分実績のあるものである事が必須だから、
民生品感覚だと随分古い(枯れた)ものを使ってる。

893 :Socket774:2012/03/30(金) 05:22:20.94 ID:d2LS+LSP
最近はアップデートもあるよね

894 :Socket774:2012/03/30(金) 05:55:01.70 ID:3hzxU5dx
10年かかると、もし今今年丁度に就任する機種があったらCPUの設計は2002年のベースになるのか
2002年ってなんだっけ

895 :Socket774:2012/03/30(金) 08:41:50.94 ID:DKcr37rd
北森が出始めた頃だな

896 :Socket774:2012/03/30(金) 10:01:58.01 ID:TYoHetTH
散々笑いものにされた藁が世界の平和を守るのか・・・
熱が胸いな。

897 :Socket774:2012/03/30(金) 11:19:45.76 ID:jB65osnF
90年代開発開始2000年代に配備開始のF-2はMIPSだな

898 :Socket774:2012/03/30(金) 19:05:36.68 ID:AUMZq/LP
>>889
Z80だって、すでに互換CPUとセカンドソースだけしか残存しないんでは?
ひょっとしたらセカンドソースもなくなってるかもしれん。

そもそもザイログ社そのものが...

899 :Socket774:2012/03/30(金) 19:41:55.59 ID:saD8fhW6
CMOS版のZ84C00が2010年のザイログのカタログに載ってるけどな
NMOS版はシャープも製造やめたようだし絶滅種かもしれん

900 :Socket774:2012/03/30(金) 20:41:56.23 ID:e7lky7Me
>>896
イージス艦のCOTS(民生品利用でコストダウン)改修では一番最初の時はほんとに藁P4積んでたぜ

901 :レトリック君:2012/03/31(土) 00:47:55.41 ID:Nvlry7x7
>>861
あんた、多少わかってる人だね。
二乗根、三乗根のグラフの横軸を性能向上、縦軸を得られる効果とみれば分かり易い。
規模の小さい問題しか解けなかった昔はグラフの立ち上がり期辺りに当たるので、
多少性能が向上するだけで露わに効果が現れたが、
しかしある程度規模の大きい問題が融けるようになればなるほどグラフの平坦部に移行し、
横軸方向にリニアに性能を向上させても縦軸の解にほとんど何も変化をもたらさなくなる。
半日が30分になったとか人間が感覚的に体感しやすいレンジにある
一部の問題以外では性能向上による効果が薄くなったのさ

902 :Socket774:2012/03/31(土) 01:22:53.91 ID:n7IdiFzP
>>892
10年も経ったら部品作ってない・・・・・・なんちゃってww

903 :Socket774:2012/03/31(土) 07:35:06.94 ID:bV/YXNki
軍用機も、二次大戦のころは毎年のように新型機だったのに、今じゃ親と子で同じ飛行機ってのも珍しくないからな
パソコンもあと50年もすればそうなっちゃうのかな

ま、タブレットその他に食われて消えちゃう未来もあるかもしれんが

904 :Socket774:2012/03/31(土) 17:36:56.51 ID:Tnp4TQ2i
軍用機は平時にはほとんど損耗しないのに加えて、高機能高額化で調達数がどんどん減っていった
つまり数が出なくなったから開発ペースが落ちただけで、PC業界とは全く傾向が違う

905 :Socket774:2012/04/02(月) 18:58:29.26 ID:7wzHrnpu
細々とだけど確実な需要があるから悪くは無いと昔は考えられていたけど。
今、特機部門なんて、どんどん閉めてるもんな…

906 :Socket774:2012/04/06(金) 00:23:36.82 ID:11Zfxq8O
【レポート】従来比2倍の性能を1/10の消費電力で目指す - メニーコアシンポジウムが開催
http://news.mynavi.jp/articles/2012/04/05/many_core/index.html

907 :Socket774:2012/04/06(金) 00:28:22.87 ID:Jj1NmY7E
>>906
壮大な計画だなぁ・・・

908 :Socket774:2012/04/06(金) 08:23:02.88 ID:12wL6QJU
>>906

いつまでにってのが重要だよな。来年?

909 :Socket774:2012/04/06(金) 08:43:49.86 ID:KFTHCL/o
基本は「今のシングルスレッド(C)をメニースレッド(OpenCL)に変換する技術を構築」であって
長期的な学術研究なのに期限が重要か?

910 :Socket774:2012/04/06(金) 12:14:00.67 ID:12wL6QJU
>>909
10年後に1/10で2倍を実現しても意味ないですよ。

自動並列化研究の「失敗」から、一般的にはシングルスレッドを並列化するのは不可能というのは既に自明だと思います。
これは時間が解決するような問題ではないと思いますが、どういうアイデアでそんなことが可能になるのでしょう?


911 :Socket774:2012/04/06(金) 14:41:17.60 ID:ArfGTu4U
>>910
リンク先YONDA?

912 :Socket774:2012/04/06(金) 15:04:55.26 ID:12wL6QJU
>>911
ちゃんと読んでませんでしたが、対話的にOpenCLを生成するところが新しいアイデアということでしょうか?
そんなことするなら、最初からOpenCLでコード書いばよいのでは?

913 :Socket774:2012/04/06(金) 15:37:05.54 ID:gHIhQVQc
お前がタダで書いてくれるの?

914 :Socket774:2012/04/06(金) 16:07:52.19 ID:SQwYx4qE
ワロタw

915 :Socket774:2012/04/06(金) 22:50:33.55 ID:NuEJEr1q
>>910
別に自動並列化が失敗しているわけではないだろ。
なにいってんだ?
それに10年後に2倍になるんならいいじゃねーか。
今2倍になるのと同じ事だろうからな。


916 :Socket774:2012/04/07(土) 01:08:44.67 ID:3yhiP8ma
大量のレガシーコードの存在を考えると
自動並列化系の技術を進めるしかないんじゃないかなあ
技術的な困難が大きいのは分かりきった話で、
それでもなお強い必要性がある

917 :レトリック君:2012/04/07(土) 01:11:23.41 ID:8JFdIkmo
SMPの自動並列化はココ10数年くらいで十分実用的になった。
賢いコンパイラがとっくに使われている。
もし実用的でないと思うなら使っているコンパイラがいまいちなんだろ。
いまのインテルのはよくなったのかね、しばらくつかってないからシラネ。
HPFのような分散並列の自動並列化のことを指してうまく言っていないと言うなら、その通りだな

918 :Socket774:2012/04/07(土) 01:56:00.23 ID:q0/CPh4j
エンコのような、どこから誰が処理しても良いデータ、ではマルチスレッドは
誰がどう見ても有効だけど、
世の中の99%以上は、それ以外の、処理順番が変えられないデータ、での
マルチスレッドの有効性に関するパラドックスは解決されつつあるのかな。
昨今のマルチコアは、この問題への解答を用意してないよね。
コア数なんてただのマーケティング戦略と、歩留まりによるコアが1つか2つ死んだ
不良品でも良品として、低グレード版で出荷できるようにするためだけのものだよね。

今のCPUはシングルスレッドでもちゃんと進化してるのかね。
いや、正確にはシステムでの性能って話なので、キャッシュに納まるミニ・プログラム、
ありていに言えばベンチマークの話をしてもしょうがないので、
まともに普通に複雑なソフトのシングルスレッド性能はあがっているのかね。
DDRxを使っている限りメインメモリのランダムアクセス性能に変化は
考えにくいのだから、システムとしての性能がどれだけ変化しているのかな。
もう10年くらい進化が止まっているように感じるのだけれど。

919 :Socket774:2012/04/07(土) 02:07:09.36 ID:3gGWtNN6
DLP(データレベルの並列性)がない逐次処理系は
昔も今も変わらずシングルスレッド性能命だわな

920 :Socket774:2012/04/07(土) 02:12:40.33 ID:bu1Yx6kF
MS-DOSの時代ならまだしもVista以降はうまいことマルチコアを活用しているよ

今でもシングルスレッドはほとんど変わっていないけど
時代の変化で1アプリだけが動作する環境なんて存在しなくなったわけで
複数起動しても性能が低下しにくいマルチコアシステムは有用だよ。

921 :Socket774:2012/04/07(土) 02:19:05.64 ID:Xw6xt4Al
応答速度が求められたり時間管理がシビアなものはスマートフォン向けから逆輸入されたりするんじゃね

922 :Socket774:2012/04/07(土) 03:14:02.33 ID:MYfNBbgd
>>917
icc/gccを使ってるけど全部駄目
まともなコンパイラっていうとどういうのがあるの?

基本的な問題としてCはアドレスの偽装とかの問題があって
依存関係を静的に解析することが非常に困難
OpenMPやCilkPlusはセマンティクスを相当制限している
自動並列化が有効なのは単純なコードに限るんじゃないだろうか

923 :Socket774:2012/04/07(土) 09:28:38.82 ID:kKibD2GN
>>922
アドレスの偽装ってなんだ?始めて聞いたぞ。

自動並列化はまだまだ実用的なレベルではないから、OpenMPのようなディレクティブでコンパイラに教えてあげる必要がある。自動ベクトル化はかなりの実用レベルになっている。

924 :Socket774:2012/04/07(土) 10:37:18.09 ID:Npq8n2wp
アポロ計画並みの国家予算と人的資源を注ぎ込んで、
さいきようのじどうへいれつかこんぱいらを開発できないもんかね。

925 :Socket774:2012/04/07(土) 10:47:05.54 ID:x2uUKaGu
そういうのは30年前から聞き飽きた

926 :Socket774:2012/04/07(土) 11:21:31.57 ID:q0/CPh4j
並列化ができるかどうかは扱うデータの種類で決定されるから
コンパイラではどうにもならないよ。というより人間にもどうにもならない。
特にゲーム。ユーザーの入力で次の状態が決まるから、並列化は絶対に無理。

927 :Socket774:2012/04/07(土) 11:49:08.74 ID:q+7M6Bno
人間の入力で次が決まってから並行処理すればいいんじゃね?
まったく無関係に動いてるオブジェクトなら確実に並列に処理できるぞ(実際やるかどうかは別として)

928 :Socket774:2012/04/07(土) 12:31:18.61 ID:hvZ2BrXz
>>923
aliasingのことじゃね

929 :Socket774:2012/04/07(土) 12:50:40.89 ID:q0/CPh4j
>>927
そもそも並列化とは、そのまったく無関係に動いてるオブジェクトにしか使えないんだよ。
入力が決まってから、ユーザー入力に影響を受けるオブジェクト群を処理するというのは
一見、いいアイデアに見えるが、そこではデータの局所性が問題になる。
複数スレッドにデータ分割をしようとしても、ユーザー入力で動くもの、
たとえばプレイヤーに関するデータは一定のメモリに入っているわけで、
そこの値を読み書きしないと他のオブジェクトはゲームのルールを成立できないのがわかるだろう。
簡単に言えば、弾幕STGで、敵の弾とプレイヤーが多段ヒットしないように、
結局、ミューテックス的な多重書き込み禁止機構が必要になって
並列化の性能は絶対に出ない。
ゲームではシングルコアの高クロックが良いといわれるゆえんはコレだ。

930 :Socket774:2012/04/07(土) 12:53:49.38 ID:V1hPL02q
>簡単に言えば、弾幕STGで、敵の弾とプレイヤーが多段ヒットしないように、
>結局、ミューテックス的な多重書き込み禁止機構が必要になって
ここよくわかんね


931 :Socket774:2012/04/07(土) 13:03:24.77 ID:q0/CPh4j
>>930
たとえばさー、STGでは被弾すると一定時間無敵になるギミックは
よくあるでしょ?あれがないと、被弾と同時に一瞬で全ライフがなくなって「クソゲー」化防止機構の、あれ、さ。

あの弾幕群をマルチスレッドで処理しようとするじゃない。
仮に弾が1000発動いててコア4個で4スレッドで250個ずつとかさ。

そのときに、プレイヤーが被弾したっていうフラグはこれらの
4つのスレッドで共有する同じアドレスのメモリにないとだめだよね。
同じメモリの変数だから、並列処理でもゲームのルールは破綻しないわけ。

では、実際に各スレッドがこのメモリを読み書きするときには、
無条件に好き勝手に好きなタイミングでアクセスすることはできないんだ。
スレッドAはプレイヤーは被弾してないと思っても、
すでにスレッドBでプレイヤーは被弾してるかもしれない。
このためにミューテックスていう排他制御機構、Windowsも持ってるを
使って他のスレッドとカチ合わないように処理しないといけない。

無論、これは弾幕ゲームの例でロジックの組み換えで回避できる話かも知れないけれど、
ゲームとマルチスレッドの関係について、参考になるかと。

932 :Socket774:2012/04/07(土) 13:09:32.02 ID:1AsV2mJM
弾幕をマルチスレッドとかそもそもそんな無駄な実装はしない
1フレームの間に逐次的にやりゃいいだけなんだから

933 :Socket774:2012/04/07(土) 13:27:49.29 ID:q0/CPh4j
例はなんでもいいがな
ゲームがその他のアプリと決定的に違うのは
一定の短い入力タイミングで、その次はプレイヤー本人以外には
予測不可能な状態遷移をすることであり、
並列処理はほぼ不可能なのだと理解すればいい

934 :Socket774:2012/04/07(土) 13:50:24.53 ID:Npq8n2wp
カプコンの石田氏はMTフレームワークで、ゲームでは難しいとされていたマルチスレッドによる並列化を実現したそうだよ。
タスクキューに放り込んで空いてるコアからどんどん処理させるタイプ。

西川善司の3Dゲームファンのための「ロスト プラネット」グラフィックス講座
http://game.watch.impress.co.jp/docs/20070131/3dlp.htm

935 :Socket774:2012/04/07(土) 14:15:34.13 ID:q0/CPh4j
タスクキューを使うのとGPUコマンド生成ってのは
もうずーっと前から(ロスプラなんかよりもね)行われている
現代のゲーム製作の基礎中の基礎だ。

http://game.watch.impress.co.jp/docs/20070131/3dlp12.htm
そしてこの図を見るとわかるように、同期更新と呼んでいる
処理が必ずボトルネックとなる。これを書いてるやつも理解してないようだし。

936 :Socket774:2012/04/07(土) 14:18:21.93 ID:q0/CPh4j
あと、紹介したお前も理解してから貼れよと。恥ずかしいやつだな

937 :Socket774:2012/04/07(土) 14:20:30.04 ID:Npq8n2wp
>>935
ただ、同期更新の部分をできるだけ短縮するよう、計算結果のデータコピーだけにするとか、
並列処理できる割合を増やす努力をして、全体としての時間短縮をしてるみたいだよ。

938 :Socket774:2012/04/07(土) 16:09:26.13 ID:q0/CPh4j
>>937
要するに俺が最初から指摘してるとおり、ゲームの根本ロジック部分は並列化不可能なんだよ。
シングルスレッドの実行性能がすべてのものを言うのだ。
その図でも同期更新部分は1コアだけで実行してるだろ。
分散させたところでスレッドの排他制御の分遅くなるだけなんだよ。
これだから情弱は。

939 :Socket774:2012/04/07(土) 16:22:23.02 ID:8Ejp2NS1
プレステ2で性能を出すためにSPEを活用しようとしたら、どうしても処理の並列化がひつようだった、のがゲームでの並列化需要の始まりかな?
それ以来の、十年だに及ぶ長い研究の成果なんだよな?

940 :Socket774:2012/04/07(土) 17:27:07.40 ID:q+7M6Bno
>>938
なんか根本的に考え違いがあるようだ
たとえばシューティングで、敵がひとつだけってこともないし、風景もまた別計算なので
それらは簡単に並行処理にできる。画面右半分と左半分なんてのでも並行処理可能だ
(GPUが走査線ごととかに分けて現実にやってる)
画像以外に音もゲームでは流れるけど、画像と音だって並行処理可能だよな?

もちろん、不可能な部分がまったくないわけでもないけど、可能な部分は相当多い
というか、ゲームって並行処理できない例としてはあんまりよろしくないのでは?
単にゲーム作る側のツールが追いついてないとか、意識がそっちに行ってないだけな気がするよ

941 :Socket774:2012/04/07(土) 17:42:52.33 ID:q0/CPh4j
>>940
最初から読み直せよ。
お前のその程度の酷さは、ここに書き込むのは明らかに場違いじゃねーの。

942 :Socket774:2012/04/07(土) 17:48:45.85 ID:6nYu3UEm
最近のオンラインゲームは2コアまで使うのは多いぞ
1スレッドで処理してたのを2スレッドに分散処理するのは比較的簡単にできるのでは?

943 :Socket774:2012/04/07(土) 18:02:44.78 ID:6nYu3UEm
それとゲームが数年前のと比べてはるかに複雑になってるわけじゃないから
並列化できないゲームロジック部分の計算量はそれほど増えてないんじゃないのか?
5,6年前のゲームと比べて計算量が増えてないならいまどきのCPUなら楽に処理できるぞ

944 :Socket774:2012/04/07(土) 18:15:40.77 ID:6nYu3UEm
>それとゲームが数年前のと比べてはるかに複雑になってるわけじゃないから

書き方が悪くて誤解されるかもしれないけど
グラフィックスはきれいになってるだけで
ゲームの内容そのものは数年前と比べて複雑になってるわけじゃないといいたい


945 :Socket774:2012/04/07(土) 18:59:44.53 ID:ogH39nfv
仮にゲームの根本ロジックとやらが並列化不可能だったとして
それがどの程度の割合を占めているかって問題だよな。
並列化不可能な部分があるからシングルスレッドの性能がすべてのものを言う
なんて話では短絡的すぎるし定量的な視点が欠けている。
スパコン向けのアプリケーションにすら並列化できない部分は存在するが
当然ながら並列処理で時間短縮が望めないなんてことは無い。

946 :Socket774:2012/04/07(土) 19:19:39.89 ID:6nYu3UEm
CPUが高性能になってCPUパワーが不足する用途の多くが
並列処理が可能な用途ばかりになってる気がする

947 :Socket774:2012/04/07(土) 20:15:08.48 ID:kKibD2GN
>>945
同意。
CPUパワーを要求するのは、ゲームばかりではない。

948 :Socket774:2012/04/07(土) 20:33:54.41 ID:BpQA6fXT
> 簡単に言えば、弾幕STGで、敵の弾とプレイヤーが多段ヒットしないように、
> 結局、ミューテックス的な多重書き込み禁止機構が必要になって
> 並列化の性能は絶対に出ない。

当たり判定を並列に行って結果をリダクションすりゃいいじゃん

949 :Socket774:2012/04/07(土) 21:59:14.85 ID:NOw6qYBF
ゲームだと出力先は画面だからね
並列処理で考えても行き着くところは...

950 :レトリック君:2012/04/07(土) 22:47:37.01 ID:SlpVvJBx
>>922
インダクション変数とかリカレンシーでググッテご覧

951 :レトリック君:2012/04/07(土) 22:59:56.76 ID:VZdXO3Mf
リカレンシはいまいちひっとしないな。
あとはループ運搬依存とか。ヒントはこのくらいにしとく。
あとは自力で探してみて。

952 :Socket774:2012/04/07(土) 23:12:24.42 ID:YcsIaYaD
>>951
それは説明できるほど理解してない奴が知ったかぶりするときの逃げだってばっちゃが言ってた

953 :レトリック君:2012/04/07(土) 23:15:00.32 ID:Nz3ds6gO
>>952
オレ何一つ知ったかぶりしてないよ。
子供みたいなことかくな。

954 :Socket774:2012/04/07(土) 23:29:41.89 ID:BpQA6fXT
レトリック野郎の言っていることは正しい
しかしそれはベクトル化FORTRAN時代からの技術だ
ここ10数年のものではない

955 :レトリック君:2012/04/07(土) 23:35:17.32 ID:Nz3ds6gO
>>954
クロスファイルなどはまだ発展途上かもしれないが、
自動並列化の強いコンパイラは結局依存解析をどこまで追いかけられるかの技術の
発展上にあるわけだから探すうえでのヒントととして、匿名掲示板に書いても差し障りの…
いや、まもう君らには色々言わないでおく。
私に得る物があまりにもない。

956 :Socket774:2012/04/07(土) 23:58:37.98 ID:L+drwW0R
リカレンスだろ

957 :レトリック君:2012/04/08(日) 00:02:28.79 ID:c+1e1E+1
>>956
それそれ。この道の人かな…シラネけど。
さてエビス一杯あおって不二子ちゃんの夢見ながら寝るわ。ノシ

958 :Socket774:2012/04/08(日) 00:03:13.87 ID:iodTuw+e
演算パワーが有り余っていれば、高価な専用ハードなしで
安物のCMOSセンサと画像解析ソフトで視線入力とかできるかも。

演算需要は「Recognition」「Mining」「Synthesis」にあるってのは
Intelが以前から言ってることだから、受け売りのアイデアだが
ttp://news.mynavi.jp/articles/2004/02/20/idf3/index.html

959 :Socket774:2012/04/08(日) 03:07:38.02 ID:8O+d0N4l
OSのコンテキストスイッチがすべてのマルチスレッディングにおけるボトルネック

960 :Socket774:2012/04/08(日) 03:10:06.58 ID:TdwI1Idt
並列処理ってよりは、負荷分散って考え方のほうがよくね?

961 :Socket774:2012/04/08(日) 08:41:46.74 ID:ljTshFHj
>>959
あれってハードウェア化したりして改善できないの??

962 :Socket774:2012/04/08(日) 09:10:16.40 ID:qT45va7x
>>961
結局、データをゴッソリ入れ替える事だから、ハードウェアでどうこうなるもんじゃ無いよ。
ただこの先、何百、何千コアが当たり前になれば、スレッド切り替えを起こさなくても良くなるかも。

963 :Socket774:2012/04/08(日) 09:11:57.19 ID:GD0oAfYs
>>943
並列処理がまともに使えるのならば、
これまでではできなかった大量計算を使ったゲームができるだろ。
ポリゴン同士のコリジョン計算とかな。

964 :Socket774:2012/04/08(日) 09:24:48.74 ID:oeV+IbB1
>>961
i386の時代からハードウェア実装されてるよ。
ただWindowsやLinuxなどは使ってないみたいだな。

965 :Socket774:2012/04/08(日) 09:27:47.03 ID:GD0oAfYs
WindowsにはAPIでアフィニティマスクの指定ができて
コアごとにスレッドを固定できるけどな。



・・・そのくらい知っとけよw

966 :Socket774:2012/04/08(日) 09:33:28.58 ID:ljTshFHj
>>962
>>964
>>965
そうなのかー。

>WindowsにはAPIでアフィニティマスクの指定ができて
>コアごとにスレッドを固定できるけどな。
それやるとオーバーヘッド小さくなって早くなる??
OpenMPでできないかな・・・
排他処理ぜんぜんなくても、スレッド化したらオーバーヘッド大きすぎて遅くなる・・・
これってスレッド生成、破棄がほとんどで、コンテクスト切り替えはまた別の問題??

967 :Socket774:2012/04/08(日) 09:45:36.40 ID:GD0oAfYs
>>966
理論上は。実際はほとんど変わらない。
そもそも、コンテキスト切り替えは実時間への影響はほぼないかと。
何しろコンテキスト切り替えはシングルスレッドだけでも割り込みが発生したり、
カーネルAPI呼んだら起きてるんだから。


>排他処理ぜんぜんなくても、スレッド化したらオーバーヘッド大きすぎて遅くなる・・・

>これってスレッド生成、破棄がほとんどで、コンテクスト切り替えはまた別の問題??
ということだな。
スレッド処理はレイテンシが必要な処理には向かないだろ。
スループットが欲しい処理に向く。

968 :966:2012/04/08(日) 10:02:03.01 ID:ljTshFHj
>>967
勉強になった!
ありがとう!

969 :低脳の辞書にスルーの文字なしwwww:2012/04/08(日) 18:21:10.17 ID:ODT7gpuJ
    コスパコスパ騒いでるから貧乏扱いされてんだっつの
    アム猿は反論がソース無しのしょうもない妄想しか無いお花畑広がり過ぎの池沼w
    シェアも性能も消費電力も負けてる生ゴミにしがみついてるくせに脳内捏造で全部勝ってると思い込んでるマヌケぶり
    バグすら無かったことにする白痴カスwwwwwww


970 :Socket774:2012/04/08(日) 18:24:00.24 ID:ODT7gpuJ
http://looooooooop.blog35.fc2.com/blog-entry-889.html
http://www.youtube.com/watch?v=HvaVX5Awdvg
AMDの糞生ゴミっぷりが際立つな(失笑)ドカス信者の大法螺吹きっぷりもよく分かるクズさ
貧乏な池沼に好かれるだけあるわwwwwバグまみれwwwwwwwwwwwwwwwwwwwww
この糞っぷりまるでチョン並の役立たずだわwwwwwwww

971 :Socket774:2012/04/08(日) 20:09:21.20 ID:qT45va7x
>>966
アフィニティの設定はHTTがある場合は特に重要だな。
WindowsとLinuxでビットの並びが違うのが面倒だけど、
インテルのAPIを使えば環境変数で割り当てが可能。
コードの中に埋め込んでしまえばスレッドごとに細かい割り当てが可能になる。
ただ、アフィニティを設定するコストが意外とデカイから、
スレッドを起動するたびに設定するのは良くない。

972 :Socket774:2012/04/09(月) 04:55:56.09 ID:X7mw69Yg
本来はOSが各(論理)コアの性能・状態と各スレッドのビジー状況見て最適に振り分けるべきなのだが…

973 :Socket774:2012/04/09(月) 13:12:36.99 ID:50EynNQF
>>924
>アドレスの偽装ってなんだ?始めて聞いたぞ。
Cのポインタはintにキャストしたりできる
その上で演算されるともはやわけがわからなくなる
GCなんかでは大いに問題になっている

CやC++はキャスト不能な専用の配列型や参照型がないのでめんどくさい
配列もrestrictで明示的に指示しないと重なってる可能性をコンパイラが排除できないしね

974 :Socket774:2012/04/09(月) 14:42:02.19 ID:3969BM3I
>>973
そういうのは偽装と言わないし関係ない。
で偽装って何だ。

975 :Socket774:2012/04/09(月) 17:51:53.01 ID:ccBDHg3D
>>972
時分割切り替えにそこまでの要求は必要無いような

976 :,, ・´ ∀ `・ ,,)っ-○○○:2012/04/09(月) 19:32:15.88 ID:SZORQJN3
エイリアシングを偽装と訳するおとこのひとって・・・

977 :Socket774:2012/04/09(月) 19:44:58.45 ID:14h7snRP
あわてるな
男とは限らない
人じゃないかもしれない

978 :Socket774:2012/04/09(月) 20:15:03.91 ID:RC3+B9jP
>>973
そもそも、ポインタを数値型にキャストして演算するのは
Cの言語規約に違反してんじゃね

979 :,, ・´ ∀ `・ ,,)っ-○○○:2012/04/09(月) 20:18:42.55 ID:SZORQJN3
まあoffset_t型ってのもあるし

980 :Socket774:2012/04/09(月) 21:11:58.73 ID:ccBDHg3D
>>978
警告無効にするためのキャストに意味はないし、将来何が起こっても不思議じゃない

981 :Socket774:2012/04/09(月) 21:35:17.93 ID:3969BM3I
86をはじめ多様なCPUを知ってる人にとってはポインタ≠intは常識。混同する奴はレベルが低い。
型不適合の警告が出るプログラムしか書けない奴もレベルが低い。
例えば972とかのことだ。

982 :Socket774:2012/04/09(月) 21:49:25.52 ID:OC5Xb7I9
>>981
レベルの問題じゃないな。基準に達していない。

983 :Socket774:2012/04/09(月) 21:53:03.14 ID:ccBDHg3D
アーキテクチャじゃなくて、C言語の理解度が低い人達がいっぱいいる(実務やってる)ってことでしょ

984 :Socket774:2012/04/09(月) 22:39:57.91 ID:BHgdhqkH
>>933
状態遷移が予測不可能なのと、並列化は排他関係ではないのでは。投機処理と並列処理をごっちゃにしてません?
いくらプレイヤーの入力が速くても、せいぜい数十msなのに対して、プロセッサーの処理はnsオーダーなのだから、いくらでも並列化の余地はあるがな。

985 :,, ・´ ∀ `・ ,,)っ-○○○:2012/04/09(月) 22:45:22.30 ID:SZORQJN3
可変長データを表現するためにサイズ0の配列をメンバの後尾に持つ構造体とか
WinAPIとかにもあるけどな(Cでは規格外)

986 :Socket774:2012/04/09(月) 23:08:07.64 ID:ccBDHg3D
>状態遷移が予測不可能なの
それだと動くもの作れないような?

987 :Socket774:2012/04/10(火) 01:04:50.29 ID:UCQrAMeG
>>974
ポインタ偽装でググるといくつかは出てくるよ
http://www.amazon.co.jp/%E3%82%BB%E3%82%AD%E3%83%A5%E3%82%A2%E3%82%B3%E3%83%BC%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0-SEI-SERIES%E3%83%BBA-CERT-BOOK/dp/toc/4756148239
http://www.slideshare.net/yak1ex/gc-in-c0x-4923195
一般的な用語とは言えないぽいけどね

>>978
未定義ではない(=違反していない)

988 :Socket774:2012/04/10(火) 01:20:02.58 ID:iTbUa/5t
この問題を語る上では「別名」で十分

989 :Socket774:2012/04/10(火) 02:17:46.65 ID:E603STXQ
>>987
>未定義ではない(=違反していない)

完全に違反だよ。
たまたまポインタと数値型のキャストがビット落ちを起こさない、
たまたま数値型にしたポインタを演算で処理できる、ってだけで。
ポインタを数値型にキャストした時点で、
HDDのフォーマットが開始されても文句は言えない。

990 :Socket774:2012/04/10(火) 02:26:09.26 ID:PS6hADv3
基本的なことがわかってない人は、規格以前でハマるってだけでしょ

991 :,, ・´ ∀ `・ ,,)っ-○○○:2012/04/10(火) 03:59:38.70 ID:Vu6DdKRd
>>987
ああ、技術のこと分かってない馬鹿の翻訳したクソ本を参考にするから
ポインタ偽装(笑)なんてアホな単語を覚えてしまうんだな。

992 :,, ・´ ∀ `・ ,,)っ-○○○:2012/04/10(火) 04:04:39.61 ID:Vu6DdKRd
http://en.wikipedia.org/wiki/Pointer_aliasing

993 :Socket774:2012/04/10(火) 04:46:32.54 ID:AdcEoyF/
とりあえず、size_tでキャストしておけば、86系なら大丈夫だろう。変なコンパイラを使わなければ。

994 :,, ・´ ∀ `・ ,,)っ-○○○:2012/04/10(火) 08:08:46.05 ID:Vu6DdKRd
JISでは「エイリアシング」って言ってた希ガス
ポインタはポインタとして外来語のまま使ってるのにエイリアシングを日本語訳しようとか
アホかと思います

995 :レトリック君:2012/04/10(火) 12:49:00.46 ID:AsmptExK
>>994
いいからダンゴは働けッてんだw
俺?休暇です。

996 :Socket774:2012/04/10(火) 13:46:48.35 ID:WvZB3IBn
ポインタを整数値として特別扱いできるのは0だけじゃなかったっけ?
0をポインタとしてキャストする場合だけは、コンパイラの責任において必ずヌルポインターとしてキャストされなければならない、と決められている。

#ANSI Sec. 4.1.5; ISO Sec. 7.1.6; Rationale Sec. 4.1.5.

でも、msdnの説明書きも読んでないのか…
#ttp://msdn.microsoft.com/ja-jp/library/aa384242(v=vs.85).aspx

ポインタの内部表現は実行系依存〜

997 :Socket774:2012/04/10(火) 15:57:52.44 ID:DCw9rvKM
>>989
C99でintptr_tが追加されたから
整数型にキャストできるし元にも戻せるよ
ビット落ちの問題はint <-> longのキャストと同じ

998 :Socket774:2012/04/10(火) 16:01:40.56 ID:DCw9rvKM
>>991
>>973のrestrict云々のとこはエイリアシングのことを言ってるが
前半はキャストの話だからpointer masqueradingのことじゃないの

999 :Socket774:2012/04/10(火) 18:32:17.95 ID:guMb01sf
銀河鉄道999

1000 :Socket774:2012/04/10(火) 18:45:06.36 ID:Cwt0ywA2
1000

1001 :1001:Over 1000 Thread
1台のマシンが組み上がりました。。。
新しい筐体を用意してくださいです。。。。

         自作PC板@2ch http://anago.2ch.net/jisaku/


257 KB
★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.02 2018/11/22 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)