Intel Core 2 全方位ベンチマーク - 間違いだらけの備忘録

http://journal.mycom.co.jp/special/2006/conroe/002.html

Coreは? というと、実に2.2Bytes/Cycle程度。つまりこれは通常のデコードパスを通っていない。おそらくμCode ROMから読み出しての作業を行っている筈で、スループットは0.275命令/Cycle。デコードに4Cycle弱掛かる計算だ。案外にCoreで最適化された命令は多くないのかもしれない。

http://journal.mycom.co.jp/special/2006/conroe/006.html

命令のフェッチ / デコードの性能に関する限り、CoreはK8と概ね同等であろう。細かく見れば、まだK8まで追いついていない部分も見受けられる。ある意味K8は非常に優等生で、何をやってもそつなくこなす印象で、対してCoreは特定の処理に特化してチューニングをしている雰囲気が見受けられる。
CoreはデータのLoad / Storeが大幅に強化されており、K8の倍近い能力を持っている。これと大容量L2キャッシュを組み合わせることで、データ処理が高速化できると見られる。
メモリアクセスに関して言えば、CoreはK8に一歩及ばない。

http://journal.mycom.co.jp/special/2006/conroe/010.html

前章で説明した、Core Microarchitectureが64bitで遅いケースがあるという問題は、ことWOW64を使う限りにおいては余り問題にならないようだ。

http://journal.mycom.co.jp/special/2006/conroe/011.html

さてこのScienceMark、要するに大量のデータに対する科学技術演算なので、キャッシュアクセスの性能だけが速くても意味が無い。結果としてグラフ30でも判るとおり、32bitではそれでもCore 2が若干高速なものの、Athlon 64 X2との結果はそれほど大きくない。そして64bitともなると、もうスコアは完全に逆転されてしまっている。勿論キャッシュが無関係ではない、というのは、例えば64bitにおいてはAthlon 64 X2 4800+が5000+を凌駕するスコアを出していることでも判る。しかし、メモリアクセスもやはり大幅に効くようで、このテストに関してはAthlon 64 X2に軍配が上がった。

http://journal.mycom.co.jp/special/2006/conroe/022.html

Core 2のアーキテクチャをまとめてみると
実質的にはx86命令で3命令/Cycleを狙ったアーキテクチャである。
ただしこれを、K8の様に完全な3命令分のALUを並べるのではなく、P6などに似た非対称ALUで処理しようとしている。
これを補うために、Macro-Fusionを始めとするトリッキーなテクニックでカバーしている。
開発時期が短かったためか、EM64T(インテル 64)を完全にカバーしきれていない。
性能のインプルーブは、キャッシュへのアクセスを16Bytes/Cycleの帯域で行うことで実現している。

ほほー。