除了每個(gè)核心獨(dú)享4個(gè)整數(shù)計(jì)算管線,在浮點(diǎn)運(yùn)算上,“推土機(jī)”采用了“FlexFP”技術(shù),兩個(gè)核心共享一個(gè)浮點(diǎn)調(diào)度器和兩個(gè)128位FMAC乘法累加器,可以進(jìn)行組合,每個(gè)時(shí)鐘周期可以完成兩次64位雙精度計(jì)算或4次32位單精度計(jì)算。如果一個(gè)核心沒有進(jìn)行浮點(diǎn)運(yùn)算,那么另一個(gè)核心可以占用這兩個(gè)128位的FMAC,在一個(gè)時(shí)鐘周期完成4次雙精度運(yùn)算或8次單精度計(jì)算,AMD將其命名為 AVX模式。這種技術(shù)保證了“推土機(jī)”的浮點(diǎn)運(yùn)算能力,在高性能計(jì)算中并不會(huì)因?yàn)椤肮蚕怼倍鵂奚阅堋?/div>
二、新接口新工藝
推土機(jī)處理器將采用SocketAM3+接口,941個(gè)針腳,不同于938個(gè)針腳的Socket AM3接口,其好處是可以支持DDR3-1866內(nèi)存和高級(jí)節(jié)能技術(shù),而且AM3+將是AMD的代針腳柵格陣列(PGA)封裝,之后將改用觸點(diǎn)柵格陣列(LGA),等到Fusion融合處理器降臨的時(shí)候就會(huì)使用LGAAF1新接口,觸點(diǎn)多達(dá)1591個(gè),支持DisplayPort 1.2標(biāo)準(zhǔn)、PCI-E 3.0規(guī)范(32條信道)、四通道內(nèi)存。
三、加強(qiáng)型內(nèi)存控制器
AMD推出集成內(nèi)存控制器,根據(jù)AMD在這一領(lǐng)域的經(jīng)驗(yàn)和非常好的技術(shù),又在這一代產(chǎn)品中全面提升了內(nèi)存控制器的性能。首先對(duì)內(nèi)存控制器在效率方面進(jìn)行了針對(duì)性的重新設(shè)計(jì)和完善,因此實(shí)現(xiàn)30%的內(nèi)存性能提升。在提升30%性能基礎(chǔ)上,讓內(nèi)存支持1600MHz頻率,可以獲得額外20%的性能。兩項(xiàng)加起來,可以實(shí)現(xiàn)內(nèi)存控制器50%吞吐量提升。
四、同時(shí)支持AVX指令和SSE指令
FLEX FP是AMD至今為止創(chuàng)新意義的浮點(diǎn)計(jì)算技術(shù),每一個(gè)模塊都有一個(gè)FLEXFP進(jìn)行浮點(diǎn)運(yùn)算。如果使用傳統(tǒng)128位編碼,意味著每個(gè)核會(huì)有單獨(dú)的浮點(diǎn)運(yùn)算單元。與友商相比,如果在128位編碼前提下,AMD所執(zhí)行的數(shù)量多一倍。如果是256位AVX編碼,Bulldozer可以把兩個(gè)浮點(diǎn)運(yùn)算單元放在一起執(zhí)行。所以在256位編碼執(zhí)行模式下,與友商比較,執(zhí)行的數(shù)量是一樣的。但是Bulldozer有一個(gè)非常大的優(yōu)勢(shì),就是可以同時(shí)執(zhí)行256位AVX指令和SSE指令。而友商就不能做到這點(diǎn),他們只能在AVX或SSE中選擇其一,這樣的優(yōu)勢(shì)能夠讓Bulldozer在高性能計(jì)算、媒體編解碼以及在一些技術(shù)型運(yùn)算方面有更高的性能。
五、更*的電源管理技術(shù)
每個(gè)模塊內(nèi)第二個(gè)整數(shù)核心所需要的電路只占總核心面積的12%,從芯片級(jí)別上講這只會(huì)給整個(gè)內(nèi)核增加5%的電路。更多的核心、更少的空間,這顯然有利于提高單位功耗、單位成本的性能。能耗大小是由被通電時(shí)鐘數(shù)量決定的,它取決于執(zhí)行一個(gè)普通指令(運(yùn)算)需要讓多少晶體管處于通電狀態(tài)。在時(shí)鐘供電的百分比下,正常應(yīng)用狀態(tài)和閑置狀態(tài)下,Bulldozer都具有非常好的能耗表現(xiàn)。同時(shí)在各能耗單位上進(jìn)行了優(yōu)化,可以在各種單位下進(jìn)行電源關(guān)閉。高性能運(yùn)算能耗之所以高,主要是由于浮點(diǎn)運(yùn)算,而一般應(yīng)用運(yùn)算主要是在執(zhí)行單元消耗得。同時(shí)還有閑置狀態(tài)下,AMD的技術(shù)可以做到對(duì)于那些用不著的核,把電源關(guān)閉。AMD產(chǎn)品有一個(gè)大轉(zhuǎn)型,AMD推出了新插槽,2011年推出的推土機(jī)可以使用2010年的插槽。而友商為推出新平臺(tái),同時(shí)推出了新插槽,這也使得AMD更占優(yōu)勢(shì)。
總結(jié):推土機(jī)重點(diǎn)改進(jìn)的地方包括功耗/核心面積效率、新的ISA支持、核心擴(kuò)展性、模塊化設(shè)計(jì)理念,有望顯著改善單位功耗和面積的性能。
推土機(jī)架構(gòu)架構(gòu)特點(diǎn)
1、內(nèi)核設(shè)計(jì)全面模塊化AMD的“Bulldozer”是在K10之后推出的全新一代處理器架構(gòu),對(duì)AMD來說,這是自K7以來AMD處理器架構(gòu)的一次根本性變革,在核心架構(gòu)及功能性上都較K10有較大的改變。模塊化設(shè)計(jì),這讓處理器在功能更加靈活的基礎(chǔ)上更容易控制成本。物理結(jié)構(gòu),再根據(jù)市場(chǎng)價(jià)格策略來決定對(duì)內(nèi)核進(jìn)行有選擇的屏蔽。這對(duì)產(chǎn)品的性價(jià)比取勝的AMD來說難以控制成本,而且要向在架構(gòu)上開發(fā)出更多的核心的產(chǎn)品幾乎要更新設(shè)計(jì)基板布局。
而Bullbozer處理器所引入的模塊化設(shè)計(jì)剛好可以解決這個(gè)問題。Bulldozer在核心設(shè)計(jì)方面每?jī)蓚€(gè)核心組成一個(gè)單獨(dú)的單元(稱之為“核心模塊”,兩塊物理內(nèi)核集成到一個(gè)模塊中),比如雙核處理器直需要集成一個(gè)模塊就可以了,即使是八核處理器也只需要集成四個(gè)模塊,這讓產(chǎn)品生產(chǎn)及成本控制更加具有靈活性,處理器核心模塊的兩個(gè)核心各自擁有一級(jí)緩存,但是共享二級(jí)緩存和預(yù)取,解碼單元,所有的“核心模塊”共享8MB三級(jí)緩存和北橋模塊。
那么以后AMD處理器內(nèi)核數(shù)量如何定義呢?未來的新架構(gòu)四核心處理器指的是四個(gè)這樣的模塊呢,還是四個(gè)計(jì)算核心呢?AMD對(duì)此給出的回復(fù)是:“將每個(gè)擁有雙整數(shù)核心的推土機(jī)模塊視為一個(gè)獨(dú)立的單元就對(duì)了。”顯然,AMD在這里可以的回避了單純的核心數(shù)量問題,更強(qiáng)調(diào)兩兩組成的有機(jī)整體,所以在面對(duì)推土機(jī)架構(gòu)處理器的時(shí)候我們可以說它是四核心,八核心的,也可以說成是雙模塊,四模塊的。只不過未來AMD或許不會(huì)再有奇數(shù)核心的處理器了。
2、高效的集群多線程架構(gòu)
Bulldozer架構(gòu)中的另一個(gè)新元素就是采用了基于集群的多線程技術(shù)。Bulldozer的內(nèi)核模塊是一個(gè)可以同時(shí)運(yùn)行兩個(gè)線程的處理組件,兩個(gè)內(nèi)核可以執(zhí)行兩個(gè)不會(huì)相互干擾的線程,有點(diǎn)類似于Intel的雙核處理器的超線程奇數(shù)。
盡管雙核、多線程和Bulldozer在線程并行執(zhí)行方面是相同的,但是內(nèi)核的分區(qū)卻截然不同。多線程就是在一個(gè)單個(gè)的處理核心內(nèi)同時(shí)運(yùn)行多個(gè)工作線程的技術(shù),和CMP芯片多處理器技術(shù)不同,后者是通過集成多個(gè)處理內(nèi)核的方式讓系統(tǒng)的處理能力提升,主流的多核處理器都是用了CMP技術(shù),而像Pentium 4、Corei7這樣的處理器帶的“超線程技術(shù)”則屬于多線程奇數(shù),而Bulldozer是基于集群化多線程架構(gòu),Cluster-BasedMulti-threading:CMT,也稱多簇式多線程技術(shù)。
在Intel的超線程方案中,采用的是復(fù)制處理器架構(gòu)狀態(tài)的方法來實(shí)現(xiàn)超線程,核心內(nèi)部并沒有增設(shè)一套額外的硬件執(zhí)行單元來處理多線程,只是增加了處理器中存儲(chǔ)線程有關(guān)數(shù)據(jù)的單元數(shù)量,并在硬件執(zhí)行單元空閑時(shí)將這些數(shù)據(jù)送往其中處理,一邊增加處理器執(zhí)行單元的利用率。這種設(shè)計(jì)有一定的缺點(diǎn),比如它只使用了一個(gè)指令窗口來負(fù)責(zé)兩個(gè)線程的調(diào)度、執(zhí)行和引退,效率并不高。這就像是生產(chǎn)線只有一名管理調(diào)度人員,一個(gè)人很難同時(shí)處理兩個(gè)任務(wù),這樣有時(shí)候便會(huì)出現(xiàn)生產(chǎn)線故障,而處理器在碰到這種情況時(shí)性能則會(huì)出現(xiàn)明顯的下降。
相對(duì)于傳統(tǒng)超線程或雙核技術(shù),Bulldozer這種設(shè)計(jì)集群化架構(gòu)的理念是讓雙核模塊在多線程運(yùn)算中更高效。Bulldozer每一個(gè)模塊中加入了額外的執(zhí)行單元,每一個(gè)模塊都具備可以將一個(gè)大任務(wù)細(xì)分為多個(gè)并行任務(wù)的能力,這些生產(chǎn)線可以按需要任意整合,不會(huì)對(duì)整個(gè)裝配線的效能造成影響。因此CMT技術(shù)的效能要高于傳統(tǒng)的多線程方案。根據(jù)AMD介紹,單個(gè)“推土機(jī)模塊”可以達(dá)到80%左右的多線程性能提升,而且所用的晶體管數(shù)目似乎并不比Intel的超線程奇數(shù)更多,這是一個(gè)相當(dāng)鼓舞人心的成就。
根據(jù)路線圖,Bulldozer架構(gòu)會(huì)推出四核心、六核心和八核心的版本,其中四核心的證書性能大約比頻率類似的Phenom II X4高出10%~35%。需要說明的是,CMT并不是AMD的技術(shù),例如Sun和Oracle開發(fā)的Niagara/Niagara2(Ultra-SPARCT1/UltraSPARC T2)服務(wù)器處理器,尤其是Niagara2都采用與Bulldozer類似的線程設(shè)計(jì)。
3、更強(qiáng)的浮點(diǎn)和整數(shù)計(jì)算性能
Bulldozer所采用的集群化多線程架構(gòu)之所以能實(shí)現(xiàn)如此高的性能,其中一個(gè)大原因就是AMD增加了CPU的運(yùn)算單元——每個(gè)模塊中的兩個(gè)線程都具有獨(dú)立的整數(shù)運(yùn)算單元,只有浮點(diǎn)單元是共享的,這被稱為具有兩個(gè)證書運(yùn)算單元“簇”。Bulldozer這種將兩個(gè)線程的整數(shù)運(yùn)算獨(dú)立開來的設(shè)計(jì)可以更有效的提高處理器在基本應(yīng)用中的性能。由于Intel的Nehalem架構(gòu)的超線程奇數(shù)是兩個(gè)硬件線程共享3組運(yùn)算單元,沖突在所難免,而Bulldozer則是兩個(gè)硬件線程獨(dú)享4個(gè)整數(shù)運(yùn)算單元,性能提升將會(huì)更加明顯。根據(jù)AMD公布的Bulldozer執(zhí)行單元的結(jié)構(gòu)圖,負(fù)責(zé)整數(shù)運(yùn)算的整數(shù)執(zhí)行單元和負(fù)責(zé)地質(zhì)計(jì)算的載入/存儲(chǔ)單元一共有4組(每單元2組)。(在K7/K8/K10中這樣的單元也僅有3組,剛好對(duì)應(yīng)K7/K8/K10的每周期處理3條宏指令的能力。)
需要說明的是,Bulldozer這種雙“簇”也讓AMD在產(chǎn)品設(shè)計(jì)上具有更高的靈活性上,未來處理器的分級(jí)可以通過控制“簇”的數(shù)量來實(shí)現(xiàn):比如以后的Bobcat處理器就是切掉一個(gè)整數(shù)運(yùn)算“簇”的Bulldozer。此外,Bulldozer的每個(gè)模塊還具備兩條128Bit FMAC(乘法累加運(yùn)算)流水線,這將能夠滿足Bulldozer中信加入的AVX指令集擴(kuò)展的需求,這種指令集擴(kuò)展中包含了大量的128Bit多媒體指令集。
4、制作工藝“兩級(jí)跳”
隨著內(nèi)核的倍增,處理器對(duì)生產(chǎn)工藝也提出了更高的要求,因此近幾年來半導(dǎo)體廠商也會(huì)通過各種各樣的信技術(shù)的是是用來維持摩爾法則的“More Moore“。在處理器生產(chǎn)工藝應(yīng)用上,Intel一直走在AMD的前面,酷睿采用32nm制程已經(jīng)差不多半年,但AMD的產(chǎn)品停留在45nm!這種情況將隨著Bulldozer的誕生而得到改變,Bulldozer將采用32nm制程。預(yù)計(jì)32nm工藝將于2010年第三季度開始試產(chǎn),病在2011年為AMD提供產(chǎn)能,28nm工藝于2010年第四季度上馬,超低功耗版28nm工藝則排在2011年季度,它們都會(huì)是用HKMG技術(shù)。這意味著AMD將在2010年完成產(chǎn)品生產(chǎn)工藝升級(jí)的“兩級(jí)跳”,從45nm進(jìn)化至32nm后迅速再次進(jìn)化至28nm,追回被Intel落下的時(shí)間。
此前,AMD已經(jīng)展示了它們28nm產(chǎn)品的晶圓圖,看來新技術(shù)似乎已經(jīng)非常接近最后可用的程度。如果真的能夠?qū)崿F(xiàn)工藝兩級(jí)跳,那么長(zhǎng)期困擾AMD的工藝制程問題有可能得到巨大改善,AMD將走出窘境,進(jìn)入全新發(fā)展的時(shí)代。
Bulldozer架構(gòu)將采用新的AM3+接口,擁有941個(gè)針腳(AM3是938針、AM2+/AM2是940針),不同于938針腳的SocketAM3接口,其好處是可以支持DDR3 1866內(nèi)存和高級(jí)技能技術(shù)。需要說明的是,AM3+是AMD代針腳柵格陣列(PGA)封裝,之后將改用觸點(diǎn)柵格陣列(LGA),等到Fusion融合處理器降臨的時(shí)候就會(huì)使用LGA AF1新接口,觸點(diǎn)多大1591個(gè)。針對(duì)兼容性方面,按照AMD的說法,主板。
其實(shí)AMD最初也考慮過讓Bulldozer沿用AM3接口,但是隨后意識(shí)到必須做出一個(gè)選擇,是繼續(xù)提供AM3而損失新架構(gòu)的一些新特性,還是升級(jí)接口帶來更好的性能和功能?最終為了長(zhǎng)遠(yuǎn)利益,AMD選擇了后者。Bulldozer處理器將會(huì)首先用于服務(wù)器,預(yù)計(jì)芯片將是代號(hào)為“Interlagos”的服務(wù)器處理器,核心數(shù)在12個(gè)~16個(gè)之間。而針對(duì)桌面服務(wù)器市場(chǎng),Bulldozer將會(huì)有4/6/8個(gè)核心的三個(gè)版本,三級(jí)緩存容量為8MB,支持DDR3 1866,采用Bulldozer架構(gòu)的桌面處理器產(chǎn)品代號(hào)Zambezi,將成為AMD下一代桌面平臺(tái)Scorpius的核心。
推土機(jī)架構(gòu)架構(gòu)解析
一、CMP和SMT
首先有必要來回顧一下CMP和SMT的優(yōu)劣勢(shì):
AMDCMP
CMP:CMP的方式非常直接,簡(jiǎn)單來說,CMP是通過“復(fù)制”物理核心來擴(kuò)展處理器在多線程軟件中的性能,這是獲得性能一種和的方式。但CMP的缺點(diǎn)是制造成本很昂貴,并且也要受到處理器制造工藝的限制,畢竟不能將芯片做的越來越大。并且CMP的方式對(duì)負(fù)載要求也很高,只有經(jīng)過適當(dāng)并行優(yōu)化的負(fù)載才能充分發(fā)揮CMP的性能,很多核心的CMP常常會(huì)浪費(fèi)資源,在一些應(yīng)用中,主頻更高、結(jié)構(gòu)更簡(jiǎn)單的雙核和四核處理器就往往可以獲得更好的性能。
SMT:SMT是一個(gè)相對(duì)廉價(jià)的技術(shù),比如英特爾的Hyper-Threading,允許每個(gè)物理核心運(yùn)行兩個(gè)同步線程。SMT的設(shè)計(jì)思想是充分利用每個(gè)核心的資源。如果一個(gè)物理核心只有一個(gè)執(zhí)行線程,那么在等待內(nèi)存中的關(guān)鍵代碼或數(shù)據(jù)的時(shí)候,線程處于停頓狀態(tài),這樣核心的利用率是低下的。而SMT技術(shù)允許一個(gè)物理核心運(yùn)行兩個(gè)或更多的線程,可以根據(jù)當(dāng)前的狀況動(dòng)態(tài)進(jìn)行切換,如果一個(gè)線程處于停頓狀態(tài)等待內(nèi)存,另一個(gè)線程的指令則可以使用這個(gè)物理核心的所有執(zhí)行單元,讓物理核心利用的更加充分。
為了讓SMT正常工作,處理器的所有代碼和存儲(chǔ)部分需要被復(fù)制或分區(qū)。例如,一個(gè)雙線程SMT處理器需要兩套架構(gòu)寄存器和重命名寄存器,一套給線程A,一套給線程B。另外組成指令窗口的共享指令隊(duì)列要具備很大的空間,這樣指令窗口才能容納足夠多的來自兩個(gè)線程的指令,讓執(zhí)行單元可以保持在忙碌狀態(tài)。最后,兩個(gè)線程任何共享單元,比如處理管線不同部分的指令緩存,都不能被任一個(gè)線程獨(dú)占。換句話說,SMT核心的兩個(gè)線程需要和另一個(gè)緊密的共享資源,保證核心的緩存單元不會(huì)空置沒有線程利用。
EPYC SMT
SMT技術(shù)對(duì)那些不需要核心線程(threads)全負(fù)荷運(yùn)行的多線程負(fù)載比較有意義,對(duì)于一個(gè)雙線程SMT設(shè)計(jì)來說,如果這兩個(gè)線程都需要花費(fèi)很長(zhǎng)時(shí)間等待主內(nèi)存,那么這個(gè)雙線程SMT會(huì)表現(xiàn)的就一個(gè)CMP雙核處理器,甚至更加高效——因?yàn)樗菴MP雙核成本要低得多。在這種理想的狀況下,一個(gè)雙線程SMT核心幾乎可以等同于一個(gè)雙核處理器,并且能耗上還要低的多。
但SMT的效率根據(jù)負(fù)載不同會(huì)有很大差異,AMD認(rèn)為在真實(shí)的應(yīng)用情況中,一個(gè)雙線程SMT核心僅僅等同于1.3個(gè)常規(guī)核心的效能,因?yàn)楹芏鄷r(shí)候線程都在執(zhí)行資源而不是等待主內(nèi)存響應(yīng),換句話說,如果主內(nèi)存不再是瓶頸,SMT的執(zhí)行單元就過剩了,而一個(gè)SMT核心也就不再比一個(gè)單純的核心更高效,畢竟SMT核心需要增加一些電路設(shè)計(jì),比一個(gè)單純的核心成本要高一些。二、推土機(jī)架構(gòu)分析
AMD“推土機(jī)”將采用32nmSOI工藝,這讓“推土機(jī)”相比“馬尼庫(kù)爾”皓龍?zhí)幚砥骺梢栽诓辉黾庸牡那疤嵯略黾?3%的核心數(shù)量、增加50%的吞吐量。與AMD之前所有處理器都有所不同的是,“推土機(jī)”采用了“模塊化”的設(shè)計(jì),每個(gè)“模塊”包含兩個(gè)處理器核心,這有些像一個(gè)啟用了SMT的單核處理器。
每個(gè)核心具有各自的整數(shù)調(diào)度器和四個(gè)專有的管線,兩個(gè)核心共享一個(gè)浮點(diǎn)調(diào)度器和兩個(gè)128位FMAC乘法累加器。所不同的,在K10架構(gòu)中,ALU和AGU共享三個(gè)管線(平均1.5個(gè)),“推土機(jī)”中每個(gè)核心整數(shù)單元管線的數(shù)量增加為4個(gè),2個(gè)AGU專有、2個(gè)ALU專有。L1緩存也有所不同,在K10架構(gòu)中,每個(gè)核心具有64KB L1指令緩存和64KB L1數(shù)據(jù)緩存;而“推土機(jī)”每個(gè)核心具有16KBL1數(shù)據(jù)緩存、每個(gè)模塊具有64KB雙向L1指令緩存,至于減小的L1緩存是否會(huì)影響性能還有待觀察。兩個(gè)核心共享L2緩存,模塊之間共享L3緩存及北橋。
AMD“推土機(jī)”模塊
“模塊”和“核心”,這讓我們不免會(huì)產(chǎn)生混淆,實(shí)際對(duì)于用戶們來說,沒必要去刻意的關(guān)注“模塊”的概念,這只不過是AMD在設(shè)計(jì)上的稱謂,而當(dāng)產(chǎn)品投放市場(chǎng)的時(shí)候,依舊會(huì)以核心數(shù)量為標(biāo)識(shí),比如我們說采用推土機(jī)架構(gòu)的“Interlagos”服務(wù)器處理器具有16個(gè)核心,而不會(huì)說是8個(gè)模塊。對(duì)于為何采用這種“模塊”設(shè)計(jì)的主要原因,AMD表示是“為了減少CPU的冗余電路”。
如果采用CMP的方式,隨著核心數(shù)量的增加,CPU的核心面積也會(huì)越來越大,重復(fù)的電路也會(huì)越來越多,功耗也會(huì)隨之增加——因?yàn)镃MP是采用復(fù)制核心的方式。而采用“模塊”設(shè)計(jì)可以大大減少冗余電路,這對(duì)核心的大量增加很有意義。比如“推土機(jī)”,兩個(gè)核心共享浮點(diǎn)部分,對(duì)于大部分服務(wù)器應(yīng)用來說,整數(shù)運(yùn)算的部分要遠(yuǎn)遠(yuǎn)高于浮點(diǎn)運(yùn)算(高性能計(jì)算除外),所以將浮點(diǎn)執(zhí)行單元共享并不會(huì)影響大多數(shù)應(yīng)用中的性能。而整數(shù)部分則不是共享的,否則會(huì)造成瓶頸。
上文我們回顧過CMP和SMT設(shè)計(jì)的特點(diǎn),我們可以把AMD“推土機(jī)”架構(gòu)看做是介于這兩種之間的一種設(shè)計(jì):兩個(gè)線程(核心)共享浮點(diǎn)執(zhí)行單元,但是各自具有獨(dú)立的整數(shù)執(zhí)行資源。這看上去像是SMT的另一種形式,或者說是經(jīng)過AMD改良的一種“AMD式的第三種方式”。但與傳統(tǒng)的SMT設(shè)計(jì)不同,SMT僅僅復(fù)制的是核心的存儲(chǔ)部分,一個(gè)線程一個(gè)存儲(chǔ)模塊(registerfile),而AMD“推土機(jī)”架構(gòu)中,每個(gè)線程復(fù)制的是完整的整數(shù)執(zhí)行單元硬件,一個(gè)線程具有一個(gè)存儲(chǔ)模塊(registerfile)和一組完整的整數(shù)執(zhí)行單元。
AMD“推土機(jī)”核心架構(gòu)的一些特性
每個(gè)線程具有獨(dú)立的整數(shù)執(zhí)行單元是AMD“推土機(jī)”和雙線程SMT設(shè)計(jì)的主要區(qū)別。不過從“推土機(jī)”的設(shè)計(jì)來看,這并不像真正意義上的“CMP雙核”,畢竟兩個(gè)核心還要共享浮點(diǎn)執(zhí)行單元,或者可以稱之為“1.5核”。這樣設(shè)計(jì)的好處就是能夠大大節(jié)省晶體管的數(shù)量、降低核心面積和功耗,同時(shí)降低成本。即使不是真正的“雙核”,但不難想象這樣的設(shè)計(jì)要比SMT更加高效,相比之下,傳統(tǒng)的SMT設(shè)計(jì)可以稱之為是一種“1.2核”的設(shè)計(jì)。
AMD表示平均計(jì)算下,一個(gè)單獨(dú)的“推土機(jī)”核心執(zhí)行兩個(gè)線程可以達(dá)到1.8核CMP的效率,但是,這樣的數(shù)字也是要依賴于負(fù)載情況。雖然“推土機(jī)”的模塊設(shè)計(jì)要比傳統(tǒng)的SMT設(shè)計(jì)在執(zhí)行效率上更高,但是增加的整數(shù)執(zhí)行單元也提高了成本和能耗。另外,沒有意外的話,AMD“推土機(jī)”應(yīng)該具備很好的浮點(diǎn)計(jì)算性能。AMD表示雖然FPU是被兩個(gè)線程共享的一個(gè)部分,如果給予足夠的內(nèi)存帶寬,芯片將具有很高的浮點(diǎn)運(yùn)算能力。