登入區塊
帳號:

密碼:


遺失密碼嗎?

何不馬上註冊!
首頁選單
REVIT CLUB
註冊流程範例
回到首頁
公司簡介
空間協定線上教學

技術討論區
FAQ-問與答
PDF Reader下載點

聯強 問與答

AnyDesk
搜尋區塊

進階搜尋
 

     協勤資訊 新網站 新服務 新優惠登場!!



 


討論區主頁
   軟硬體討論區
     英特爾90nm製程的先驅--Prescott處理器
無發表權

樹狀顯示 | 新的在前 前一個主題 | 下一個主題 | 頁尾
發表者 討論內容
admin
發表時間: 2004-02-26 21:41
Webmaster
註冊日: 2002-06-12
來自:
發表數: 1189
英特爾90nm製程的先驅--Prescott處理器
從去年二月春季英特爾科技論壇(Intel Developer Forum)首度曝光,至今已相隔近一年,英特爾終於正式發表代號「Prescott」的新一代90nm製程Pentium 4處理器。現在,我們就對這顆新處理器的技術和架構做一個完整的介紹及分析。

Prescott處理器並非僅為Northwood的新製程版本,除了製程之外,無論在電路設計技術、管線資料路徑架構、指令集、實作加速機制等都有相當程度的改變。

新型製程及電路設計技術
大幅提升時脈的架構設計
新指令集及新增功能
Prescott使用英特爾代號P1262的90nm製程生產,採用應變矽(Strained Silicon)晶圓及低介電質(Low-K)金屬導線絕緣材料,7層銅導線布線,電晶體數量為1億2千5百萬,晶粒面積112平方公釐。P1262較先前Px60的130nm製程有著相當程度的進步,最重要的莫過於應變矽晶圓的採用,透過更鬆散的原子晶格結構,讓電子擁有更大的移動速率,英特爾亦為全世界首家引進此技術的半導體廠商。除此之外,採用含碳氧化物(Carbon-Doped Oxide)Low-K間膜材料,與之前的摻氟二氧化矽玻璃(SiOF)相比,可以達成更低的導線延遲。不過,採用應變矽並非沒有後遺症,雖然通道電阻可以降低,但是這也意味著電晶體漏電量(Leakage)的增加。Prescott的高熱問題,其因多半在此。

為了達成高時脈,電路設計上也必須作出相對應的提升。英特爾在去年春季IDF初步公布Prescott相關資訊時,就透露電腦輔助設計工具(CAD)的改進,及時脈分配(Clock Distribution)較Northwood改進4倍、有效的降低運作溫度及時脈信號偏移(Clock Skew)的問題。為了電路設計的最佳化,英特爾導入全面化的自動電路設計技術(Automated Design),有別於過去處理器各功能單元分而治之、晶粒上有著明顯區塊的設計方式,Prescott的設計可將各獨立功能單元放置於最適當的位置,以平衡及降低各功能單元之間的導線延遲,例如:過去一整塊的運算執行單元,就可能被分散在晶粒之中的不同部位。

由於處理器持續增加的指令集數量及日趨複雜化的實作加速機制,帶來了更高的控制單元複雜度,為了提升運作時脈及維持控制單元訊號的同步化,無論各種體系指令集架構的處理器,管線化資料路徑的深度都不約而同的持續成長,尤其對非常複雜的x86指令集而言,更是如此。英特爾在去年四月所發表的SSE3指令集手冊中,也表示Prescott將有更深的管線深度。Prescott擁有31階的整數運算管線深度,較Northwood成長了超過50%。如此之深的管線化資料路徑,無論在設計及驗證上都是極為精密艱鉅的工程,足以代表英特爾強大的產品設計能力。但是,越深的管線深度,意味著更低的指令平行化執行能力。值得釐清的是,由於NetBurst架構已經將指令解碼的階段透過Trace Cache移除,其管線深度是指處理分支預測錯誤(Misprediction Pipeline)的部分,並非完整的指令執行管線。所以,相較於其它處理器,Pentium 4的管線深度優勢實際上是更大的。

近年來快取記憶體已經普遍和處理器進行整合、與核心同時脈運作,結合非阻隔式(Non-Blocking)快取記憶體控制器的設計,快取記憶體本身延遲的時脈周期也成為處理器實際上的執行管線階段之一。原先Pentium 4第一階資料快取延遲為整數資料2個時脈周期、浮點資料9個時脈周期,第二階快取7個時脈周期。我們採用CacheMen及ScienceMark 2.0進行測試,發現Prescott的第一階資料快取延遲為整數資料約為4個時脈周期,第二階快取約為18個時脈周期。目前英特爾尚未更新程式最佳化手冊,所以無從得知真正的規格數據。不過,為了同時兼顧加大快取記憶體容量,以及預留未來提升時脈的空間,英特爾選擇如此的設計是可以理解的。但是,加長的快取記憶體延遲,也會對效能造成不利的影響。

Prescott新增了正式命名為SSE3的PNI(Prescott New Instructions)指令集,包含了13個新指令,而在Intel Compiler 8.0開始支援。其中,1個新指令提供存放於x87浮點暫存器內的浮點至整數資料型態轉換(在過去,這項工作大約需要10個指令才能達成),3個新指令增加對128位元SSE2暫存器不同欄位的資料載入、搬移及複製功能,1個新指令提供對未對齊(Unaligned)16位元組cache-line的128位元長度資料載入動作,2個新指令提供對兩個128位元暫存器內相同欄位的加減法運算,4個新指令提供對兩個128位元暫存器內水平欄位的資料進行加減法運算。除了強化現有x87/SSE/SSE2指令集的功能外,SSE3也包含了2個新指令,改善多執行緒的同步化及運算資源分配,這對提升Hyper-Threading的效能頗有助益,也可以簡化作業系統的最佳化工作。

值得注意的是,英特爾目前正在發展的非對稱式(Asymmetric)Hyper-Threading編譯技術,透過主執行緒以外的「helper thread」事先預測程式所需要的下一筆資料,可以減少多餘資料載入動作的頻率,但是這對多執行緒的同步化將有著更迫切的需求,這就是SSE3這兩個新指令最重要的目的。除了新指令外,加大後的快取記憶體、因應管線深度提升而增加的實體暫存器及資料緩衝區數量,對提升Hyper-Threading效能也有正面的效果。

Prescott在溫度監控及過熱保護機制上有所改進。首先,新增Tcontrol及Tambient參數,可針對處理器內熱量感應器的回報溫度,動態控制散熱風扇轉速。另外,PROCHOT(Processor Hot)腳位改為雙向訊號,有別於過去由主機板通知處理器過熱、必須降溫,當處理器過熱時可通知主機板、讓主機板從外部進行時脈調降(Clock Throttling),提供處理器以外的系統層級保護,尤其可避免主機板上部分供電散熱零件過熱導致損壞。

實作加速機制的改良
尚未證實的部分
效能測試及分析
除了快取記憶體容量的增加,因應Prescott有著更深的指令執行管線深度,資料預先擷取及分支預測機制的強化勢在必行,資料重組寫回緩衝區(Write-Combination Buffer)、載入儲存緩衝區(Load/Store Buffer)及同時執行的(In-Flight)載入儲存數量亦有所增加。為了改善浮點及多媒體運算效能,浮點運算的實體暫存器寬度擴展至128位元,也針對資料搬移運算新增額外的實體暫存器。分支預測機制中,也實作了類似Pentium M對間接分支(Indirect Branch)的預測功能。比較不容易被人所重視的是,Trace Cache本身的分支目標緩衝區(BTB)進入點從512個增加至2048個,從NetBurst的架構判斷,這個第二層分支目標緩衝區對於效能的影響,應該遠較一般的BTB來得大。

Trace Cache亦有改良。在先前Pentium 4必須透過微碼循序器(Microcode Sequencer)產生控制訊號的部分複雜指令(如Prefetch),在Prescott可以直接解碼成微指令置於Trace Cache中。由於微碼循序器僅能在數個時脈週期內分派1個微指令,但Trace Cache平均每個時脈分派周期3個微指令,所以可改善這些指令的執行效能。

Pentium 4的整數乘法(imul)運算延遲終於獲得改善,這一直都是過去Pentium 4在整數運算上的弱點。原因在於:英特爾當初為了降低Pentium 4的成本,讓整數運算交由浮點乘法運算單元去處理所致,Prescott則是實作了專屬的整數乘法運算單元,解決了這個問題。另外,原先因在低速ALU中執行而效率不佳的移位及旋轉運算(Shift/Rotate),亦透過將其執行單元新增至1組高速ALU而獲得改善。

雖然英特爾已經公佈了不少架構細節資料,不過Prescott依然有著諸多尚未證實的謎團。首先,英特爾曾在去年春季IDF發表Prescott時,曾經提及將針對微軟NGSCB安全運算機制整合代號La Grande技術,不過英特爾卻未在Prescott正式發表時提及此事。

另外,透過部分程式工具可以發現,Prescott支援40位元的實體定址線數目(目前腳位上並未提供),理論上可以定址1TB的主記憶體,和AMD K8相同,但是尚未確定是既有PAE/PSE-36位元延伸定址模式的擴充、支援64位元指令集、或是兩者皆有。由於PAE/PSE-36的分頁表(Page Table)結構已經保有擴充的空間,就算Prescott擁有64位元指令集,支援PAE/PSE-40的機會還是很大的。

很明顯的,由於較長的管線深度以及快取記憶體延遲,Prescott的整體效能並不如同時脈的Northwood,更和擁有2MB第三階快取記憶體的Pentium 4XE有著相當程度的差距。不過,受益於較大的快取記憶體,SPEC CPU 2000的表現相當的出色。比較Intel Compiler 8.0的QxP及QxN最佳化參數執行結果,針對Prescott最佳化後僅有著些微的改進,這應該是SPEC CPU 2000應用SSE3的機會不高之故。由於Prescott是以更高的時脈作為設計的目標,除了應用軟體加針對SSE3最佳化,要提升效能,就是達到Northwood所做不到的高時脈,這和當初第一代Pentium 4推出時,是一樣的情形。

由於Prescott擁有31階的整數運算執行管線,分支預測的效能也是一個值得關心的重點。我們從SPEC CPU 2000的整數項目中可以發現,像175.vpr(FPGA電路設計)、176.gcc(GCC編譯器)及197.parser(文書處理)等分支密集的項目,Prescott都有相當出色的表現,超出同時脈Northwood甚多,尤其後兩者項目擁有相當高比率的迴圈及間接分支。這足以表現,Prescott分支預測的設計,已經足以大幅降低對管線深度提升50%的副作用。

Prescott核心處理器的未來布局
Yamhill存在的事實及 所造成的衝擊
目前Pentium 4E處理器包含2.8GHz、3GHz、3.2GHz及3.4GHz四種時脈版本,2.8GHz亦包含一款未啟動Hyper-Threading、533MHz FSB的版本。Prescott一開始仍以和Northwood相同的FC-mPGA4封裝Socket 478接腳出貨,今年第二季預計將發表LGA(Land Grid Array)775腳位的3.6GHz版本,第四季時脈將達到4GHz。配合LGA775的Prescott,代號Alderwood的925X及代號Gransdale的915晶片組,將分別取代875P及865。另外,值得注意的是,Pentium 4E和同時脈Pentium 4的售價相同,英特爾希望加速主流產品從Northwood轉移至Prescott核心的企圖,昭然若現。

Xeon產品線也將開始導入Prescott核心。今年第二季將發表代號Nocona的Xeon DP處理器,採用604腳位FC-mPGA4封裝,1MB第二階快取記憶體及800MHz FSB,將推出時脈2.8GHz至3.8GHz的產品,搭配Lindenhurst晶片組。Xeon MP的進度較晚,明年第一季發表代號Potomac的Xeon MP處理器,採用相同的FC-mPGA4封裝,667MHz FSB,內建超過2MB的第三階快取記憶體,時脈將從3GHz開始,搭配Twin Castle晶片組。值得注意的是,Twin Castle晶片組可支援128GB主記憶體,超出PAE/PSE-36位元實體定址的64GB上限。

最後,這也是不少人所關心的,英特爾代號Yamhill的x86指令集64位元延伸架構,是否已經實作於Prescott之中?去年三月,國外媒體分析Prescott的晶粒照片,發現Prescott竟然有兩組相當於Northwood的整數邏輯執行單元(ALU)、第二個16kB第一階資料快取記憶體以及第二組實體暫存器檔案,這是否就是Yamhill已經實作的確切證據?事實上,答案已經揭曉了。

日前英特爾已經證實,將在二月春季IDF正式發表代號「CT」的x86指令集64位元延伸架構。不過,英特爾並未宣佈何時將讓Yamhill實用化。值得注意的是,英特爾應該已經得到微軟願意推出對應作業系統的承諾。另外,先前AMD前任執行長Jerry Sanders在法庭上作證與微軟Bill Gates的電話內容,坦承AMD企圖以推出Windows CE對應處理器等條件,說服微軟不要支援Yamhill,也希望可以藉此讓AMD的市場佔有率從20%躍升至50%。據日本媒體的分析,微軟將作業系統的支援,作為在英特爾、AMD兩大陣營之間爭取最大利益的籌碼。所以目前看來,微軟預定推出對應AMD的Windows XP及Server 2003都有可能延期,甚至與對應Yamhill版本合併推出,這勢必重挫AMD x86-64的聲勢,也會導致伺服器廠商的觀望態度。

基於AMD x86-64在程式碼改版上的便利性、解決32位元定址空間限制的燃眉之急,加上IA-64處理器一直無法擺脫x86程式碼執行效率不彰、系統成本高昂的形象,導致AMD一路在中低階伺服器市場攻城掠地,也開始累積對應的軟體資源,帶給英特爾極大的壓力。如果AMD站穩腳步、進而奪取未來桌上型市場64位元處理器的指令集主導權,英特爾終將萬劫不復,所以英特爾要採取反制動作,就必須趁AMD x86-64市場環境上未成熟前儘快下手。由於Xeon必須和Opteron正面競爭,也一直是英特爾處理器部門最重要的獲利來源,對英特爾而言,中低階伺服器市場是完全不能冒險失去的,為了保有Xeon的主導地位,Yamhill的存在絕對有其必要性。

但是,Yamhill的發表,就意味著IA-64不是困死在高階運算市場與IBM Power家族捉對廝殺、就是最終難逃死亡的命運,而在未來讓IA-64往低階市場發展、進而完全取代IA-32的長期戰略基礎更將徹底崩盤。Yamhill的存在,讓英特爾的希望倒退了一大步,甚至變成不可能之事。雖然,英特爾極有可能透過限制Yamhill的規格及發展性,降低對IA-64造成的衝擊,不過要如何同時維持兩套64位元產品線,將會考驗英特爾的智慧,也會對未來的市場發展造成深遠的影響。

Prescott與現有主機板的相容性
去年七月,由日本媒體率先披露Prescott由於供電量及熱量設計功耗(Thermal Design Power),超出去年六月i875P晶片組平台設計相關技術文件中對Prescott的規格描述,所以導致英特爾另外制定FMB 1.5規格、FMB 1.0主機板可能無法支援的情況。由於Prescott剛上市時,僅能搭配既有晶片組的主機板,所以與主機板的搭配性,自然也成為使用者和廠商所關心的焦點。現在,我們分析其來龍去脈,提供讀者使用及採購上的建議。

問題從何而來?
問題的關鍵,就在於主機板是否支援對應Prescott的電壓調節模組(Voltage Regulator-Down)以及主機板設計規範(Flexible Motherboard)。VRD的作用,在透過控制直流電對直流電的轉換電路、替主機板提供穩定的供電,定義了嚴格的電壓調節變化及時序,處理器中控制工作電壓編碼的腳位亦屬於VRD所涵蓋的範圍。例如VRD 10.0針對Prescott而制定,電壓範圍從0.8375V到1.6V,6位元的VID(處理器的6隻腳位)可定義32種動態電壓準位。而FMB則是針對處理器的需求,定義了主機板在供電及功耗上的規範。由於Prescott的耗電量及熱量超出Northwood甚多,所以英特爾就另外定義Prescott FMB規格。

當初主機板廠商都以VRD 10.0及Prescott FMB 1.0規格設計i865及i875P主機板,所以當Prescott的耗電及熱量超出規範,就意味著既有的FMB 1.0主機板將無法支援。不過,根據英特爾目前所公開的資料,2.8/3GHz版本將可使用於FMB 1.0主機板,而3.2/3.4GHz則對應FMB 1.5。另外,英特爾將在今年二、三季分別發售可以應用於FMB 1.0的3.2/3.4GHz Socket478腳位Prescott供865/875主機板使用者升級之用。很明顯的,這將造成產品行銷上的混淆,也造成主機板廠商及消費者的困擾。

主機板廠商的對策及建議
就目前所知,部分主機板廠商並不會將FMB 1.0的主機板標上支援Prescott,僅在FMB 1.5標示。另外,也有部分主機板廠商將FMB 1.0主機板標示可支援Prescott,但是附註可能遇到的問題及建議事項,而FMB 1.5則另外用不同顏色的Socket表示完全支援之意。至於針對3.6GHz以上LGA775 Prescott的FMB 2.0,大部分廠商在i925X/915主機板才會實作。

我們這次產品報導所使用的主機板僅支援FMB 1.0,在使用3.2GHz Prescott時大致狀況良好,不過該主機板廠商認為主機板的MOSFET和供電系統的負荷已經過重,並不是相當的理想。所以,我們還是建議使用者優先考慮主機板所能對應的處理器時脈。另外,Prescott運作熱量遠高於Northwood、甚至還超過Pentium 4XE甚多,如果不另外採用更強的副廠風扇,一定要嚴格遵守原廠風扇的安裝使用說明。我們本次報導就遇到多次處理器過熱導致當機的事件,未謹慎安裝原廠風扇就是罪魁禍首,這情形在過去都沒有如此的嚴重。

散熱及耗電問題已是燃眉之急
日前國外媒體披露了Prescott後繼處理器Tejas的工程測試樣本及照片。據報導,Tejas在時脈僅2.8GHz時,竟有著將近150W的功耗。事實上,Prescott FMB 2.0和Tejas FMB 1.0規格,其最大電流定義至119A、最高操作電壓為1.40V,就代表著166.6W的理論最大功耗,遠遠超出今日所有的桌上型處理器,令人難以想像Tejas FMB 2.0的結果。在未來,要如何有效處理耗電及散熱問題,將會成為英特爾以及所有處理器廠商的艱鉅挑戰,甚至已是燃眉之急。
iThome採購情報 2004-02-10 文☉劉人豪
樹狀顯示 | 新的在前 前一個主題 | 下一個主題 | 頁首

無發表權
 

[TOP]

  本網頁使用 XOOPS 2.0.13.a 繁體中文版建置 由協勤資訊有限公司客服部管理