24小時(shí)聯(lián)系電話(huà):18217114652、13661815404
中文
行業(yè)資訊
將人工智能融入低功耗芯片設計
將人工智能融入低功耗芯片設計
隨著(zhù)對消耗更少功率的越來(lái)越小的電子設備的需求不斷增長(cháng),低功率芯片設計已經(jīng)發(fā)揮了基本作用。越來(lái)越多地出現在嵌入式系統中的人工智能正在挑戰低功耗芯片設計人員,以整合更密集、更具創(chuàng )新性的架構和制造工藝。為了滿(mǎn)足功能性、可制造性、成本和可靠性等 AI 芯片要求,需要適當的功耗分析技術(shù)和工具。
低功耗設計
低功耗設計的目標是降低集成電路 (IC) 的整體動(dòng)態(tài)和靜態(tài)功耗,這是實(shí)現下一代應用的關(guān)鍵方面。該過(guò)程涉及動(dòng)態(tài)和靜態(tài)功耗的降低。動(dòng)態(tài)功率包括開(kāi)關(guān)和短路功率分析,而靜態(tài)功率主要包括漏電流分析。包含上述三個(gè)貢獻的功率方程如圖 1 所示。
圖 1:功率元件和方程
在 IC 制造工藝基于 90 nm 至 16 nm 技術(shù)的年代,設計人員的注意力集中在降低泄漏功率上,因為它比動(dòng)態(tài)功率(10%)具有更大的權重(85% 至 95%)到 15%)。隨著(zhù)隨后從 16 nm 過(guò)渡到 14 nm,功率方程發(fā)生了變化;泄漏功率得到了很好的控制,而動(dòng)態(tài)功率則成為一個(gè)更重要的問(wèn)題。這首先是由于從平面到 FinFET 晶體管架構的轉變,多柵極器件構建在襯底上,其中柵極放置在通道的兩側、三側或四側或環(huán)繞通道,形成一個(gè)雙門(mén)甚至多門(mén) 3D 結構。
未來(lái)幾年,隨著(zhù)電子制造領(lǐng)域的不斷進(jìn)步,7nm、5nm甚至3nm的制造工藝將再次凸顯泄漏功率的重要性。
人工智能的新挑戰
人工智能在電子應用中的日益廣泛使用帶來(lái)了新型的電源挑戰。性能、功耗和面積 (PPA) 范例仍然是設計人員要實(shí)現的目標。不同的是,隨著(zhù)人工智能芯片的引入,在不犧牲功率的情況下最大化功率變得更加困難。今天,性能實(shí)際上受到功率的限制,并且很難在不擔心分散的熱量和熱管理的情況下向芯片的每個(gè)部分可靠地供電。
矢量的質(zhì)量(定義為 SoC 在真實(shí)系統中工作時(shí)所看到的真實(shí)活動(dòng))對于動(dòng)態(tài)功耗分析和優(yōu)化至關(guān)重要。
“最大的問(wèn)題是估計工作負載,特別是當 SoC 在現場(chǎng)運行時(shí),在真實(shí)系統上,”新思科技設計集團的低功耗架構師兼研究員 Godwin Maben 說(shuō)。“我們需要知道測量和優(yōu)化動(dòng)態(tài)功率的工作量。談到人工智能,沒(méi)有預定義的基準。我們需要識別這些工作負載,確保捕獲它們并盡早調試電源。”
低功耗設計意味著(zhù)了解功耗對軟件開(kāi)發(fā)、硬件設計和制造的影響。它不是單步操作,應該貫穿整個(gè)芯片設計過(guò)程,目的是降低整體動(dòng)態(tài)和靜態(tài)功耗。
如圖 2 所示,設計和驗證方法分為五個(gè)主要階段:
靜態(tài)功耗驗證與探索
動(dòng)態(tài)功率驗證和分析
軟件驅動(dòng)的功耗分析
電源實(shí)現
登出
圖 2:設計和驗證階段
仿真的作用
提供有關(guān) SoC 功耗的估計是一項艱巨的任務(wù),這要求設計人員設置能夠盡可能忠實(shí)地再現真實(shí)工作條件的測試平臺。能夠滿(mǎn)足這些要求的最佳系統是仿真。
對 AI 芯片進(jìn)行功耗分析需要合適的工具,能夠獲取和處理數百 GB 的數據,包括數萬(wàn)億或數十億個(gè)時(shí)鐘周期。仿真系統內的功率分析有助于解決這個(gè)問(wèn)題,因為它只能識別功率分析感興趣的窗口。
“人工智能芯片帶來(lái)了兩個(gè)新概念,”馬本說(shuō)。“第一個(gè)是驗證調試具有挑戰性,因為它需要很長(cháng)時(shí)間。第二個(gè)是如何開(kāi)發(fā)應用軟件,可以在芯片啟動(dòng)時(shí)準備好。這就是仿真和原型設計的概念出現的地方。”
由于其獨特的快速仿真架構、最先進(jìn)的商用 FPGA 以及基于 FPGA 的仿真軟件的創(chuàng )新,Synopsys 的 ZeBu 服務(wù)器是業(yè)界最快的仿真系統, 其性能 是傳統仿真解決方案的2 倍。ZeBu 軟件為用戶(hù)提供了有價(jià)值的工具,例如快速編譯器、高級調試(包括與 Verdi 的本地集成)、仿真加速、混合仿真和功耗分析。
當應用程序在模擬器上運行時(shí),它最終會(huì )被轉換為 SoC 的向量。然后可以使用這些向量來(lái)運行仿真,從而驗證仿真器中芯片的功能。仿真是獲得工作負載的合適平臺,因為它生成針對功耗分析優(yōu)化的向量。如圖 3 所示,PrimePower RTL 使用 ZeBu EmPower 向量為設計人員提供有用的信息。
圖 3:概要軟件驅動(dòng)的 SoC 活動(dòng)
AI 芯片使用大量數學(xué)函數,主要是乘法和矩陣運算,由專(zhuān)用和優(yōu)化的組合邏輯執行。
“當我們進(jìn)入這些計算密集型應用程序時(shí),設計師擔心的新概念是較低幾何結構的故障功率,”Maben 說(shuō)。“毛刺功率占總功率的 25% 以上,我們知道毛刺功率意味著(zhù)浪費功率。”
毛刺的數量與 SoC 執行的操作數量成正比,這使得毛刺成為 AI 加速器需要解決的重要問(wèn)題。故障有兩種類(lèi)型:慣性故障和運輸故障。慣性毛刺可以在架構上解決,而傳輸毛刺是由于通過(guò)邏輯單元的延遲導致邏輯門(mén)輸入處的不同到達時(shí)間。毛刺正在成為一個(gè)非常大的話(huà)題,因為它們很難優(yōu)化,也很難衡量。
Synopsys 提供端到端 RTL 到門(mén)故障電源分析和優(yōu)化解決方案。在 RTL 中,PrimePower RTL可以計算和報告每個(gè)層次結構的故障,它還可以指向生成最高級別故障的 RTL 源代碼行。所述 的PrimePower溶液 還提供對延遲/毛刺感知使用RTL仿真,并且可以執行使用零延遲門(mén)級仿真或定時(shí)感知仿真密切相關(guān),以SPICE功率數毛刺功率分析矢量生成。