以下文章來(lái)源于EETOP ,作者Nancy Zhou
近日,馬斯克透露,他的人工智能初創(chuàng)公司xAI正計(jì)劃建造一臺(tái)超級(jí)計(jì)算機(jī),并希望在 2025年秋季之前讓擬議的超級(jí)計(jì)算機(jī)運(yùn)行,為其下一版本的人工智能聊天機(jī)器人Grok提供算力。
其實(shí),早在今年3月,xAI就發(fā)布了其最新版的Grok 1.5。不過(guò),4月,馬斯克宣布,由于沒(méi)有足夠多的先進(jìn)芯片,故推遲了Grok 2模型的訓(xùn)練和發(fā)布。他表示,訓(xùn)練Grok2模型需要大約2萬(wàn)塊英偉達(dá)H100,而Grok3模型及更高版本將需要10萬(wàn)塊英偉達(dá)H100。完成后,其連接的芯片組將至少是當(dāng)今最大GPU集群的4倍。
確實(shí),生成式AI從云端走向終端,芯片已經(jīng)成為推進(jìn)大模型發(fā)展的關(guān)鍵。大模型企業(yè)也已經(jīng)開(kāi)始將目光聚焦到芯片公司,期待從底層展開(kāi)合作,以解決算力成本在端側(cè)的覆蓋問(wèn)題?;谒懔π枨?,芯片廠商與大模型廠商走得更近了。
在泰克最新對(duì)清華大學(xué)教授高濱的采訪(fǎng)中,他表示:“自2023年開(kāi)始,大模型就非?;?。國(guó)際上、以及幾個(gè)大公司都在研究怎么去支持大模型。從新的器件到新的工藝,這幾個(gè)公司的技術(shù)路線(xiàn)都不太一樣。有的相對(duì)傳統(tǒng)一些,有的嘗試用新工藝新器件去做。在去年的IEDM大會(huì)中,還專(zhuān)門(mén)設(shè)置了一個(gè)探討大模型的section。”
高濱老師特別強(qiáng)調(diào)說(shuō):“大模型不僅僅是算法和應(yīng)用上,其實(shí)底層的算力支撐也是非常重要。”
大模型與存算一體技術(shù)
當(dāng)前,各行各業(yè)都在數(shù)字化轉(zhuǎn)型,數(shù)據(jù)處理和存儲(chǔ)的需求與日俱增。傳統(tǒng)的計(jì)算與存儲(chǔ)的模式已經(jīng)很難滿(mǎn)足當(dāng)下高性能、低能耗、強(qiáng)安全的需求。存算一體技術(shù)被認(rèn)為是可以有效解決傳統(tǒng)馮·諾依曼架構(gòu)下的“存儲(chǔ)墻”和“功耗墻”問(wèn)題的有效途徑。
存算一體的優(yōu)勢(shì)是打破存儲(chǔ)墻,消除不必要的數(shù)據(jù)搬移延遲和功耗,并使用存儲(chǔ)單元提升算力,成百上千倍的提高計(jì)算效率,降低成本。除了用于AI計(jì)算外,存算技術(shù)也可用于存算一體芯片和類(lèi)腦芯片,代表了未來(lái)主流的大數(shù)據(jù)計(jì)算芯片架構(gòu)。
高濱老師表示,大模型對(duì)功耗及成本的要求很高。如果憶阻器真的能應(yīng)用到大模型里面的話(huà),能效比預(yù)計(jì)將會(huì)有數(shù)量級(jí)的提升?,F(xiàn)在大模型基本都是在云端,未來(lái)在端側(cè),功耗將會(huì)是一個(gè)非常大的挑戰(zhàn)。憶阻器這種高能效的優(yōu)勢(shì)在端側(cè)就會(huì)有很多的優(yōu)勢(shì)。
高濱老師分享了近兩三年的研究重點(diǎn),主要是希望把存算一體的技術(shù)往應(yīng)用上去牽引,具體在開(kāi)展的工作包括以下三大方面:
與企業(yè)合作。嘗試在實(shí)際邊緣智能的場(chǎng)景中做芯片設(shè)計(jì),以及實(shí)際場(chǎng)景下的可靠性。高濱老師特別指出:“我們發(fā)現(xiàn),在很多實(shí)際場(chǎng)景下,芯片電阻狀態(tài)的保持其實(shí)是存在隨機(jī)偏移的relaxation效應(yīng)的,如何抑制隨機(jī)偏移,以滿(mǎn)足未來(lái)的應(yīng)用需求,這是當(dāng)前非常重要的課題?!?
大模型的應(yīng)用研究,主要是致力于提高密度。傳統(tǒng)的小的卷積網(wǎng)絡(luò)加速是不需要高密度的,但大模型需要。希望把密度盡可能的做高。以前做小的卷積網(wǎng)絡(luò)的加速,其實(shí)不需要這么高的密度。但是大模型需要。這其實(shí)主要是工藝方面的研究。
類(lèi)腦學(xué)習(xí)。這是更前沿更創(chuàng)新的領(lǐng)域,除了去年十月在Science上發(fā)表的新近研究成果之外,其實(shí)清華大學(xué)還在布局新型類(lèi)腦計(jì)算,它更看重整體算法效果,而非器件個(gè)體,最后是落實(shí)到器件上去做優(yōu)化,調(diào)節(jié)器件中的電子離子的輸運(yùn)。
后摩爾時(shí)代,從系統(tǒng)層面進(jìn)行頂層規(guī)劃,根據(jù)系統(tǒng)需求優(yōu)化器件,并做好器件與系統(tǒng)的協(xié)同設(shè)計(jì),這點(diǎn)這尤為重要。就此,高濱老師特別分享了后摩爾時(shí)代,系統(tǒng)和器件的全新范式的研究模式。
系統(tǒng)和器件的全新范式的研究模式
摩爾定律的黃金時(shí)代,主要是將晶體管、電阻、電容和電感等元器件集成在一起,并形成具有預(yù)期功能的電路。這個(gè)時(shí)期,不太需要在意系統(tǒng)和器件的協(xié)同,只要器件做的足夠小,芯片的性能大體就能得到保證。
但是,后摩爾時(shí)代,應(yīng)用場(chǎng)景的需求正向著高密度、小型化、強(qiáng)功能、低功耗、低成本、高可靠、易設(shè)計(jì)等方向發(fā)展,已經(jīng)不僅僅是簡(jiǎn)單的電路設(shè)計(jì),而是要做系統(tǒng)化的集成。很多時(shí)候,需要把系統(tǒng)和器件做一個(gè)協(xié)同的設(shè)計(jì),根據(jù)系統(tǒng)的需求去優(yōu)化器件,很典型的就是存算一體,最終目的是要做人工智能的加速。
高濱老師進(jìn)一步分享說(shuō),人工智能對(duì)器件性能的要求很復(fù)雜,不是單純把器件阻值調(diào)穩(wěn),就能達(dá)到系統(tǒng)要求。如加速一個(gè)深度神經(jīng)網(wǎng)絡(luò),它的卷積層、全連接層等各種層,其實(shí)對(duì)器件的性能要求都不一樣。器件的指標(biāo)很難抽象到具體的數(shù)值標(biāo)準(zhǔn),以保證芯片設(shè)計(jì)的好壞。
比較全新的一個(gè)概念就是做陣列測(cè)試。不一樣的算法模型解決不一樣的數(shù)學(xué)問(wèn)題,從底層的設(shè)計(jì)是有區(qū)別的,對(duì)器件的要求也不一樣。所以在小規(guī)模的陣列上,去做測(cè)試和研究,是有助于做器件的優(yōu)化的。
圖為一個(gè) 4X4 1T1R 陣列測(cè)試框圖。從框圖可以看出,陣列測(cè)試不僅測(cè)試硬件連接復(fù)雜,其控制流程及測(cè)試序列更需要定制。
高濱老師特別強(qiáng)調(diào)說(shuō):“不過(guò)最好還是要落實(shí)到器件上去做優(yōu)化。去調(diào)整器件里面電子、離子的輸運(yùn),最后去看整體算法的效果。這其實(shí)就是系統(tǒng)和器件之間的協(xié)同發(fā)展?!?
而在新器件工藝上,當(dāng)前摩爾定律正面臨極限挑戰(zhàn),一個(gè)方向是繼續(xù)“延續(xù)摩爾定律”。國(guó)際上幾大公司,都還在不斷研究新的先進(jìn)工藝,如堆疊三維基層晶體管。但門(mén)檻太高,能做的企業(yè)寥寥無(wú)幾。
高濱老師分享說(shuō):“目前另一個(gè)新的方向是單片三維集層,它與現(xiàn)在較熱的 chiplet,其實(shí)是平行路線(xiàn)。具體做法是,在一個(gè)襯底上盡量把很多器件三維堆疊起來(lái)。相對(duì)chiplet,其器件間的帶寬會(huì)更高。這是一個(gè)新的趨勢(shì),可用新型 TFT 材料、薄膜氧化物、二維材料等嘗試做成后端兼容器件?!?
面向傳統(tǒng)存算分離架構(gòu)制約算力提升的重大挑戰(zhàn),去年十月,清華大學(xué)吳華強(qiáng)、高濱團(tuán)隊(duì)成功研制出了國(guó)際首顆支持片上學(xué)習(xí)的憶阻器存算一體芯片,提出了一種適于憶阻器實(shí)現(xiàn)高效片上學(xué)習(xí)的新型通用神經(jīng)網(wǎng)絡(luò)算法和STELLAR架構(gòu),有效實(shí)現(xiàn)大規(guī)模模擬型憶阻器陣列與CMOS的單片三維集成,并成功演示了圖像分類(lèi)、語(yǔ)音識(shí)別和控制任務(wù)等多種片上增量學(xué)習(xí)功能。該成果通過(guò)算法、架構(gòu)、集成方式的全流程協(xié)同創(chuàng)新,展示出高適應(yīng)性、高能效、高通用性、高準(zhǔn)確率等特點(diǎn),為發(fā)展高算力芯片探索出了一條創(chuàng)新路徑。
憶阻器的發(fā)展趨勢(shì)
在新興的信息時(shí)代,發(fā)展和探究憶阻器的各種性能刻不容緩。憶阻器全稱(chēng)記憶電阻,是一種具有電荷記憶功能的非線(xiàn)性電阻,于1971年,由加州大學(xué)伯克利分校的華裔科學(xué)家蔡少棠教授提出。蔡教授從電路完整性角度出發(fā),從數(shù)學(xué)上推導(dǎo)出憶阻器的概念。
憶阻器是神經(jīng)元網(wǎng)絡(luò)的核心器件,它為發(fā)展信息存儲(chǔ)與處理融合的新型計(jì)算體系架構(gòu),突破傳統(tǒng)馮·諾伊曼架構(gòu)瓶頸,提供了可行的路線(xiàn),其性能直接影響神經(jīng)元網(wǎng)絡(luò)的計(jì)算能力。
憶阻器的發(fā)展有三個(gè)階段:
第一個(gè)階段主要做存儲(chǔ);
第二階段,就是現(xiàn)在做的存算一體,加速人工神經(jīng)網(wǎng)絡(luò)的;
第三便是類(lèi)腦計(jì)算,不過(guò)它本質(zhì)還是憶阻器,因?yàn)樗枰脩涀杵鞯囊恍﹦?dòng)力學(xué)特性。憶阻器主要是調(diào)節(jié)內(nèi)部的離子輸運(yùn),存算一體更多是利用它的靜態(tài)過(guò)程。未來(lái)還可以利用電離子的很多動(dòng)態(tài)過(guò)程,去做更像神經(jīng)元的一些行為。
憶阻器也是目前材料和電子領(lǐng)域的研究前沿和熱點(diǎn)。其中,氧化物材料在憶阻器研究中具有重大價(jià)值。高濱老師分享說(shuō):“雖然對(duì)于氧化物憶阻器目前看似已經(jīng)到了發(fā)展的瓶頸期,但未來(lái),還是有好幾個(gè)突破點(diǎn)的?!?
據(jù)高濱老師分享,可靠性和密度是非常值得關(guān)注的方向。
可靠性。一個(gè)器件能調(diào)節(jié)出很多個(gè)穩(wěn)定的電路狀態(tài),叫多比特存儲(chǔ)。只有做到多比特存儲(chǔ),很多計(jì)算的效率才能提高。而多比特存儲(chǔ),目前最高阻和最低阻都比較穩(wěn)定。但中間阻態(tài),由于原子分布的形貌比較特殊,就沒(méi)那么穩(wěn)定,這很大程度就限制了憶阻器的應(yīng)用。如何把中間阻態(tài)做穩(wěn)定,本身是一個(gè)科學(xué)問(wèn)題。以及如何同時(shí)去監(jiān)測(cè)中間阻態(tài),對(duì)測(cè)試也提出了很大的挑戰(zhàn)。
密度。高濱老師表示,終極目標(biāo)是希望能與 M3D 高密度存儲(chǔ)器拼密度,但這很難做到。清華大學(xué)現(xiàn)在在嘗試用HBM的方式,把多片憶阻器堆疊起來(lái)。這就需要把片內(nèi)憶阻器的尺寸盡量做小。其中面臨的挑戰(zhàn)就是憶阻器和晶體管的匹配問(wèn)題,需要兩者的共同優(yōu)化,本質(zhì)還是工藝。
高濱老師滿(mǎn)懷期望的分享到:“未來(lái),憶阻器還有可能會(huì)應(yīng)用到高速存儲(chǔ),用憶阻器去研究憶阻器,就像用人去研究生物。這將是更高階的智能。這個(gè)方向,我覺(jué)得在學(xué)術(shù)界,還是非常值得去探索的。但是短期落地還是有困難的。因?yàn)楝F(xiàn)在想做大規(guī)模的,無(wú)論是在工藝上,還是在算法上,都還存在很多挑戰(zhàn)。不過(guò),由高校牽頭去探索,確實(shí)是一個(gè)非常好的方向?!?
存算器件的發(fā)展與測(cè)試需求
類(lèi)腦計(jì)算的研究,本身需要用到動(dòng)力學(xué)特性,希望能看到電阻隨時(shí)間怎么變。同時(shí),希望有很多電阻狀態(tài),并且能監(jiān)控每一個(gè)電阻狀態(tài)的情況。其中,靜態(tài)情況的保持,需要關(guān)注絕對(duì)的電阻數(shù)值;動(dòng)態(tài)的,涉及到讀和寫(xiě)的切換,速度越快越好。幾納秒的時(shí)鐘內(nèi)完成切換。
器件的測(cè)試結(jié)果,其實(shí)是沒(méi)辦法直接轉(zhuǎn)換到芯片里面去做。在器件狀態(tài)就得去做芯片方面的模擬測(cè)試。在靜態(tài)測(cè)試轉(zhuǎn)向動(dòng)態(tài)測(cè)試,對(duì)于微安級(jí)的電流,需要有納秒級(jí)別的寫(xiě)入或者讀出,跟調(diào)控阻態(tài)的時(shí)候希望能有更精準(zhǔn)的寫(xiě)和讀,是相近的需求。
高濱老師表示,他們現(xiàn)在想做模仿類(lèi)腦的神經(jīng)形態(tài)器件,其實(shí)也是受限于設(shè)備。他分享說(shuō):“我們看到,近幾年有一些這方面的研究,但是速度基本也都是在毫秒,也有可能是因?yàn)榇竽X就是毫秒,所以我們也就是做到毫秒。但如果能做到比大腦快,那肯定更好?!?
現(xiàn)在超級(jí)神經(jīng)元在毫秒量級(jí),會(huì)有一個(gè)動(dòng)力學(xué)的響應(yīng),器件可以做的很快,能做到納秒量級(jí)的響應(yīng),是比生物量級(jí)快的一個(gè)超級(jí)大腦。我們相信,隨著技術(shù)的不斷進(jìn)步和應(yīng)用的不斷拓展,存算一體技術(shù)將在更多領(lǐng)域發(fā)揮重要作用。
高濱
清華大學(xué)集成電路學(xué)院 副教授,博士生導(dǎo)師
高濱,現(xiàn)為清華大學(xué)集成電路學(xué)院長(zhǎng)聘副教授。2008年本科畢業(yè)于北京大學(xué)物理學(xué)院,獲得物理學(xué)學(xué)士學(xué)位;2013年博士畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院微電子系,獲得微電子學(xué)與固體電子學(xué)專(zhuān)業(yè)博士學(xué)位;讀博期間曾赴新加坡南洋理工大學(xué)和美國(guó)斯坦福大學(xué)交流訪(fǎng)問(wèn)。2013年至2015年在北京大學(xué)信息科學(xué)技術(shù)學(xué)院做博士后,2015年加入清華大學(xué)微納電子系,2017年晉升準(zhǔn)聘副教授,2022年成為清華大學(xué)集成電路學(xué)院長(zhǎng)聘副教授。
現(xiàn)主要從事先進(jìn)存儲(chǔ)器和存算一體芯片研究,在Science、Nature、Nature Electronics、Nature Nanotechnology、Nature Machine Intelligence等期刊發(fā)表論文200余篇,在微電子三大頂級(jí)會(huì)議(IEDM、VLSI和ISSCC)發(fā)表論文50余篇,總引用超過(guò)15000次。申請(qǐng)專(zhuān)利300余項(xiàng)。擔(dān)任了IEDM、IRPS、EDTM、ICTA的sub-committee chair,DAC、IMW、IPFA的TPC member,在重要國(guó)際學(xué)術(shù)會(huì)議做特邀報(bào)告20余次。2020年獲得國(guó)家青年人才項(xiàng)目支持,2024年獲得國(guó)家高層次人才項(xiàng)目支持。獲得中國(guó)電子學(xué)會(huì)自然科學(xué)一等獎(jiǎng)、教育部自然科學(xué)二等獎(jiǎng)、中國(guó)產(chǎn)學(xué)研合作創(chuàng)新成果獎(jiǎng)、中國(guó)科協(xié)中國(guó)十大新銳科技人物、清華大學(xué)年度教學(xué)優(yōu)秀獎(jiǎng)和優(yōu)秀博士學(xué)位論文指導(dǎo)教師等獎(jiǎng)勵(lì)。