CPU、GPU、TPU區別
曾經,互聯網由Wintel(Windows 與Intel)平分天下,CPU那一行「Intel Core Inside」是電腦性能的最大保證;後來,在遊戲領域,尤其在渲染和光影等部分,需要用到很多的並行運算,於是GPU、獨立顯卡開始進入大眾的視野;再之後,挖礦、人工智能(AI)算力更加成為GPU再一個增長點,輝達作為當之無愧的「大佬」,可謂獨步天下,行政總裁黃仁勳更擲下豪言:「即使其他廠商的晶片免費供應,只算營運效率及成本,輝達的總持有成本(TCO)更低,大家最後都依然會選用輝達GPU。」
區別CPU、GPU、TPU
後來的故事大家都知道了,DeepSeek出現讓大家開始質疑AI是否真的那麼缺算力,輝達單日暴跌11%,即使很快再創新高。市場對於輝達的質疑從未停止,這次,新挑戰者是Google 的TPU,輝達似乎陷入了兩難:一方面黃仁勳上季度誇下海口的Gross Margin 75%,不知道能否實現;另方面,市場亦不太願意看到輝達為了維持Margin 而賣太多晶片給新晉雲廠(neocloud)公司如CoreWeave等,因為有循環融資(circular financing)的顧慮,怕neocloud公司最後還不起錢,市場密切關注輝達的Gross Margin,因為這象徵着輝達的議價能力,以及庫存周轉率,這代表着輝達的存貨是否「賣得出去」。
要搞清楚輝達是否真的會「無路可走」,首先要搞懂CPU、GPU、TPU、NPU的區別,用最簡單的方式來說:AI的算法可以想像成兩個矩陣(matrix)相乘,想像「3x3」的矩陣,CPU做的就像我們中學所學的,人手去算每一個因子、每一粒數一個個相乘相加,可行但慢,因為步驟多,我們叫這做sequential computing。
GPU不同點在於,相較於每一粒數相乘,我們把「3x3」的矩陣變成vector相乘,由「每一粒數相乘」變成「每一列數相乘」,物理上效率就快了3倍,我們管這叫做平衡運算(parallel computing)。
TPU更極致一點,首先要知道的是,TPU屬ASIC晶片,Google的TPU本身就是為了Google自家用,因此,對於「3x3」的矩陣題,可以想像他們可以「提前預知」題目,因為訓練的AI模型本身也是Google自家設計的,想像學生時期考試,如果提前知道題目,那麼最簡單的方法,肯定是用CASIO-fx-50-fh-II計算機設定好program,然後直接入數字、出答案。TPU做的是矩陣相乘,極快。而輝達做不到這一點,因為GPU在CUDA下是GPGPU(General Purpose GPU),GPU會同時服務Google、Amazon、OpenAI等的AI模型訓練,做的「題目」會有所變化。
外界現在最擔心的是Google未來向第三方賣的TPU會大幅增加,這從TPU供應鏈未來兩三年的訂單數量可見一斑,而輝達過去近60%的收入依賴4間巨企,於是大家擔心,首先是Google 會用少了GPU,其次是由於Meta和Anthropic都有採購TPU的計劃(雖然我們覺得Meta最後應該不太會用TPU),會影響到輝達長久的生意。我認為影響會有,但更多應該是類似AMD之於輝達一樣的象徵性挑戰,巨企為了「分散風險」,不想被一間公司卡住脖子,會在輝達之餘,也買AMD。而現在不買AMD了,改為買TPU,所以Google的TPU增產後,AMD跌得比輝達更多更狠。
巨企之間的勾心鬥角
為什麼巨企不會完全轉投Google懷抱呢?首先是硬件方面:輝達之於AI模型廠商而言是合作者。一直以來,不同的AI模型廠商之間互相都有自己的發展方向與側重,由於輝達不太直接參與大模型訓練,他們會放心大膽地提早跟輝達溝通,讓輝達新晶片可以貼合他們的模型。對熟悉半導體的朋友而言,其實這與台積電只代工不設計是類似的。如果是Google呢?等於Meta要提早跟Google報備說自己要做什麼類型的訓練,而且由於是ASIC,必須巨細無遺,自爆秘密給最大競爭對手,邏輯上行不太通。
其二是TPU本身的排他性,這方面,熟軟件和機器學習的朋友應該都知道CUDA,而儘管CUDA已經是最多工程師社群的加速平台,寫CUDA做加速運算依然非常痛苦,因為同樣的報錯可以有100種不同的原因,要一個個去Stack Overflow找出問題試錯。
TPU更甚,因本身是只服務於Google的內部晶片,TPU的kernel engineer極為稀缺,識寫的人基本上都來自Google本身,而且TPU可轉移性低,要由TPU為中心的系統轉回GPU或其他晶片的成本較高,因而,如果巨企全用TPU,一旦Google說要提價100%,巨企們就只能啞巴吃黃連,任人擺布。
篇幅有限,總括而言,我認為Google或ASIC對於輝達影響,絕對是有的,而且不少,但其他新的大客,如國家主權AI,因為上述原因,不太可能會用ASIC。對於未來,我認為NPU很可能才是未來可能影響更大的,有機會下次再分享。
Comments
Post a Comment