CPU、GPU、TPU區別

曾經，互聯網由Wintel（Windows 與Intel）平分天下，CPU那一行「Intel Core Inside」是電腦性能的最大保證；後來，在遊戲領域，尤其在渲染和光影等部分，需要用到很多的並行運算，於是GPU、獨立顯卡開始進入大眾的視野；再之後，挖礦、人工智能（AI）算力更加成為GPU再一個增長點，輝達作為當之無愧的「大佬」，可謂獨步天下，行政總裁黃仁勳更擲下豪言：「即使其他廠商的晶片免費供應，只算營運效率及成本，輝達的總持有成本（TCO）更低，大家最後都依然會選用輝達GPU。」

區別CPU、GPU、TPU

後來的故事大家都知道了，DeepSeek出現讓大家開始質疑AI是否真的那麼缺算力，輝達單日暴跌11%，即使很快再創新高。市場對於輝達的質疑從未停止，這次，新挑戰者是Google 的TPU，輝達似乎陷入了兩難：一方面黃仁勳上季度誇下海口的Gross Margin 75%，不知道能否實現；另方面，市場亦不太願意看到輝達為了維持Margin 而賣太多晶片給新晉雲廠（neocloud）公司如CoreWeave等，因為有循環融資（circular financing）的顧慮，怕neocloud公司最後還不起錢，市場密切關注輝達的Gross Margin，因為這象徵着輝達的議價能力，以及庫存周轉率，這代表着輝達的存貨是否「賣得出去」。

要搞清楚輝達是否真的會「無路可走」，首先要搞懂CPU、GPU、TPU、NPU的區別，用最簡單的方式來說：AI的算法可以想像成兩個矩陣（matrix）相乘，想像「3x3」的矩陣，CPU做的就像我們中學所學的，人手去算每一個因子、每一粒數一個個相乘相加，可行但慢，因為步驟多，我們叫這做sequential computing。

GPU不同點在於，相較於每一粒數相乘，我們把「3x3」的矩陣變成vector相乘，由「每一粒數相乘」變成「每一列數相乘」，物理上效率就快了3倍，我們管這叫做平衡運算（parallel computing）。

TPU更極致一點，首先要知道的是，TPU屬ASIC晶片，Google的TPU本身就是為了Google自家用，因此，對於「3x3」的矩陣題，可以想像他們可以「提前預知」題目，因為訓練的AI模型本身也是Google自家設計的，想像學生時期考試，如果提前知道題目，那麼最簡單的方法，肯定是用CASIO-fx-50-fh-II計算機設定好program，然後直接入數字、出答案。TPU做的是矩陣相乘，極快。而輝達做不到這一點，因為GPU在CUDA下是GPGPU（General Purpose GPU），GPU會同時服務Google、Amazon、OpenAI等的AI模型訓練，做的「題目」會有所變化。

外界現在最擔心的是Google未來向第三方賣的TPU會大幅增加，這從TPU供應鏈未來兩三年的訂單數量可見一斑，而輝達過去近60%的收入依賴4間巨企，於是大家擔心，首先是Google 會用少了GPU，其次是由於Meta和Anthropic都有採購TPU的計劃（雖然我們覺得Meta最後應該不太會用TPU），會影響到輝達長久的生意。我認為影響會有，但更多應該是類似AMD之於輝達一樣的象徵性挑戰，巨企為了「分散風險」，不想被一間公司卡住脖子，會在輝達之餘，也買AMD。而現在不買AMD了，改為買TPU，所以Google的TPU增產後，AMD跌得比輝達更多更狠。

巨企之間的勾心鬥角

為什麼巨企不會完全轉投Google懷抱呢？首先是硬件方面：輝達之於AI模型廠商而言是合作者。一直以來，不同的AI模型廠商之間互相都有自己的發展方向與側重，由於輝達不太直接參與大模型訓練，他們會放心大膽地提早跟輝達溝通，讓輝達新晶片可以貼合他們的模型。對熟悉半導體的朋友而言，其實這與台積電只代工不設計是類似的。如果是Google呢？等於Meta要提早跟Google報備說自己要做什麼類型的訓練，而且由於是ASIC，必須巨細無遺，自爆秘密給最大競爭對手，邏輯上行不太通。

其二是TPU本身的排他性，這方面，熟軟件和機器學習的朋友應該都知道CUDA，而儘管CUDA已經是最多工程師社群的加速平台，寫CUDA做加速運算依然非常痛苦，因為同樣的報錯可以有100種不同的原因，要一個個去Stack Overflow找出問題試錯。

TPU更甚，因本身是只服務於Google的內部晶片，TPU的kernel engineer極為稀缺，識寫的人基本上都來自Google本身，而且TPU可轉移性低，要由TPU為中心的系統轉回GPU或其他晶片的成本較高，因而，如果巨企全用TPU，一旦Google說要提價100%，巨企們就只能啞巴吃黃連，任人擺布。

篇幅有限，總括而言，我認為Google或ASIC對於輝達影響，絕對是有的，而且不少，但其他新的大客，如國家主權AI，因為上述原因，不太可能會用ASIC。對於未來，我認為NPU很可能才是未來可能影響更大的，有機會下次再分享。

Search This Blog

IT

CPU、GPU、TPU區別

Comments

Post a Comment