Posts

Showing posts from December, 2025

CPU、GPU、TPU區別

曾經,互聯網由Wintel(Windows 與Intel)平分天下,CPU那一行「Intel Core Inside」是電腦性能的最大保證;後來,在遊戲領域,尤其在渲染和光影等部分,需要用到很多的並行運算,於是GPU、獨立顯卡開始進入大眾的視野;再之後,挖礦、人工智能(AI)算力更加成為GPU再一個增長點,輝達作為當之無愧的「大佬」,可謂獨步天下,行政總裁黃仁勳更擲下豪言:「即使其他廠商的晶片免費供應,只算營運效率及成本,輝達的總持有成本(TCO)更低,大家最後都依然會選用輝達GPU。」 區別CPU、GPU、TPU 後來的故事大家都知道了,DeepSeek出現讓大家開始質疑AI是否真的那麼缺算力,輝達單日暴跌11%,即使很快再創新高。市場對於輝達的質疑從未停止,這次,新挑戰者是Google 的TPU,輝達似乎陷入了兩難:一方面黃仁勳上季度誇下海口的Gross Margin 75%,不知道能否實現;另方面,市場亦不太願意看到輝達為了維持Margin 而賣太多晶片給新晉雲廠(neocloud)公司如CoreWeave等,因為有循環融資(circular financing)的顧慮,怕neocloud公司最後還不起錢,市場密切關注輝達的Gross Margin,因為這象徵着輝達的議價能力,以及庫存周轉率,這代表着輝達的存貨是否「賣得出去」。 要搞清楚輝達是否真的會「無路可走」,首先要搞懂CPU、GPU、TPU、NPU的區別,用最簡單的方式來說:AI的算法可以想像成兩個矩陣(matrix)相乘,想像「3x3」的矩陣,CPU做的就像我們中學所學的,人手去算每一個因子、每一粒數一個個相乘相加,可行但慢,因為步驟多,我們叫這做sequential computing。 GPU不同點在於,相較於每一粒數相乘,我們把「3x3」的矩陣變成vector相乘,由「每一粒數相乘」變成「每一列數相乘」,物理上效率就快了3倍,我們管這叫做平衡運算(parallel computing)。 TPU更極致一點,首先要知道的是,TPU屬ASIC晶片,Google的TPU本身就是為了Google自家用,因此,對於「3x3」的矩陣題,可以想像他們可以「提前預知」題目,因為訓練的AI模型本身也是Google自家設計的,想像學生時期考試,如果提前知道題目,那麼最簡單的方法,肯定是用CASIO-fx-50-fh...