亚洲AV无一区二区三区,东京热加勒比国产精品,91麻豆精品国产91久久久久,国产欧美一区二区三区免费看

英偉達殺入光刻領(lǐng)域,DPU和GPU重磅更新,首次詳談云服務(wù)!

2023-03-23 09:12:53 徐繼 31

pcba


在前段時(shí)間的GTC演講中,英偉達CEO宣布了一系列的重磅芯品,當中不但包括了為中國專(zhuān)門(mén)準備的,基于H100改版而來(lái)的H800芯片。同時(shí),公司還宣布了為生成式AI而準備的產(chǎn)品。

在這次演講中,黃仁勛還帶來(lái)了加速2nm設計的計算光刻等一系列產(chǎn)品,現在整理如下,與大家分享。

 

將旗艦 H100 調整為H800,出口到中國

 

據路透社報道,主導人工智能芯片市場(chǎng)的美國半導體設計公司Nvidia 已將其旗艦產(chǎn)品修改為可以合法出口到中國的版本。

美國監管機構去年制定了規則,禁止Nvidia 向中國客戶(hù)銷(xiāo)售其兩款最先進(jìn)的芯片,即 A100 和更新的 H100。此類(lèi)芯片對于開(kāi)發(fā)生成式人工智能技術(shù)(如 OpenAI 的 ChatGPT 和類(lèi)似產(chǎn)品)至關(guān)重要。

路透社在 11 月報道稱(chēng),Nvidia設計了一款名為 A800 的芯片,該芯片降低了 A100 的某些功能,使 A800 可以合法出口到中國。

周二,該公司證實(shí)它已經(jīng)開(kāi)發(fā)出類(lèi)似的 H100 芯片的中國出口版本。阿里巴巴集團控股、百度公司和騰訊控股等中國科技公司的云計算部門(mén)正在使用這款名為 H800 的新芯片,英偉達發(fā)言人說(shuō)。

美國監管機構去年秋天實(shí)施了規則,以減緩中國在半導體和人工智能等關(guān)鍵技術(shù)領(lǐng)域的發(fā)展。

圍繞人工智能芯片的規則強加了一項測試,禁止那些具有強大計算能力和高芯片到芯片數據傳輸率的芯片。在使用大量數據訓練人工智能模型時(shí),傳輸速度非常重要,因為較慢的傳輸速度意味著(zhù)更多的訓練時(shí)間。

中國一位芯片行業(yè)消息人士告訴路透社,H800 主要將芯片到芯片的數據傳輸速率降低到旗艦 H100 速率的一半左右。

Nvidia 發(fā)言人拒絕透露面向中國的 H800 與 H100 有何不同,只是“我們的 800 系列產(chǎn)品完全符合出口管制法規”。

 

突破計算光刻,為2nm芯片制造奠定基礎

 

在英偉達這次GTC大會(huì )上,下手ASML、TSMC 和 Synopsys突破計算光刻,助力行業(yè)跨越物理極限是另一個(gè)值得關(guān)注的亮點(diǎn)。

NVIDIA 表示,將加速計算帶入計算光刻領(lǐng)域,使 ASML、臺積電和 Synopsys 等半導體領(lǐng)導者能夠加速下一代芯片的設計和制造,正如當前的生產(chǎn)流程已接近物理學(xué)的極限一樣使成為可能。

英偉達在新聞稿中指出,用于計算光刻的全新 NVIDIA cuLitho 軟件庫被世界領(lǐng)先的晶圓代工廠(chǎng)臺積電和電子設計自動(dòng)化領(lǐng)導者Synopsys集成到其最新一代 NVIDIA Hopper? 架構 GPU 的軟件、制造流程和系統中。設備制造商 ASML 在 GPU 和 cuLitho 方面與 NVIDIA 密切合作,并計劃將對 GPU 的支持集成到其所有計算光刻軟件產(chǎn)品中。

這一進(jìn)步將使芯片具有比現在更細的晶體管和電線(xiàn),同時(shí)加快上市時(shí)間并提高 24/7 全天候運行以驅動(dòng)制造過(guò)程的大型數據中心的能源效率。

“芯片行業(yè)是世界上幾乎所有其他行業(yè)的基礎,”NVIDIA 創(chuàng )始人兼首席執行官黃仁勛表示?!半S著(zhù)光刻技術(shù)達到物理極限,NVIDIA 推出 cuLitho 并與我們的合作伙伴 TSMC、ASML 和 Synopsys 合作,使晶圓廠(chǎng)能夠提高產(chǎn)量、減少碳足跡并為 2nm 及更高工藝奠定基礎?!?/p>

在 GPU 上運行,cuLitho 比當前光刻技術(shù)(在硅晶圓上創(chuàng )建圖案的過(guò)程)提供高達 40 倍的性能飛躍,加速目前每年消耗數百億 CPU 小時(shí)的大量計算工作負載。

它使 500 個(gè) NVIDIA DGX H100 系統能夠完成 40,000 個(gè) CPU 系統的工作,并行運行計算光刻過(guò)程的所有部分,有助于減少電力需求和潛在的環(huán)境影響。

在短期內,使用 cuLitho 的晶圓廠(chǎng)可以幫助每天多生產(chǎn) 3-5 倍的光掩?!酒O計的模板——使用比當前配置低 9 倍的功率。需要兩周才能完成的光掩?,F在可以在一夜之間完成。

從長(cháng)遠來(lái)看,cuLitho 將實(shí)現更好的設計規則、更高的密度、更高的產(chǎn)量和 AI 驅動(dòng)的光刻。

“cuLitho 團隊通過(guò)將昂貴的操作轉移到 GPU,在加速計算光刻方面取得了令人欽佩的進(jìn)展,”臺積電首席執行官 CC Wei 博士說(shuō)?!斑@一發(fā)展為臺積電在芯片制造中更廣泛地部署逆光刻技術(shù)和深度學(xué)習等光刻解決方案開(kāi)辟了新的可能性,為半導體規模的持續發(fā)展做出了重要貢獻?!?/p>

“我們計劃將對 GPU 的支持集成到我們所有的計算光刻軟件產(chǎn)品中,”ASML 首席執行官 Peter Wennink 說(shuō)?!拔覀兣c NVIDIA 在 GPU 和 cuLitho 方面的合作應該會(huì )給計算光刻帶來(lái)巨大好處,從而給半導體微縮帶來(lái)好處。在High NA 極紫外光刻時(shí)代尤其如此?!?/p>

Synopsys 董事長(cháng)兼首席執行官 Aart de Geus 表示:“計算光刻,特別是光學(xué)鄰近校正 (OPC),正在突破最先進(jìn)芯片的計算工作負載界限?!巴ㄟ^(guò)與我們的合作伙伴 NVIDIA 合作,在 cuLitho 平臺上運行 Synopsys OPC 軟件,我們將性能從數周大幅提升至數天!我們兩家領(lǐng)先公司的合作將繼續推動(dòng)該行業(yè)取得驚人的進(jìn)步?!?/p>

英偉達表示,近年來(lái),由于較新節點(diǎn)中的晶體管數量更多以及更嚴格的精度要求,半導體制造中最大工作負載所需的計算時(shí)間成本已超過(guò)摩爾定律。未來(lái)的節點(diǎn)需要更詳細的計算,并非所有這些都可以適用于當前平臺提供的可用計算帶寬,從而減緩了半導體創(chuàng )新的步伐。

晶圓廠(chǎng)流程變更通常需要 OPC 修訂,從而造成瓶頸。cuLitho 有助于消除這些瓶頸,并使新穎的解決方案和創(chuàng )新技術(shù)成為可能,例如曲線(xiàn)掩模、High NA EUV 光刻和新技術(shù)節點(diǎn)所需的亞原子光刻膠建模。

 

Nvidia 宣布 BlueField-3 GA

 

Nvidia 今天宣布全面推出其 BlueField-3 數據處理單元 (DPU) 以及令人印象深刻的早期部署,包括 Oracle Cloud Infrastructure。BlueField-3 于 2021 年首次描述,現已交付,是 Nvidia 的第三代 DPU,擁有大約 220 億個(gè)晶體管。與上一代 BlueField 相比,新的 DPU 支持以太網(wǎng)和 InfiniBand 連接,速度高達每秒 400 吉比特,計算能力提高 4 倍,加密加速提高 4 倍,存儲處理速度提高 2 倍,內存帶寬提高 4 倍?!?/p>

Nvidia 首席執行官黃仁勛在 GTC 23 主題演講中表示:“在現代軟件定義的數據中心中,執行虛擬化、網(wǎng)絡(luò )、存儲和安全性的操作系統會(huì )消耗數據中心近一半的 CPU 內核和相關(guān)功率。數據中心必須加速每個(gè)工作負載以回收功率并釋放 CPU 用于創(chuàng )收工作負載。Nvidia BlueField 卸載并加速了數據中心操作系統和基礎設施軟件?!?/p>

早在 2020 年,Nvidia 就制定了 DPU 戰略,認為 CPU 正因諸如 Huang 所引用的內務(wù)雜務(wù)而陷入困境。Nvidia 認為,DPU 將吸收這些任務(wù),從而釋放 CPU 用于應用程序。其他芯片供應商——尤其是英特爾和 AMD——似乎同意并已跳入 DPU 市場(chǎng)。

有時(shí)被描述為類(lèi)固醇的智能網(wǎng)卡引起了人們的興趣,但尚未轉化為廣泛的銷(xiāo)售。變化現在可能正在發(fā)生。Huang 列舉了“超過(guò) 20 個(gè)生態(tài)系統合作伙伴”,其中包括現在使用 BlueField 技術(shù)的 Cisco、DDN、Dell EMC 和 Juniper。

在媒體/分析師預簡(jiǎn)報會(huì )上,英偉達網(wǎng)絡(luò )副總裁 Kevin Deierling 表示:“BlueField-3 已全面投入生產(chǎn)并可供使用。它的 Arm 處理器內核數量是 BlueField-2 的兩倍,加速器更多,并且運行工作負載的速度比我們上一代 DPU 快八倍。BlueField-3 可跨云 HPC、企業(yè)和加速 AI 用例卸載、加速和隔離工作負載?!?/p>

Nvidia 的 DPU 瞄準超級計算機、數據中心和云提供商。在 GTC 上,Nvidia 吹捧了 Oracle 云部署,其中 BlueField-3 是Nvidia更大的 DGX-in-the-Cloud 勝利的一部分。

“正如你所聽(tīng)到的,我們宣布Oracle Cloud Infrastructure率先運行 DGX Cloud 和 AI 超級計算服務(wù),使企業(yè)能夠立即訪(fǎng)問(wèn)為生成 AI 訓練高級模型所需的基礎設施和軟件。OCI [還] 選擇了 BlueField-3 以實(shí)現更高的性能、效率和安全性。與 BluField-2 相比,BlueField-3 通過(guò)從 CPU 卸載數據中心基礎設施任務(wù),將虛擬化實(shí)例增加了八倍,從而提供了巨大的性能和效率提升,”Deierling 說(shuō)。

在官方公告中,英偉達引用了 OCI 執行副總裁 Clay Magouyrk 的話(huà)說(shuō):“Oracle 云基礎設施為企業(yè)客戶(hù)提供了幾乎無(wú)與倫比的人工智能和科學(xué)計算基礎設施的可訪(fǎng)問(wèn)性,并具有改變行業(yè)的能力。Nvidia BlueField-3 DPU 是我們提供最先進(jìn)、可持續的云基礎設施和極致性能戰略的關(guān)鍵組成部分?!?/p>

BlueField-3 在 CSP 中的其他勝利包括百度、CoreWeave。京東、微軟 Azure 和騰訊。

Nvidia 還報告稱(chēng),BlueField-3 具有“通過(guò)DOCA軟件框架”的完全向后兼容性。

DOCA 是 BlueField 的編程工具,DOCA 2.0 是最新版本。Nvidia 一直在穩步為其 DPU 產(chǎn)品線(xiàn)添加功能。例如,最近,它加強了內聯(lián) GPU 數據包處理,“以實(shí)施高數據率解決方案:數據過(guò)濾、數據放置、網(wǎng)絡(luò )分析、傳感器信號處理等?!?新的 DOCA GPUNetIO 庫可以克服以前 DPDK 解決方案中發(fā)現的一些限制。

按照英偉達所說(shuō),Nvidia 實(shí)時(shí) GPU 網(wǎng)絡(luò )數據包處理是一種對多個(gè)不同應用領(lǐng)域有用的技術(shù),包括信號處理、網(wǎng)絡(luò )安全、信息收集和輸入重建。這些應用程序的目標是實(shí)現內聯(lián)數據包處理管道以在 GPU 內存中接收數據包(無(wú)需通過(guò) CPU 內存暫存副本);與一個(gè)或多個(gè) CUDA 內核并行處理它們;然后運行推理、評估或通過(guò)網(wǎng)絡(luò )發(fā)送計算結果。

 

推出H100 NVL,用于大模型的內存服務(wù)器卡

 

Anandtech表示,雖然今年的春季 GTC 活動(dòng)沒(méi)有采用 NVIDIA 的任何新 GPU 或 GPU 架構,但該公司仍在推出基于去年推出的 Hopper 和 Ada Lovelace GPU 的新產(chǎn)品。但在高端市場(chǎng),該公司今天宣布推出專(zhuān)門(mén)針對大型語(yǔ)言模型用戶(hù)的新 H100 加速器變體:H100 NVL。

H100 NVL 是NVIDIA H100 PCIe 卡的一個(gè)有趣變體,它是時(shí)代的標志和 NVIDIA 在 AI 領(lǐng)域取得的廣泛成功,其目標是一個(gè)單一的市場(chǎng):大型語(yǔ)言模型 (LLM) 部署。有一些東西使這張卡與 NVIDIA 通常的服務(wù)器票價(jià)不同——其中最重要的是它的 2 個(gè) H100 PCIe 板已經(jīng)橋接在一起——但最大的收獲是大內存容量。組合的雙 GPU 卡提供 188GB 的 HBM3 內存——每張卡 94GB——提供比迄今為止任何其他 NVIDIA 部件更多的每個(gè) GPU 內存,即使在 H100 系列中也是如此。

驅動(dòng)此 SKU 的是一個(gè)特定的利基市場(chǎng):內存容量。像 GPT 系列這樣的大型語(yǔ)言模型在許多方面都受到內存容量的限制,因為它們甚至會(huì )很快填滿(mǎn) H100 加速器以保存它們的所有參數(在最大的 GPT-3 模型的情況下為 175B)。因此,NVIDIA 選擇拼湊出一個(gè)新的 H100 SKU,它為每個(gè) GPU 提供的內存比他們通常的 H100 部件多一點(diǎn),后者最高為每個(gè) GPU 80GB。

在封裝的蓋下,我們看到的本質(zhì)上是放置在 PCIe 卡上的GH100 GPU的特殊容器。所有 GH100 GPU 都配備 6 個(gè) HBM 內存堆棧(HBM2e 或 HBM3),每個(gè)堆棧的容量為 16GB。然而,出于良率原因,NVIDIA 僅在其常規 H100 部件中提供 6 個(gè) HBM 堆棧中的 5 個(gè)。因此,雖然每個(gè) GPU 上標稱(chēng)有 96GB 的 VRAM,但常規 SKU 上只有 80GB 可用。

而H100 NVL 是神話(huà)般的完全啟用的 SKU,啟用了所有 6 個(gè)堆棧。通過(guò)打開(kāi)第 6個(gè)HBM 堆棧,NVIDIA 能夠訪(fǎng)問(wèn)它提供的額外內存和額外內存帶寬。它將對產(chǎn)量產(chǎn)生一些實(shí)質(zhì)性影響——多少是 NVIDIA 嚴密保守的秘密——但 LLM 市場(chǎng)顯然足夠大,并且愿意為近乎完美的 GH100 封裝支付足夠高的溢價(jià),以使其值得 NVIDIA 光顧。

即便如此,應該注意的是,客戶(hù)無(wú)法訪(fǎng)問(wèn)每張卡的全部 96GB。相反,在總容量為 188GB 的內存中,它們每張卡的有效容量為 94GB。在今天的主題演講之前,NVIDIA 沒(méi)有在我們的預簡(jiǎn)報中詳細介紹這個(gè)設計,但我們懷疑這也是出于良率原因,讓 NVIDIA 在禁用 HBM3 內存堆棧中的壞單元(或層)方面有一些松懈。最終結果是新 SKU 為每個(gè) GH100 GPU 提供了 14GB 的內存,內存增加了 17.5%。同時(shí),該卡的總內存帶寬為 7.8TB/秒,單個(gè)板的總內存帶寬為 3.9TB/秒。

除了內存容量增加之外,更大的雙 GPU/雙卡 H100 NVL 中的各個(gè)卡在很多方面看起來(lái)很像放置在 PCIe 卡上的 H100 的 SXM5 版本。雖然普通的 H100 PCIe 由于使用較慢的 HBM2e 內存、較少的活動(dòng) SM/張量核心和較低的時(shí)鐘速度而受到一些限制,但 NVIDIA 為 H100 NVL 引用的張量核心性能數據與 H100 SXM5 完全相同,這表明該卡沒(méi)有像普通 PCIe 卡那樣進(jìn)一步縮減。我們仍在等待產(chǎn)品的最終、完整規格,但假設這里的所有內容都如所呈現的那樣,那么進(jìn)入 H100 NVL 的 GH100 將代表當前可用的最高分檔 GH100。

這里需要強調復數。如前所述,H100 NVL 不是單個(gè) GPU 部件,而是雙 GPU/雙卡部件,它以這種方式呈現給主機系統。硬件本身基于兩個(gè) PCIe 外形規格的 H100,它們使用三個(gè) NVLink 4 橋接在一起。從物理上講,這實(shí)際上與 NVIDIA 現有的 H100 PCIe 設計完全相同——后者已經(jīng)可以使用 NVLink 橋接器進(jìn)行配對——所以區別不在于兩板/四插槽龐然大物的結構,而是內部芯片的質(zhì)量。換句話(huà)說(shuō),您今天可以將普通的 H100 PCIe 卡捆綁在一起,但它無(wú)法與 H100 NVL 的內存帶寬、內存容量或張量吞吐量相匹配。

令人驚訝的是,盡管有出色的規格,但 TDP 幾乎保持不變。H100 NVL 是一個(gè) 700W 到 800W 的部件,分解為每塊板 350W 到 400W,其下限與常規 H100 PCIe 的 TDP 相同。在這種情況下,NVIDIA 似乎將兼容性置于峰值性能之上,因為很少有服務(wù)器機箱可以處理超過(guò) 350W 的 PCIe 卡(超過(guò) 400W 的更少),這意味著(zhù) TDP 需要保持穩定。不過(guò),考慮到更高的性能數據和內存帶寬,目前還不清楚 NVIDIA 如何提供額外的性能。Power binning 在這里可以發(fā)揮很大的作用,但也可能是 NVIDIA 為卡提供比平常更高的提升時(shí)鐘速度的情況,因為目標市場(chǎng)主要關(guān)注張量性能并且不會(huì )點(diǎn)亮整個(gè) GPU一次。

否則,鑒于 NVIDIA 對 SXM 部件的普遍偏好,NVIDIA 決定發(fā)布本質(zhì)上最好的 H100 bin 是一個(gè)不尋常的選擇,但在 LLM 客戶(hù)的需求背景下,這是一個(gè)有意義的決定?;?SXM 的大型 H100 集群可以輕松擴展到 8 個(gè) GPU,但任何兩個(gè) GPU 之間可用的 NVLink 帶寬量因需要通過(guò) NVSwitch 而受到限制。對于只有兩個(gè) GPU 的配置,將一組 PCIe 卡配對要直接得多,固定鏈路保證卡之間的帶寬為 600GB/秒。

但也許比這更重要的是能夠在現有基礎設施中快速部署 H100 NVL。LLM 客戶(hù)無(wú)需安裝專(zhuān)門(mén)為配對 GPU 而構建的 H100 HGX 載板,只需將 H100 NVL 添加到新的服務(wù)器構建中,或者作為對現有服務(wù)器構建的相對快速升級即可。畢竟,NVIDIA 在這里針對的是一個(gè)非常特殊的市場(chǎng),因此 SXM 的正常優(yōu)勢(以及 NVIDIA 發(fā)揮其集體影響力的能力)可能不適用于此。

總而言之,NVIDIA 宣稱(chēng) H100 NVL 提供的 GPT3-175B 推理吞吐量是上一代 HGX A100 的 12 倍(8 個(gè) H100 NVL 對比 8 個(gè) A100)。對于希望盡快為 LLM 工作負載部署和擴展系統的客戶(hù)來(lái)說(shuō),這肯定很有吸引力。如前所述,H100 NVL 在架構特性方面并沒(méi)有帶來(lái)任何新的東西——這里的大部分性能提升來(lái)自 Hopper 架構的新變壓器引擎——但 H100 NVL 將作為最快的 PCIe H100 服務(wù)于特定的利基市場(chǎng)選項,以及具有最大 GPU 內存池的選項。

總結一下,根據 NVIDIA 的說(shuō)法,H100 NVL 卡將于今年下半年開(kāi)始發(fā)貨。該公司沒(méi)有報價(jià),但對于本質(zhì)上是頂級 GH100 的產(chǎn)品,我們預計它們會(huì )獲得最高價(jià)格。特別是考慮到 LLM 使用量的激增如何轉變?yōu)榉?wù)器 GPU 市場(chǎng)的新淘金熱。

 

Nvidia 的“云”,服務(wù)起價(jià) 37,000 美元

 

如果你是 Nvidia 的忠實(shí)擁護者,請準備好花大價(jià)錢(qián)使用它在云端的 AI 工廠(chǎng)。

Nvidia 聯(lián)合創(chuàng )始人兼首席執行官黃仁勛上個(gè)月在談到這家GPU 制造商的季度收益時(shí),提出了 Nvidia DGX Cloud 的計劃,本質(zhì)上是呼吁將公司的 DGX AI 超級計算機硬件和配套軟件——尤其是其廣泛的企業(yè) AI一套軟件——放到公有云平臺上供企業(yè)使用。

我們必須申明,Nvidia 還不夠富有,或者說(shuō)不夠愚蠢,他們無(wú)法構建云來(lái)與 Amazon Web Services、Microsoft Azure 或 Google Cloud 等公司競爭。但他們足夠聰明,可以利用這些龐大的計算和存儲實(shí)用程序為自己謀利,并在它們構建的基礎設施之上銷(xiāo)售服務(wù)賺錢(qián),而基礎設施又基于自己的組件。

DGX Cloud 的巧妙之處不在于有經(jīng)過(guò)認證的本地和云堆棧來(lái)運行 Nvidia 的 AI 硬件和軟件。您需要向 Nvidia 支付費用,才能以一種 SaaS 模式這樣做——Nvidia 可以向您或云出售構建基礎設施的部件。

就其本身而言,這是使AI 民主化的最新嘗試,將其帶出 HPC 和研究機構的領(lǐng)域,并將其置于主流企業(yè)的范圍內,這些企業(yè)非??释眯屡d技術(shù)可以帶來(lái)的業(yè)務(wù)優(yōu)勢遞送。

對于 Nvidia 而言,DGX Cloud 的人工智能即服務(wù)代表著(zhù)向云優(yōu)先戰略的強烈轉變,以及一種理解——與其他組件制造商一樣——它現在既是一家硬件制造商,也是一家軟件公司,而公共云是一個(gè)使該軟件易于訪(fǎng)問(wèn)并且更重要的是將其貨幣化的自然途徑。

對于十多年前將 AI 置于其前進(jìn)戰略中心、構建以 AI 為核心的路線(xiàn)圖的公司而言,這是重要的下一步。Nvidia 在 2016 年推出了 DGX-1,這是其第一臺深度學(xué)習超級計算機。第四代系統于去年推出。2020 年出現了第一批DGX SuperPOD,一年后 Nvidia 推出了 AI Enterprise,這是一個(gè)包含框架、工具和相當大劑量的 VMware vSphere 的軟件套件。

AI Enterprise 強調了軟件對 Nvidia 日益增長(cháng)的重要性——反映了其他組件制造商的類(lèi)似趨勢——這家公司現在從事軟件工作的員工多于硬件。

借助 DGX Cloud,Nvidia 現在可以通過(guò)另一種方式將所有這些交付給那些希望在其工作流程中利用生成式 AI 工具(例如來(lái)自 OpenAI 的廣受歡迎的 ChatGPT)的企業(yè)(通過(guò) Microsoft),但沒(méi)有資源在其內部擴展基礎設施數據中心來(lái)支持它。他們現在可以通過(guò)云訪(fǎng)問(wèn)它,享受它所有的可擴展性和即用即付的好處。

Nvidia 企業(yè)計算副總裁 Manuvir Das 在 GTC 前會(huì )議上告訴記者:“多年來(lái),我們一直在與企業(yè)公司合作,創(chuàng )建他們自己的模型來(lái)訓練他們自己的數據?!?“過(guò)去幾個(gè)月,像 ChatGPT 這樣基于非常非常大的 GPT 模型的服務(wù)越來(lái)越受歡迎,每天有數百萬(wàn)人使用一個(gè)模型。當我們與企業(yè)公司合作時(shí),他們中的許多人有興趣使用自己的數據為自己的目的創(chuàng )建模型?!?/p>

據最新介紹,租用 GPU 公司包羅萬(wàn)象的云端 AI 超級計算機的DGX Cloud起價(jià)為每個(gè)實(shí)例每月 36,999 美元。租金包括使用帶有八個(gè) Nvidia H100 或 A100 GPU 和 640GB GPU 內存的云計算機。價(jià)格包括用于開(kāi)發(fā) AI 應用程序和大型語(yǔ)言模型(如 BioNeMo)的 AI Enterprise 軟件。

“DGX Cloud 有自己的定價(jià)模型,因此客戶(hù)向 Nvidia 付費,他們可以根據他們選擇使用它的位置通過(guò)任何云市場(chǎng)購買(mǎi)它,但這是一項由 Nvidia 定價(jià)的服務(wù),包括所有費用,” Nvidia 企業(yè)計算副總裁 Manuvir Das 在新聞發(fā)布會(huì )上說(shuō)。

DGX Cloud 的起始價(jià)格接近 Microsoft Azure 每月收取的 20,000 美元的兩倍,用于滿(mǎn)載的 A100 實(shí)例,該實(shí)例具有 96 個(gè) CPU 內核、900GB 存儲空間和 8 個(gè) A100 GPU 每月。

甲骨文在其 RDMA 超級集群中托管 DGX 云基礎設施,可擴展到 32,000 個(gè) GPU。微軟將在下個(gè)季度推出 DGX Cloud,隨后將推出 Google Cloud。

客戶(hù)將不得不為最新的硬件支付額外費用,但軟件庫和工具的集成可能會(huì )吸引企業(yè)和數據科學(xué)家。

Nvidia 聲稱(chēng)它為 AI 提供了最好的可用硬件。它的 GPU 是高性能和科學(xué)計算的基石。但是 Nvidia 專(zhuān)有的硬件和軟件就像使用 Apple iPhone 一樣——你得到了最好的硬件,但一旦你被鎖定,就很難脫身,而且在它的生命周期中會(huì )花費很多錢(qián)。

但為 Nvidia 的 GPU 支付溢價(jià)可能會(huì )帶來(lái)長(cháng)期利益。例如,Microsoft 正在投資 Nvidia 硬件和軟件,因為它通過(guò) Bing with AI 提供了成本節約和更大的收入機會(huì )。

人工智能工廠(chǎng)的概念是由首席執行官黃仁勛提出的,他將數據設想為原材料,工廠(chǎng)將其轉化為可用數據或復雜的人工智能模型。Nvidia的硬件和軟件是AI工廠(chǎng)的主要組成部分。

“你只需提供你的工作,指向你的數據集,然后點(diǎn)擊開(kāi)始,所有的編排和下面的一切都在 DGX Cloud 中得到處理?,F在,相同的模型可以在托管在各種公共云上的基礎設施上使用,”Nvidia 企業(yè)計算副總裁 Manuvir Das 在新聞發(fā)布會(huì )上說(shuō)。

Das 說(shuō),數百萬(wàn)人正在使用 ChatGPT 風(fēng)格的模型,這需要高端人工智能硬件。

DGX Cloud 進(jìn)一步推動(dòng)了 Nvidia 將其硬件和軟件作為一套產(chǎn)品銷(xiāo)售的目標。Nvidia 正在進(jìn)軍軟件訂閱業(yè)務(wù),該業(yè)務(wù)的長(cháng)尾涉及銷(xiāo)售更多硬件,從而產(chǎn)生更多軟件收入。Base Command Platform 軟件界面將允許公司管理和監控 DGX 云培訓工作負載。

Oracle Cloud 擁有多達 512 個(gè) Nvidia GPU 的集群,以及每秒 200 GB 的 RDMA 網(wǎng)絡(luò )。該基礎設施支持包括 Lustre 在內的多個(gè)文件系統,吞吐量為每秒 2 TB。

Nvidia 還宣布有更多公司采用了其 H100 GPU。Amazon 宣布他們的 EC2“UltraClusters”和 P5 實(shí)例將基于 H100?!斑@些實(shí)例可以使用他們的 EFA 技術(shù)擴展到 20,000 個(gè) GPU,”Nvidia 超大規模和 HPC 計算副總裁 Ian Buck 在新聞發(fā)布會(huì )上說(shuō)。

EFA 技術(shù)是指 Elastic Fabric Adapter,它是由 Nitro 編排的網(wǎng)絡(luò )實(shí)現,它是一種處理網(wǎng)絡(luò )、安全和數據處理的通用定制芯片。

Meta Platforms 已開(kāi)始在Grand Teton中部署 H100 系統,這是社交媒體公司下一代 AI 超級計算機的平臺。

 

總結

 

在開(kāi)幕的GTC上,英偉達還帶來(lái)了多樣化的產(chǎn)品,例如用于特定推理的的英偉達 L4 GPU。據報道,這款 GPU 可以提供比 CPU 高 120 倍的人工智能視頻性能。它提供增強的視頻解碼和轉碼功能、視頻流、增強現實(shí)和生成 AI 視頻。

此外,英偉達還聯(lián)合客戶(hù)打造由 16 個(gè) DGX H100 系統組成,每個(gè)系統配備八個(gè) H100 GPU的生成式AI超級計算機Tokyo-1。根據 Nvidia 的 AI 觸發(fā)器數學(xué)計算,這相當于大約一半的 exaflop AI 能力;由于每個(gè) H100(一開(kāi)始將有 128 個(gè))提供 30 teraflops 的峰值 FP64 功率,因此它應該達到大約 3.84 petaflops 的峰值。

由此可見(jiàn),黃仁勛正在帶領(lǐng)英偉達走向一個(gè)新階段。


微信公眾號