Arista News
Arista蓄勢待發,打造 Meta 的生成式 AI 基礎設施
2.4 萬個 H100 GPU 訓練 Llama 3 新模型,Meta 展示 AI 運算火力
標誌著對 Meta AI 未來的重大投資,我們宣布推出兩個 24,000 GPU 的叢集設施我們將分享有關硬體、網路、儲存、設計、效能和軟體的細節,這些要素幫助我們實現高效能和可靠性,以支持各種 AI 工作負載。我們使用此叢集設計進行 Llama 3 的訓練。
我們堅定地致力於開放運算與開源。我們的叢集是基於 Grand Teton、OpenRack 和 PyTorch 打造,並持續推動整個產業的開放創新。
這項宣布是我們雄心勃勃的基礎設施藍圖中的一部分。截至 2024 年底,我們的目標是擴展基礎設施,計劃包括 350,000 顆 NVIDIA H100 GPU,組合中的計算能力將相當於近 600,000 顆 H100。

領先 AI 開發意味著在硬體基礎設施上的領先投資。
硬體基礎設施在 AI 的未來中扮演著重要角色。今天,我們分享了 Meta 兩個 24,576 GPU 數據中心規模叢集的細節。這些叢集支持我們的現有和下一代 AI 模型,包括 Llama 3——Llama 2(我們公開發布的 LLM)的後繼者,以及涵蓋生成式 AI(GenAI)和其他領域的 AI 研究與開發。
一窺 Meta 的大規模 AI 叢集
Meta 的長期願景是構建負責任且開放的通用人工智慧(AGI),以便人人都能從中受益。為了實現這一目標,我們致力於擴展叢集規模來支撐這一雄心。我們在 AGI 方面的進展,將帶來新產品、家族應用的 AI 新功能,以及以 AI 為核心的計算設備。
儘管我們在建構 AI 基礎設施方面有悠久歷史,但我們首次公開 AI 研究超級叢集(RSC)的細節是在 2022 年,當時該叢集配備了 16,000 顆 NVIDIA A100 GPU。RSC 幫助我們加速了開放且負責任的 AI 研究,並支持我們構建第一代先進 AI 模型。它在 Llama 和 Llama 2 的開發中發揮了重要作用,同時促進了應用於電腦視覺、自然語言處理(NLP)、語音識別、圖像生成,甚至程式碼生成等領域的高階 AI 模型的發展。
核心技術詳解
我們的新一代 AI 叢集基於 RSC 的成功經驗與教訓打造,專注於構建端到端的 AI 系統,強調研究人員與開發人員的體驗和生產力。這些叢集內部的高效能網路架構、高效存儲決策,以及每個叢集配置的 24,576 顆 NVIDIA Tensor Core H100 GPU,讓其能夠支持比 RSC 更大、更複雜的模型,為生成式 AI(GenAI)產品開發與 AI 研究鋪平道路。
網路
在 Meta,我們每天處理數百兆次 AI 模型執行。如此大規模的服務交付需要高度先進且靈活的基礎設施。我們自行設計硬體、軟體和網路架構,優化 AI 研究人員的端到端體驗,同時確保數據中心高效運行。
我們建立了一個基於 Arista 7800、Wedge400 和 Minipack2 OCP 機架交換機的 RoCE(融合乙太網上的遠端記憶體存取)網路架構叢集。另一個叢集則採用 NVIDIA Quantum2 InfiniBand 網路架構。兩種解決方案皆連接 400 Gbps 的端點。透過這些配置,我們可以評估不同互連類型在大規模訓練中的適用性與可擴展性,為未來設計更大規模的叢集提供洞見。通過網路、軟體和模型架構的精心協同設計,我們成功運行 RoCE 和 InfiniBand 叢集處理大型 GenAI 工作負載(包括在 RoCE 叢集上進行 Llama 3 的持續訓練),且無網路瓶頸。
運算
兩個叢集均採用我們內部設計的 Grand Teton 平台,這是一種開源 GPU 硬體平台,已貢獻至 Open Compute Project(OCP)。Grand Teton 整合了多代 AI 系統的電源、控制、運算與網路介面,提供更好的整體效能、信號完整性與散熱性能。其設計簡化了部署流程,能快速投入數據中心並輕鬆維護與擴展。配合我們自主創新的 Open Rack 電源與機架架構,Grand Teton 讓我們能夠針對當前與未來的應用需求快速構建新叢集。
我們的 GPU 硬體平台開放設計始於 2015 年的 Big Sur 平台。
儲存
儲存是 AI 訓練的重要組成部分,隨著 GenAI 訓練逐漸多模態化(處理圖像、視頻和文本等多種數據),存儲需求快速增長。我們的存儲部署使用自主開發的 Linux Filesystem in Userspace(FUSE)API,並以 Meta 的 Tectonic 分布式存儲解決方案為基礎進行優化,專為 Flash 媒介設計。這解決方案支持成千上萬的 GPU 同步保存與加載檢查點,同時提供高效靈活的 exabyte 級存儲,用於數據加載。
我們還與 Hammerspace 合作,共同開發並部署並行網路文件系統(NFS),滿足開發人員對叢集的需求。當 Tectonic 和 Hammerspace 結合時,它們提供快速的開發迭代速度,同時保持可擴展性。
存儲部署基於 YV3 Sierra Point 伺服器平台,配備當前市場上的最新高容量 E1.S SSD。我們針對每台伺服器的吞吐量容量、機架數量與功耗效率進行定制,確保靈活擴展並對日常基礎設施維護具有容錯能力。
效能
我們構建大規模 AI 叢集的原則之一是同時最大化效能與使用便利性,且不以任何一方為代價。這是創建一流 AI 模型的關鍵。
在設計過程中,我們通過小型叢集與大型叢集性能對比,找出瓶頸問題。為解決最初的大型叢集性能不穩定問題,我們優化了內部作業調度程序,使其具備網路拓撲意識,從而降低延遲並最小化網路流量。同時,我們結合 NVIDIA Collective Communications Library(NCCL)進行網路路由策略優化,最終實現了與小型叢集相同的優異性能。