在佐治亞州亞特蘭大舉行的 SC24 大會上,SK hynix正在展示其面向 AI 和 HPC 的高級內(nèi)存解決方案。

Sk Hynix Sc24 01

自 1988 年以來,該年度活動由計算機協(xié)會和 IEEE 計算機學會組織,展示了 HPC、網(wǎng)絡(luò)、存儲和數(shù)據(jù)分析方面的最新發(fā)展。

SK海力士已連續(xù)第二年回歸,通過展示內(nèi)存產(chǎn)品以及有關(guān)AI和HPC技術(shù)的深刻演講,鞏固了其在AI內(nèi)存的領(lǐng)導地位。根據(jù)會議的“HPC Creates”主題(強調(diào)超級計算對各個行業(yè)的影響),該公司展示了其內(nèi)存解決方案如何推動不同領(lǐng)域的進步。

展示適用于 AI 和 HPC 的高級內(nèi)存解決方案

Sk Hynix Sc24 03b

在其 展位上,該公司正在演示和展示一系列為 AI 和 HPC 量身定制的產(chǎn)品。正在演示的產(chǎn)品包括其 CMM(CXL (1) 內(nèi)存模塊)-DDR5 (2)、AiMX (3) 加速卡和 Niagara 2.0 等。

Sk Hynix Sc24 04

CMM-DDR5 與采用至強 6 處理器的服務(wù)器平臺的現(xiàn)場演示展示了 CXL 內(nèi)存技術(shù)如何在各種使用模式下加速 AI 工作負載。此外,展位的參觀者可以了解采用 EDSFF (4) 的最新 CMM-DDR5 產(chǎn)品,該產(chǎn)品在 TCO (5) 和性能方面都有所改進。

Sk Hynix Sc24 06

另一個現(xiàn)場演示是將 AiMX 集成在華擎機架式服務(wù)器中,以運行 Meta 的 Llama 3 70B,這是一個具有 700 億個參數(shù)的大型語言模型 (LLM)。該演示突出了 AiMX 在處理大型數(shù)據(jù)集方面的效率,同時實現(xiàn)了高性能和低功耗,解決了 LLM 中注意力層 (6) 帶來的計算負載挑戰(zhàn)。

Sk Hynix Sc24 08

正在演示的其他技術(shù)包括 Niagara 2.0。CXL 池內(nèi)存解決方案支持數(shù)據(jù)共享,以最大限度地減少 AI 推理期間的 GPU 內(nèi)存短缺 (7),使其適用于 LLM 模型。 該公司還展示了具有接近內(nèi)存處理 (NMP) (8) 的 HBM ,它加速了 HPC 中常見的間接內(nèi)存訪問 (9)。該解決方案由洛斯阿拉莫斯國家實驗室 (LANL) 開發(fā),突出了基于 NMP 的 HBM 在推動下一代技術(shù)方面的潛力。

Sk Hynix Sc24 05

另一個演示展示了 SK 海力士更新的 OCS (10) 解決方案,與 SC23 上展示的迭代相比,該解決方案在實際 HPC 工作負載的分析性能方面有了顯著改進。OCS 與 LANL 共同開發(fā),通過使存儲能夠獨立分析數(shù)據(jù)、減少不必要的數(shù)據(jù)移動并提高資源效率,解決了傳統(tǒng) HPC 系統(tǒng)中的性能問題。此外,該公司還演示了一個檢查點卸載 SSD (11) 原型,該原型通過提高性能和可擴展性來提高 LLM 訓練資源的利用率。

Sk Hynix Sc24 14

除了進行產(chǎn)品演示外,SK海力士還展示了強大的數(shù)據(jù)中心解決方案陣容,包括HBM3E(12)。5th–Gen HBM 提供高速數(shù)據(jù)處理、最佳散熱和高容量,使其成為 AI 應(yīng)用必不可少的。除了 HBM3E 之外,該公司還有 Rapid DDR5 RDIMM 和 MCR DIMM 產(chǎn)品,這些產(chǎn)品專為高性能服務(wù)器中的 AI 計算量身定制。包括第 5 代 PS1010 和 PEB110 在內(nèi)的企業(yè)級 SSD (eSSD) 也在展會上展出。這些 SSD 解決方案提供超快的 RW 速度,對于在大規(guī)模環(huán)境中加速 AI 訓練和推理至關(guān)重要。

通過專家演講突出記憶的潛力

Jongryool Kim 介紹 HPC 和 AI 系統(tǒng)的內(nèi)存和存儲方面的進步

Sk Hynix Sc24 15

在會議期間,人工智能系統(tǒng)基礎(chǔ)設(shè)施研究總監(jiān)Jongryool Kim發(fā)表了題為“內(nèi)存和存儲:HPC/AI的力量”的演講,強調(diào)了HPC和AI系統(tǒng)的內(nèi)存需求。他專注于 2 項關(guān)鍵進步,包括使用 CXL、HBM 和 SSD 的近數(shù)據(jù)處理技術(shù)來提高性能,以及 CXL 池內(nèi)存以實現(xiàn)更好的系統(tǒng)數(shù)據(jù)共享。

Jeoungahn Park 在 OCS 上發(fā)表演講

Sk Hynix Sc24 16

可持續(xù)計算團隊的技術(shù)負責人 Jeoungahn Park 也上臺發(fā)表了題為“利用開放標準化 OCS 促進 HPC 數(shù)據(jù)分析”的演講。Park 解釋了 OCS 如何使存儲能夠自動識別和分析數(shù)據(jù),從而加速 HPC 中的數(shù)據(jù)分析。他添加了 OCS 如何提高資源效率并與現(xiàn)有分析系統(tǒng)集成,以及如何在實際 HPC 應(yīng)用程序中驗證其分析性能。

在 SC24 上,SK 海力士鞏固了其作為內(nèi)存解決方案先驅(qū)的地位,這些解決方案正在推動 AI 和 HPC 技術(shù)的創(chuàng)新。展望未來,該公司將在合作伙伴的支持下繼續(xù)突破技術(shù)界限,以塑造 AI 和 HPC 的未來。

(1) Compute Express Link (CXL)高性能計算系統(tǒng)所基于的基于 PCIe 的下一代互連協(xié)議。

(2) CXL 內(nèi)存模塊 - DDR5 (CMM-DDR5):利用 CXL 技術(shù)的下一代 DDR5 內(nèi)存模塊,可提高 AI、云和高性能計算的帶寬和性能。

(3) 基于內(nèi)存中加速器的加速器 (AiMX):SK 海力士為使用 GDDR6-AiM 芯片的大型語言模型處理量身定制的專用加速卡。

(4) 企業(yè)和數(shù)據(jù)中心標準外形規(guī)格 (EDSFF):專門用于數(shù)據(jù)中心服務(wù)器的 SSD 外形規(guī)格的集合。

(5) 總擁有成本 (TCO):購置、運營和維護資產(chǎn)的全部成本,包括購買、能源和維護費用。

(6)注意層一種使模型能夠評估輸入數(shù)據(jù)的相關(guān)性,優(yōu)先考慮更重要信息進行處理的機制。

(7)AI 推理:使用經(jīng)過訓練的 AI 模型分析實時數(shù)據(jù)以進行預測或任務(wù)完成的過程。

(8) 近內(nèi)存處理 (NMP):一種在數(shù)據(jù)存儲附近執(zhí)行計算的技術(shù),可減少延遲并提高 AI 和 HPC 等高帶寬任務(wù)的性能。

(9) 間接內(nèi)存訪問一種計算尋址方法,其中一條指令提供內(nèi)存位置的地址,其中包含所需數(shù)據(jù)或指令的實際地址。

(10) 基于對象的計算存儲 (OCS)一種在存儲系統(tǒng)中集成計算的存儲架構(gòu),支持本地數(shù)據(jù)處理并最大限度地減少移動以提高分析效率。

(11) Checkpoint 卸載 SSD:在 AI 訓練期間存儲中間數(shù)據(jù)的存儲解決方案,提高效率并縮短訓練時間。

(12) HBM3E:第 5 代高帶寬內(nèi)存 (HBM),一種高價值、高性能的產(chǎn)品,通過將多個 DRAM 芯片與硅通孔 (TSV) 連接,徹底改變了數(shù)據(jù)處理速度。