最近2019中文免费字幕在线观看 ,国产中文字幕在线免费观看,日本不卡中文字幕

你的位置：首頁 > 測試測量 > 正文

英特爾面向 CPU、GPU 和 IPU發布了重大技術架構的改變和創新

發布時間：2021-08-22 責任編輯：lina

【導讀】在 2021 年英特爾架構日上，英特爾公司高級副總裁兼加速計算系統和圖形事業部總經理 Raja Koduri 攜手多位英特爾架構師，全面介紹了兩種全新 x86 內核架構的詳情；英特爾首個性能混合架構，代號“Alder Lake”，以及智能的英特爾® 硬件線程調度器；專為數據中心設計的下一代英特爾® 至強® 可擴展處理器 Sapphire Rapids；基礎設施處理器（IPU）；即將推出的顯卡架構，包括 Xe HPG 微架構和 Xe HPC 微架構，以及 Alchemist SoC, Ponte Vecchio SoC。

英特爾驅動數據中心、邊緣和客戶端邁入下一個計算時代，直面未來工作負載和計算挑戰

2021 年 8 月 19 日——在 2021 年英特爾架構日上，英特爾公司高級副總裁兼加速計算系統和圖形事業部總經理 Raja Koduri 攜手多位英特爾架構師，全面介紹了兩種全新 x86 內核架構的詳情；英特爾首個性能混合架構，代號“Alder Lake”，以及智能的英特爾® 硬件線程調度器；專為數據中心設計的下一代英特爾® 至強® 可擴展處理器 Sapphire Rapids；基礎設施處理器（IPU）；即將推出的顯卡架構，包括 Xe HPG 微架構和 Xe HPC 微架構，以及 Alchemist SoC, Ponte Vecchio SoC。

這些新架構將為即將推出的高性能產品注入動力，并為英特爾的下一個創新時代奠定基礎，以滿足世界對高計算能力日益增長的需求。

Raja Koduri 強調了架構提升對于滿足這一需求的重要性：“架構是硬件和軟件的‘煉金術’。它將特定計算引擎所需的先進的晶體管結合在一起，通過領先的封裝技術將它們連接，集成高帶寬和低功耗緩存，并在封裝中為混合計算集群配備高容量、高帶寬內存和低時延、可擴展互連，同時確保所有軟件無縫加速。隨著桌面到數據中心的工作負載變得前所未有的密集、復雜、且多樣，今年公布的這些新突破也展示了架構將如何滿足對于更高計算性能的迫切需求。”

x86 內核

能效核

全新的英特爾能效核微架構，曾用代號“Gracemont”，旨在面對當今多任務場景，提高吞吐量效率并提供可擴展多線程性能。此高能效 x86 微架構在有限的硅片空間實現多核任務負載，并具備寬泛的頻率范圍。該架構致力通過低電壓能效核降低整體功率消耗，為更高頻率運行提供功率熱空間。這也讓能效核提升性能，以滿足更多動態任務負載。

能效核可以利用各種技術進步，在不耗費處理器功率的情況下對工作負載進行優先級排序，并通過每周期指令數（IPC）改進功能直接提高性能，這些功能包括：

●擁有 5000 個條目的分支目標緩存區，實現更準確的分支預測

●64KB 指令緩存，在不耗費內存子系統功率的情況下保存可用指令

●英特爾的首款按需指令長度解碼器，可生成預解碼信息

●英特爾的簇亂序執行解碼器，可在保持能效的同時，每周期解碼多達 6 條指令

●后端寬度（Wide Back End）具備 5 組寬度分配（Five-wide allocation）和 8 組寬度引退、256 個亂序窗口入口和 17 個執行端口

●支持英特爾® 控制流強制技術和英特爾® 虛擬化技術重定向保護等功能

●實現了 AVX 指令集以及支持整數人工智能操作的新擴展

相比英特爾最多產的 CPU 內核 Skylake，在單線程性能下，能效核能夠在相同功耗下實現 40% 的性能提升，或在功耗不到 40% 的情況下提供同等性能 1。與運行四個線程的兩個 Skylake 內核相比，四個能效核所提供的吞吐量性能，能夠在功耗更低的情況下同時帶來 80% 的性能提升，而在提供相同吞吐量性能時，功耗減少 80%。1

性能核

英特爾全新性能核微架構，曾用代號“Golden Cove”，旨在提高速度，突破低時延和單線程應用程序性能的限制。工作負載的代碼體積正在不斷增長，需要更強的執行能力。數據集也隨著數據帶寬的需求提升而大幅增加。英特爾全新性能核微架構帶來了顯著增速同時更好地支持代碼體積較大的應用程序。

性能核擁有更寬、更深、更智能的架構：

●更寬：解碼器由 4 個增至 6 個，6µop 緩存增至 8µop，分配由 5 路增至 6 路，執行端口由 10 個增至 12 個

●更深：更大的物理寄存器文件（physical register files），擁有 512 條目的重排序緩沖區

●更智能：提高了分支預測準確度，降低了有效的一級時延，優化了二級的全寫入預測帶寬

性能核是英特爾有史以來構建的性能最高的 CPU 內核，并通過以下功能突破了低時延和單線程應用程序性能的極限：

●相比目前的第 11 代英特爾® 酷睿™ 處理器架構（Cypress Cove），在通用性能的 ISO 頻率下，針對大范圍的工作負載實現了平均約 19% 的改進 1

●呈現出更高的并行性和執行并行性的增加

●搭載英特爾® 高級矩形擴展（AMX），內置下一代 AI 加速提升技術， ●用于學習推理和訓練。AMX 包括專用硬件和新指令集架構，以明顯提高矩陣乘法運算

●減少時延，對大型數據和代碼體積較大的應用程序提供更好的支持

客戶端

Alder Lake 客戶端 SoC

代號為“Alder Lake”的英特爾下一代客戶端架構是英特爾的首款性能混合架構，它首次集成了兩種內核類型：性能核和能效核，以帶來跨越所有工作負載類型的顯著性能提升。Alder Lake 基于 Intel 7 制程工藝打造而成，支持最新內存和最快 I/O。

Alder Lake 將提供驚人的性能，支持從超便攜式筆記本，到發燒級，到商用臺式機的所有客戶端設備，它采用了單一、高度可擴展的 SoC 架構，提供三類產品設計形態：

●高性能、雙芯片、插座式的臺式機處理器，具有領先性能和能效。支持高規格的內存和 I/O

●高性能筆記本處理器，采用 BGA 封裝，并加入圖像單元，更大的 Xe 顯卡和 Thunderbolt 4 連接

●輕薄、低功耗的筆記本處理器，采用高密度的封裝，配置優化的 I/O 和電能傳輸

構建如此高度可擴展架構的挑戰，我們需要在不影響功率的情況下滿足計算和 I/O 代理對帶寬超乎尋常的需求。為了解決這一挑戰，我們設計了三種獨立的內部總線，每一種都采用基于需求的實時啟發式后處理方式。

●計算內部總線可支持高達 1000GBps——即每個內核或每集群 100GBps，通過最后一級緩存將內核和顯卡連接到內存

具有高動態頻率范圍，并且能夠動態選擇數據路徑，根據實際總線結構負載而進行時延和帶寬優化

根據利用率動態調整最后一級緩存策略——也就是“包含”或“不包含”

●I/O 內部總線支持可高達 64 GBps，連接不同類型的 I/O 和內部設備，能在不干擾設備正常運行的情況下無縫改變速度，選擇內部總線速度來匹配所需的數據傳輸量

●內存結構可提供高達 204 GBps 的數據，并動態擴展其總線寬度和速度，以支持高帶寬、低時延或低功耗的多個操作點

英特爾硬件線程調度器

為使性能核和能效核與操作系統無縫協作，英特爾開發了一種改進的調度技術，稱之為“英特爾硬件線程調度器”。硬件線程調度器直接內置于硬件中，可提供對內核狀態和線程指令混合比的低級遙測，讓操作系統能夠在恰當的時間將合適的線程放置在合適的內核上。硬件線程調度器具有動態性和自適應性——它會根據實時的計算需求調整調度決策——而非一種簡單的、基于規則的靜態方法。

傳統意義上，操作系統會根據有限的可用數據做出決策，如前臺和后臺任務。硬件線程調度器可通過以下方式增加新維度：

●使用硬件遙測工具將需要更高性能的線程引導到當時適合的性能核上

●更精細地監控指令組合、每內核當前狀態以及相關的微架構遙測，從而幫助操作系統做出更智能的調度決策

●通過與微軟合作，優化英特爾硬件線程調度器在 Windows11 上的極佳性能

●擴展 PowerThrottling API，使得開發人員能夠為其線程明確指定服務質量屬性

●應用全新 EcoQoS 分類，該分類可讓調度程序獲悉線程是否更傾向于能效（此類線程會被調度到能效核）

Xe HPG 微架構和 Alchemist SoC

Xe HPG 是一款全新的獨立顯卡微架構，專為游戲和創作工作負載提供發燒級的高性能。Xe HPG 微架構為 Alchemist 系列 SoC 提供動力，首批相關產品將于 2022 年第一季度上市，并采用新的品牌名——英特爾銳炫™（Intel®Arc™）。 Xe HPG 微架構采用全新的 Xe 內核，是一款聚焦計算、可編程且可擴展的元件。

客戶端顯卡路線圖包括 Alchemist（此前稱之為 DG2）、Battlemage、Celestial 和 Druid SoC。在演講中，英特爾展示了微架構細節，并分享了在試產階段的 Alchemist SoC 上運行的演示視頻，包括真實游戲展示，虛幻引擎 5 測試良好，全新的基于神經網絡的超取樣技術 Xe SS 等。

基于 Xe HPG 微架構的 Alchemist SoC 能夠提供出色的可擴展性和計算效率，并擁有以下關鍵架構特征：

●多達 8 個具有固定功能的渲染切片，專為 DirectX 12 Ultimate 設計

●全新 Xe 內核，擁有 16 個矢量引擎和 16 個矩陣引擎（被稱為 XMX，即 Xe Matrix eXtension）、高速緩存和共享內部顯存

支持 DirectX Raytracing（DXR）和 Vulkan Ray Tracing 的新光線追蹤單元

●通過架構、邏輯設計、電路設計、制程工藝技術和軟件優化，相比 Xe LP 微架構實現 5 倍的頻率提升和 1.5 倍的每瓦性能提升 1

●使用臺積電的 N6 制程節點上進行制造

英特爾顯卡設計的核心是軟件優先：

●我們正與開發人員密切合作進行 Xe 微架構的設計，力求與行業標準保持一致

●通過在一個統一的代碼庫中涵蓋集成和獨立顯卡產品的驅動設計，英特爾的第一款高性能游戲顯卡將性能和質量放在首位

●英特爾已完成了內核顯卡驅動程序組件的重新架構，特別是內存管理器和編譯器，從而使計算密集型游戲的吞吐量提高了 15% （至多 80%），游戲加載時間縮短了 25%

Xe SS

Xe SS 利用 Alchemist 的內置 XMX AI 加速，帶來了一種可實現高性能和高保真視覺的全新升頻技術。其使用深度學習來合成非常接近原生高分辨率渲染質量的圖像。憑借 Xe SS，那些只能在低畫質設置或低分辨率下玩的游戲也能在更高畫質設置和分辨率下順利運行。

●Xe SS 的工作原理是通過從相鄰像素，以及對前一幀進行運動補償，來重建子像素細節

●重構由經過訓練的神經網絡執行，可提供高性能和高畫質，同時性能提升高達兩倍 1

●Xe SS 憑借 DP4a 指令，在包括集成顯卡在內的各種硬件上提供基于 AI 的超級采樣

●多家早期的游戲開發商已開始使用 Xe SS，本月將向獨立軟件供應商（ISV）提供 XMX 初始版本的 SDK，DP4a 版本將于今年晚些時候推出

數據中心

下一代英特爾至強可擴展處理器（代號為“Sapphire Rapids”）

Sapphire Rapids 代表了業界在數據中心平臺上的一大進步。該處理器可在不斷變化且要求日益增高的數據中心使用中提供可觀的計算性能，并對工作負載進行優化，以在云、微服務和 AI 等彈性計算模型上提供高性能。

Sapphire Rapids 的核心是一個分區塊、模塊化的 SoC 架構，采用英特爾的嵌入式多芯片互連橋接（EMIB）封裝技術，在保持單晶片 CPU 接口優勢的同時，具有顯著的可擴展性。Sapphire Rapids 提供了一個單一、平衡的統一內存訪問架構，每個線程均可完全訪問緩存、內存和 I/O 等所有單元上的全部資源，由此實現整個 SoC 具有一致的低時延和高橫向帶寬。

Sapphire Rapids 基于 Intel 7 制程工藝技術，采用英特爾全新的性能核微架構，該架構旨在提高速度，突破低時延和單線程應用性能的極限。

Sapphire Rapids 提供業界廣泛的數據中心相關加速器，包括新的指令集架構和集成 IP，以在各種客戶工作負載和使用中提升性能。新的內置加速器引擎包括：

●英特爾® 加速器接口架構指令集（AIA）——支持對加速器和設備的有效調度、同步和信號傳遞

●英特爾® 高級矩陣擴展（AMX）——Sapphire Rapids 中引入的新加速引擎，可為深度學習算法核心的 Tensor 處理提供大幅加速。其可以在每個周期內進行 2000 次 INT8 運算和 1000 次 BFP16 運算，實現計算能力的大幅提升。使用早期的 Sapphire Rapids 芯片，與使用英特爾 AVX-512 VNNI 指令的相同微基準測試版本相比，使用新的英特爾 AMX 指令集擴展優化的內部矩陣乘法微基準測試的運行速度提高了 7 倍以上，為 AI 工作負載中的訓練和推理上提供了顯著的性能提升

●英特爾® 數據流加速器（DSA）——旨在卸載最常見的數據移動任務，這些任務會導致數據中心規模部署中的開銷。英特爾 DSA 改進了對這些開銷任務的處理，以提供更高的整體工作負載性能，并可以在 CPU、內存和緩存以及所有附加的內存、存儲和網絡設備之間移動數據

這些架構上的改進使 Sapphire Rapids 能夠為云、數據中心、網絡和智能邊緣中廣泛的工作負載和部署模式提供開箱即用的性能。該處理器旨在通過先進的內存和下一代 I/O，包括 PCIe 5.0、CXL 1.1、DDR5 和 HBM 技術，來推動行業技術轉型。

基礎設施處理器（IPU）

IPU 是一種可編程的網絡設備，旨在使云和通信服務提供商減少在中央處理器（CPU）方面的開銷，并充分釋放性能價值。

英特爾基于 IPU 的架構有以下主要優勢：

●基礎設施功能和客戶工作負載的強分離使客戶能夠完全控制 CPU

●云運營商可以將基礎設施任務卸載到 IPU 上，更大化實現 CPU 利用率和收益

●IPU 可以管理存儲流量，減少時延，同時通過無磁盤服務器架構有效利用存儲容量。借助 IPU，客戶可以通過一個安全、可編程、穩定的解決方案更好地利用資源，使其能夠平衡處理與存儲

英特爾認識到“單一產品無法滿足所有需求”，因此對其 IPU 架構進行了更深入的研究，并推出了以下 IPU 家族的新成員——均為應對多樣化數據中心的復雜性而設計。

Mount Evans 是英特爾的首個 ASIC IPU。Mount Evans 是與一家一流云服務提供商共同設計和開發的，它融合了多代 FPGA SmartNIC 的經驗。

●超大規模就緒，提供高性能網絡和存儲虛擬化卸載，同時保持高度控制

●提供業界一流的可編程數據包處理引擎，支持防火墻和虛擬路由等用例

●使用硬件加速的 NVMe 存儲接口，該接口擴展自英特爾傲騰技術，以模擬 NVMe 設備

●采用英特爾® 高性能 Quick Assist 技術，部署高級加密和壓縮加速

可使用現有普遍部署的 DPDK、SPDK 等軟件環境進行編程，并且可以采用英特爾 Barefoot Switch 部門開創的 P4 編程語言來配置管線

Oak Springs Canyon是一個 IPU 參考平臺，基于英特爾® 至強 D 處理器（Intel® Xeon-D）和擁有業界領先的功率、效率、性能的英特爾® Agilex™ FPGA 構建：

●卸載 Open Virtual Switch（OVS）等網絡虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等存儲功能，并提供硬化的加密模塊，提供更安全、高速的 2x 100Gb 以太網網絡接口

●讓英特爾的合作伙伴和客戶能夠使用英特爾® 開放式 FPGA 開發堆棧（英特爾® OFS）定制其解決方案，這是一款可擴展、開源軟件和硬件基礎設施

●使用現有普遍部署的軟件環境進行編程，包括已在 x86 上優化的 DPDK 和 SPDK

英特爾 N6000 加速開發平臺，代號為“Arrow Creek”，是專為搭載至強服務器設計的 SmartNIC。其特性包括：

●在功耗、效率和性能方面處于行業領先地位的英特爾 Agilex FPGA。用于高性能的 100GB 網絡加速的英特爾以太網 800 系列控制器

●支持多種基礎設施工作負載，使通信服務提供商（CoSP）能夠提供靈活的加速工作負載，如 Juniper Contrail、OVS 和 SRv6，它以英特爾 PAC-N3000 的成功為基礎，該產品已在部分業界一流的 CoSP 中部署。

Xe HPC 和 Ponte Vecchio

Ponte Vecchio 基于 Xe HPC 微架構，提供業界領先的每秒浮點運算次數（FLOPs）和計算密度，以加速 AI、HPC 和高級分析工作負載。英特爾公布了 Xe HPC 微架構的 IP 模塊信息；包括每個 Xe 核的 8 個矢量和矩陣引擎（稱為 XMX Xe Matrix eXtensions）；切片和堆棧信息；以及包括計算、基礎和 Xe Link 單元的處理節點的單元信息。在架構日上，英特爾表示，早期的 Ponte Vecchio 芯片展示了領先的性能，在流行的 AI 基準測試中創造了推理和訓練吞吐量的行業記錄。1 英特爾 A0 芯片性能提供了高于 45 TFLOPS 的 FP32 吞吐量，高于5 TBps 的內存結構帶寬，以及高于 2 TBps 的連接帶寬。同時，英特爾分享了一段演示視頻，展示了ResNet推理性能超過 43,000 張圖像/秒和超過每秒 3400 張圖像/秒的 ResNet 訓練，并且這兩項性能都有望實現行業領先。1

Ponte Vecchio 由多個復雜的設計組成，這些設計以單元形式呈現，然后通過嵌入式多芯片互連橋接（EMIB）單元進行組裝，實現單元之間的低功耗、高速連接。這些設計均被集成于 Foveros 封裝中，為提高功率和互連密度形成有源芯片的 3D 堆疊。高速 MDFI 互連允許 1 到 2 個堆棧的擴展。

計算單元是一個密集的多個 Xe 內核，是 Ponte Vecchio 的核心。

●一塊單元有 8 個 Xe 內核，總共有 4MB 一級緩存，是提供高效計算的關鍵

●基于臺積電先進的 N5 制程工藝技術

●英特爾已通過設計基礎設施設置和工具流程以及方法，為測試和驗證該節點的單元鋪平了道路

●該單元具有極其緊湊的 36 微米凸點間距，可與 Foveros 進行 3D 堆疊

基礎單元是 Ponte Vecchio 的連接組織。它是基于 Intel 7 制程工藝的大型芯片，針對 Foveros 技術進行了優化。

●基礎單元是所有復雜的 I/O 和高帶寬組件與 SoC 基礎設施——PCIe Gen5、HBM2e 內存、連接不同單元 MDFI 鏈路和 EMIB 橋接

●采用高 2D 互連的超高帶寬 3D 連接時延很低，使其成為一臺無限連接的機器

●英特爾技術開發團隊致力于滿足帶寬、凸點間距和信號完整性方面的要求

Xe 鏈路單元提供了 GPU 之間的連接，支持每單元 8 個鏈路。

●對 HPC 和 AI 計算的擴展至關重要

●旨在實現支持高達 90G 的更高速 SerDes

●該單元已被添加到“極光”（Aurora）百億億次級超級計算機的擴展解決方案中

Ponte Vecchio 已走下生產線進行上電驗證，并已開始向客戶提供限量樣品。Ponte Vecchio 預計將于 2022 年面向 HPC 和 AI 市場發布。

oneAPI

oneAPI 提供了一個開放、規范、跨架構和跨廠商的統一軟件棧，讓開發者能夠擺脫專有語言和編程模型的束縛。目前，NVIDIA GPU、AMD GPU 和 Arm CPU 均有 Data Parallel C++（DPC++）和 oneAPI 庫。oneAPI 正在被獨立軟件提供商、操作系統供應商、終端用戶和學術界廣泛采用。行業領導者正在協助發展該規范，以支持更多的用例和架構。同時，英特爾還提供了商業產品，包括基本的 oneAPI 基礎工具包，它在規范語言和庫之外增加了編譯器、分析器、調試器和移植工具。

oneAPI 提供跨架構的兼容性，提高了開發人員的生產力和創新能力：

●英特爾的 oneAPI 工具包擁有超過 20 萬次單獨安裝

●市場上部署的 300 多個應用程序采用了 oneAPI 的統一編程模型

●超過 80 個 HPC 和 AI 應用程序使用英特爾 oneAPI 工具包在 Xe HPC 微架構上運行

●5 月份發布的 1 版臨時規范為深度學習工作負載和高級光線追蹤庫添加了新的圖形接口，預計將在年底完成

免責聲明：本文為轉載文章，轉載此文目的在于傳遞更多信息，版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題，請電話或者郵箱聯系小編進行侵刪。

上一篇：開關電源的LLC 拓撲

下一篇：能為汽車應用提供穩定的參考時鐘或信號源的諧振器

特別推薦

技術文章更多>>

技術白皮書下載更多>>

熱門搜索

英特爾面向 CPU、GPU 和 IPU發布了重大技術架構的改變和創新

友情鏈接(QQ：317243736)