日前,英特尔2021年架构日活动上,公司重磅推出多项处理器架构革新技术,结合不久前制程工艺发布会上宣布的Intel7、Intel4等演进路线,可以看出在新任CEO 帕特·基辛格的带领下,我们要的英特尔“又回来了”。
英特尔官方表示,公司正在加速创新脚步,不像之前一样完全按照Tick-Tock的步伐,按部就班的进行,而是两者正在同步进行创新。
在同时要面对X86竞争者AMD以及GPU、AI加速器等不断涌现出来新对手的年代,英特尔不得不提速了。
2021年架构日上,英特尔推出了10余项架构技术革新,涵盖了面向数据中心、HPC-AI和客户端等多种应用场景,通过CPU、GPU和IPU等产品,满足未来工作负载和计算的挑战。
英特尔公司高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri特别强调了架构提升对于满足这一需求的重要性:“架构是硬件和软件的‘炼金术’。它将特定计算引擎所需的先进的晶体管结合在一起,通过领先的封装技术将它们连接,集成高带宽和低功耗缓存,并在封装中为混合计算集群配备高容量、高带宽内存和低时延、可扩展互连,同时确保所有软件无缝加速。随着桌面到数据中心的工作负载变得前所未有的密集、复杂、且多样,今年公布的这些新突破也展示了架构将如何满足对于更高计算性能的迫切需求。”
英特尔研究院副总裁、英特尔中国研究院院长宋继强以三条主线为线索,梳理了英特尔架构日的重大更新。
内核架构大革新
为了满足客户端对于性能和功耗的不同要求,英特尔专门分别推出了针对性能和能效进行不同优化的内核——能效核和性能核。双内核微架构的革新,被认为是英特尔近十年来最大的创新,而这种创新不光应用于客户端,包括服务器、高性能计算等领域,都将受益于微架构的创新。
根据Raja介绍,其中能效核是一个高度可扩展的x86微架构,它能满足客户从低功耗移动应用到多核微服务的全方位计算需求。对比英特尔迄今为止最多产的CPU微架构——Skylake,能效核可在相同功耗下提升40%的单线程性能,或者在提供同样性能时,功耗仅为Skylake的40%不到。就吞吐量性能而言,与运行四个线程的两个Skylake内核相比,四个能效核在性能提升80%的同时功耗更低,或者在提供相同吞吐量性能时,功耗降低80%。
而针对性能核,它不仅是英特尔迄今为止性能最高的CPU内核,而且在CPU架构性能方面实现阶梯式提升,推动未来十年的计算发展。它是一个更宽、更深、更智能的架构,展现出更高的并行性,提高执行并行性,降低时延,提升通用性能。它还帮助支持大数据集和大型代码体积的应用程序。与第11代酷睿架构(Cypress Cove内核)相比,相同频率下,性能核在一系列工作负载上平均提升了约19%。
针对数据中心处理器和机器学习的发展趋势,性能核提供了专用硬件,包括新的英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,以获得数量级的性能——AI加速提升约8倍。这是为软件易用性而设计,利用了x86编程模型。
客户端创新——从处理器SoC到显卡
宋继强强调道,两款内核针对不同方向进行优化设计,尽管侧重点不同,但二者之间又存在着协同效应。
而为了将性能核和能效核与操作系统无缝协作,英特尔开发了硬件线程调度器。硬件线程调度器直接内置于硬件中,可提供对内核状态和线程指令混合比的低级遥测,让操作系统能够在恰当的时间将合适的线程放置在合适的内核上。硬件线程调度器具有动态性和自适应性——它会根据实时的计算需求调整调度决策——而非一种简单的、基于规则的静态方法。相对于以往只针对电池效率的优化来说,硬件线程调度器可以从性能方面进行优化。
可喜的是,这些创新马上就可以问世。英特尔将硬件线程调度器、能效核和性能核集成,打造代号为Alder Lake客户端SoC,这也是英特尔的首款性能混合架构处理器,基于Intel 7制程工艺打造而成。Alder Lake的问世,也意味着Tick-Tock的同步前进。
Alder Lake将支持从超便携式笔记本,发烧级及商用台式机的所有客户端设备,它采用了单一、高度可扩展的SoC架构。
值得注意的是,为了满足高度可扩展架构的挑战,英特尔设计了三种独立的内部总线,每一种都采用基于需求的实时启发式后处理方式。
包括了计算内部总线,可支持高达1000GBps;I/O内部总线,可支持可高达64 GBps;内存总线,可提供高达204 GBps的数据,并动态扩展其总线宽度和速度,以支持高带宽、低时延或低功耗的场景。
除了CPU之外,在桌面级显卡领域,英特尔也宣布了革新。
首先宣布推出Xe HPG微架构,Xe HPG是一款全新的独立显卡微架构,专为游戏和创作工作负载提供发烧级的高性能。Xe HPG微架构为Alchemist系列SoC提供动力,首批相关产品将于2022年第一季度上市,并采用新的品牌名——英特尔锐炫™(Intel®Arc™)。 Xe HPG微架构采用全新的Xe内核,是一款聚焦计算、可编程且可扩展的元件。
同时宣布推出了XeSS 技术,利用XMX AI加速,带来了一种可实现高性能和高保真视觉的全新升频技术。其使用深度学习来合成非常接近原生高分辨率渲染质量的图像。凭借XeSS ,那些只能在低画质设置或低分辨率下玩的游戏也能在更高画质设置和分辨率下顺利运行。
“XeSS体现了英特尔软件优先的策略,这也是英特尔显卡设计的核心。”宋继强说道。
目前英特尔正通过在一个统一的代码库中涵盖集成和独立显卡产品的驱动设计,并且已完成了内核显卡驱动程序组件的重新架构,特别是内存管理器和编译器,从而使计算密集型游戏的吞吐量提高了15% (至多80%),游戏加载时间缩短了25%。
数据中心革新——新一代至强、IPU和其他
下一代英特尔至强可扩展处理器的代号为“Sapphire Rapids”,该处理器的核心是一个分区块、模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单芯片CPU接口优势的同时,具有显著的可扩展性。Sapphire Rapids提供了一个单一、平衡的统一内存访问架构,每个线程均可完全访问缓存、内存和I/O等所有单元上的全部资源,由此实现整个SoC具有一致的低时延和高横向带宽。
Sapphire Rapids采用了性能核以及大量的与数据中心相关的加速器,以在各种客户工作负载和使用中提升性能。新的内置加速器引擎包括:
英特尔加速器接口架构指令集(AIA)——支持对加速器和设备的有效调度、同步和信号传递。
英特尔高级矩阵扩展(AMX)——Sapphire Rapids中引入的新加速引擎,可为深度学习算法核心的Tensor处理提供大幅加速。
英特尔数据流加速器(DSA)——旨在卸载最常见的数据移动任务,这些任务会导致数据中心规模部署中的开销。
该处理器旨在通过先进的内存和下一代I/O,包括PCIe 5.0、CXL 1.1、DDR5和HBM技术,来推动行业技术转型。
而针对基础设施IPU专用处理器来说,英特尔认为“单一产品无法满足所有需求”,因此对其IPU架构进行了更深入的研究,并推出了IPU系列家族产品,来应对多样化数据中心的复杂性而设计。
英特尔的IPU架构具有的优势包括:基础设施功能和客户工作负载的强分离使客户能够完全控制CPU;云运营商可以将基础设施任务卸载到IPU上,更大化实现CPU利用率和收益;IPU可以管理存储流量,减少时延,同时通过无磁盘服务器架构有效利用存储容量。借助IPU,客户可以通过一个安全、可编程、稳定的解决方案更好地利用资源,使其能够平衡处理与存储。
英特尔的产品包括:首个ASIC IPU Mount Evans,IPU参考平台Oak Springs Canyon,加速开发平台N6000以及英特尔最复杂的SoC Ponte Vecchio。
Ponte Vecchio是英特尔迄今为止最复杂的SoC,也是异构集成的绝佳典范。其中计算单元为8个Xe内核,采用TSMC的N5工艺。基础单元包括了PCIe Gen5、HBM2e 内存、连接不同单元MDFI链路和 EMIB桥接等,采用了Intel 7工艺。Xe 链路单元则是90G的SerDes,负责GPU之间的互联。宋继强总结道,Ponte Vecchio使用了不同的IP,不同公司的工艺技术,通过EMIB和Foveros等特有技术,实现了多芯片异构集成。
“为了应对未来各种不同数据对计算、传输、存储等各方面带来的要求,我们必须通过不同的架构,不同种类的处理器和加速器,不同的异构集成方式,以及不同公司的工艺,开发不同种类的定制芯片方案。未来英特尔将继续加速异构集成硬件的开发。”宋继强总结道。
目前Ponte Vecchio已经官宣了第一家客户,阿贡国家实验室的"极光"(Aurora)超级计算机。
值得一提的是,除了硬件上的异构集成,在软件方面英特尔继续加大对oneAPI的投入力度。宋继强介绍道,目前oneAPI已有超20万用户,有300多个应用在开始使用。
异构集成的未来
综合此前的制程发布和本次架构日活动,可以看出英特尔从制程到架构上,都在向着异构集成的方式不断演进。通过异构集成,使X86可以灵活应对更多市场需求。
从PC到服务器,从工业到汽车,从机器人到医疗,英特尔处理器已经在各种场景中证明了自己。随着未来需求的不断改变,英特尔也正在调整着自身的研发方向。
架构对于英特尔来说,其重要性和工艺是一致的,CEO帕特·基辛格也曾担任过英特尔的架构师。正如他所说:“我们面临艰巨的计算挑战,一定要通过变革性的架构和平台来解决……正是英特尔才华横溢的架构师和工程师们,让这些技术‘魔法’得以成真。”