英特尔推出7nm中国版Gaudi2！教练大模子性价比超A100

作家 | ZeR0剪辑 | 漠影

芯东西7月11日报说念，本日下昼，英特尔面向中国商场发布可方便膨胀初始大言语模子的云表AI教练芯片Gaudi2新品，并公布面向中国商场的英特尔AI计谋。

在中国商场推出的Gaudi2 AI加快器，将通过其合营伙伴波浪提供给中国客户。波浪信息高等副总裁、AI和HPC总司理刘军现场发布搭载Gaudi2的新一代AI办事器NF5698G7。

会后，英特尔现实副总裁、数据中心与东说念主工智能劳动部总司理Sandra L. Rivera，英特尔旗下Habana Labs的首席运营官Eitan Medina，英特尔数据中心与东说念主工智能集团副总裁兼中国区总司理陈葆立吸收了芯东西等媒体的采访。

陈葆立说，英特尔以前6个月在软件优化上作念了许多责任，这次不仅是向中国商场带来芯片，并且带来了不错大界限部署、教练和推理大模子的举座决策。英特尔对决策的熟习度相等有信心。

据先容，这次英特尔发布的Gaudi2新品是中国特供居品，在出口和撑握中国客户方面莫得任何问题。比较海外版Gaudi2居品，面向中国商场推出的加快卡在性能上死别不大，集成以太网端口数目从24个端口减到21个。Gaudi2及下一代Gaudi3齐会在正当合规的情况下持续撑握中国客户。

据Eitan Medina先容，英特尔Gaudi2初始ResNet-50的每瓦性能约是英伟达A100的2倍，初始1760亿参数BLOOMZ模子的每瓦性能约达A100的1.6倍。

Sandra L. Rivera谈说念，英特尔致力于于为中国客户不休创造更高价值，通过异构居品组合，请托具有性价比的AI措置决策。英特尔中国竖立于1985年，中国职工数目卓著1.1万东说念主，顺次2022年总投资额卓著130亿好意思元，中国商场营收约占英特尔人人营收的27%。

据她共享，部署AI需要异构芯片，集成高等矩阵膨胀（AMX）的第四代英特尔至强可膨胀处理器，能终了比A100更快的教练和推感性能。

英特尔现场演示了在第四代至强可膨胀处理器上通过AMX加快辅导初始文生图模子Stable Diffusion，用5.34秒就生成一张图片。

一、专供中国的Gaudi2新品：规格合适出口章程，撑握大界限横向膨胀

Gaudi2处理器是一款高性能、扫数可编程的AI处理器，整合了多项时间改换，具有高内存带宽/容量和基于圭臬以太网时间的纵向膨胀智商，并撑握使用外接网卡通过PCle接口终了横向膨胀，可孤高多节点集群需要。

该教练处理器基于与第一代Gaudi相同的高效架构，选定7nm制程工艺，在性能、可膨胀性和能效方面均终知晓飞跃，其性价比相较于AWS云中基于英伟达的措置决策跨越40%。

它运用Habana扫数可编程的TPC和的TPC和GEMM引擎，撑握FP8、BF16、FP16、TF32和FP32等数据类型。TPC中枢旨在撑握深度学习教练和推理责任负载。TPC是一款VLIW SIMD矢量处理器，其辅导集和硬件经由定制，可高效处理上述责任负载。

第二代Gaudi2 AI深度学习夹层卡HL-225B专为数据中心终了大界限横向膨胀而想象。HL-225B处理器合适好意思国工业与安全局（BIS）的关系章程。该夹层卡合适OCP OAM1.1（绽开打算平台之绽开加快器模块）轨范。因此客户可从合适轨范的多种居品中作念出遴荐，纯真地进行系统想象。

HL-225B夹层卡内置Gaudi HL-2080处理器时间。HL-2080处理器领有24个扫数可编程的第四代张量处理器中枢（TPC）。这些中枢原生想象能为庸俗的深度学习责任负载加快，同期还赋予用户按需进行优化和改换的纯真性。

该处理器还集成了96GB HBM2e内存和48MB SRAM，撑握600瓦夹层卡级热想象功耗（TDP）。Gaudi Al教练处理器在芯片上集成了RDMA（RoCEv2），可与熟习且庸俗使用的以太网进行连续。HL-2080芯片互连时间基于42对56Gbps Tx/RxPAM4 SerDes（确立为21个100 GbE端口）推崇作用。

中国专供版Gaudi2处理器具备出色的2.1Tbps汇集容量可膨胀性，原生集成21个100Gbps RoCE v2 RDMA端口，可通过径直路由终了Gaudi处理器间通讯。该处理器还集成了用于图像和视频解码及预处理的专用媒体处理器。

二、教练GPT-3终了近线性95%膨胀性，FP8版Gaudi2性价比将超H100

业内巨额以为生成式AI和大言语模子仅顺应在GPU上初始。英特尔知晓正尽力用Habana Labs的AI芯片残害这种“刻板印象”。

顺次2023年6月，英特尔Gaudi2和英伟达H100是仅有的两个提交了AI性能基准测试MLPerf GPT-3模子教练收获的半导体措置决策。字据最新MLPerf终局，384个Gaudi2加快器教练GPT-3的时长为311分钟。

在GPT-3模子上，从256个到384个加快器终了近线性95%的膨胀终局。这种出色膨胀性部分归功于其芯片上集成的100GB以太网端口以及96GB HBM2e内存。

Gaudi2在四种主流打算机视觉以及当然言语处理模子的基准测试中亦优于英伟达A100。在打算机视觉模子ResNet-50（8个加快器）和Unet3D（8个加快器）以及当然言语处理模子BERT（8个和64个加快器）上取得了优异的教练终局。与昨年11月提交的数据比较，BERT和ResNet模子的性能别离提高了10%和4%，诠释Gaudi2软件熟习度的擢升。

Gaudi2撑握“开箱即用”功能。其客户在腹地或在云表使用Gaudi2时，不错得到与本次测试绝顶的性能终局。本次MLPerf 3.0的Gaudi2终局以BF16数据类型已提交。英特尔瞻望在2023年第三季度发布对FP8的软件撑握与新功能时，届时Gaudi2的性价比瞻望将超越H100。

Gaudi2加快器仍是被闻明AI和机器学习开源软件器用提供商Hugging Face选定。

字据Hugging Face发布的对Gaudi2性能的测试终局，从预教练BERT模子到Stable Diffusion、1760亿参数大型开源聊天模子BLOOMZ的推理，Gaudi2均最初于英伟达A100 GPU。与英伟达A100比较，2.44倍调优3B参数T5言语模子；与英伟达A100比较，Stable Diffusion推理时延权贵缩短。

结语：为中国商场提供有竞争力的AI教练加快遴荐

教练生成式AI和大言语模子需要办事器集群来孤远大界限且愈加复杂的打算条款。英特尔正通过多元化硬件和软件居品时间组合，来将各式AI负载的推理和教练性能擢升至新的水平。

跟着Gaudi2居品干预中国商场，凭借在AI教练方面经泰斗基准测教练证的高性价比，英特尔将为寻求开脱遵守与界限顺次的中国客户提供又一有竞争力的AI加快决策遴荐。