寒武纪发布云端AI芯片思元370,chiplet技术打造,性能大幅提升2倍

微信扫一扫,分享到朋友圈

寒武纪发布云端AI芯片思元370,chiplet技术打造,性能大幅提升2倍
收藏 0

公司成立仅5年,寒武纪科技就已推出三代云端AI芯片,并实现了四次处理器架构的迭代。

又一款重磅国产AI芯片发布了。

11月3日晚间,寒武纪宣布推出自研第三代云端AI芯片思元370,及搭载该芯片的 MLU370-S4、MLU370-X4 加速卡和全新升级的 Cambricon Neuware 软件栈。

思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片,应该也是国内首颗chiplet AI芯片。基于台积电7nm制程工艺,整体集成了390亿个晶体管,最大算力达到256TOPS(INT8),这一数据是寒武纪第二代产品思元270算力的2倍。

凭借寒武纪最新智能芯片架构MLUarch03,相较于峰值算力的提升,思元370实测性能表现非常亮眼:同功率性能超过T4两倍还多,完成同样的任务,功耗可以是A10的一半。

自思元100以来,寒武纪在三年之内已经连续推出三代云端AI芯片,最新一代产品在工艺制程、架构、指令集和软件等方面有了全面的提升,实现了同级芯片的顶尖水平。

一半功耗,实现业内领先性能

此次发布中,寒武纪推出了两款基于思元370的加速卡:一款高密度、半高半长、功耗75W的MLU370-S4智能加速卡和高性能、全高全长、功耗150W的MLU370-X4智能加速卡。

与上一代产品相比,思元370系列加速卡在性能、能效方面都有大幅度提升。例如对标准ResNet-50v1进行软件定制优化后,MLU370-X4加速卡性能高达30204fps。

寒武纪表示,在Cambricon Neuware SDK上实测,常用的4个深度学习网络模型中,MLU370-S4加速卡的性能平均接近市场主流70W GPU的2倍。而在能效方面,MLU370-S4优势更为明显,处理相同AI任务相较于70W GPU用电量减少50%以上。

相比主流同尺寸GPU产品,MLU370-S4加速卡的性能优势

MLU370-S4加速卡在解码方面具有优势,相较于同尺寸GPU,其可以提供3倍的解码能力和1.5倍的编码能力。总体而言,MLU370-S4加速卡着重体现了高密度优势。MLU370-X4加速卡的优势则表现为高性能,算力可达256TOPS(INT8),加强了FP16、FP32的计算性能,新增BF16计算类型。

在 Cambricon Neuware SDK 上进行实测可知,常用的4种深度学习网络模型中,X4加速卡与市场主流150W GPU相比,性能表现2项持平2项更优,实测能效则为GPU的2倍。如YOLOv3物体检测网络中,MLU370-X4的性能是150W GPU性能的1.5倍,能效为GPU的2.5倍。

相比主流GPU产品,MLU370-X4的性能优势

从功耗与加速卡配置来看,寒武纪推出的加速卡对标的正是AI算力的标杆英伟达:思元370-X4加速卡在70-75W功率上性能大幅领先于T4,在150W功率上又实现了与最新一代安培架构、基于GA102核心的A10持平或小幅领先,功耗效率则高出2倍还多。

这意味着在推理任务上,同等尺寸的思元370加速卡可以2倍性价比替代T4,相比A10甚至A30也可以节省超过1/4的总拥有成本(TCO)。

在英伟达该级别芯片生产接近停滞的当前,寒武纪的芯片显得极具竞争力。

MLU370-S4、MLU370-X4两种加速卡的规格

为什么在计算机视觉和自然语言处理任务中,寒武纪能够做到超越同级数据中心的GPU?在性能的背后,是寒武纪全方位的技术革新。

「chiplet」技术,未来芯片的发展方向

根据英伟达的统计,自2012年到现在的大规模深度学习模型参数量呈现指数增长。相比之下,即使通过增加功耗等方法,AI芯片的算力还是只能延续每两年翻倍的速度。

为了提供更高的运算效能,人们寻找的方法包括增加处理器核心数量,提升缓存容量及I/O数量等等。这些情况使得IC设计者即便使用最先进制程,也很难把芯片尺寸变得更小。

自2017年底英伟达发布Tesla V100之后,训练最大模型的算力需求增长了3000倍

从英伟达T4到A10的迭代我们可以看出,制程从12nm进步到8nm,功耗翻倍,性能提升则是2.2-2.5倍。另一方面,先进制程、低良品率造成的成本问题也让芯片厂商不堪重负,使用chiplet的方式打造新一代芯片或许是未来的重要发展方向。

思元370是寒武纪首次采用chiplet技术打造的芯片,在一颗芯片中封装2颗AI计算芯粒(被称为 MLU-Die),每个MLU-Die具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口,相互之间通过MLU-Fabric保证两个MLU-Die间的高速通讯。

此前,AMD在CPU上就通过使用7纳米制程和chiplet构建芯片的方式实现了对于英特尔的「逆袭」。最近一段时间,英特尔也提出即将使用chiplet构建芯片的计划。在一块芯片上置入多个die虽然可以提高晶圆的利用效率,但会面临很多技术方面的问题,芯粒间的信息传递速度是其中最大的挑战。

尤其在深度学习的推理和训练任务中,模型和数据在芯片内部是强并行的,所以芯粒间信息传递速度的问题还会更加凸显。对此,寒武纪称MLU-Fabric能够以低功耗、低延时、超高带宽的技术来解决传递速度的问题,帮助用户实现应用无感知的体验,单从这点来看,寒武纪MLU-Fabric芯粒间的互联技术已经超越了AMD的处理器。

尽管寒武纪已经凭借思元370验证了自己在chiplet技术上的突破,但chiplet技术,仍会面临着诸多挑战,例如在封装技术与生产工艺、EDA工具链、片上互联(NoC)或Interposer上互联、chiplet间接口与协议标准化、chiplet模块的DFT、验证、可靠性与DFM等方面仍然有较多经验需要积累。

但寒武纪对chiplet技术依然充满信心,并希望思元370可以通过不同的组合为客户提供更多样化的产品选择。

处理器架构大幅更新

架构方面的改进是思元370的又一个升级重点,在AI芯片上,整型常用于推理,浮点运算应用于训练,寒武纪自研的智能处理器架构MLUarch03拥有新一代张量运算单元,全面加强了FP16、BF16以及FP32的浮点算力,同时支持推理和训练任务。

寒武纪智能芯片架构演进

芯片的指令集对于任务执行效率与硬件本身几乎同等重要,当年英特尔在摩尔定律减缓的情形下就采取了Tick Tock策略——一代提升制程,一代改进指令集。自研架构的寒武纪对自家芯片拥有完整操控权限,也可以实现两条腿走路,其在思元 370 上更新了指令集,内置的 Supercharger 模块大幅提升了各类卷积效率。

Supercharger 和多算子硬件融合技术

思元370采用的全新MLUv03指令集功能更加完备,效率更高且向前兼容,其还采用了全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间。

新的加速卡还升级了内存,从DDR4升级为LPDDR5,带宽从102.4GB/s提升至307.2GB/s,LPDDR5是一种适用于移动端的内存产品,是如今中高端手机的标配。为什么要把它用在云端AI加速卡上?这或许是在带宽、成本和能效比之间进行权衡的结果。

思元370是国内第一款公开发布支持LPDDR5内存的云端AI芯片,从数据上看,其内存带宽达到了上一代产品的3倍,访存能效达GDDR6的1.5倍。

全新推理加速引擎 MagicMind

MagicMind是寒武纪全新打造的推理加速引擎,其定位对标的应该就是英伟达CUDA之上的TensorRT,但是架构和功能上相对于TensorRT更为先进和强大。在寒武纪的整体软件栈架构中,MagicMind之下是高效软件栈工具和高性能库,并且还提供了Bang语言支撑定制化开发功能。

MagicMind的优势在于可提供极致的性能、可靠的精度以及简洁的编程接口,让用户能够专注于业务本身,无需理解芯片更多底层细节就可实现模型的快速高效部署。与此同时,通过MagicMind插件化的设计,还可以满足在性能或功能上追求差异化竞争力的客户需求。

MagicMind支持跨框架的模型解析、自动后端代码生成及优化,在MLU、GPU、CPU训练好的算法模型上,借助MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得优化后具有竞争力的性能。

推理加速引擎MagicMind是寒武纪软件栈Cambricon Neuware全新升级的重要组成部分

为了加快用户端到端业务落地的速度,减少模型训练研发到模型部署之间的繁琐流程,寒武纪的统一基础软件平台Cambricon Neuware整合了训练和推理的全部底层软件栈,包括底层驱动、运行时库、算子库以及工具链等,将MagicMind和深度学习框架Tensorflow,Pytorch 做了深度融合,可以实现训推一体。

随着软件栈升级,开发者们在寒武纪全系列计算平台上,从云端到边缘端,用户均可以无缝地完成从模型训练到推理部署的全部流程,进行灵活的训练推理业务混布和潮汐式的业务切换,可快速响应业务变化,提升算力利用率,降低运营成本。

在通用性方面,Cambricon Neuware 支持FP32、FP16混合精度、BF16和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉、语音、自然语言处理和搜索推荐等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。

支持8K解码

思元370升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂、更繁重、低延时要求的计算机视觉任务。

解码方面,思元370可支持132路1080p视频解码或10路8K视频解码。编码方面,全新编码器通过灵活的码率优化(RDO)控制、多参考帧、二次编码等特性组合,在相同图像质量(全高清视频 PSNR)的情况下比上一代产品节省42%带宽,有效降低带宽成本。

除了性能强大,从披露的信息中我们也可以得知思元370从研发到商业化落地的速度非常快:它在2020年第三季度流片,预估在12月底顺利回片,今年二季度应该就已投放至阿里、百度等厂商进行测试和导入了,而从新品新闻里的客户评价来看,总体性能表现「超出预期」,据说已有厂商开始小批量采购。

前天的发布,意味着寒武纪的第三代云端AI芯片已经走过了流片、点亮、小范围商业应用等多个节点,全部时间不到一年。

除互联网之外,近年来寒武纪已在智慧金融、智慧能源、智慧交通等领域与合作伙伴共同完成了大量落地案例。作为国内首家发布云端AI芯片及加速卡的公司,寒武纪具有先发优势,在技术多次迭代之后,其产品已经获得众多客户的认可。

寒武纪的目标还不止于此。未来,它还将继续在指令集、架构层面继续优化AI芯片计算性能,让AI芯片覆盖更多领域。

(来源:机器之心)

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

上一篇

“真快乐”APP全民快乐季带你玩转双11 省钱更省心

下一篇

supOS行业第二 蓝卓入选2021福布斯中国十大工业互联网企业

你也可能喜欢

评论已经被关闭。

插入图片

热门

    抱歉,1天内未发布文章!
广告招租 文字链广告
返回顶部