鲲云科技发布全球始款数据流AI芯片CAISA 打造更高算力性价比

6月23日新闻,鲲云科技今天正式发布全球始款数据流AI芯片CAISA,该芯片定位于高性能AI推理,现在已完善量产。

据介绍,鲲云议决自立研发的数据流技术在芯片实测算力上实现了技术突破,较同类产品在芯片行使率上升迁了10倍。第三方测试数据表现仅用1/3的峰值算力,CAISA芯片能够实现英伟达同类产品最高3.91倍的实测性能。

鲲云科技成立于2016年,聚焦于基于数据流架构的定制AI计算引擎,其自立研发的CAISA架构已有近三十年技术积累。鲲云科技现在已经完善了天神轮,A轮及A 轮融资,并在深圳、山东、伦敦研发中央。

现在,详细来望望这款数据流AI芯片CAISA的性能外现。

超高芯片行使率,定制数据流芯片架构完善3.0升级

此次发布的CAISA芯片采用鲲云自研的定制数据流芯片架构CAISA 3.0,相较于上一代芯片架构,CAISA3.0在架构效果和实测性能方面有了大幅的升迁,并在算子声援上更添通用,声援绝大无数神经网络模型迅速实现检测、分类和语义分割安放。CAISA3.0在众引擎声援上挑供了4倍更高的并走度选择,架构的可拓展性大大挑高,在AI芯片内,每一个CAISA都能够同时处理AI做事负载,进一步升迁了CAISA架构的性能,在峰值算力升迁6倍的同时保持了高达95.4%的芯片行使率,实测性能线性升迁。同时新一代CAISA架构对编译器RainBuilder的声援更添友谊,柔硬件配相符进一步优化,在体系级别上为用户挑供更好的端到端性能。

image1

CAISA3.0架构图

CAISA3.0架构不息保持在数据流技术路线的全球领先地位,指令集架构采用冯诺依曼计算手段,议决指令实走顺序控制计算挨次,并议决别离数据搬运与数据计算挑供计算通用性。CAISA架构依托数据流起伏顺序控制计算顺序,采用计算流和数据流重叠运走手段清除余暇计算单元,并采用动态配置手段保证对于人造智能算法的通用声援,突破指令集技术对于芯片算力的限定。此次升级,CAISA架构解决了数据流架构行为人造智能计算平台的三大中央挑衅:

高算力性价比:在保持计算正确前挑下,议决一连压缩每个余暇时钟推高芯片实测性能以挨近芯片物理极限,让芯片内的每个时钟、每个计算单元都在实走有效计算; 高架构通用性:在保证每个算法在CAISA上运走能够实现高芯片行使率的同时,CAISA3.0架构通用声援一切主流CNN算法; 高柔件易用性:议决专为CAISA定制的编译工具链实现算法端到端自动安放,用户无需底层数据流架构背景知识,浅易两步即可实现算法迁移和安放,降矮行使门槛。

详细来讲,鲲云CAISA3.0架构的三大技术突破主要议决以下的技术手段实现:

高算力性价比:时钟级实在的计算

CAISA3.0架构由数据流来驱动计算过程,无指令操作,能够实眼前钟级实在的计算,最大限度的缩短硬件计算资源的余暇时间。CAISA3.0架构议决数据计算与数据起伏的重叠,压缩计算资源的每一个余暇时钟;议决算力资源的动态均衡,清除流水线的性能瓶颈;议决数据流的时空映射,最大化复用芯片内的数据流带宽,缩短对外部存储带宽的需要。上述设计使CNN算法的计算数据在CAISA3.0内能够实现不中止的赓续运算,最高可实现95.4%的芯片行使率,在一致峰值算力条件下,可获得相对于GPU 3倍以上的实测算力,从而为用户挑供更高的算力性价比。

高架构通用性:流水线动态重组

CAISA3.0架构能够议决流水线动态重组实现对迥异深度学习算法的高性能声援。议决CAISA架构层的数据流引擎、全局数据流网、全局数据流缓存,以及数据流引擎内部的人造智能算子模块、部门数据流网、部门数据流缓存的分层设计,在数据流配置器控制下,CAISA架构中的数据流连接有关和运走状态都能够被自动化动态配置,从而生成面向迥异AI算法的高性能定制化流水线。在保证高性能的前挑下,声援用户行使基于CAISA3.0架构的计算平台实现如现在的检测、分类及语义分割等普及的人造智能算法行使。

高柔件易用性:算法端到端自动化安放

image2

RainBuilder编译工具链

专为CAISA3.0架构配备的RainBuilder编译工具链声援从算法到芯片的端到端自动化安放,用户和开发者无需晓畅架构的底层硬件配置,浅易两步即可实现算法迅速迁移和安放。RainBuilder编译器可自动挑取主流AI开发框架(TensorFlow,Caffe,Pytorch,ONNX等)中开发的深度学习算法的网络结议和参数新闻,并面向CAISA组织进走优化;工具链中的运走时(Runtime)和驱动(Driver)模块负责硬件管理并为用户挑供标准的API接口,运走时能够基于精确的CAISA性能模型,保险实现算法向CAISA架构的自动化映射,同时挑供能够被高级说话直接调用的API接口;最底层的驱动能够实现对用户透明的硬件控制。RainBuilder工具链行使浅易,安放方便,通用性强,能够让用户迅速和矮成本的安放和迁移已有算法到CAISA硬件平台上。

始款量产数据流AI芯片,CAISA带来AI芯片研发新倾向

image3

CAISA-定制数据流AI芯片

行为全球始款采用数据流技术的AI芯片,CAISA搭载了四个CAISA3.0引擎,具有超过1.6万个MAC(乘累添)单元,峰值性能可达10.9TOPs。该芯片采用28nm工艺,议决PCIe3.0×4接口与主处理器通信,同时具有双DDR通道,可为每个CAISA引擎挑供超过340Gbps的带宽。

image4

CAISA芯片架构图

行为一款面向边缘和云端推理的人造智能芯片,CAISA可实现最高95.4%的芯片行使率,为客户挑供更高的算力性价比。CAISA芯片具有卓异的通用性,可声援一切常用AI算子,议决数据流网络中算子的迥异配置和组相符,CAISA芯片可声援绝大无数的CNN算法。针对CAISA芯片,鲲云挑供RainBuilder3.0工具链,可实现推理模型在芯片上的端到端安放,使柔件工程师能够方便的完善CAISA芯片在AI行使体系中的集成。

image5

鲲云科技发布数据流CAISA芯片

高算力性价比的AI计算平台星空添速卡系列产品发布

image6

发布会上,鲲云科技创起人和CEO牛昕宇还发布了基于CAISA芯片的星空系列边缘和数据中央计算平台,X3添速卡和X9添速卡,并公布了由人造智能产业技术联盟(AIIA)测试的包括ResNet-50, YOLO v3等在内的主流深度学习网络的实测性能。

image7

星空X3添速卡发布

星空X3添速卡是搭载单颗CAISA 芯片的数据流架构深度学习揣摸计算平台,为工业级半高半长单槽规格的PCIe板卡。得好于其轻量化的规格特点,X3添速卡能够与迥异类型的计算机设备进走适配,包括幼我电脑、工业计算机、网络视频录像机、做事站、服务器等,已足边缘和高性能场景中的AI计算需要。相较于英伟达边缘端旗舰产品Xavier,X3可实现1.48-4.12倍的实测性能升迁。

b1

*模型参考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

image8

image9

image10

image11

星空X9添速卡发布

星空X9添速卡为搭载4颗CAISA 芯片的深度学习揣摸板卡,峰值性能43.6TOPS,主要已足高性能场景下的AI计算需要。同英伟达旗舰产品T4相对,X9在ResNet-50, YOLO v3等模型上的芯片行使率升迁2.84-11.64倍。在实测性能方面,X9在ResNet50可达5240FPS,与T4性能挨近,在YOLO v3、UNet Industrial等检测分割网络,实测性能相较T4有1.83-3.91倍性能升迁。在达到最优实测性能下,X9处理延时相比于T4降矮1.83-32倍。实测性能以及处理延时的大幅领先,让数据流架构为AI芯片的发展挑供了升迁峰值性能之外的另一条技术路线。

b2

*模型参考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

image12

image13

image14

鲲云科技议决CAISA数据流架构挑高芯片行使率,同样的实测性能,对芯片峰值算力的请求可大幅降矮3-10倍,从而降矮芯片的制造成本,为客户挑供更高的算力性价比。现在星空X3添速卡已经实现量产,星空X9添速卡将于今年8月推出市场。鲲云科技成为国内始家在发布会现场吐露Benchmark的AI芯片公司。

商业落地先走,鲲云添速卡实现众周围周围落地

行为技术驱动的AI芯片公司,鲲云科技自成立以来一向偏重商业落地,现在鲲云科技已与众家走业巨头达成战略配相符,成为英特尔全球旗舰FPGA配相符友人,在技术培训、营销推广以及行使安放等方面进走配相符;与浪潮、戴尔达成战略签约,在AI计算添速方面开展深入配相符;与山东产业技术钻研院共建山东产研鲲云人造智能钻研院,推进人造智能芯片及行使技术的周围化落地。明星产品“星空”添速卡已在电力、哺育、航空航天、智能制造、伶俐城市等周围落地。自2016年成立至今,鲲云科技已经完善了天神轮,Pre-A轮及A轮融资,设有深圳、山东、伦敦研发中央。2018年成立人造智能创新行使钻研院,定位于竖立人造智能产业化技术平台,声援人造智能最新技术在各垂直周围迅速实际落地,启动鲲云高校计划,开展人造智能课程培训和科研配相符。除与Intel配相符进走人造智能课程培训外,鲲云人造智能行使创新钻研院已同帝国理工学院、哈尔滨工业大学、北京航空航天大学、天津大学、香港城市大学等成立说相符实验室,在定制计算、AI芯片坦然、工业智能等周围开展前沿钻研配相符。