知名百科  > 所属分类  >  科技百科   

昇腾950PR芯片

昇腾950PR芯片(英文名:Ascend 950PR)是华为精心规划、将于2026年第一季度重磅推出的新一代昇腾芯片,在华为的AI芯片布局中占据重要地位,承载着华为在人工智能算力领域持续突破与创新的期望。

2025年9月18日,在上海举办的华为全联接大会上,华为正式发布了三个系列的昇腾芯片,分别为950、960和970系列。其中,昇腾950PR芯片作为950系列的重要代表,计划于2026年一季度正式上市,这一消息一经公布便引起了行业内外的广泛关注。

目录

推出背景 编辑本段

在人工智能飞速发展的当下,算力已成为推动AI技术进步与应用落地的核心驱动力,而芯片则是算力的基石。华为深刻认识到这一点,早在2018年便发布了昇腾系列芯片的首款产品——昇腾310芯片,开启了在AI芯片领域的探索征程。次年,又推出了昇腾910芯片,进一步提升了算力水平。到了2025年,昇腾910C芯片随着Atlas900超节点的大规模部署,凭借其强大的性能和广泛的应用场景,逐渐走进大众视野,让外界对昇腾芯片有了更深入的了解。随着AI技术的不断演进,对芯片的性能要求也日益严苛,在此背景下,华为推出了昇腾950PR芯片,以满足不断增长的市场需求。

产品规格 编辑本段

昇腾950PR芯片在硬件配置上进行了全面升级,采用了先进的950核心搭配HiBL 1.0内存的组合。其中,HiBL 1.0内存容量高达128GB,带宽达到1.6TB/s,为芯片的高效运行提供了强大的数据存储与传输支持。在架构设计方面,新增了对多种低精度数据格式的支持,具体算力表现如下:

低精度数据格式算力表现
FP8/MXFP8/HIF81 PFLOPS
MXFP42 PFLOPS

此外,该芯片重点提升了向量算力,将互联宽带提升了2.5倍,还支持华为自研的HBM高带宽内存,为芯片的性能提升奠定了坚实基础。

产品性能 编辑本段

与前一代昇腾芯片相比,昇腾950PR芯片在多个关键性能指标上实现了根本性的提升,具体表现如下:

(一)支持多种低数值精度数据格式

新增支持业界标准的FP8/MXFP8/MXFP4等低数值精度数据格式,算力分别达到1P和2P。这种对低精度数据格式的支持,有效提升了训练效率和推理吞吐,能够更快地处理大规模的数据,加速AI模型的训练和推理过程。同时,特别支持华为自研的HiF8数据格式,在保持FP8高效性的同时,精度接近FP16,在性能和精度之间找到了更好的平衡。

(二)大幅度提升向量算力

主要通过以下三个方面实现向量算力的大幅提升:

提升向量算力占比:优化芯片内部架构,将更多的资源分配给向量计算单元,从而提高向量算力在整体算力中的占比。

采用创新的新同构设计:支持SIMD/SIMT双编程模型。SIMD(单指令多数据流)能够像流水线一样高效处理“大块”向量,适用于对大规模数据进行批量处理的场景;而SIMT(单指令多线程)则便于灵活处理“碎片化”数据,能够更好地应对数据分布不均匀的情况。这种双编程模型的设计,使得芯片能够根据不同的应用场景灵活选择合适的计算方式,大大提高了计算效率。

优化内存访问颗粒度:将内存访问颗粒度从512字节减少到128字节,使内存访问更加精细。这一改进能够更好地支持离散且不连续的内存访问,减少了内存访问的延迟,提高了数据读取和写入的速度,从而进一步提升向量算力的发挥。

(三)提升互联带宽

互联带宽相比Ascend 910C提升了2.5倍,达到2TB/s。更高的互联带宽意味着芯片之间以及芯片与外部设备之间的数据传输速度更快,能够更好地满足大规模分布式计算的需求,提高整个系统的并行计算能力。

昇腾950PR芯片昇腾950PR芯片

(四)自研HBM内存

结合推理不同阶段对于算力、内存、访存带宽及推荐、训练的需求差异,华为自研了两种HBM内存,分别是HiBL 1.0和HiZQ 2.0。不同的自研HBM与Ascend 950 Die合封,分别构成了芯片昇腾950PR、950DT。这种定制化的内存设计,能够更好地匹配不同应用场景的需求,提高芯片的性能和效率。

另外,相比昇腾910B/910C,从昇腾950开始还带来了以下主要变化:

引入SIMD/SIMT新同构:提升了编程易用性,降低了开发难度,使得开发者能够更加便捷地利用芯片的强大性能进行应用程序的开发。

支持更加丰富的数据格式:除了上述提到的低精度数据格式外,还支持FP32/HF32/FP16/BF16/HiF4等多种数据格式,能够满足不同AI应用场景对数据精度的多样化需求。

支持更大的互联带宽:950系列互联带宽为2TB/s,970系列更是提升到4TB/s,为大规模数据中心和分布式计算提供了更强大的数据传输能力。

支持更大的算力:FP8算力从950系列的1 PFLOPS逐步提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力从950的2 PFLOPS提升到960的4 PFLOPS、970的8 PFLOPS,能够应对更加复杂的AI计算任务。

内存容量和访问带宽提升:内存容量逐渐加倍,而内存访问带宽将翻两番,为芯片的高性能运行提供了更充足的内存支持。

应用场景 编辑本段

昇腾950PR芯片主要应用于推理Prefill阶段和推荐业务场景。在推理Prefill阶段,随着输入上下文的不断增长,对计算并行能力的要求也越来越高。昇腾950PR芯片凭借其强大的向量算力和高互联带宽,能够快速处理大规模的数据,满足该阶段对计算性能的需求。而在推荐业务场景中,需要更高的准确度和更低的时延,以提供更加个性化、实时性的推荐服务。这两类场景对内存访问带宽和本地内存容量的需求相对较低,昇腾950PR芯片通过优化设计,在这些场景中具备独特的适配优势,能够为用户提供高效、稳定的性能表现。

上市信息 编辑本段

2025年9月18日,华为轮值董事长徐直军在华为全联接大会上正式公布了昇腾芯片的规划,明确表示昇腾950PR将于2026年第一季度上市。这一消息的公布,让众多期待已久的行业用户和开发者对昇腾950PR芯片充满了期待,相信它将在人工智能领域掀起新的浪潮,为推动AI技术的发展和应用做出重要贡献。

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 伊莫    下一篇 国产大型邮轮2号船

同义词

暂无同义词