在前不久的AI特斯拉活动上,特斯拉正式发布D1台积电7芯片nm工艺制造,核心面积645平方毫米,仅次于NVIDIAAmpere超级计算核心架构A1000(826平方毫米).AMDCDNA体系结构的下一代计算核心Arcturus(约750平方毫米),集成了多达500亿个晶体管,相当于IntelPonteVecchio计算一半芯片。
它集成了四个超标的64位CPU核心,训练节点多达354个,特别是8个×8乘法,支持FP32.BFP64.CFP8.INT16.INT8等各种数据指令格式,都是AI与训练有关的。 特斯拉称,D1芯片的FP32单精度浮点计算性能达到22.6TFlops(每秒22.6万亿次)BF16/CFP计算性能可达到362TFlops(362万亿次/秒) 为了支撑AI训练的可扩展性,其互连带宽惊人,最高可达10TB/s,由多达576个通道组成,每个通道都有112个带宽Gbps。2033年,自研核心的目标是超越人脑的计算能力。 (责任编辑:lp) |