日前,媒体报道由华为1300万亿次高性能计算平台在沈阳落地,在航空工业气动院(以下简称“气动院”)投入使用。群里有网友对这个话题讨论,其实,用华为ARM处理器搭同构超算并不太合适,铁流在这里对持“厉害体”观点的网友泼一盆冷水。
华为鲲鹏920处理器浮点性能较弱
虽然部分网友看到“1300万亿次”的数字很沸腾,但从性能来看,这台超算性能并不强,神威太湖之光的性能为120+P,而1300万亿次是1.3P,相当于神威超算的百分之一左右,在全球TOP500超算中能够排到300位左右。
就华为鲲鹏920来说,其实并不适合用来当超算芯片。媒体报道,“在SPECint基准测试中,鲲鹏920得分超过930分,比行业基准高出近25%,同时功耗降低30%”,报道中的意思是鲲鹏920性能强悍所以用来建超算。但实际上,SPECint基准测试测的是定点性能,而超算看重的是双精度浮点性能。而浮点性能恰恰是鲲鹏920的弱项。
而就浮点性能来说,恰恰是鲲鹏920的弱项。根据上海X大PPT,鲲鹏920 TDP 150W,双精度浮点算力384Gflops(@2.6G)。
申威超算芯片在性能功耗比和绝对性能上优势明显
根据成都申威官网数据,申威1621主频2GHz时的双精度浮点性能可高达512GFlops,TDP 150W。
如果拿SW26010作为比较差距就更大,SW26010的双精度浮点性能为3TFlops,功耗为200W。
只有用神威蓝光超算(2011年)的申威1600做对比,鲲鹏920才能找到少许安慰——申威1600,16核,制程65nm,1.1G主频,功耗50至60W,双精浮点140GFlops。
必须说明的是鲲鹏920是7nm工艺,而SW1621和SW26010是28nm工艺,而SW1600是65nm工艺,鲲鹏920在采用7nm工艺的情况下,双精度浮点算力的性能功耗比还不如SW的28nm芯片。在绝对峰值性能上,与上一代SW20610差距非常明显。与用在神威E级原型机上的申威超算芯片差距就更大了。
目前的ARM服务器CPU属于剑走偏锋
一位实测了鲲鹏920机器的朋友评价:
鲲鹏920浮点本来就不行,cpu2006就低很多,向量就更差了,才128bit,自然不能跟256/512bit的比,浮点,intel无疑强很多,arm的等sve普及吧,现在不行。但是SPECint_rate鲲鹏920就是最强arm没问题啊。
目前,国内的ARM服务器CPU都属于剑走偏锋的产物,比如在单核性能和英特尔有差距的情况下,堆64核心,获得较高的SPECint_rate成绩,通过64核战英特尔14/28核的方式,在PPT上吊打英特尔。
即便是ARM厂商经常挂在嘴边的低功耗,也是有投机取巧的成分。在CISC和RISC已经殊途同归的情况下,指令集对CPU功耗的影响已经微乎其微,CPU设计水平和制造工艺才是影响功耗的最关键因素。因而一些ARM厂商玩“ARM=低功耗”的说辞是值得商榷的。
何况鲲鹏920的浮点性能是比较弱的,而英特尔的浮点性能比较强,以鲲鹏920这种“阉割”了浮点性能的CPU,与英特尔“大而全”的CPU比功耗,同时在性能上只比定点性能,不比浮点性能,而且鲲鹏920是台积电7nm工艺,英特尔则是14nm工艺,通过这种方式在PPT上获得对英特尔的功耗优势,这种对比方式有一些投机取巧了。
就商业上来说,从性能、功耗、生态、价格等因素综合考虑,英特尔是吊打全球各家的ARM服务器CPU。有用户单位在少量试用ARM服务器后就抱怨单核性能不行,白花冤枉钱。某种程度上,国内的64核ARM服务器是急功近利、剑走偏锋的产物。应当先把单核定点和浮点性能都提升上去再去做多核。
新闻里潜藏的亮点是气动院开发或移植应用
近年来,中国超算性能突飞猛进,但在应用方面也取得了长足进步,屡次斩获戈登贝尔奖,但依然和国外有一定差距。而ARM超算还属于新鲜事物,因而整套流体力学的软件很有可能是气动院自己开发或移植的,这是不少网友忽略的一个亮点。
可以说,气动院开发一套流体力学软件在神威超算上跑也没问题,用飞腾2000系列CPU组一个同构超算跑这套应用也没问题。之所以用华为的鲲鹏处理器,估计和最近华为在舆论上封神,获得了很多国家资源倾斜和扶持有关。当然,估计也和ARM服务器CPU在商业上被英特尔吊打,因而华为竭力想推一些应用案例有关系,即便鲲鹏920并不适合用在同构超算上,反正先推出去再说。
鲲鹏920的强项是SPECint_rate成绩较好,以及集成的I/O功能和网卡很强,华为应该把应用的方向聚焦在对单核性能要求不太高,且对定点比较看重的应用。用来搭建同构超算非其所长,由于双精度浮点性能有限,用来做超算堪称事倍功半。
「 支持!」
您的打赏将用于网站日常运行与维护。
帮助我们办好网站,宣传红色文化!