黑色机柜被整齐排成数行,高速运转的机器持续发出低沉的嗡鸣声,星星点点的负载指示灯不断闪烁……这里是“天河二号”的机房,硕大的超级计算机正在飞速运行。
过去的一年,新冠肺炎疫情席卷全球,来势汹汹。凭借超强算力,“天河二号”助力药物虚拟筛选,只用了3天时间便迅速定位了30余种潜在有效药物。在“天河二号”上搭建的新冠肺炎CT影像智能诊断平台,15秒即可完成一次CT图像诊断,为抗击疫情作出了重大贡献。
作为幕后功臣,国防科技大学计算机学院“天河”高性能计算团队(以下简称“天河”团队)功不可没。在刚刚过去的春节假期,团队上下60余人坚守岗位,以这样特殊的方式为祖国守岁。
肖立权:用光互联替代电互联
肖立权,“天河二号”副总设计师、“天河”团队互联通信方向负责人。
我国高性能计算起步较晚,要想赶上西方国家,唯有奋起直追。为了让我国高性能计算早日赶超西方国家,肖立权一拼就是30年。
“走别人没有走过的路很难,但我喜欢挑战!”这是肖立权常说的一句话。20世纪末,大规模计算机系统中通常采用电互联技术,信息传输速率慢且易受干扰,影响系统稳定性。这是我国研制千万亿次级超级计算机路上的一块“绊脚石”。
搬开这块“绊脚石”的最优解决方案,就是用光互联替代电互联,上级将这一重任交给了肖立权。
这条别人没有走过的路,注定充满坎坷。接下任务后,肖立权立即着手解决这项技术难题。然而,按照他的思路做出来的系统根本“跑不起来”。
“是哪里出了问题?”肖立权满脑子都是问号,午休时闭上眼睛,他脑海中全是屏幕上滚动的数据。
“没法睡!去实验室!”架起示波器、逻辑分析仪,肖立权全神贯注地看着屏幕,生怕错过关键数据。
解决方案被一次次提出,但又被一次次推翻。有一天,肖立权突然冒出一个想法:是不是数据传输有问题?这次灵光突现,让他一下找到了解决问题的“钥匙”。由此,我国光互联技术在大规模计算机系统中得到有效验证,这为后续该技术在超级计算机系统中的应用奠定了坚实基础。
2013年,是“天河”团队发展历程中浓墨重彩的一年。当年6月,“天河二号”研制成功,登上了世界超级计算机排行榜的榜首。
同年11月,为升级“天河二号”系统,肖立权和团队成员展开了为期10个月的封闭式攻关,力争完成核心器件国产化替代。经过这一轮攻关,肖立权带领“天河”团队大幅提升了“天河二号”高速互联通信系统的性能,使其运行速度达到当时国际商用互联系统的2倍,为下一代超级计算机研制奠定了基础。
郭扬:让国之重器澎湃“中国芯”
“天河二号”的“成长环境”并不十分“友好”,长久以来,西方国家在这一领域对我国实现严格的技术封锁。
曾有很长一段时间,我国信息系统软、硬件受制于人的问题难以得到解决。为攻克这一难题,“天河”团队再次奔赴战场。
“天河”团队微电子方向负责人、国防科技大学计算机学院研究员郭扬就是核心芯片这个战位上的先锋。
芯片制造技术是制造业的核心技术,超级计算机所需的芯片更被誉为“皇冠上的明珠”。为了摘取这颗“明珠”,郭扬坚守了20余年。今年春节,他依旧坚守岗位,在机柜间不停穿梭。在仅有几十米宽的机房里,他每天可以走出数万步。
运算速度(俗称算力)和功耗是超级计算机芯片的核心指标。通常来说,要想实现更高算力,就需要在芯片中集成更多的晶体管,但这就会增加芯片面积和功耗。研制超级计算机芯片的难点在于,要在保证高算力的前提下,尽可能减少芯片的功耗。为了早日攻克这一难题,曾有一段时间,郭扬四处奔波,到军队内外各地调研考察,出国参加学术交流活动,研究业内发展趋势,几经周折最终确定了走“基于自主指令集的异构融合架构”的技术路线。
这是一条崎岖难走的路。研制自主指令集的处理器芯片,意味着研发团队不仅要研制芯片,还必须同步研制出配套的编译器、算法库等全套软件系统。若采用现成的指令集芯片,工作量将减少数倍。
“这条路必须走!跟在别人后面、走现成的路,已无法实现技术领先。这条路,我们就算披荆斩棘也要走!”郭扬说。