小米11最强搭档!小米55WGaN线充套:超级计算芯片霸主大赛!最后 还有新的变量

作者: 山河的年岁 热度: 时间: 2020-11-18 06:42:54

2020年4月,最终被英伟达以近70亿美元收购的以色列顶级数据中心网络技术公司Mellanox,在经历了半年多的“沉默”之后,迎来了11月的两大事件。

首先,我和Mellanox在一起21年了,这笔交易的创始人兼首席执行官埃亚尔沃尔德曼(Eyal Waldman)宣布离职,留下了一句颇为别致的话:

“当交易达成时,我知道我要离开了。你知道,我花了几十年时间创建了一家公司,做了所有的决定,而不是为了第二名。”

其次,就在今天,Mellanox作为NVIDIA GPU家族的一部分,被NVIDIA整合到新的网络连接架构产品—— NVIDIA Mellanox 400g InfiniBand中。

此后,它将以“GPU伴侣”的身份,率先打入数据中心市场的最精锐部队——超级计算机市场。

超算芯片霸主之争!终于有了新变数

英伟达Mellanox 400G InfiniBand产品的架构。简单来说就是用来连接其他服务器和NVIDIA产品的组件

在今天的全球超级计算会议上,英伟达刷新了其最强大的GPU产品线——企业加速器A100的性能记录。

新一代A100 GPU将高带宽内存提高到80GB,是上一代的两倍。这意味着每秒超过2TB的内存带宽,会让数据在内存与GPU之间流通得更加迅速,以便“承受”研究人员建立更大规模人工智能模型和数据集带来的压力。

“现在我们必须继续突破AI和高性能计算(HPC)研究成果的上限。科学家必须建立更大、更复杂的模型,因此他们需要比以前更大的内存容量和更高的带宽。”英伟达应用深度学习研究副总裁布莱恩卡坦萨罗指出。

超算芯片霸主之争!终于有了新变数

英伟达在英国剑桥的超级计算中心部署了一个由几个100个80GB组成的DGX系统

其实除了改变芯片产品的架构,以最高效的方式连接数百个芯片,当然可以解决科学家每秒/数百亿次的巨大计算需求,收购Mellanox的目的就在于此。

如果你看过位于无锡的中国超级计算机“太湖之光”,你会发现“这台计算机”实际上是一个由数百个黑柜组成的计算机集群,可以装满一个1000平方米左右的房间。

它可以被称为“高性能计算机集群”或大型数据中心。

当然,这些黑柜的性能比普通服务器强很多。它们由4万多种不同的国产芯片组成。仅仅将它们整合起来是一项极其艰巨的任务。历时两年,总投资超过18亿元。

超算芯片霸主之争!终于有了新变数

无锡超级计算中心太湖之光

而NVIDIA Mellanox 400G InfiniBand的作用,便是将超级计算机中上万块CPU、GPU以及其他种类芯片“连接”在一起。在发挥性能最大化的同时,每块芯片的数据传输效率也不能有太多损耗。

“在CPU和GPU互联之前,是通过英伟达的NVlinks(一种总线及其通信协议),但是这东西互联的效率并不是特别好,也不能简单的扩展到几千个芯片互联的超级计算场景。”参与了TPU的研发。新英科技联合创始人杨功一凡告诉Tiger Sniff,Mellanox擅长英伟达之前最大的缺点之一。

“一台超级计算机,各品牌芯片之间的高效合作,极其重要。过去,英伟达的NVlinks只能和IBM的CPU互联。收购Mellanox后,NVIDIA增强了用芯片构建超级计算机系统的可扩展性,允许GPU连接其他品牌和类型的芯片。”

换句话说,英伟达找到了一种“将产品轻松插入包括英特尔在内的所有服务器芯片接口”的方法。

超算市场,不可忽视的芯片掘金地

英伟达的整个系列产品,无一例外都是针对——超级计算机市场的。

例如,在2020年6月发布的全球超级计算机500强名单中,美国橡树岭国家实验室排名第二的超级计算机Summit,每个节点配备了2台IBM Power9 CPU和6台NVIDIA特斯拉V100。此类节点4356个,总造价2亿美元。

2019年3月,美国能源部阿贡实验室公开宣布,将斥资5亿美元建造新一代超级计算机极光。这款将于2021年交付的超级计算机,并不是一味追求计算速度,而是需要对人工智能等新技术应用采用新的设计思路。

那么这个庞大的政府合同的主要受益者是谁呢:外界猜测是美国最大的CPU制造商英特尔,以及著名的超级计算机系统集成商Cray。

然而,不可忽视的是,随着人工智能研究中使用的超级计算系统越来越多,额外加载的加速芯片GPU逐渐成为构建超级计算机的必备之物。

因此,英伟达也在全球多个超级计算项目中取得了可观的利润,包括美国最强大的国家实验室、——橡树岭实验室和阿尔贡实验室,它们都是英伟达最佳性能产品的第一批早期采用者。

超算芯片霸主之争!终于有了新变数

Summit是美国迄今为止最强的超级计算机,在最新的500强名单中排名第二。

超级计算机之间的竞争一直被认为是国家之间技术实力的竞争。

虽然这是一个狭隘的衡量标准,但是这些超级计算集群在很多军事和科学任务中确实发挥了极其重要的作用,比如武器设计和密码解码,气候变化的模拟,SARS-CoV-2的研究和诊断。

很多前所未有的材料和化学实验都不太可能在云中进行,所以部署高性能服务器就显得尤为重要。

“没有人愿意花大价钱去做一些几十年都没有成果的新技术研究,但是这些研究是必须的,所以这些新技术的运行需要超级计算机的支持。”一位业内人士告诉老虎嗅嗅。

在这场比赛中,中国和美国当然是最强的选手,也是最愿意在超级计算系统上砸钱的两个科技大国。

2020年6月,虽然500强的榜首被耗资10亿美元的超级计算机系统Fugaku夺走,但在500台超级计算机中,中国拥有226台系统,美国占据114台。

超算芯片霸主之争!终于有了新变数

2020年6月最新榜单前10名。2016 ~2017年四次夺冠的中国超级计算机太湖之光排名第四,天河二号排名第五。

因此,如果每台超级计算机的单价是几亿美元,这就是一个令人垂涎的市场。政府一次次创下巨额订单记录,对商业公司的吸引力越来越大;

此外,毫无疑问,超级计算机是最困难的技术研发任务,它们的存在是未来技术沉入工业和消费市场的源动力。

国家之间的超级计算战争从几十年前就开始了。起初,大多数超级计算机使用的微处理器是从英特尔和AMD的PC芯片演变而来的。然而,在过去的五年里,数据量开始爆炸,新技术被无休止地应用。所以最强大的超级计算机开始增加专业芯片的使用,英伟达是最大的受益者之一。

超算芯片霸主之争!终于有了新变数

从图中可以看出,2020年至2025年的数据生成量是2010年至2020年的三倍。图片来自NVIDIA。

然而有趣的是,日本富家乐打败中美最强电脑的“源动力”竟然是富士通的48核A64FX SoC,应该是榜单上第一个以ARM处理器为动力的超级计算系统(虽然我不想把NVIDIA和收购ARM联系在一起,但至少是个开始)。

“未来的超级计算市场,现在的共识是HPC AI。也就是说,AI是未来超级计算的典型应用,其量级非常大。因此,英伟达作为未来的霸主,想要保持在这个市场的领先地位。

当然,在高性能计算市场,一切都不是那么容易。"

超算芯片霸主之争!终于有了新变数