1. 首页 > 财经

马斯克:启动孟菲斯超级集群 年底前训练出全球最强AI

当地时间7月23日,“饼王”马斯克宣布其AI初创公司xAI在田纳西州孟菲斯的超级集群正式开始训练。该集群号称是全球最强大的AI训练集群,由100.000个Nvidia H100 GPU组成,这些GPU自去年起由英伟达提供。马斯克称此举是为在今年12月前开发出“全球最强的AI”。

马斯克在社交媒体上详细介绍了这套系统的配置情况:孟菲斯超级集群采用单个RDMA结构,这一结构可以实现更高效、更低延迟的数据传输,从而为AI模型训练提供了显著的性能优势。据马斯克所言,RDMA结构避免了对中央处理器(CPU)的额外负担,这对于超大规模计算任务至关重要。思科的技术支援,英伟达的卓越芯片,再加上xAI和X团队的努力,使得这次的训练集群计划顺利推进。

超微(Supermicro)也为xAI提供了部分硬件支持,超微首席执行官表示:“与马斯克的孟菲斯团队合作真是太棒了!为了实现目标,我们的执行必须尽可能完美、尽可能快、尽可能高效、尽可能环保——大量的艰苦工作。”

如果孟菲斯超级集群的计算资源成功运行,它将在规模和性能上超越当前许多顶级超级计算机,如Frontier(37.888个AMD GPU)、Aurora(60.000个Intel GPU)和Microsoft Eagle(14.400个Nvidia H100 GPU)。

xAI的目标不仅限于技术领先,其在超级计算机集群上的巨额投资对孟菲斯当地的基础设施发展也产生了重大影响。马斯克表示,xAI将改善孟菲斯的公共设施,包括建立新的变电站和污水处理设施,以支持数据中心的发展。

今年5月,马斯克曾透露计划在2024年底前在田纳西州建设一个超级计算工厂,该计划遂被称为“算力超级工厂”。如今,孟菲斯超级集群的提前启用无疑是这一计划的加速体现。当然比起马斯克的雄心壮志,在关键时刻“跳票”也是他的基操了,诸如全自动驾驶汽车、无人驾驶出租车项目Robotaxi等等。

所以,对于到2024年12月训练出“按每项指标衡量都是全球最强大的AI”这一目标,外界普遍持谨慎态度。

值得注意的是,xAI并非没有对手。微软与OpenAI也在合作开发一台代号为Stargate的AI训练超级计算机,预计投入资金高达1000亿美元。若这一项目取得成功,未来xAI的孟菲斯超级集群的最强大AI训练集群地位或将面临挑战。

此外,在随后的推文中,马斯克还提到了特斯拉在2024年将开始生产Optimus机器人,预计到2026年实现大规模生产备用该机器人供其他公司使用。这一时间表比他之前宣称的要晚一些,表现出技术巨头在面对现实技术挑战时的调整。