咨询电话:0531-87595859

— 新闻中心 —

联系我们/ CONTACT US
全国免费客服电话 0531-87595859
艾尚体育APP官方网站

邮箱:yiyouhengxin@163.com

手机:0531-87595859

电话:0531-87595859

地址:山东济南历下区解放路43号银座数码广场707

您的位置:首页 > 新闻中心

新闻中心

未来智算中心:从单数据中心到多数据AI训练集群的演变趋势

来源:艾尚体育APP官方网站    发布时间:2025-01-19 05:34:17   阅读:1 次

  去年以来,以ChatGPT为代表的大模型迅速红遍全球,展现出变革经济社会的巨大潜能。全球主流纷纷去参加了,推动算力需求快速地增长。华为公司去年曾预测,到2025年,智能算力需求将增长100倍。

  与之相呼应的,是蓬勃兴起的智算中心。从政策面看,我国2022年全面启动“东数西算”工程建设,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏建设8个国家算力枢纽,并规划了10个国家数据中心集群。从产业来看,运营商资本开支重心正在向算力偏移,并大规模采购智算设备。

  智算中心的未来将如何演变?构建跨数据中心的AI训练集群是其中一个重要研究方向, “Region Scale Al”,慢慢的变成了业界关注的热点话题。

  ODCC(开放数据中心委员会)携手华为公司,在2024年3月28日召开的ODCC春季全会-新技术与测试工作组会议上提出了“Region Scale AI”研究项目。华为2012网络技术实验室专家李映辉做了《Region Scale AI 场景与挑战》主题报告,介绍了AI大模型训练对算力需求持续不断的增加的背景下,多数据中心联合训练的发展的新趋势与业界实践,深入分析了该场景下面临的组网和通信挑战,通过现网实验数据初步论证了AI集群跨AZ、跨Region联合训练的可行性,并给出了“Region Scale AI”研究项目的工作规划。李映辉因为此项目立项,荣获ODCC2024年春季全会MVP演讲嘉宾称号。

  报告中,还介绍了该场景下的创新技术探索和研究工作,包括跨AZ的模型切分算法、集合通信算法,以及如何在长距网络上实现高吞吐传输、高性能加解密协议等等。同时指出,随着AI模型的增大以及芯片算力的增强,未来跨AZ训练对网络带宽的需求还会促进增长,要进一步考虑DCN和DCI网络架构的演进。

  业内人士都可以感觉到AI大模型发展的加速度。主流科技公司正在尽可能快地开发大模型并迭代新版本,以期在这个全新的产业中占据先机。大模型的训练参数在过去5年增长百倍,已达到万亿级,预计未来5年参数将再增长百倍,达到百万亿量级!

  智算能力也随之快速升级,目前单一数据中心已达到万卡集群规模,以尽力满足几乎永无止境的AI计算需求。公开消息显示,华为昇腾AI集群2023年升级为万卡AI集群;蚂蚁基础大模型已具备万卡AI集群;中国电信宣布推出了首个国产单池万卡液冷算力集群。

  AI集群是通过将多个计算机节点连接起来,形成协同工作的计算环境,从而为AI应用提供强大的计算能力和数据处理能力。据了解,其技术门槛随着训练量迅速增加而不断抬高,绝非简单的算力设备堆砌。仅有少数几家厂商可提供万卡AI集群,面对大模型参数的指数级增长,压力巨大。

  然而,任何具体事物都存在极限,算力集群同样如此。单一AI集群不可能无限制扩张,会受到电力供应等因素影响,比如一些公司甚至考虑将数据中心建设在核电站附近。预计今后一个十万卡级别的AI集群,需要上百MW的电力供应。跨数据中心AI训练可以有效解决单集群供电不足问题,引起业界广泛关注。

  此外,云计算有峰谷效应,单集群算力面临部署碎片化问题,难以承载云上大规模AI训练业务,导致资源利用率下降。采用多个数据中心组成的跨AZ、跨Region AI训练集群,可有效支撑十万卡甚至百万卡级别的训练任务,同时提高资源利用率,将是智算产业高质量发展和探索的重要方向。

  面向云上AI资源碎片化问题,微软提出了“Singularity”框架,Planet-scale可抢占、可迁移、可弹性伸缩的AI任务调度。该框架可实现资源调度高弹性和可迁移性,增加云上AI资源利用率,但缺乏关注跨集群的训练性能。面向公有云AI训练网络异构问题,AWS提出了MiCS方案,能够充分的利用异构网络带宽,通过减少较慢链路上的网络流量,摊销昂贵的全局梯度同步开销。未解决AI训练集群造价昂贵问题,Meta提出去中心化异构训练。利用分布式、异构和低带宽互联的AI训练资源来训练基础大模型,降低训练成本。

  华为云技术专家杨永强近日在交流中向SDNLAB表示,数字化的经济是根本,东数西算是实施的第一步,华为云全力支持国家的东数西算战略,积极布局Regionless等技术创新,其中东数西训自不必说,而跨AZ、跨Region、线上线下跨集群的AI训练等高阶诉求也日益显现。参数交换会大幅度的提高跨Region的数据流量,弱网长距下的Regionless确定性高速传输需求迫切,有机会打造成东数西算的 “特高压”。

  “Region Scale AI研究”项目旨在通过跨数据中心联合训练,突破单集群建设限制,灵活高效利用算力资源。未来几个月,ODCC将与业界针对Region Scale AI面临的技术挑战展开具体研究,探索技术方向,期望在年内形成研究成果,并在9月份ODDC年度大会进行成果发布。

  数字化的经济时代,算力就是生产力。尤其是智能算力,在复杂的国际政经形势下,能否取得突破,关系到新型数字技术的产业竞争力。ODCC跨AZ训练立项已经走出了第一步,探索智算产业的发展路径。未来华为公司会继续在产业界开展分布式AI训练的联合创新、认证测试、标准制定等系列工作,也愿意与业界伙伴一起,赋能我国数字经济产业的高水平质量的发展。

新闻中心

X艾尚体育APP官方网站

截屏,微信识别二维码

微信号:yiyouhengxin

(点击微信号复制,添加好友)

  打开微信

微信号已复制,请打开微信添加咨询详情!