如何从IT层面到物理基础设施层面,重新规划和设计智算中心?(一)‖《智算中心基础设施架构演进白皮书》解读

 

 

智算中心前端需求演进

 

 

1

 

从CPU到GPU,芯片演进

 

智算算力(智算中心)和通用算力(传统数据中心)在服务器芯片结构上存在本质的差异。

 

通用算力芯片架构相对单一,主要以CPU为算力核心,基于CPU和云存储集群提供的相关云服务,通常由多个物理服务器组成,通过网络连接形成一个虚拟化的计算环境。

 

智算算力则通常采用芯片异构计算架构,结合CPU、GPU、NPU、TPU等多种芯片,形成高并发的分布式计算系统,应用于神经网络模型的训练及推理等。

 

除算力芯片外,智算中心的存储芯片也存在差异化的需求,例如更大的DRAM和NAND容量,以及存算一体技术的应用,以解决冯·诺依曼架构中的存储墙问题等。

 

从芯片结构演进来看,通算中心(传统数据中心)侧重于通用计算任务的性价比和灵活性,而智算中心注重人工智能(AI)类型的特定计算需求及运算效率,并要求具有强大的图形处理功能,需要制定人工智能(AI)算力硬件和存储解决方案,以满足其人工智能(AI)高性能计算需求。

 

 

 

2

 

用户侧诉求演进

 

通用算力(传统数据中心)的用户侧诉求经过长期不断的发展和梳理,已逐渐趋于成熟和稳定,而智算中心用户侧诉求则主要是基于算力业务开展带来的诸多挑战。

 

通算中心最初的用户诉求主要来自于一些特定的应用,诸如:电子邮件、社交媒体和员工工资发放等。后来随着云计算的快速发展,越来越多的关键应用迁移到云端,数据中心建设的规模也越来越大,通算中心对时延、带宽、可用性以及安全性等有了更高的要求。为了满足更高的标准和要求,通算中心通常选择引入双路市电,采用柴油发电机作为市电中断后的应急电源,并配备不间断电源UPS,从而确保系统的持续运行,随着“碳中和、碳达峰”的目标制定,通算中心开始对极致PUE、降低数据中心的总拥有成本进行持续要求。

 

智算中心的用户诉求则来自于智算训练业务。为确保大模型训练的效率和成本最优,智算训练业务需要建立高度集中化的GPU集群。这是因为,基于GPU的分布式工作原理,如果需要在减少训练时间的同时降低训练的成本,那么,必须在更小的物理空间内部署更多的GPU服务器,从而突破分布式计算因带宽和传输距离产生的运算瓶颈,提高集群算效,因此,智算训练业务需要建立高度集中化的GPU集群。

 

在功能方面,智算用户更注重数据的智能处理和应用,提供个性化的服务;在硬件上,智算用户注重更多地使用GPU专用芯片;在软件上,智算用户注重更加高效的分配计算任务;在管理和运维方面,智算用户要求自动化程度更高,更加注重资源的挖潜和最优利用。

 

 

3

 

机柜功耗高密度化演进

 

以风冷机柜、液冷机柜两个维度,分别配置国产GPU和英伟达GPU,机柜功率达到多少呢?

 

  • 风冷机柜:

     

    国产GPU,以华为910B为例,单机柜部署2台风冷智算服务器,功耗约11.2kW。

     

    英伟达(NVIDIA)以HGX服务器为例,HGX是NVIDIA的高性能服务器,通常一台机器包含8个或4个GPU,以8个H100为例,单台服务器功耗约10.2kW,若选用B200芯片,单台服务器设计功耗14.3kW。在智算中心的规划中,通常会考虑到IB线缆等综合成本,单机柜部署2台HGX风冷智算服务器,含上IB交换机等,单机柜功耗高达24kW左右。

     

  • 液冷机柜:

     

    国产GPU,单机柜8台液冷智算服务器,总功耗约42.4kW。

     

    英伟达(NVIDIA)GPU,从NVL32机柜到NVL72机柜,单机柜部署4台服务器至9台服务器,GPU数量从32颗到72颗,总功耗也从44kW(为推测的数据)增加到120kW。

     

    因此,单机柜功耗从通算中心(传统数据中心)的4~6KW的逐渐增加至智算中心(AIDC)的20~40kW,未来逐步发展至40~120kW甚至还要更高,智算中心机柜呈现高密度化趋势。

 

 

 

4

 

从静态到动态,负载演进

 

通算中心(传统数据中心)上线运行以后,负载相对比较平稳,很少有极端情况负载波峰或谷底出现,而智算中心的负载运行特点是不断进行训练任务来进行高速运算,当它开始训练任务时,负载将会迅速上升到比较高的功耗值,甚至会达到负载的极限值,而等到这次训练任务结束以后,它的负载又会迅速下降,降到最低值。由此可以得出结论,智算中心的负载波动情况非常大,呈现出新的动态负载特性。新的动态负载特性主要表现为周期性、大幅度、并发性、瞬时冲击等,这种特性对于智算中心的配电和制冷都是一个很大的挑战。

 

  • 周期性:智算负载呈现周期性波动,波动频率从分钟级到小时级不等。

     

  • 大幅度:智算负载功耗波动幅度可能超过额定功耗的80%,即智算中心的负载功耗可能从10%快速突变至80%,甚至100%。

     

  • 并发性:人工智能(AI)大模型具有并发运算的特点,故整体集群性总功耗呈现出动态快速变化。

     

  • 瞬时冲击:某些算力模型可能出现400us~50ms左右的负载冲击,幅度可能达到额定负载功耗的150%,它取决于POD运算模型及软件算法。

 

 

 

 

选址与规划的演进

 

智算中心选址与规划和通算中心相比有哪些特殊差异?我们主要从一些问题出发,通过对这些问题的深度思考,从而找到不同的解决方案和建议。

 

  • 智算中心的选址会趋向于靠近终端客户的核心城市还是资源丰富的偏远地区?

  • 智算中心的建筑形式优先选用大平层还是多层建筑呢?

  • 在层高和承重方面,智算中心有哪些相应的提升要求?

  • 如何通过优化建筑布局从而提高智算中心算力和算效?

  • 智算中心在房间功能划分上有哪些特殊需求?

  • 如何改造已有的通算建筑以便适用于智算中心?

 

以上这些问题,都会在这本白皮书里找到参考答案和建议。

 

基于以上问题的深度思考,深知社(DeepKnowledge Community)携手维谛技术(Vertiv),通过对国内外近50位资深智算与超算专家进行深度访谈与调研,依托深知社全球动态知识库,精心编撰出这本具有系统性、前瞻性的白皮书:《智算中心(AIDC)机电架构演进(DCAE2024)白皮书》。

 

该白皮书为智算中心发展提供全面分析和预测,助力数据中心往智算中心的演进与突破。希望各位数据中心同行在阅读完这本白皮书之后,对于AIDC的演进趋势有更多、更深、更系统的理解。

 

扫描下方二维码下载《智算中心基础设施演进白皮书》

探索更多答案,迎接智算时代的到来!

 

 
 
 
 
 

 
 
 
 
 
 
 
 

DKC交流群邀请

深知社创立于2017年,是数据中心技术人员深度知识的交流、学习和分享虚拟社区平台。深知社提倡全球视野、交流分享、终身学习的知识理念,感兴趣的读者同学可以扫描下方二维码进群交流学习。

 

 

 

 

 
 
深 知 社
 
 

 

推荐阅读:

 

 

 

 

 
 
 

 

首页    白皮书解读    如何从IT层面到物理基础设施层面,重新规划和设计智算中心?(一)‖《智算中心基础设施架构演进白皮书》解读
设计
管理
运维
设备
电气
暖通
控制
碳中和
储能

新闻动态