随着人工智能 (AI) 和大模型 (LLM) 的发展,算力需求爆炸式增长。这导致服务器,特别是GPU服务器的功率密度急剧升高。传统的风冷技术在应对超高热密度(如NVIDIA新一代GPU平台)时面临挑战。
文章指出,推动液冷(特别是板式液冷/DLC)大规模采用的核心驱动力是 总拥有成本 (TCO - Total Cost of Ownership) 的优化,而不仅仅是单纯追求能源效率 (PUE)。
板式液冷 (DLC - Direct Liquid Cooling),也称直接液冷或冷板式液冷,是目前AI数据中心液冷的主流方案之一。
基本原理:
与风冷的对比:
文章还提到,即使采用DLC,通常仍需要风扇来冷却服务器中其他非液冷部件(如网卡、内存、电源、收发器等),这部分热量约占机架总热量的15%(以NVIDIA GB200为例),形成了“混合散热”模式。
理解板式液冷系统的组成对于成本管理至关重要。以下是基于文章内容和液冷常识梳理的关键器件及其成本相关考量:
直接贴装在CPU/GPU等高热源上的金属板(文章中提到铜板),内部有流道让冷却液流过吸热。
安装在服务器或机架内,用于将冷却液分配到多个冷板,并将来自各冷板的回水汇集起来。
用于连接服务器液冷管路与机架分集水器,或机架与CDU管路。要求插拔方便且“零泄漏”。
连接冷板、分集水器、CDU的管道。在服务器内部通常是软管,机架间或到CDU可能是硬管或软管。
在系统中循环流动的液体,负责运载热量。通常是去离子水或水与乙二醇(或其他防冻剂/缓蚀剂)的混合物。
板式液冷系统的核心枢纽。负责 IT 设备侧冷却液(二次侧)与数据中心设施冷却水(一次侧,如冷冻水)之间的热量交换,并提供循环动力和控制。
CDU需要连接到数据中心的冷源。这部分通常不是英维克直接提供给服务器客户的,但其特性会影响CDU的设计和成本。
板式液冷的应用涉及多个层级,形成了不同的系统架构:
文章重点讨论了数据中心如何整合DLC系统,主要有以下几种方式:
作为成本经理,需要全面评估板式液冷方案的成本构成:
文章对板式液冷的未来发展方向进行了简要讨论: