背景与驱动力:为何需要板式液冷?

随着人工智能 (AI) 和大模型 (LLM) 的发展,算力需求爆炸式增长。这导致服务器,特别是GPU服务器的功率密度急剧升高。传统的风冷技术在应对超高热密度(如NVIDIA新一代GPU平台)时面临挑战。

文章指出,推动液冷(特别是板式液冷/DLC)大规模采用的核心驱动力是 总拥有成本 (TCO - Total Cost of Ownership) 的优化,而不仅仅是单纯追求能源效率 (PUE)。

核心原理:板式液冷 (DLC) 如何工作?

板式液冷 (DLC - Direct Liquid Cooling),也称直接液冷或冷板式液冷,是目前AI数据中心液冷的主流方案之一。

基本原理:

与风冷的对比:

成本相关原理理解:
  • 液体的高效传热是实现“密度价值”的基础,但也带来了泵送能耗(文章提到水密度是空气830倍,移动更困难,泵功与流量线性相关)。
  • 系统复杂性直接关联到物料成本(更多组件)和制造成本(装配、测试)。
  • 泄漏风险是运营成本和可靠性成本的重要考量。

文章还提到,即使采用DLC,通常仍需要风扇来冷却服务器中其他非液冷部件(如网卡、内存、电源、收发器等),这部分热量约占机架总热量的15%(以NVIDIA GB200为例),形成了“混合散热”模式。

关键器件与零部件 (成本关注点)

理解板式液冷系统的组成对于成本管理至关重要。以下是基于文章内容和液冷常识梳理的关键器件及其成本相关考量:

1. 冷板 (Cold Plate)

直接贴装在CPU/GPU等高热源上的金属板(文章中提到铜板),内部有流道让冷却液流过吸热。

成本关注点:
  • 材料: 铜、铝等,铜导热好但成本高、重。
  • 制造工艺: 微通道设计、钎焊/搅拌摩擦焊等连接工艺的复杂度和良品率。
  • 性能: 热阻、压降直接影响系统效率和泵功耗。
  • 定制化: 针对不同芯片封装需要定制设计。
2. 分集水器 (Manifold)

安装在服务器或机架内,用于将冷却液分配到多个冷板,并将来自各冷板的回水汇集起来。

成本关注点:
  • 材料: 不锈钢、铜、工程塑料等,需考虑耐压、耐腐蚀。
  • 设计: 流道设计影响流量分配均匀性和总压降。
  • 接口: 与快接头、管道的连接可靠性。
  • 尺寸与集成度: 在有限空间内集成尽可能多的通路。
3. 快速接头 (Quick Disconnects / QDs)

用于连接服务器液冷管路与机架分集水器,或机架与CDU管路。要求插拔方便且“零泄漏”。

成本关注点:
  • 可靠性与寿命: 防泄漏是核心,关系到IT设备安全,是高价值点。
  • 材料: 金属(不锈钢、黄铜)、高性能塑料,需与冷却液兼容。
  • 类型: 单/双截止阀,盲插设计等。
  • 流量与压降: 对系统性能有影响。
  • 供应商: 高品质快接头供应商选择有限,是成本控制的关键点。
4. 管路 (Piping/Tubing)

连接冷板、分集水器、CDU的管道。在服务器内部通常是软管,机架间或到CDU可能是硬管或软管。

成本关注点:
  • 材料: 橡胶、硅胶、EPDM(软管),不锈钢、铜(硬管)。需考虑柔韧性、耐压、耐温、与冷却液兼容性、渗透性。
  • 尺寸: 管径影响流量和压降。文章提到高密度机架可能需要大管径,增加成本和空间占用。
  • 安装与布局: 弯曲半径、支撑固定、接头数量与可靠性。
5. 冷却液 (Coolant)

在系统中循环流动的液体,负责运载热量。通常是去离子水或水与乙二醇(或其他防冻剂/缓蚀剂)的混合物。

成本关注点:
  • 类型: 水成本低但有腐蚀和低温结冰风险;乙二醇混合物可防冻防腐但粘度增加、换热效率略降,成本增加。
  • 品质要求: 纯度、添加剂(缓蚀、防生物滋生)的配方与成本。
  • 用量与更换周期: 系统总容积、冷却液寿命及维护更换成本。
  • 兼容性: 必须与管路、接头、冷板、泵等所有接触材料兼容。
6. 冷却液分配单元 (CDU - Cooling Distribution Unit)

板式液冷系统的核心枢纽。负责 IT 设备侧冷却液(二次侧)与数据中心设施冷却水(一次侧,如冷冻水)之间的热量交换,并提供循环动力和控制。

  • 类型:
    • 行级 (In-Row) CDU: 容量大(文章提及1MW+),服务一排机柜,集中管理。
    • 机架级 (In-Rack) CDU: 容量较小(文章提及80kW/4U),集成在机柜内或底部。
  • 功能: 液-液热交换 (L2L - Liquid-to-Liquid)、循环泵、过滤器、膨胀罐、传感器(温度、压力、流量)、控制系统(调节流量、温度,实现精密温控)。
成本关注点:
  • 核心部件成本: 高效板式换热器、高可靠性水泵(可能需冗余)、精密传感器、控制器硬件及软件。
  • 容量与尺寸: 不同容量和外形的CDU成本差异大。
  • 能效: 换热器效率、水泵能耗直接影响运营成本。
  • 可靠性与可维护性: 设计影响维护便利性和系统稳定性。文章提到行级CDU维护相对容易,组件更少可能更便宜,但集成机架方案因责任单一也受欢迎。
  • 标准化: 文章强调缺乏标准导致CDU与设施水系统匹配困难,增加定制成本和集成难度。
7. 设施侧散热设备 (Facility Level - 间接相关)

CDU需要连接到数据中心的冷源。这部分通常不是英维克直接提供给服务器客户的,但其特性会影响CDU的设计和成本。

  • 冷冻水系统 (Chilled Water Plant): 包括冷水机组 (Chillers)、冷却塔 (Cooling Towers)、干冷器 (Dry Coolers) 等,提供CDU所需的冷冻水。
  • L2A 热交换器 (Liquid-to-Air): 文章提到的“桥梁”方案,用于在无设施水系统的数据中心部署液冷。它将DLC回路的热量通过风扇散到空气中,成本高、效率低。
对CDU的成本影响:
  • 设施水温: 决定了CDU换热器的设计要求和效率。温度越高,CDU可能越简单(或效率越高),越利于节能。
  • 水质与压力: 影响CDU换热器和阀门的选择。
  • L2A方案: 本身成本高昂,且需要强大的风扇,运营成本也高。作为过渡方案,其市场需求可能影响相关产品策略。

系统架构:从服务器到数据中心

板式液冷的应用涉及多个层级,形成了不同的系统架构:

服务器/机架内架构

成本关注点: 服务器内部布局、管路走向、快接头数量和可靠性是服务器集成成本的关键。机架级CDU提供了一体化解决方案,但单机柜成本较高。

数据中心设施级架构

文章重点讨论了数据中心如何整合DLC系统,主要有以下几种方式:

成本考量总结 (成本经理视角)

作为成本经理,需要全面评估板式液冷方案的成本构成:

未来展望:板式液冷的发展

文章对板式液冷的未来发展方向进行了简要讨论:

对成本管理的影响:
  • 关注两相DLC技术的成熟度和成本曲线,可能涉及不同的冷却液、更复杂的冷板设计和系统控制。
  • 评估不同技术路线(单相 vs. 两相)的成本效益和市场接受度。

术语表 (Glossary)