数据中心
Exyte 和人工智能基础设施的未来

数据中心
Exyte 和人工智能基础设施的未来
数据中心概念开发副总裁 Shane Greene 简要介绍了公司的工业化人工智能工厂模式如何利用高压直流电源、液体冷却和模块化结构来提供可扩展的高性能人工智能基础设施。
借助 Exyte 的工业化人工智能工厂模式打造人工智能基础设施的未来
随着人工智能的飞速发展,它暴露了一个严峻的事实:传统的数据中心根本无法适应这个时代。现代人工智能依赖于基于图形处理器(GPU)的系统,这些系统耗电量巨大,可在几毫秒内从低耗转为峰值。这些 GPU 专为高度并行的计算密集型工作而设计,给电力基础设施和冷却系统带来了前所未有的压力,而这些系统现在必须管理的热量远远超出了标准 IT 机架的限制。这就导致了数据中心的不稳定性和复杂性,而针对可预测和稳定的 CPU 负载而优化的传统数据中心架构却无法应对。这意味着数据中心需要重新定义。
很少有人能比概念开发副总裁 Shane Greene 更清楚地理解这种转变。Greene 在能源系统和关键任务数字基础设施的交叉领域拥有深厚的经验,他的职业生涯一直在确保世界上一些最复杂设施的可靠性和性能。
Exyte 工业化人工智能工厂带来新方法
Exyte 走在这一领域的前沿,通过将人工智能设施视为高性能工业工厂,而不是放大的数据中心,重新定义了先进的计算基础设施。工业化人工智能工厂集成了更高电压的直流配电、液冷电力系统和模块化异地制造。其结果是,GPU 密集型环境的部署速度更快、效率更高、可预测性更强。
高压直流和 GPU 驱动型电气架构的兴起
"电气架构也必须不断发展,"Greene 说,"在设施内集成更高电压的直流电可减少转换损耗,并提高极端功率密度下的效率。虽然公用电网将继续提供交流电,但在人工智能工厂内分配直流电提供了一条更高效的途径,可为兆瓦级 GPU 集群供电,在这种情况下,每一个百分比的效率都很重要。"
重新思考人工智能规模负载的恢复能力
传统的冗余模式,如双线、大型 UPS 机房和广泛的现场发电,对于 GPU 驱动的计算已不再足够。现代恢复能力的重点在于稳定的电网集成和针对 GPU 稳定性能进行调整的电力系统。通过在设施入口处转换一次电力并将直流电分配到机架,人工智能工厂变得更加高效,并能更好地吸收快速的负载波动。这些设施越来越多地发挥智能微电网的功能,其中电力、冷却和控制作为一个集成系统运行。
实现兆瓦级速度的工业化异地制造
要大规模满足人工智能的需求,需要一种远远超越传统数据中心交付的建设模式。Greene 解释说:"Exyte 对关键系统采用工业级异地制造,包括电源转换和配电廊、冷却设备、电池块和整个数据大厅。这些预先经过测试的模块在受控环境中生产,运到现场后迅速组装。"随着系统发展到 800 伏级别,标准化的工厂制造组件对安全性、可靠性和速度至关重要。随着土建工程和组件制造同步进行,兆瓦级发电能力可在数月而非数年内部署完毕,EPC 承包模式也变得更加适用,以确保保持速度。
应对电网限制和行业挑战
实现大规模人工智能部署的道路十分复杂。更高的直流电压标准仍然支离破碎,专用设备供应链紧张,高密度电力系统方面的全球专业知识有限。随着人工智能负载加速增长,超出了许多输电网络的设计假设,电网集成面临着越来越大的挑战。要想取得成功,该行业必须向工业化生产、标准化电气接口和交付转型,并采用优先考虑速度、可预测性和可靠性的承包模式。
Exyte 的端到端人工智能工厂交付模式
Exyte 的端到端交付模式是针对 GPU 驱动的人工智能的现实情况而建立的。"我们从最早的规划阶段到工程设计、制造和调试,为客户提供支持,"Greene 说,"异地制造贯穿于整个设计过程,而先进的建模技术可以在早期减少不确定性,并确保精确的排序和集成。通过 Exentec(Exyte 的内部制造能力),我们还能提供质量稳定、性能可靠的复杂模块。
联系我们的团队,开始规划您的下一代人工智能基础设施。
