亚马逊云科技最新发布了一套灵活的数据中心组件,以支持新一代生成式AI创新,不仅提供12%的额外算力,还提高了可用性和运行效率。
北京2024年12月11日 /美通社/ -- 亚马逊云科技在2024 re:Invent全球大会上,宣布推出一系列数据中心新组件,旨在支持新一代人工智能(AI)创新并满足客户不断变化的需求。亚马逊云科技通过对电源、冷却和硬件设计等进行的一系列创新,构建了一个更加节能的数据中心,为客户进一步创新奠定基础。亚马逊云科技在全球新推出的数据中心都将具备这些新组件,现有的数据中心已经部署了很多关键组件。
亚马逊云科技基础设施服务副总裁Prasad Kalyanaraman表示:"亚马逊云科技通过持续推动基础设施创新,致力于为全球客户构建性能卓越、可靠、安全且可持续发展的云。我们数据中心的这些新能力,包括能源效率的提升以及对新兴工作负载的灵活支持,是我们在云计算领域的又一重要进展。更令人兴奋的是,这些功能均采用模块化设计,这让我们得以对现有基础设施进行升级改造,实现液体冷却并提高能源效率,这不仅为生成式AI应用提供强大的动力,同时还降低了我们的碳足迹。"
亚马逊云科技拥有18年构建大规模数据中心的深厚经验,以及13年为AI工作负载提供基于GPU的服务器的丰富经验。目前,亚马逊云科技的数据中心为全球数百万活跃客户提供服务,包括数十万使用亚马逊云科技AI和机器学习服务的客户,以及全球数万个使用Amazon Bedrock构建其生成式AI应用的客户。随着生成式AI的日益普及以及客户对GPU容量需求的不断增长,亚马逊云科技不断调整和优化数据中心,以支持更高的功率密度需求。主要的提升包括:
1. 简化电气和机械设计,提高可用性
亚马逊云科技始终致力于打造业界最可靠的基础设施。简化的电气和机械设计更可靠,并易于维护,能确保客户受益于高可用性,这是亚马逊云科技自创立之日起始终为客户提供的。
亚马逊云科技最新的数据中心设计优化中,就包括简化的电力分配和机械系统,实现基础设施的可用性达99.9999%。同时,简化的系统将可能受到电气问题影响的机架数量减少89%。
在亚马逊云科技的数据中心内,电力供应需经过一系列转换与分配过程,才能抵达IT设备。这一流程中的每一步骤都伴随着效率的损耗、能源的消耗,以及潜在的故障风险。例如,亚马逊云科技简化了电力分配系统,从而将潜在故障点的数量减少了20%。简化的另一个例子还包括将备用电源更紧密地集成至机架附近,并减少排热风扇的数量。亚马逊云科技使用自然压差来排出热空气,这提高了服务器的可用电力。这些改进措施不仅显著降低了整体能耗,还最大限度地减少了故障风险。
2. 在冷却、机架设计和控制系统进行创新
亚马逊云科技推出了一系列新功能及增强功能,致力于为客户提供具有高性能、高可用性和能效卓越的基础设施。亚马逊云科技数据中心的创新包括:
这一设计旨在满足AI工作负载对新一代硬件和高密度机架配置的需求,同时又保持足够的灵活性,适配其他广泛的硬件需求。亚马逊云科技基础设施为客户提供了广泛而深入的计算实例选择,现已提供超过750种Amazon Elastic Cloud Compute (Amazon EC2)实例,让客户可为几乎所有的工作负载选择最合适的处理器、存储、网络、操作系统以及购买选项。除了灵活的多模式冷却解决方案外,亚马逊云科技在电力传输系统上也实现了工程突破,使得亚马逊云科技在未来两年内能够将机架功率密度提升6倍,并有望在未来进一步提升3倍。这部分得益于新的电源架的应用,新的电源架能够高效地在整个机架内分配电力,显著降低了电力转换过程中的损耗。
总体而言,这些创新措施让亚马逊云科技每个站点为客户工作负载提供增加12%的计算能力。这一进步意味着在提供同等计算能力的情况下,所需的数据中心数量将会减少。
3. 实现能效与可持续的双提升:机械能耗降低46%,混凝土含碳量减少35%
多年来,亚马逊云科技在推动基础设施能效与可持续性方面始终走在行业前列。据研究显示,亚马逊云科技的基础设施效率是企业自建基础设施的4.1倍,通过在亚马逊云科技上优化工作负载,相关的碳足迹能够最高减少99%。在2023年,亚马逊云科技已提前实现了运营所需电力100%来自可再生能源的目标,比原定的2030年提前了七年。
亚马逊云科技不断评估其数据中心的运行,通过不懈的创新提高基础设施的能源利用率。新组件在能效和可持续发展上的更新如下:
英伟达超大规模与高性能计算事业部副总裁Ian Buck表示:"随着AI需求的不断发展,数据中心亦需同步加速演进。先进的液体冷却解决方案能够高效的冷却AI基础设施,同时显著降低能耗。我们与亚马逊云科技在液体冷却机架设计上的携手合作,将帮助客户以卓越的性能和效率运行高强度的AI工作负载。"
"在Anthropic,我们致力于开发领先的基础模型,而安全、高性能且节能的基础设施是我们成功的关键,"Anthropic计算部门杰出工程师James Bradbury表示:"亚马逊云科技致力于构建先进的数据中心,这是我们选择其作为主要云服务提供商和模型训练合作伙伴的重要原因之一。亚马逊云科技的设计改进显著提升了基础设施的安全性、可扩展性和效率,为AI模型的运行和创新提供了强有力的支撑。"
亚马逊云科技的数据中心新组件将在亚马逊云科技全球基础设施进行部署,覆盖全球34个区域、108个可用区,以及如Amazon Local Zones等其他基础设施。预计在2025年初,包含完整组件的新型亚马逊云科技数据中心建设将在美国启动。