学习+ 分享
掌握科技改变生活

Google数据中心让冷却用电再省40%

Google近几年开始在数据中心,运用机器学习技术,也引进DeepMind的自动运维技术,寻找更有效的机房维运动态调整机制,以减少更低能源的消耗.

最近Google公布今年第二季数据中心的用电数据,他们旗下所有数据中心的耗电指标PUE值(Power Usage Effectiveness)过去12个月的平均值为1.12,这一季的PUE值更只有1.11,比平均值更低,也意味着更加省电。

根据国际机房认证组织Uptime在2014年的调查,全球数据中心的平均PUE值为1.7,但Google数据中心远远比全球水准,还来得省电许多,除了机房硬体设施的特殊设计之外,另一个近2年才曝光的关键省电作法,就是用深度学习来找出冷却用电的优化关键。

日前,Google更是运用了AlphaGo开发公司DeepMind的人工智能(AI)技术,无须改变机房设计,只靠软体动态调整,就能让冷却设备整体耗电减少40%的成效,Google补充,即使在不同规模的能源消耗环境,这项技术也有能有帮助。

Google过去10年一直想要找出更好的机房节能作法,靠软体或演算法来优化维运正是其中一项研发重点。Google在2014年初花了数亿美元买下DeepMind公司后,也尝试将DeepMind的人工智能(AI)技术,引进自家数据中心管理。DeepMind在一篇部落格文章中,揭露了优化机房管理的三大挑战和Google的对策。

在数据中心用电中,最大宗是冷却降温的耗电。Google一座数据中心动輒有数千臺,甚至上万臺伺服器,会產生大量的热能,为了让伺服器持续运作,必须靠冷却装置来消除热能,保持一定范围的温度,不过,这些冷却设备大多是大型的机电设备,像是抽风机、冷水机和冷却塔等,Deepmind表示,在数据中心这样的高度变动环境,很难准确地操作这些机电设备来降温。

要精细地操作这些大型设备是一件非常复杂的工作,再加上机房环境的变数和设备操作方式,并非有一套明确的关连,而是一种非线性关係,Deepmind解释,传统以数学函式为基础的预测方法和人类直觉判断,无法精准地找出设备与机房环境的对应关係。例如不只无法快速反应机房内部变化,甚至还要考虑来自外部的影响,像是多变的天气,开发人员不可能想出所有的规则,来配合每个维运操作场景。

再者,每个数据中心都有独特的架构和环境,传统的管理能源模型必须因应每个数据中心,设计出不同的模型,不能通用於其他数据中心,因此,为了解决这个问题,DeepMind两年前开始用人工智能(AI)技术,开发智慧型系统,能了解每个数据中心与环境的相互关係(Interactions),让数据中心的运作更有效率。

在过去一年来,DeepMind研究团队与Google数据中心的团队合作,利用深度学习和深度学习演算法,先来建立一个可以模拟Google数据中心耗电变化的模型,作为后续优化用电效能的参考框架。

Google最近公布今年第二季数据中心的用电数据,过去12个月的衡量数据中心机房用电指标PUE值为1.12,Google在过去19季都稳定地维持这样出色的成绩,而本季的PUE则是1.11,相比去年的1.12有微幅的下降。(图片来源/Google)

Google数据中心如何聪明管理用电

为了达到改善数据中心的能源效率的目标,DeepMind希望能建立一个可以预测PUE值(Power Usage Effectiveness)变化的深度学习模型要。PUE值是经常用来衡量数据中心节能省电的指标,计算的方式是以「数据中心的总用电量」除以「资讯中心内IT设备的总用电量」,PUE值越低,代表机房空调冷却所需电力就会更少。

Google在一座数据中心内设置了上千个感测器,收集过去环境的歷史数据,像是温度、能量、抽水机速度、凝固点等,DeepMind将这些资料作为训练这个PUE预测模型的输入资料,并以真实PUE值作为对照预测结果的标籤。

这些资料包括了19种数据中心环境资讯,例如冷却机抽水马达和每一臺伺服器的用电量,或像是室外环境资讯如相对湿度、风速、风向等,还有从各个环控、电力、机电设备和感测器上取得的第一手原始数据,经过汇整处理后,作为预测模型的训练资料。

档案的匯入和匯出、数据过滤、计算原始变数等资料前处理的工作,DeepMind都是用Python 2.7,搭配资料科学计算相关套件Numpy 1.7.0和Scipy 0.12.0,之后再用Matlab R2010a来训练模型,以及后续的处理分析工作。

DeepMind训练了2个不同组合的深度学习模型,来预测数据中心一小时后的温度和压力变化。有了这套预测系统后,就可以用来模拟,不同建议维运作法对PUE值的影响,进而找出最能降低数据中心耗电的维运操作方式。这些维运操作例如像是加快数据中心内某一批风扇的转速,或调高特定一臺冷却机的制冷温度等。

透过预测模型,找出可以降低PUE值的最佳操控方式后,Google进一步建立一个可以自动控制数据中心内环控设备、冷却设备的系统,来自动套用哪些来自预测模型找出来的推荐作法。

简单来说,Google利用真实数据中心环控数据和伺服器运作资讯,建立了一个全数据中心的PUE值预测模型,可以准确预测到95%以上的数据中心PUE变化。接着尝试各种不同的环控设备调整、风扇、冷却机,甚至是伺服器内应用系统运作的调整方式,来找出哪一种调整组合,可以节省更多耗电,来优化PUE值,最后,再透过自动化程式,自动将最佳维运操作设定,套用到实际的机房环控设备上来执行。

Google也实际在旗下一座数据中心使用这套人工智能(AI)控制的维运系统,结果发现,相较於Google原本的维运管理方式,一旦开啟了这套DeepMind人工智能(AI)维运系统,可以减少40%的冷却用电,或相当整座数据中心的整体PUE也进一步再减少了15%,比过去任何一次的PUE值都更低。

因为该套利用人工智能(AI)管理数据中心维运的系统,并非是一套专用於特定数据中心,或是只能用来调校PUE值的模型,而更是一个可以运用在不同数据中心环境和复杂维运变项的通用架构,因此,Google还计画未来几个月内,扩大应用到全球其他数据中心,甚至能运用到其他產业的工厂维运应用,例如改善电厂能源转换效率(Power Plant Conversion Efficiency),减少半导体製程上的用电和用水量。

Google在旗下一座数据中心实测,啟用DeepMind人工智能(AI)模型来动态调整冷却机制后,减少了冷却设备的耗电多达4成,也让整体数据中心的PUE值还能再降低近15%。(图片来源/DeepMind)

目前的挑战是缺乏特定环境状况足够的真实数据

建立深度学习需要大量的数据,若是训练样本的数据品质不佳,或是数量不足,建立出来的模型容易不准确,DeepMind目前面临的挑战即是因为有些环境情况缺乏足够的真实数据,就无法训练出对应的预测模型,因此,收集到足够且正确的资料中环境数据是非常重要的。

Google表示,从智慧型手机助理、影像辨识到翻译,人工智能(AI)技术已经帮助人类许多生活上的事,不过,人工智能(AI)技术还可以处理非常具有挑战性的问题,就像是能源消耗。

即使能源使管理上,Google已经在去年有突破性的成果,但是Google表示,未来还是会持续研究和改进。

Google机房省电5作法

花了10年以上的时间,Google研究出如何提升数据中心的用电效率,也累积了不少管理机房的作法,其中有5项作法,也值得企业参考,就算无法全盘照作,也可以参考其中一、二项作法或精神,来优化自家机房的省电效率。

作法1  确实测量PUE值

若是没有量测机房的PUE值,就无法准确地管理用电,因此,企业必须追踪数据中心用电量,一般產业也常用PUE值来作为衡量用电标准。

为了要准确地测量PUE,Google建议至少1秒就测量1次,更重要的是,要整年不间断地测量,因为气候会随着季节改变,而影响PUE。

由於数据中心外部的气温也会影响用电,越寒冷的地区,所需要冷却的用电量越少,因此PUE值也会比较低,举例来说,根据Google针对每个园区的个别统计TTM PUE数据,最低的是在比利时,TTM PUE为1.09,本季最低PUE也是1.09,在比利时和芬兰。

Google计算PUE值的方式是全面地计算用电效能,所有的数据中心都一併统计,并非只计算採用最新、最好设备数据中心,且统计PUE值是续一整年不间断地测量,不是只在较寒冷的季节统计用电。

若使用產业中常用的标准来计算,Google机房可以交出更低的PUE值成绩,且採用效能最佳的数据中心来计算的话,PUE值甚至可以小於1.06,但是,为了更准确地衡量和优化数据中心的用电表现,而不是仅顾及到其中一部分,Google坚持採用更高的标准,将所有的电力消耗来源都纳入计算,而非只有照绿色网格PUE测量标准(Green Grid’s PUE measurement standards)来计算。Google公布的每一季报告,都是涵盖数据中心所有用电后,才来计算数据中心的后续12个月(TTM)PUE值。

数据中心设备包含许多不同的冷却系统基础建设,也会因数据中心位处的环境气候而有所不同,季节型的气候模式也会影响PUE值,较寒冷的季节,PUE就会比较低,不过,透过这套深度学习系统,就连炎热且湿度高夏天,Google都能将PUE值维持在较低状态。

Google用上百个功率表来测量能源消耗,用冷却系统和IT设备上的不同功率表来追踪能源消耗,计算出正确的PUE。

作法2  管理机房内部气流

空调管理在数据中心的运作中,扮演非常关键的角色,好的隔离机制可以将热气和冷空气的混合降到最低,避免冷热空气混合,进而减少冷却用电。

Google建议用挡板将伺服器机柜上的空隙挡住,避免伺服器產生的热气扩散,另外,Google也计算流体动力学(Computational Fluid Dynamics,CFD)相关数据,来建置热能模组,藉由一些分析结果,可以协助企业了解数据中心设备的气流特徵,有效地优化设备操作。

另外也要避免数据中心的冷热气流混合,因此,Google建议用挡板隔离伺服器机柜上的缝隙,防止伺服器后端的热通道与前端的冷通道混合,确保冷通道的冷空气不受热气影响,有助於减少冷却所需的总能量。

作法3  提高自动调温器预设温度并分散热源

要节省数据中心的能源,最简单的方法之一就是,提高自动调温器的温度。为何一般企业多将数据中心的温度控制在华氏70度(大约摄氏21度),Google认为,这个答案一直是个谜,因为所有设备或伺服器,都能在更高温度下运作,因此,Google数据中心的温控预设温度是调整到华氏80度(约摄氏26.67度)。

另外Google会建立数据中心的热分布模型,来标记出数据中心内部所有的可能热点(热源),并将热点平均分散,来避免局部高热,而需要耗费更多制冷的能源。甚至在设备或伺服器进驻时,就考虑到热源集中效应,来分散摆设。

作法4  善用免费冷却机制

Google建议可以用水来替代冷却器,大多数的数据中心都会用冷水机或是空调来降温,不过这样的方式,需耗费30%~70%的能源用量,Google採用水来冷却数据中心的温度,可以节省不少能源的消耗。

首先,Google在伺服器机柜上客製了一套制冷机制称为Hot Huts,可以将热空气离开伺服器前先暂时留住,避免热气直接释出到机房中,来影响整体机房温度。每一个Hot Huts顶端都有多个电扇,先透过水冷却系统来降温,再排进数据中心的环境中,就能让伺服器接收到冷空气,降低机器本身的温度,形成良性循环。

接着,Google还善用蒸发的功能,冷却塔就跟人类的身体一样,即便外在的温度比体温还要高,蒸发能让人类保持一定的温度范围,热水从数据中心流到加速蒸发的冷却塔时,有些水就变成蒸气,风扇则会带走这些蒸气,最后冷却塔再将冷水送回数据中心。

除此之外,冷却水并非唯一免费的冷却方式,位於芬兰哈米纳的数据中心则是用海水来冷却机房,当初选择在该地设置数据中心,正是因为寒冷的气候条件,加上邻近海湾的地理位置,Google设计抽取海水设备的冷却系统,透过热能交换器将热送到海水中,这样的模式能够提供一整年的冷却需求,直到目前为止,该机房尚未装设任何一项冷却的机器。

作法5  优化能源分配

Google指出,一般的伺服器在从事真正的计算工作前,就已经浪费1/3的能源,伺服器通常在交流电转直流电的电源供应器上,耗费了许多电量,之后电压调节器又需要耗费更多电力。

因此,建置客製化的高效能伺服器,将伺服器的功率损耗降至最小,并移除不必要的能源耗损,是非常重要的,另外也要确保伺服器在等待执行指令期间,消耗最少的能源。若是企业最初因成本考量,选择低效能传统伺服器,长期运作下来,将產生更多用电成本。

Google则是从2001年起,就一直研究如何设计出更有效率用电系统,经过多年的研究,Google目前採用效能高电源供应器、电压调节器等设备,确保能源真正用在电脑核心的计算工作上,根据Google估计,每年每臺伺服器大约省下超过500度(kWh)的用电量。

硬体部分,Google也只留下执行应用程式必须元件,将不必要的元件都移除,像是外部连接器或是显卡,另外也优化伺服器风扇运行,将风扇转速控制在足够让机器维持可运行的温度即可。

转载请注明来源:千眼网 » Google数据中心让冷却用电再省40%

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址