大多(duō)数围绕人工智能(AI)的讨论都集(jí)中在自(zì)动车辆、聊(liáo)天机(jī)器人、数字孪生技术、机(jī)器人技术以及(jí)使用基于人工智能的(de)“智能(néng)”系统从(cóng)大型(xíng)数(shù)据集中提(tí)取(qǔ)商业洞察力。但是(shì)人工智能和机器学习(ML)总有一(yī)天(tiān)会在企业数据中(zhōng)心内部(bù)的服务器机架中扮(bàn)演(yǎn)重要角色。
人(rén)工智能在(zài)提升数据(jù)中心效率以及扩展业务(wù)方面(miàn)的潜力可分为以下四个主要类别:
电源管理:基于人工智能的电源管理有助于优化加热和冷却系统(tǒng),从而降低电力(lì)成本(běn),减(jiǎn)少员(yuán)工人(rén)数,提高效率。该领(lǐng)域(yù)的代表性供应商(shāng)包(bāo)括施耐德电气、西门子、Vertiv和伊顿公司。 设备管理:AI系统可以监控服(fú)务器、存(cún)储和网(wǎng)络设备的运行状况,检查系统是(shì)否保持正(zhèng)确(què)配(pèi)置(zhì),并预(yù)测设备何时会出现故障。据Gartner称(chēng),AIOpsIT基础设(shè)施管理(ITIM)类别的(de)供应商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。 工作负载管理(lǐ):人工智能系统可以自动(dòng)将工作负载实时移动到最高效的基础设(shè)施上,包括在数据中心内部,以及在混合云环境中,在prem、云和边缘环境之间。有越来(lái)越多的小型公司提供基于人工智能(néng)的工作负载优化,包括Redwood、TidalAutomation和Ignio。思科(Cisco)、IBM和VMware等重量级企业也有(yǒu)产品。 •安全性:人工智(zhì)能工具(jù)可以“了解(jiě)”正(zhèng)常网络流量的情况,发(fā)现异常情况,区(qū)分需(xū)要安全从业者注意的警(jǐng)报的优先级,帮助对出了什么问题的事后分(fèn)析,并为填补企业安全防御漏洞提供建议。提供此功能的供应商包括VectraAI、Darktrace、ExtraHop和Cisco。
综上所述(shù),人工(gōng)智能可以帮(bāng)助(zhù)企业(yè)创建高度(dù)自动化、安全、自我(wǒ)修复(fù)的(de)数据中(zhōng)心,这些数据中心几乎不需要(yào)人工干(gàn)预,并且能够(gòu)以高水平的效率和弹性运行。
戴尔技术公(gōng)司全球CTO办(bàn)公室(shì)的杰出工(gōng)程师Tabet解释说:“人工智(zhì)能自动化可以扩展到超出人类能力的水(shuǐ)平来解释数据,收集优化能源使(shǐ)用、分配工作负载(zǎi)和(hé)最大化(huà)效率所(suǒ)需的必要见解,以实现更高的(de)数据中心(xīn)资产利(lì)用率。”。
当然,就像自动驾驶汽车的承诺一样,自动驾驶数(shù)据(jù)中(zhōng)心(xīn)还没有出现。在(zài)数据(jù)中心,存在着阻(zǔ)碍人工(gōng)智能(néng)突破的重(chóng)大技术、操作和(hé)人员配备障碍。如今(jīn),采用技术才刚刚起步,但潜在的好处将(jiāng)使企业不断寻找机会(huì)采取行动。
电源管理利用服(fú)务器工作负载(zǎi)管理
据估计,数(shù)据(jù)中心将消耗全球3%的电力供应,造(zào)成约2%的(de)温室(shì)气体排(pái)放,因此,无论是为了省钱,还是为了环保,那(nà)么多(duō)企(qǐ)业(yè)都在(zài)认真研究(jiū)数(shù)据中(zhōng)心的电源管理。
451Research的高(gāo)级分析师丹尼尔·比佐(DanielBizo)表示,基于人工智(zhì)能的(de)系(xì)统(tǒng)可以帮助(zhù)数(shù)据中(zhōng)心操作员了解当前(qián)或潜在的冷却问(wèn)题(tí),例(lì)如,由于(yú)高密度机柜堵塞(sāi)气流(liú)、HVAC装置(zhì)性能(néng)不佳(jiā)或冷热通道之间的空气密(mì)封不足而导致的(de)冷空气输送不足(zú)。
Bizo说,人工智能承诺提供“不仅仅是良好的(de)设施(shī)设计所能带来的好(hǎo)处(chù)”。人工智能系统在数据中心层“可以(yǐ)通过关联暖通空调(diào)系统数据(jù)和环境感知读数来学习设备”。
IT咨询(xún)和咨询公(gōng)司(sī)StorageIO的(de)创始人格(gé)雷格·舒尔茨(GregSchulz)补(bǔ)充说:“电源管理是一个很容易实现的成果。”今天(tiān),它是关于生产力(lì)的,关于每BTU完成更多工作,每瓦能源完成更多工作,这意味着工(gōng)作更智(zhì)能,让设备工(gōng)作(zuò)更智能。”
还有一个容量规划的(de)角度。除(chú)了寻找热(rè)点和冷点之外,人工智能系统(tǒng)还可以确保数据中心为适当数量的物理服务器(qì)供电(diàn),并且(qiě)在需求临时激增的情况下,有(yǒu)能(néng)力(lì)启动(dòng)(和关闭(bì))新的物(wù)理服务器。
Schulz补充说,电源管理工具(jù)正在开(kāi)发连(lián)接到管理设备和工作负载(zǎi)的(de)系统的挂钩。例如,如果传感(gǎn)器检测到服务器运(yùn)行太热,系统(tǒng)可能会快速自(zì)动地将工作(zuò)负载转移到(dào)未充分利用的服务器上,以避免可能影(yǐng)响任务关键型应用程序(xù)的潜在(zài)停机。然后系统可(kě)以调查(chá)服务(wù)器过(guò)热的原因——可能是风扇出故障(HVAC问题)、物理组(zǔ)件即将崩溃(设备(bèi)问题),或者(zhě)服务(wù)器(qì)刚刚过载(工(gōng)作负载问题)。
人工智能(néng)驱动的健康监控、配置管理监督
数据(jù)中心充满了需(xū)要定期维护的物理设(shè)备。人工智能系统可以超越定期维护,帮助收集和分析遥测数据(jù),从而确定需要立即关(guān)注的特定(dìng)区(qū)域。”人(rén)工智能工(gōng)具可以嗅出(chū)所有这些数据和斑点模式,以及(jí)异常点,”Schulz说。
Bizo补充说:“健康监测从检查设备配置是否正确以及性能是否符(fú)合预期(qī)开始。”由于有成百(bǎi)上(shàng)千个IT机(jī)柜和数万个组件,这(zhè)些(xiē)平凡的任务可能是劳动密集型的,因此并不总是能够及(jí)时彻底(dǐ)地执行。”
他指出,基(jī)于大量(liàng)感官数据日志的(de)预测性设(shè)备(bèi)故障模(mó)型可以“发现一个即(jí)将出现的组(zǔ)件或设备故障,并评估其是否(fǒu)需要立即维护,以避免任何可能导致服务中断的(de)容量损失。”
JuniperNetworks负责企(qǐ)业和云营销的副总裁MichaelBushong认(rèn)为(wéi),企业数(shù)据中心运营商应该忽略(luè)一(yī)些(xiē)与人工智能相关的过度宣传和炒(chǎo)作(zuò),而专注于他所说的“无聊(liáo)的创新”
是(shì)的(de),人工(gōng)智能系统可能有一天会“告诉我问题出在(zài)哪里,并加以解(jiě)决”,但是到了这一点,许多数据中心运营(yíng)商会接受(shòu)“如果(guǒ)出了问题,请告诉我(wǒ)要去哪里看”,Bushong说依赖关系映射也(yě)是AI有用的(de)一个重(chóng)要但(dàn)不是(shì)特别令人(rén)兴(xìng)奋(fèn)的领域。如果数据中心经理正在(zài)对防(fáng)火墙或其他(tā)设(shè)备进行策略更改,可能会产生什么(me)意外后(hòu)果?”如果我(wǒ)提出一(yī)个改变,知道爆炸半径范围(wéi)内可(kě)能有什么是(shì)很有用的。
保持设备平稳、安全运行(háng)的另一个(gè)重要方(fāng)面是控制所谓的配置漂移(configurationdrift),这是一个数据中心术语,指的是随着时间的推移,临时(shí)配置的变化会导致问题的(de)产生。Bushong说(shuō),人工智能可以作为“额外的安全检查”来识别即将发生(shēng)的基于配置的数据中心问题。
人工智能与安全
Bizo认为,人工智能和机(jī)器学(xué)习“可以通(tōng)过对事件进(jìn)行快速分(fèn)类和聚类来简化(huà)事件处(chù)理(事件响(xiǎng)应),从而(ér)识别(bié)出重要事件并(bìng)将其与噪声分离开来。更快的根本原因分析有助于操(cāo)作员做出明智的决定并采(cǎi)取(qǔ)行动。”
人(rén)工(gōng)智能在实时(shí)入侵(qīn)检测中特别有用,Schulz补(bǔ)充道。基于人工智(zhì)能的系统可(kě)以检测、阻(zǔ)止和隔(gé)离(lí)威胁,然后可以(yǐ)回去进行法医调查,以确定(dìng)到底发生了什么,黑客能够(gòu)利用哪些漏洞。
在安全操作中心(xīn)(SOC)工(gōng)作的安全专业人员经常会收到过多的警报,但基于人工(gōng)智能的系统可以(yǐ)扫描大(dà)量的遥测数据和日(rì)志信息,从(cóng)而清(qīng)除日常任务,从而使安全专家能够腾出时间来处理更(gèng)深层次的调查。
基于人工智能的工作负(fù)载优(yōu)化
在应(yīng)用程序层,AI有可能自动将工作负载移动到适当的着陆点,无论是(shì)在内部部署还是在云端(duān)。”AI/ML将来应该根据性能、成本、治理、安全、风险和可(kě)持(chí)续性的(de)众多规范,实时决定在哪(nǎ)里(lǐ)放置工作负载(zǎi)。
例如,工作(zuò)负载(zǎi)可以(yǐ)自动移动到最省电的服务器,同时确(què)保服务器以最高(gāo)效率运行,即70-80%的利用率。Bizo说,人工智能系统可以将性能(néng)数据整合到等式(shì)中,因(yīn)此(cǐ)对(duì)时间敏(mǐn)感(gǎn)的应用程序在高(gāo)效服务器(qì)上(shàng)运行(háng),同时确保不需要快速执(zhí)行的应用(yòng)程序不会消耗过多的能量。
基于人工(gōng)智能的工作负载优化(huà)引起了麻省理工学院研究人员的注意,他们去年宣布他们开发了(le)一个(gè)人工智能系(xì)统(tǒng),可以自动学习(xí)如何在数千台服务器上调度数据处理操作(zuò)。
但是,正(zhèng)如(rú)Bushong所指出的,现实情况是,如今的(de)工作负载优化是像亚马逊、谷歌和Azure这(zhè)样的超大规(guī)模公司的专利,而不是一般的企业数据中心。原因有很多。
实施人工智能(néng)的挑战
优化和自(zì)动化数据中心是正在进行的数字化改造计划的一(yī)个组成部分。戴尔的(de)Tabet补充道,“借(jiè)助COVID-19,许多公司现在(zài)都在(zài)寻求进一步的(de)自动化,推动人工智能驱动、能够(gòu)自我修复的‘数字数据中心’的(de)理念。”
谷歌在2018年宣布(bù),已将(jiāng)其数(shù)个超(chāo)规模数据(jù)中心的冷却系统(tǒng)控(kòng)制权转为人工智能程序,该(gāi)公司(sī)报告称,人工智(zhì)能(néng)算法(fǎ)提供的建议使能源(yuán)使用量减少了40%。
但是,Bizo说,对于那(nà)些名字不是谷歌(gē)的公司来(lái)说(shuō),在数据中心使用人(rén)工智能“在很(hěn)大(dà)程度上(shàng)是一种理(lǐ)想”。一些AI/ML特性在事件处理、基础设施运行状(zhuàng)况和冷(lěng)却优化中可(kě)用。但是,AI/ML模型要取(qǔ)得比目(mù)前标准数(shù)据(jù)中心基础设施管理(DCIM)更明(míng)显的突破还需要(yào)更多(duō)年的时间。与自主汽车开(kāi)发非常相似,早期阶段可能很有(yǒu)趣,但与它最(zuì)终承诺的突破性经济/商业案(àn)例相(xiàng)去甚远(yuǎn)。”
Tabet认为(wéi),一些障碍是“需要雇佣(yòng)或培训合适的(de)人员来管(guǎn)理系统(tǒng)。另一个需要注意(yì)的问题是数据标准(zhǔn)和相(xiàng)关(guān)体(tǐ)系结构(gòu)的需要。”
Gartner这(zhè)样(yàng)说:“AIOps平台成熟度、it技能和运营成(chéng)熟度(dù)是主要的阻(zǔ)碍因素。高级(jí)部(bù)署(shǔ)面临的其他新(xīn)挑战包括数据质量和“IT基(jī)础设施(shī)和运营团队”缺乏数(shù)据科学技(jì)能。
Bushong补充说,最大的障碍一直是人。他(tā)指出,外雇数据科学家对许多企业来说是一个挑战,对现有员工的培(péi)训(xùn)也是一个障碍。
另外,Bushong说,员工抵制(zhì)技术的历史由来已久。他指出,软(ruǎn)件定义网络(SDN)已经存(cún)在了十年,但仍有(yǒu)四(sì)分之三(sān)以(yǐ)上(shàng)的IT运营仍由(yóu)CLI驱动(dòng)。
“我们必须相信(xìn),各种基础设施的运营(yíng)商准备把控制(zhì)权让给人工智能,”Bushong表示。“如果一群人还不相信空管员能(néng)做出决定,那(nà)么你怎么训练、教育(yù)和安慰一群人,让他(tā)们做出如此重大的转变呢(ne)?业内普(pǔ)遍的态度是,如果我这么(me)做,我就会失(shī)业。”
这就是(shì)为什么Bushong建(jiàn)议(yì)企业在人工(gōng)智能方面采取(qǔ)那些小而乏味的(de)步骤,而不(bú)是陷(xiàn)入(rù)经常围绕(rào)一项新技术的炒作中。