当前位置:  首页 互联网 详情

携手懂行人华为,面向云时代的运维新挑战

发布来源:互联网    发布时间:2021-01-23 21:35

2020年是特殊的一年,在新冠肺炎疫情的影响之下,大家选择“家里蹲”的时间显著增长。有人说,Wi-Fi是新时代马斯洛需求的刚性需求。可殊不知,你与“穿越回到石器时代”只差一次断电。

可见,电力对我们的生活是多么重要。电力在现代文明发展中起到了关键性的支撑作用,没有电力,人类科技文明的大厦将瞬间坍塌。

伴随“工业4.0”时代的到来,在世界经济数字化转型的大势驱动下,电力工业也发展到了数字产业化、产业数字化的历史转折点。

携手懂行人华为,面向云时代的运维新挑战(图1)

12月15日,南方电网公司党组书记、董事长孟振平就在题为《以数字化转型催生高质量发展新动能新优势》的文章提到,南方电网要“在数字电网、数字企业、数字服务和数字产业建设上用劲发力,以数字化转型为南网高质量发展注入新动能…加快建设具有全球竞争力的世界一流企业。”

可见,实现数字电网建设的核心就是要成为一个真正的数据驱动型企业,让企业把数据用起来。而数据中心作为数字化转型的数字智能“萃取”中心,其重要性就显得尤为突出。

隐患常在

决定数据中心生命周期的痛

数据中心在数字化转型进程中已成为各单位的重资产,其生命周期直接由运维的质量和效率决定。故而,数据中心运维在数字化转型新形势下也成了企业数字化发展的重中之重。

2020年凌晨3点47分前后,谷歌公司服务中断,导致旗下的YouTube、Gmail、Google Drive、Google Search等服务出现异常,用户无法正常使用,全球多个国家及地区用户均受到影响。直到当地时间早上8点左右,相应的故障才陆续恢复。12月15日,谷歌出具的一份调查报告显示,导致宕机的原因是“internal storage quota issue”即内部存储配额问题。

实际上,通过翻阅近年的宕机事件,不难发现数据中心运维存在着共通的痛处:

第一、 标准不统一让运维人员无法遵循一套体系。数据中心是多种信息的综合体,涉及的产品、技术繁多,使得软硬件存在较大差异,导致运维中需要进行兼容性配置。除非一个数据中心始终只有一个服务商,否则计算、存储、网络软硬件等方面难以形成统一标准。

第三、 运维监控。 靠人为运维,总是避免不了犯错的可能。 一旦数据中心出现紧急状况,通过值班员恢复操作或技术专家在没有掌握所有运行参数的情况下指导操作,都极有可能导致处理效果不好,更甚者可能造成二次故障。

技术在进步,新技术诞生会解决一些旧的问题,同样,新技术也会滋生新的问题。我们能做的就是防患于未然,让其消失在萌芽中。

被动运维走向智能运维,

总有一些新的要面对

数据中心是数字化转型的核心和关键,所以数据中心运维需要更先进、可靠的方式和来支撑,确保其安全运行。

电力数据是由电力生产和消费实时产生的。据统计,仅广东电网数据总量约4000TB,年增速达20%以上。亿万级的数据对采集、传输、存储和应用等基础设施要求完备,对自动化、信息化水平要求也极高,如智能电表采集频次为分钟级,生产调度采集频次达到秒级。

那么最首要的是算力;其次是数据流激增带来的E2E时延。而一旦数据中心完成交付进入运行状态,对于电力IT运维人来说,最大的就来自于数据中心的和运维:

第一、 面向流程自动化的顶层设计。数据中心的运维、作为业务运行的核心支撑,运维自动化的核心价值就在于使能业务流程的数字化以及自动化。而从电力行业的当前现状来看,需要有自上而下的基于运维自动化的业务流程设计,这也将成为释放数据中心和运维效率的一大。

第二、 面向云时代的运维新。 随着新ICT技术在电力行业广泛应用,数 据中心有一个绕不开的应用就是云。 数据中心云化在带来资源池化共享、业务快速发放、自动化部署等诸多好处的同时,也给运维带来了新的。 传统运维只能看到设备通断和静态指标,出现问题时很可能是业务部门早于信息部门知道,故障定位和业务恢复不够及时。 很明显,传统运维方式面对云化的数据中心是力不从心的。

第三、 面向智能运维的技能转型。 从传统到智能,运维人员需要超越以IT为中心的技能集合,实现向以面向业务和全技术栈为中心的技能集合演进,进而有机会投入到智能数据挖掘、业务编排等高价值工作中去。 因此,让运维人员从繁杂的事务性工作中解脱出来就显得尤为重要了。 用更先进、更可靠的方式和支撑,确保电力生产和消费数据的实时获取、安全运行,让电力行业数据中心从人工运维走向智能运维,成为了业界数字化转型的重要诉求。

华为数据引擎,

开启广西电网智能运维新时代

从自动化运维到智能运维,AIOps的概念最早出现在Gartner的报告上,即将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等)通过机器学习的方式来进一步解决自动化运维没办法解决的问题。简单地说,过去需要花费数个小时、数天甚至数周才能完成的故障诊断和修复工作,AIOps可能只需要花几秒钟,而且判断更加精准。

我们谈“运维黑科技”实现数据中心全自动化运行的核心在于智能,只有智能化才能基于的状态、用户规模、业务体验质量和策略规则等,动态感知业务以及设备负载的变化,替代甚至超越人脑的决策能力,实现的弹性伸缩、故障自动隔离和故障自动修复等。

因此我们试想、是否有这样一个面向电力行业的数据中心和运维:全方位一站式平台、端到端的性能拓扑与分析、智能故障定位和定界,甚至拥有支撑未来规划的容量、性能预测能力等。

华为数据引擎还真是这么一款满足你想象的智能存储引擎。广西电网当前还采用人工运维的方式,在设备数量不大时,运维压力还可以接受,但随着设备不断增加,运维的复杂度呈现指数级上升。

华为数据引擎独特的3A能力将围绕电力行业数据中心存储的运维痛点,持续提升和运维效率:

“AI Inside”智能能力的引入将实现运维从被动式到主动式的转变。除了基本的统一告警、统一监控能力外,数据引擎的“策略检测”能力还将帮助客户基于自己的运维经验设置主动检测策略,便于主动发现问题。“端到端性能分析”与“端到端TOPO”能力在一个界面展示SAN网络上所有IO路径上的各个对象的性能指标与运行状态,以便帮助客户快速定位问题。

“API First”开放能力的引入则将通过标准接口对接云生态,持续对接上层,为后续智能运维平台融入业务平台,实现业务流程自动化,坚实基础。

“华为数据引擎的智能存储平台以及相应的服务,可以说非常符合我们电力行业对于存储统一运维的构想,进而大大提升我们的数据中心的运维效率”广西电网公司运维中心运维工程师表示。

我们处在一个变革的时代,一个数字化互联互通的时代,一个信息流稍纵即逝的时代。携手“懂行人”华为,加速电力行业数据中心存储智能运维建设,以智能运维代替传统的人工被动运维,助力行业数字化转型、智能升级。

本文相关词条概念解析:

运维

运维一般是指对大型组织已经建立好的网络软硬件的维护,其中传统的运维是指信息技术运维(IT运维)。所谓IT运维管理,是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如软硬件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。随着信息化进程的推进,运维管理会复盖对整个组织运行,进行支持的管理信息系统涵盖的所有内容,除了传统的IT运维,还拓展了业务运维和日常管理运维。业务运维面向整个组织提供各业务系统的问题受理、响应、处理和转交等方面的服务;日常管理运维面向整个组织提供针对各业务系统的运行状态和需求变化和不同的记录、跟踪、保存、分析方面的管理。

相关资讯

相关推荐

网友评论