现有应用场景的不断变化使得技术的更迭越来越快,不久之前,人们还在科普DevOps是什么,但是如今DevOps已有英雄迟暮、日薄西山的迹象,AIOps正以蓬勃之势迈入大众视野。如何才能从DevOps走向AIOps?也许,这篇文章可以给你答案!
在《DevOps的升级&AIOps的落地,看看这些大厂都是怎么做的?》文章中,我们看到了一些互联网公司的实践,但技术分享一篇文章怎够?本文将接着为大家解析更多的互联网公司是如何实践的,另外,作为独家彩蛋,我们也征集了传统企业在这方面的应用实践。
田文博:美团点评外卖配送稳定性保障系统智能化探索
有媒体曾总结过现代人的生活方式是“吃饭靠外卖、逛街靠网购、生活靠机器”,相信每个点外卖的人都曾使用过或者听说过美团点评,但是却很少人知道美团点评背后的技术。这次,美团点评高级技术专家田文博受邀参加第十届中国系统架构师大会,难得和我们分享了美团点评外卖配送稳定性保障系统的智能化探索。
美团点评外卖业务的高速发展,使得外卖履约环节的即时物流在业务规模和复杂性上也随之快速膨胀,即时物流的业务特点决定了上下游对于故障非常敏感,以往靠人肉来进行业务运维的模式已经无法满足其对于稳定性的要求,因此美团点评构建了针对即时物流的稳定性保障平台,将稳定性保障的手段进行有效的串联,从而提升运维的效率。
稳定性保障平台主要围绕防范、发现、定位和恢复这4个阶段进行建设,在防范阶段可以通过服务日常巡检发现风险点、通过发版检测减少上线事故、通过全链路压测发现服务瓶颈,在发现阶段基于异常检测快速发现故障对业务的影响,在定位阶段基于纵向和横向维度的异常分析快速定位导致业务故障的根因,恢复阶段根据定位的根因快送触发预案进行止损和恢复,通过4个阶段的有效串联,可以帮助我们达到以下目标:防范可能出现的稳定性问题和快速解决线上故障。
魏家富:美图公司智能化运维实践
随着人工智能技术的高速发展,越来越多的业务场景开始逐渐引入并融合使用,例如现在很火很热的AIOps。但AIOps适合所有的企业吗?不一定,美图运维总监魏家富提出要落地AIOps时我们要思考以下几个问题:
• 我们有哪些场景可以智能化?(监控、业务预测、平台流程 etc..)
• 我们真的有足够的数据可以支撑机器学习、数据训练吗?
• 我们真的可以大范围项目推广并得到接受和认同吗?
而美图选择落地AIOps,是因为其运维受到了多种挑战,系统不断演进,规模、业务复杂度、变更越来越频繁;数据中心拓扑不断扩大,网络新技术不断引入;软件规模、编程语言、协议栈及各系统调入关系、变更逐步增大……在这种情况下,美图技术团队研发了智能运维机器人。
据魏家富介绍,美图的智能运维机器人主要负责两方面的工作:移动化办公和基础支撑系统智能化。其中移动化办公包括帐号、权限类操作,机器设备信息、运行状态查看、交互和日常运维操作;基础支撑系统智能化包括IT场景智能应答。
付正全:京东物流大规模智能监控的思考与实践
大家都说“IT运维难”,那么到底难在哪里呢?京东物流架构付正全表示IT运维的困难主要体现在以下方面:运维人数不变,管理机器数翻倍;机器数量和网络环境变化频繁,网络拓扑日益复杂,资源云化,虚拟资源频繁弹性伸缩,不可靠的CMDB;运维从业者减少,运维专家匮乏;运维平台日趋复杂,缺乏统一规划,企业内部监控/运维系统繁多,形成数据孤岛。
2016 年,Gartner 提出了 AIOps 的概念,并预测到 2020 年,AIOps 的采用率将会达到 50%。简单来说,AIOps 就是希望基于已有的运维数据(日志、监控信息、应用信息等)并通过机器学习的方式来进一步解决自动化运维没办法解决的问题。
京东物流的AIOps建设思路也是比较清晰明确的,从发现问题到解决问题再到规避问题,具体对应到每个层级,大家可参考上图。
孙杰:大型企业智能运维的探索和实践
终于到了我们期待的彩蛋环节,本专场我们邀请到了从业十几载的IT老兵、中油瑞飞资深架构师孙杰和我们分享他对智能化运维的思考。
目前传统运维存在的突出问题包括,数据分散,不利于故障分析和问题跟踪;要的功能没有,没用的数据重复采集,影响正常业务;采购多种运维软件,在功能上、设备上存在投资浪费,没有减轻运维压力,还增加多种软件系统的维护工作。
如何解决这些问题呢?那就需要创建现代化、智能的运维管理模式:
1. 网络、系统、设备、设施实行集中监控、集中IT支撑、统一运行调度;
2. 建立自维和专业外包相结合的运维模式、参考国际标准体系建立国内领先的运维服务规程;
3. 建设智能集中监控运维信息化平台,提高自动化水平,减少监控人员,减少运维支持。
4. 建立降本增效、绿色节能、全成本核算的效益管理模式。
5. 组件掌握网络、动力、安消防、IT软硬件等核心专业技术的运维支撑队伍。