信息系统故障头号“杀手”
来源:欧宝直播    发布时间:2025-01-09 09:54:27

  在日常IT运维管理中,变更与事件之间有密切联系。变更旨在处理问题或优化系统性能,但不当变更也可能引发新事件,因此变更管理和事件管理是IT服务管理中不可或缺的两部分。

  据Uptime Institute《2023年度故障分析》报告,64%的IT系统事件与配置和变更管理相关。一方面,有观点认为运维的目标是保障系统的稳定性,应避免频繁升级;另一方面,也有声音指出,通过变更是为了使系统更稳定,提高IT的价值,主张进行升级。今天我们来聊聊IT运维过程中的变更管理流程和案例。

  2018年9月左右,公司业务部门反馈核心业务系统无法访问。经过十多分钟的排查,发现超融合架构中的一台服务器节点离线,导致该节点上的虚拟机宕机。同时,由于集群资源占用率超过90%,没有办法进行节点漂移,业务无法迅速恢复。随即,服务器工程师进行了故障服务器的硬件重启,集群逐步回到正常状态。最终,在厂商的协助下,事故原因被定位为服务器CPU微码存在漏洞,有必要进行升级,否则后续可能还会出现整体集群宕机的情况。经过推进二十多台服务器的微码变更升级,后续未再出现此类问题。

  经过组织事件复盘确认,公司此前已购买了服务器及超融合架构的每季度巡检服务,但由于运维工程师的经验判断,认为硬件正常情况下不会出现一些明显的异常问题,因此未进行有关巡检,也没有评估是不是真的存在漏洞,最后导致了此次事件的发生。此次事件明确了一项重要要求:运维的主要职责是保障软硬件平台的稳定,任何升级或变更都需经过评估后再确定方案,避免未做评估出现一些明显的异常问题后就以保障稳定性为借口推卸责任。评估的记录不仅是保障系统稳定的依据,也是维护运维专业度的重要凭证。

  变更指的是“添加、修改或删除任何可能对服务产生直接或间接影响的内容”。简单来说,对组织的IT基础设施所做的任何可能会影响组织操作的更改都称为IT变更。这包括但不限于更换打印机、投影仪、服务器等设备,以及软件更新、配置调整、网络优化等。

  IT变更管理是指对IT基础设施或服务的任何修改来控制和管理的过程,以确保这些修改能够平稳且安全地实施,同时最小化对业务运营的影响。变更管理的目标是通过规范化的流程,控制变更的风险,减少服务中断,提高IT服务的稳定性和可靠性。

  在IT运维变更管理中,不一样的角色承担着不同的职责和任务,确保变更过程的顺利进行和变更目标的实现。以下是常见的变更管理角色及其职责:

  评估验证不充分是变更管理中常见的挑战之一。变更前的风险评估和影响分析不够详细,未能预见潜在问题。此外,测试也不够全面,未能发现潜在的缺陷。实施后的验证过程不够严格,无法确保变更达到预期效果。这样一些问题会导致变更成功率低下,甚至引发新的问题,影响系统的稳定性和可靠性。

  未经授权的非法变更也是一个严重的挑战。这通常是由于变更管理流程不严格,审批权限分配不合理,或者员工对变更管理的重要性认识不足,擅自进行变更。这种行为不仅可能会引起系统不稳定,还可能带来安全隐患。

  紧急变更过多是另一个常见的挑战。这通常是由于日常运维中缺乏有效的计划和预防的方法,导致频繁出现需要立即处理的变更。紧急变更不仅占用大量资源,影响其他变更的实施和日常运维工作,还会增加团队的压力,影响士气和工作效率。