2024 年 7 月 19 日,由于CrowdStrike试图更新 “Falcon Sensor” 用于执行实时威胁检测和终端保护的内容,导致全球许多 Microsoft Windows 设备故障,连带导致众多企业的 IT 及营运系统也跟着中断。这次事件反映出企业建置基础设施时,在灾难复原计划上考量大多不够完整,导致遇上任何突发事件都会无所适从,应重新审视当前的计划是否完善,并通过完整、可靠的备份机制,才是确保业务持续性的关键。

CrowdStrike冲击全球各行业

上千航班得用人工处理

这次停摆首先发生在澳洲,Windows 设备当机并显示“蓝底白字”,接着这项错误更新蔓延至全球范围,造成诸多Windows系统瘫痪,金融业、资讯服务业、传统制造和高科技制造产业等关键服务提供者,都陆续传出灾情。

举例来说,《华尔街日报》就引述航班信息平台 FlightAware 的数据,光是 7 月 19 日一天,美国就有 2600 个航班被取消,全球则有超过 4200 个航班受到影响,并全部改采人工作业,可见此次事件影响范围极为广阔。

繁琐漫长的手动修复 导致 RTO 过长影响企业营运

事件发生后,尽管 CrowdStrike 随即发布了修复程序,并向受影响的客户提供技术支持,协助恢复系统营运,但企业中仍有多数系统,无法透过单靠修复程序自动复原。当设备无法自动修复,唯一途径就是 IT 要针对每台受影响的设备,逐一手动启动安全模式,删除有问题的 CrowdStrike 更新文件。

为了方便 IT 人员操作,微软紧急在该周末提出解决方案,像是透过随身硬盘登录 Windows 预安装环境,自动删除 CrowdStrike 更新文件。即便这减少了复原过程中的操作步骤,还是无法避免 RTO(最短复原时间目标)过长。一旦企业 RTO 过长、无法迅速解决营运中断的问题,就会引发多种负面影响,如生产力下降、财务损失、合规风险,甚至可能严重损害企业声誉,进而导致客户流失。

相信这次事件也说明,任何系统都有故障的可能性,因此群晖建议企业需预先准备完整的备份与灾难复原策略,才能最小化业务中断对企业所造成的负面影响。

光有备份还不够 从五大面向检视灾难复原策略完整性

事实上,当前多数企业确实都具备资料备份意识,但执行完整性普遍都还有改善空间。群晖 Active Backup for Business 备份方案能够从以下五大方向,确保企业灾难复原策略的完善程度。

全面且定期的备份

现今企业营运或开发时,通常会跨足多个平台或工具。当某些工作负载被忽略或未被保护到,遇到类似事件时仍有可能影响整体企业营运、导致停摆。因此,企业规划备份时,不能允许有任何资料孤立存在,务必将各种来源、设备都纳入规划中并且定期执行备份。

定期进行还原演练

由于组织不会知道何时会遭遇设备故障、系统瘫痪,所以必须持续测试、演练备份资料的可还原性,同时检查还原计划的有效性和可操作性,若察觉到漏洞就要立即修复,灾难实际发生时才能顺利重启营运。

即时虚拟机还原

当企业不幸遭遇意外,首要目标就是确保营运不中断。为了减少停机时间,建议应透过虚拟化方式即时挂载服务,以更快速度恢复营运。

跨平台还原

组织必须确保备份环境,具备跨平台还原的能力,像此次 CrowdStrike 是单一平台受影响,企业便可选择将服务还原到不同平台上,分散还原所面临的风险。

异地备份与异地还原能力

除了拥有一份本地端的备份,企业还会需要位于异地的备份,借此分散风险。以此次事件为例,若企业有做好异地备份的话,就能透过异地站点重启服务,减少企业停机的风险。

CrowdStrike 更新导致的业务中断事件再次提醒了企业,备份是达成数据韧性的关键,更是确保企业成功数字化转型重要的一环。借镜此次事件,企业需更加重视备份与还原策略,并投资全面的备份与灾难复原解决方案,建立健全系统并定期测试和更新,才能在面对突发事件时迅速恢复系统,确保业务持续性。