灾难恢复(disaster recovery ,DR)和运营持续性(business continuity BC)是IT刊物上经常提到的两个话题。一般而言,如果系统出现了严重故障,IT部门会使用DR程序对其进行修复。而如果一家公司发生了运营网络中断,人们通常就会想到是某些软件或者硬件出了问题。渐渐地,人们会将硬件做得更可靠耐用,以减少故障,这使得多数备份设备成为多余的。现在很少有企业会把钱投在那些可以防止系统中断的硬件上了。但软件故障依然经常发生,特别是在进行系统升级等调整过程中,这样对软件进行测试、备份并实施应急计划就显得十分重要了。同时,硬件成本费用的不断下降,使得建立一套独立的检测系统更为可行,甚至还可以将其作为备用系统使用。
现在,互联网上的黑客攻击、间谍软件、病毒程序已经取代其他问题成为造成IT系统故障的主要危险。编写病毒程序和编写用以防御和清除这些病毒的程序,成为一个“猫捉耗子”式的游戏。适当的安全软件和程序即使不能从根本上消除系统崩溃的危险,但也尽可能使危害减至最小。
现在IT故障已经不太可能再中断正常商业运营了。可能造成威胁的情况有,诸如电力中断之类的公共服务故障、火灾和盗窃。尽管恐怖主义威胁更容易引起媒体的关注,但据统计,一次恐怖袭击的损失远远低于一次大范围的公共服务故障所造成的损失。想一想即使只是一天的停电对你的商业运营所造成的冲击就知道了。
现在人们大多已经意识到IT灾难恢复程序不能被孤立于核心商业活动之外,在IT恢复计划中需要考虑许多组织建构问题。如果同时有几个系统出现故障,应该先修复哪一个系统?正常的商业运营对系统恢复正常的时间要求有多短?IT人员可以对这些问题作出判断,并采取相应的备份方法。对非关键系统的恢复采用速度较慢但成本低廉的方法,而将更多的时间和精力花在最核心领域中的系统“热备份”(hot standby)上。
你还需要考虑的问题是,如果办公室里的物品在火灾中全部损毁,你的公司是否还能继续运营下去?你能在最短的时间内重新找到那些保险单据、客户详细的联系方式、重要文件、基本办公用品和其他备用办公地点吗?这些并不属于IT恢复计划的一部分,但却是企业持续运营的关键要素。
那么能做些什么?第一步,每个企业都需要有适当的保险措施和现场监控。你的突发事件预案可以防止火灾或者盗窃,但是能够防止水灾吗?如果是在一层办公,你也许会认为自己高枕无忧,但或许二楼的厕所和厨房就正对着你的服务器呢?你可以安装各种预防设备来帮助你阻止上述灾难的攻击。其中必需的当然要有自动警报器。在向跟保险公司报告说你安装了警报器时,你必须确定它们是在正常工作的。因为如果火灾是发生在周五晚上大家都拥向酒吧时,而其原因是某位同仁忘了开启警报系统,这种情况下保险公司会拒绝赔付你的损失。
下一步是写一份书面应急计划。IT计划需要达到相当的专业水准,并应专设一章放在通用的持续经营(BC)计划中。这两个计划都应设置一些情景模拟环节,以专门研究如何因应某些突发事件。在BC计划中,IT计划可能是最为重要的,但不应该只是由IT部门来包揽这一计划。应安排一位业务经理参与整个计划的制定过程,他既要负责及时更新和检测计划的实施过程,又要负责对计划所必需的有关环节进行沟通协调。如果没有人清楚BC计划在哪里、它的内容是什么,那么再完美的BC计划也是无效的。
BC计划应该包括的内容:
IT恢复程序的主要工作任务——具体到系统运转和工作流程。
如何尽快定购替代性的IT设备、软件、文具、临时职员等。
如何联系所有职员。
在系统恢复期间,企业的经营目标是什么?例如,你是打算根据现有订单在较低的产量水平上进行交易,还是想要尽快恢复正常交易,并寻求新的订单?
实践步骤:
定期备份你的商业信息,远离公司的主体办公区。保留一箱子基本办公用品,如文具,打印出来的员工电话号码、客户和供应商具体联系方式和银行信息。把这个备用箱放在主体办公区之外一个容易找到的地方,并定期更新。
将所有关键的操作做成清晰的书面指南。如果一直都由某位会计人员管理月末薪水册,而其他人都不知道如何操作,那么在紧急情况下其他人如何接替他的工作?
准备一份能够提供临时工作人员、IT设备和可能会需要的其他备用品的公司名单,如果可能的话,在缺少关键文件或者没有传真机发送书面定单的情况下,这些公司最好可以按照口头约定提供上述备用品。
你也许还要找到一家愿意签订BC互惠协议的公司。在你遇到突发事件时,这家公司将为你提供办公地点、电话和计算机等。显然,选择一家与你挨的不是太近的公司可能更为明智。
小公司可能特别需要额外的工人来度过危机,这就需要准备一份可以招之既来的临时人员和自由职业者的名单。
如果你不需要为服务提供系统安排专门的置放地点并加以管理,那么托管服务(Managed services)可以提高你的IT效用并缩短恢复时间。备份、人力资源系统,甚至发送E-mail都可以由专业服务供应者远程操作。在你的IT知识和资源有限的情况下,全套的托管服务也许是一个明智的选择。
为了检验你的BC计划是否可行,或者就要启动你的BC计划时,请列出各种严重的灾难场景,并制定出应对措施来。以下情景供您参考。
情景一
星期二早上6点,在你办公室附近的大街上,一辆满载有毒化学物质的油罐车发生泄漏。你的办公大楼处于须疏散区域,警方禁止任何人穿越设置好的警戒线。公司的员工不能进入办公室,也没有人知道清除这些泄漏物质需要多长时间。
你能得到所有员工的联系电话吗?
你有没有位于警戒线之外的集合地点?
你能采取远程登录的方式进入你的系统开始工作吗?
情景二
你到达办公室后发现头天晚上修路时切断了这条街区的主要电力线。电力公司估计要在2天后才能恢复供电。你没有工作用的电脑(因此也不能收E-mail)、电话和传真机。
你的公司能经得住这么长的经营中断期并成功存续下来吗?
你需要通知你的重要客户乃至所有的客户吗?
你现在无法使用的电脑上储存的客户具体联系方式有没有备份?
情景三
星期四下午3点,你的办公大楼发生了严重的火灾。人群已经成功疏散,且没有人员伤亡,但救火队已经将数吨的水灌入大厦。大部分IT和通讯设备,还有所有文件都因此而遭受破坏。办公地点在一周之内,甚至一月之内都不能使用。
你有备用的办公地点吗?
你所有的公司信息是否都已备份,并且存储在远离工作地点的地方?
你能轻松恢复你的备份信息吗?
资料来源:London Prepared.
真实的紧急事件:
你可能认为我描述的种种情景不会发生在你身上,回想一下过去几年发生的严重事故吧。请用任何可以引起媒体关注的事故作为情景来模拟检验你公司的BC计划。
2003年8月14日,覆盖北美大部分地区的电力中断事故估计造成多达60亿美元的损失。电力中断时间超过5天。
2004年2月12日,由于一张英国电信控制卡发生故障,造成英国西北部和中部地区的70000个宽带用户的线路中断,这场事故从上午9:30持续到第二天下午4:30.
2004年3月29日,一场火灾损坏了曼彻斯特的一条英国电信主电缆,致使13万个家庭和公司的电话不通,网络中断。几天后仍然有一半的家庭和公司没有恢复通信服务。
2005年12月11日,英国Hemel Hempstead镇的一家加油站发生爆炸。附近的许多房屋严重毁坏,所有窗户都被炸飞了。如果爆炸不是发生在正常办公时间之前,还会有更为严重的人员伤亡。
这是一些占据新闻头条的事故。每天还有许多不是那么引人注目的事件发生。
(英文原文刊登于CIMA的出版物Financial Management)