浅谈IT 灾难恢复计划的快速部署
------汶川地震带来的启示

詹姆斯


      5.12的汶川大地震打破了整个四川的宁静,也搅动着每个中国人的心。即使远在距离震中1500公里的上海,北京CBD商务楼,很多人都切实感受到了地震带来的震动和更多的震撼。桑枣中学以两千学生下楼只消一分半钟,以无一学生伤亡、无一教师伤亡而闻名,而这所在大地震中没被“震倒”的学校全靠一位名叫叶志平的校长加固了“豆腐渣”教学楼,4年坚持组织学生紧急疏散演习。网友们称其为“史上最牛校长”,我们感叹叶校长将安全意识作为头等大事的办学理念,也赞许叶校长平时防患于未然的有利举措。IT灾难恢复的快速部署就是给予各家公司提供的一套全面而迅速的安全预案。
现代公司正越来越依赖IT系统,从日常业务操作,到财务结算,甚至和客户的商务交往都离不开IT系统的支持。甚至有很多公司主要的业务就是建立在IT系统上面,因此部署IT系统的灾难恢复计划对于企业来说至关重要。而通常实施一个完善的IT灾难恢复计划需要经过用户调研,风险评估,确定范围,制定恢复策略,建立灾备计划,系统测试,灾备演习,流程优化等阶段,一般从项目开始到最后上线,通常会需要二到三月的周期,并且需要采购昂贵的设备和顾问实施费用,以及带来复杂的操作流程,以及巨大日常维护成本。因此快速部署IT灾备计划对于大多数的企业的CIO而言是一个巨大的挑战。
最近笔者帮助某公司快速部署IT灾备计划共各位参考。项目背景:该公司是一家大型跨国企业在中国总部,由于集团总部的要求,必须在中国总部部署IT灾难恢复计划。由于该公司总部的要求,整个灾难恢复计划的部署只有一个月的时间。为了能在规定时间内完成灾难恢复计划的部署,我们对整个项目的实施步骤作了有针对性地调整。
首先,我们简化了需求调研的过程,通常项目需要有业务部门的深入参与。灾难恢复计划地关键指标如RPO(Recover Point Object),RTO(Recover Time Object)都需要有业务部门的确认。而在该项目启动阶段,为了能快速部署将整个项目的范围限制在IT部门内部,RPO,RTO指标由IT部门根据IT资源现状儿制定。通常需要2周以上时间完成的需求调研和灾难恢复的关键指标仅用了3个工作日即完全结束了。
其次在风险评估阶段,我们简化了对公司当前风险的分析和评估,在实施中不考虑具体的风险类型以及其对整个IT系统的影响,而只考虑在最坏的情况下整个IT系统都完全中断时,对IT系统做完全恢复。整个风险评估得时间从通常的7~10天缩短到2天。
同时,我们在制定具体灾难恢复方案时,从费效比的角度出发,采用VMware, 对所有Wintel 平台上的IT系统,都提供一个系统镜像。既保证了对几乎所有IT系统的冗余,有不至于产生过于昂贵的软硬件费用。也简化了系统恢复的流程。当灾难发生时,对于任何失效的生产系统,只需简单启动相应的虚拟机,再做些简单的数据恢复工作,即可以提供服务。对于后续的灾难恢复演习提供了平台支持,也缩短了演习的时间。
综合上述优化的方法和策略,我们成功地将灾难恢复计划的部署时间从通常的3个月缩短到了22个工作日。
对于每个公司来说有备无患总好过临阵磨枪,尽快部署IT灾难恢复计划更是为了给公司的快速成长提供一个安全保障。

Copyright ©2007 IT Manager Club