IBM容灾白皮书可以说是容灾备份行业的经典指导性资料,白皮书中首先介绍了容灾的必要性,接着介绍了容灾系统建设的7个层次,以及相应的技术实现,同时对评估容灾系统的指标参数RTO很RPO等做了详细说明,最后介绍了多层次的容灾解决方案架构,中国存储网提供该白皮书的在线阅读和pdf版本下载。
下载:IBM容灾白皮书 在线连载(HTML版)
容灾必要性
信息,作为企业宝贵的资源,其重要性已经得到了人们的充分认识。但是我们该如何保护这一资源?假设您就是某企业的一位高级管理人员,当您的企业遭遇以下事故时,您将如何去面对:
1. 某一天,证券公司的交易数据因操作失误而损坏;
2. 某一天,保险公司的所有保单数据因电源故障而丢失;
3. 石油勘探公司辛苦一年获取的地质数据因人为的恶意操作而丢失;
4. 医院保存的所有病历因为磁带的损坏而无法使用;
容灾-覆巢之下,亦有完卵
2001年9月11日,美国世贸中心双子大厦遭受了谁也无法预料的恐怖打击。灾难发生前,约有350家企业在世贸大厦中工作。事故发生一年后,重返世贸大厦的企业变成了150家,有200家企业由于重要信息系统的破坏,关键数据的丢失而永远的关闭、消失了。其中的一家公司称,自己要恢复到灾难前的状态需要50年的时间。
2003年,当AT&T无线试图对Siebel客户关系管理(CRM)软件进行升级的时候,原定一个周末就能完成的项目演变为一场历时六个星期的灾难。这次CRM软件的升级使AT&T无线损失了1亿多美元,仅增加的用户欠款、员工加班费和承包商的佣金就高达7500万美元。此外,技术故障也导致该公司去年第四季度的新增用户数急降82%。而其损失并不仅限于这些,AT&T无线对分析师发布警告称:“2004年上半年的用户退网率将进一步增加。”
2003年,国内某电信运营商的计费存储系统仅发生了两个小时的故障,就造成400多万元的损失。这些尚不包括对公司声誉的影响所导致的无形资产流失。
这些灾难的发生或许是偶然而难以预料的,但是,对灾难的预防却绝对不应该是一个偶然的话题。
据IDC的统计数字表明,美国在2000年以前的10年间发生过灾难的公司中,有55%当时倒闭。剩下的45%中,因为数据丢失,有29%也在两年之内倒闭,生存下来的仅占16%。国际调查机构Gartner Group的数据表明,在由于经历大型灾难而导致系统停运的公司中,有2/5再也没有恢复运营,剩下的公司中也有1/3在两年内破产。
容灾系统建设的七个层次
0层- 没有异地数据(No off-site Data)
Tier0即没有任何异地备份或应急计划。数据仅在本地进行备份恢复,没有数据送往异地。事实上这一层并不具备真正灾难恢复的能力。
1层- PTAM卡车运送访问方式 (Pickup Truck Access Method)
Tier1的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它存储在异地。PTAM指将本地备份的数据用交通工具送到远方。这种方案相对来说成本较低,但难于管理。
2层- PTAM卡车运送访问方式+热备份中心 (PTAM + Hot Center)
Tier2相当于Tier1再加上热备份中心能力的进一步的灾难恢复。热备份中心拥有足够的硬件和网络设备去支持关键应用。相比于Tier1,明显降低了灾难恢复时间。
3层- 电子链接 (Electronic Vaulting)
Tier3是在Tier2的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速度。
4层- 活动状态的备份中心 (Active Secondary Center)
Tier4指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作负载可能在两个中心之间分享。在灾难发生时,关键应用的恢复也可降低到小时级或分钟级。
5层– 两个活动的数据中心,确保数据一致性的两阶段传输承诺(Two-Site Two-Phase Commit)
Tier5则提供了更好的数据完整性和一致性。也就是说,Tier5需要两中心与中心的数据都被同时更新。在灾难发生时,仅是传送中的数据被丢失,恢复时间被降低到分钟级。
6层- 0数据丢失 (Zero Data Loss),自动系统故障切换
Tier6可以实现0数据丢失率,被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。
容灾指标
对于IT系统的容灾指标,我们可以通过下列参数表示:
* 以恢复点为目标(RPO -- Recovery Point Object)
– – 数据的完整性(无数据丢失)
– – 数据的一致性(数据正确且可用)
* 以恢复时间为目标(RTO --- Recovery Time Object)
* 以网络恢复为目标(NRO --- Network Recovery Object)
* 以服务支持能力为目标(SDO --- Serviceability Degrade Object)
– – 性能
– – 地域/ 支持的客户总数
– – 功能的限制