RAID普通故障解决方案
故障类型:RAID磁盘阵列损坏,数据丢失。
典型特征:1. RAID存储中有多块物理硬盘指示灯报警;
2. RAID管理中显示多块物理硬盘呈离线或丢失状态;
3. RAID信息丢失,所有物理硬盘不再是ONLINE状态;
4. RAI无法进入RAID管理界面或查看RAID相关信息时死机。
恢复方案
检测流程
a 对故障RAID中的所有硬盘进行物理检测,确定每个硬盘的运行状态;
b 查看没有物理故障的硬盘底层数据流,确定属于故障RAID中参与数据存储的物理硬盘(非热备硬盘)。
恢复流程
a 将没有物理故障的非热备硬盘完整备份至带有冗余功能的安全存储中,对于存在物理故障的硬盘须先按照相应故障类型的恢复方案进行恢复,并最大程度地将故障硬盘的扇区同样备份至安全存储;
b 对当前已完整备份的所有硬盘镜像进行分析,确定故障RAID的原结构参数(RAID级别、条带块大小、硬盘盘序、数据校验方式等)同时判断故障RAID中各硬盘离线的先后顺序;
c 依次分析所得RAID参数及离线硬盘,在只读环境中构建RAID数据,并对所构建的虚拟RAID进行基本的逻辑校验,确定文件系统大体结构无误后将RAID生成镜像;
d 对备份生成的RAID镜像进行完整的逻辑分析和校验,若镜像内的文件系统仍存在不一致情况,则依据相应文件系统损坏情况的恢复方案进行修复,直至恢复出客户所需数据。
验收流程
a 对已恢复出来的数据做属性、文件数量和容量等方面进行统计,确定是否与数据丢失前的情况吻合;
b 对已恢复出来的阵列数据做完整性验证,确保文件在目录结构及底层逻辑等方面正确无误;
c 对客户指定的关键数据文件进行针对性校验。
恢复的成功率&时间评估
a 若存储为RAID信息损坏的单一故障(文件系统无损坏),则恢复成功率非常高,时间约为1-2天;
b 若存储内文件系统或数据库出现一定损坏,数据恢复工作难度比较高,但恢复成功率也比较高,时间约为2-4天;
c 若对RAID做过强制ONLINE或REBUILD操作,代表存储内的文件系统和数据已受到不同程度的损害,这将影响数据恢复的成功率和完整性,时间需视实际情况而定。