我们使用RAID的目的就是利用磁盘空间的冗余实现数据容错,当磁盘出现故障的时候能够确保数据的安全。不过这一切都是在所有的磁盘或卷没有任何问题的前提下实现的,也就是说必须保证冗余磁盘或卷的正常运转。当RAID卷中的单个磁盘出现故障后,尽管数据可能暂时不会受到威胁,但是磁盘冗余已经不复存在了。只有及时修复故障才能保证冗余的存在。 那么如何知道RAID卷已经出现故障呢?这在“磁盘管理”窗口中很容易看到。发生故障的RAID卷的状态将显示为“失败的重复”,而发生故障的磁盘状态为“丢失”或“脱机”(如图1)。
|

图1 |
一、磁盘的常见状态及解决方法 RAID-1和RAID-5是目前应用最普遍的两种类型,下面列出RAID-1卷或RAID-5卷中磁盘的常见状态,以便于大家识别Raid的状态。 ·联机 该磁盘为可用磁盘且没有检测到已知的错误。 ·联机(错误) 该磁盘为可用磁盘但检测到I/O错误。用户可以执行该磁盘的快捷命令“重新激活磁盘”或许能将它恢复到“联机”状态。这种状态只出现在动态磁盘中。 ·脱机 该磁盘不可用。这通常是由物理磁盘或传输介质的故障而引起的。用户可以尝试执行“重新激活磁盘”操作进行修复,如果失败则只能移走该磁盘并执行“删除磁盘”快捷命令。这种状态只出现在动态磁盘中。 ·外部 该磁盘是从另一台计算机移过来的。在该磁盘的快捷菜单中执行“导入外部磁盘”命令导入该磁盘。 ·丢失 该磁盘已经损坏或断开连接。尝试执行“重新激活磁盘”操作,如果不能恢复成“联机”状态,则只能执行“删除磁盘”操作。这种状态只出现在动态磁盘中。 ·未初始化 磁盘有效信息从MBR(主启动记录)中丢失,或者一个有效的GUID(Globally Unique Identifier,全局唯一标识符)从GPT(全局分区表)中丢失。通常在服务器安装新硬盘时会出现这种情况,初始化磁盘会解决这个问题。 ·正在初始化 这种状态会在将一个基本磁盘转换为动态磁盘时出现。无需人工干预,转换完成后会恢复到联机状态。 ·不可读 该磁盘暂时不可用或已经损坏,可以尝试重新启动计算机,如果不能修复则必须更换该磁盘。
二、卷的常见状态及解决方法 ·良好 卷运转正常且没有检测到已知的错误,在基本卷和动态卷中都会显示这种状态。 ·良好(未知分区) 卷不能被识别,这可能是由于使用了由其它操作系统创建的分区。可以将其删除重新创建。 ·良好(有风险) 卷是可用的,但系统已经检测到磁盘上存在I/O错误。 ·未知 引导扇区被破坏,这可能是由于磁盘损坏或引导扇区病毒造成。 ·重新同步 该状态应用于镜像卷。重新同步会使两个镜像上的数据完全相同。 ·格式化 卷正在被格式化,并显示格式化进度。 ·正在重新生成 该状态应用于RAID-5卷,它在替换一个故障磁盘并且包括将丢失的信息写到该卷的一个新成员之后发生。当重新生成过程正在进行时应避免对该卷的访问,重新生成过程完成时,这个卷将返回到良好状态。 ·失败的重复 该状态应用于镜像卷和RAID-5卷。它表明其中一个磁盘出现故障并且该卷不再容错。尽管这个卷仍是可以访问的,但该卷中另一个磁盘的故障将造成数据的丢失。只要一有可能就应该替换这个磁盘并重新同步或重新生成该卷。 ·失败的重复(有危险) 该状态应用于镜像卷和RAID-5卷。它表明这个卷不再容错且检测到磁盘存在I/O错误。建议更换出现故障的磁盘。 ·失败 该状态应用于基本卷和动态卷。它表明该卷不能启动且需要人工修复。
|
三、实战修复RAID-5卷 对于RAID-5卷的修复分为不更换原磁盘的修复和更换原磁盘的修复,两种情况的修复方法有所不同。 不更换原磁盘修复RAID-5卷 如果不是由于磁盘的物理故障导致RAID-5卷出现问题,修复起来比较简单,其步骤如下: 首先检查发生故障的磁盘是否已经跟计算机正确连接,确保数据线和电源线工作正常;其次,打开“磁盘管理”窗口,右键单击状态显示为“丢失”、“脱机”或“联机(错误)”的磁盘执行“重新激活磁盘”命令(如图2)。
|

图2 |
如果磁盘没有物理故障,重新激活后的磁盘应该显示“联机”状态,而RAID-5卷则开始进行“重新同步”。同步完成以后所有的“RAID卷”将恢复到“状态良好”,这时故障已经得到有效修复。 |
请问哪种类型的故障是RAID(冗余独立磁盘阵列)无法预防的?为什么?
RAID(冗余独立磁盘阵列)是一种通过结合磁盘阵列特性与数据条块化方法来提高数据可用率和系统可靠性,并预防磁盘故障的一种结构。其原理是利用RAID算法来计算丢失的信息数据,然后,再将找回的数据存放在冗余备用的磁盘上。RAID技术的应用范围非常广泛,它还可以有效地预防各种类型的系统故障,比如说,凡是在数据写入的过程中发生的错误,一般只有在该数据被调用时才能被监测到。
纵观当前市面上大多数磁盘阵列产品的架构设计方式,如果RAID磁盘阵列中只出现了1块坏磁盘,并不会影响到数据的正常使用;如果2块磁盘同时出现故障,麻烦可就大了。要预防此类情况的发生,只有两个办法:一是为整个RAID组创建镜像,一是采用NetApp的RAID-DP(double- disk parity,双磁盘奇偶校验)技术,它的基本原理就是在每个RAID阵列中配置了2块用于奇偶校验的硬盘,既可以像大多数标准的RAID解决方案一样,将奇偶检验信息块加以分割,平行地读/写于多个磁盘上;也可以交叉地读/写入多个磁盘内,由于两个独立的奇偶系统使用不同的算法, 数据的可靠性非常高。即使两块磁盘同时失效,也不会影响数据的使用。
至于其它类型的灾难,比如说供电故障,则需要根据具体情况采取不同的防范措施啦。就以停电为例吧,目前市面上有一些存储产品——分为磁盘子系统和外置设备(比如说使用不同供电线路的冗余电源,或通过企业自行安装的UPS系统或发电机进行供电)两种形式——就可以有效地预防该类情况的发生。
目前有许多公司都使用UPS电池给非易失随机存储器(简称NVRAM)供电,因为,主机内所有的信息数据在写入磁盘之前,都会被记录下来,并存放在NVRAM内。有了这份详尽的日志文件,即使遭遇停电,用户也可以从容地将存储系统恢复到停电前一刻的状态,丢失数据的机率几乎为零。至于如何避免数据损耗,用户可采取的保护措施有很多,其中最简单的办法就是在磁盘子系统上安装一套实时的快照复制工具,先制作一份完整的磁带备份,然后在磁盘系统上创建一个镜像文件,基本上就可以高枕无忧了。当然,上面虽然林林总总介绍了不少方法,用户还是应该综合评估各种方案的操作难度、安全性、成本投资等指标,从中选出最贴合自身实际需求的解决办法。 |