华为与RAID2.0+

华为与RAID2.0+

今天和群友聊天的时候提到了他的一台阵列三天内挂了三块盘导致RAID彻底挂掉,想起来了许久之前搞过的一台华为存储,堪称奇迹。 废话不多讲,先上图感受一下。 现场照片

只能说,相当震撼,虽然已经提前得知了108块盘里坏了24块(实际亮灯27块),但亲眼看到的时候还是感觉到极强的视觉冲击力。

下面细说说这个事

由于离职的时候已经将工作文件打包给了同事,这些包含客户信息的文件也都不存在我自己这里了,所以只能靠记忆和零散的聊天记录来描述了。

这台存储是S2600TC,根据产品文档的介绍采用了RAID 2.0+技术

现场这台存储业务已经offline,得亏是RAID2.0,物理磁盘上再切逻辑Chunk再组CKG,在逻辑层面上实现冗余。跟现场用户一起吭哧吭哧的搬了三箱子备盘过去之后,就开始检查存储当前状态,DiskDomain001容量55.12TB,已分配52.54TB,健康状态为故障,规划HotSpare是2.58TB,Used Hot Spare是10.01TB,Domain看状态是系统朝数据池借了7.43TB的Chunk作为热备,覆盖了二十块坏盘的容量,下属Pool总容量46.7TB,已分配42TB,多数故障盘状态为Fault,少量为Pre-Fault,也就是说数据还有那么一点微小的可能性没受影响。

在实验性的更换了一块硬盘之后,看console输出的数据是从从两块已经标记fault,状态为offline的盘,读了超过新盘物理容量的数据过来重建,看到这个情况我心里大概有谱了,在机房地板上坐了一下午盯完三块硬盘的更换情况之后,算了算CKG的数量和所需时间,这台存储能正常上线就看那些盘能不能顶得住重建时的读写了,跟用户沟通说明情况之后开始教用户的现场工程师硬盘更换流程,离场。

后续得知,用户因硬盘更换重建所需的时间过长,放弃了此设备的恢复,从工程师的角度来讲这件事真的蛮可惜的,但从用户的角度来看,一台存储能放任坏到接近四分之一的盘,大约也不重要就是了。

Table of Contents