华为与RAID2.0+
华为与RAID2.0+
今天和群友聊天的时候提到了他的一台阵列三天内挂了三块盘导致RAID彻底挂掉,想起来了许久之前搞过的一台华为存储,堪称奇迹。 废话不多讲,先上图感受一下。
只能说,相当震撼,虽然已经提前得知了108块盘里坏了24块(实际亮灯27块),但亲眼看到的时候还是感觉到极强的视觉冲击力。
下面细说说这个事
由于离职的时候已经将工作文件打包给了同事,这些包含客户信息的文件也都不存在我自己这里了,所以只能靠记忆和零散的聊天记录来描述了。
这台存储是S2600TC,根据产品文档的介绍采用了RAID 2.0+技术
-
RAID2.0+底层虚拟化
RAID2.0+底层虚拟化技术将物理硬盘空间划分为多个小粒度的数据块,基于数据块构建RAID组和实现资源管理,资源管理更加精细化。RAID2.0+底层虚拟化技术能够实现硬盘自动负载均衡,提升存储性能,提高存储空间利用率和数据重构速度,以及精细管理存储空间,是很多高级存储技术的实现基础。
现场这台存储业务已经offline,得亏是RAID2.0,物理磁盘上再切逻辑Chunk再组CKG,在逻辑层面上实现冗余。跟现场用户一起吭哧吭哧的搬了三箱子备盘过去之后,就开始检查存储当前状态,DiskDomain001容量55.12TB,已分配52.54TB,健康状态为故障,规划HotSpare是2.58TB,Used Hot Spare是10.01TB,Domain看状态是系统朝数据池借了7.43TB的Chunk作为热备,覆盖了二十块坏盘的容量,下属Pool总容量46.7TB,已分配42TB,多数故障盘状态为Fault,少量为Pre-Fault,也就是说数据还有那么一点微小的可能性没受影响。
在实验性的更换了一块硬盘之后,看console输出的数据是从从两块已经标记fault,状态为offline的盘,读了超过新盘物理容量的数据过来重建,看到这个情况我心里大概有谱了,在机房地板上坐了一下午盯完三块硬盘的更换情况之后,算了算CKG的数量和所需时间,这台存储能正常上线就看那些盘能不能顶得住重建时的读写了,跟用户沟通说明情况之后开始教用户的现场工程师硬盘更换流程,离场。
后续得知,用户因硬盘更换重建所需的时间过长,放弃了此设备的恢复,从工程师的角度来讲这件事真的蛮可惜的,但从用户的角度来看,一台存储能放任坏到接近四分之一的盘,大约也不重要就是了。