AdaptecRAIDカード組んだRAIDで1台壊れたっぽい(Suboptimal)
AdaptecのRAIDコントローラー使ってRAID6組んでるんですが、エラー通知でSuboptimal, Fault Tolerant表示。
Suboptimalなので、4台中1台死んだっぽい。
Ubuntu上でarcconf使って原因探りメモ。
メール通知でくるのは、arcconf getconfig 1の情報だけ。
電源は通ってるようなので、どのディスクが壊れたかわからない。
arcconfに関しては、前の記事参照。
/usr/StorMan/arcconf GETLOGSのコマンドのusage。
Usage: GETLOGS <Controller#> <Type> [clear|tabular]
: GETLOGS <Controller#> <Type2> [tabular]
======================================================Obtains controller log information.
Type 1 : DEVICE, device error log
DEAD, dead (failed) drive log
EVENT, controller event log
clear : Clears the specified log.
tabular : Displays the specified log in tabular (vs XML) format.
Type 2 : STATS, controller statistics data
tabular : Displays statistics in tabular (vs XML) format.
つまり下記コマンドで取得可能っぽい。
/usr/StorMan/arcconf GETLOGS 1 DEAD TABULAR
1はコントローラー番号。
DEADは、deadかfaildedなドライブのログを指定。
tabularは見やすくする。そのままだとXMLが出てくるので、プログラムから取得するときはいらないかも。
実行した結果は以下
$ /usr/StorMan/arcconf getlogs 1 DEAD TABULAR
Controllers found: 1ControllerLog
controllerID ……………………………… 0
type …………………………………….. 5
time …………………………………….. 1464918431
version ………………………………….. 1deadDriveEntry
vendorID ………………………………….
rtcSeconds ……………………………….. 3
rtcMinutes ……………………………….. 59
rtcHours …………………………………. 3
rtcDay …………………………………… 3
rtcMonth …………………………………. 9
rtcYear ………………………………….. 2015
serialNumber ……………………………… Z1E0XXXX
productID ………………………………… ST2000DM
wwn ……………………………………… 0000000000000000
failureReasonCode …………………………. 2Command completed successfully.
serialNumberを、getconfigで出てきた画面でくらべて、どの物理ドライブか判断する。
ちなみに、failureReasonCodeがフェイルの原因ですが、今回はコード2(0x02)
調べてみると、「selection timeout」という項目。
よくわからないので更に調べてみたら以下のページ。
Computer data storage – RAID – aacraid notes
なんか、Seagate製の、ファームウェアがCC4Cな感じのHDDで起きる、
一時停止的な何かが、AdaptecRAIDカードと相性悪いっぽい感じ(適当)
ファームアップしてあげれば治るそうなので、取り外してアップデートして、
入れなおしてあげたら良さそうです。
今後別の原因起こるとめんどくさいし、そろそろ時間も経ってるディスクなので、壊れる前に交換するのも手かな。
iPhoneから発信時、発信せずすぐ通話終了になる Mycestroで勝手にカーソルが動く