Monitoring von Dell PowerEdge SC

Im Enterprise-Bereich gibt es bei Dell Abstriche bei den PowerEdge-Servern, wenn ein "SC" im Produktnamen enthalten ist, denn dieses steht für "Simplified Computing" und daher ist kein Hardware-Monitoring mit Dell-eigenen Werkzeugen wie dem Dell OpenManage Server Administrator (OMSA), das auf OpenIPMI setzt, möglich.

Wenn, wie in diesem Fall, das Enterprice-Niveau zum Entryprice wird, kann man unter Linux zu einfachen Bordmitteln greifen, um überhaupt eine Art von Überwachung zu ermöglichen - jedenfalls was die Festplatten anbelangt. Normalerweise wird in Dell PowerEdge-Servern mit einem "SC" im Namen der SAS-RAID-Controller "SAS5i" oder "SAS5iR" verbaut. Dieser erlaubt, dass die Festplatten nicht nur über die sogenannte "Virtual Disk" angesprochen werden, sondern auch einzeln.

Wie die Geräte-Dateien dafür heißen, lässt sich mit "sg_map" aus den sg3_utils schnell ermitteln. In den meisten Fällen handelt es sich um "/dev/sg0" bis "/dev/sgX" wobei X die Anzahl der Festplatten abzüglich eins ist. Die Geräte-Datei nach der letzten Festplatte ist der RAID-Controller selbst. Bei einem Server mit zwei Festplatten, sind daher "/dev/sg0" und "/dev/sg1" die SAS-Festplatten und "/dev/sg2" ist der RAID-Controller mit der "Virtual Disk".

Mit dieser Erkenntnis sollte man versuchen, ob "smartctl" aus den smartmontools weiterhilft. Die smartmontools sind in jeder mir bekannten für den Unternehmenseinsatz optimierten Linux-Distribution enthalten, das d.h. z.B. in Red Hat Enterprise Linux, CentOS oder im SuSE Linux Enterprise Server. Ersteres und letzteres können übrigens direkt beim Kauf eines solchen Servers mitbestellt werden.

tux:~ # smartctl -a /dev/sg0
smartctl version 5.33 [x86_64-unknown-linux-gnu] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

Device: ATA      ST3808110AS      Version: J
Serial number:             XXXXXXXX
Device type: disk
Local Time is: Sat Feb 24 03:02:16 2018 CET
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
SMART Health Status: OK

Error Counter logging not supported

Error Events logging not supported
Device does not support Self Test logging
tux:~ # 

Ist das Ergebnis dem obigen entsprechend oder besser, so kann man den SMART-Daemon konfigurieren, der in regelmäßigen Abständen die Festplatten prüft und im Bedarfsfall z.B. eine E-Mail an den Administrator verschickt. Dazu reicht es völlig aus, wenn man nachfolgendes in die Datei "/etc/smartd.conf" einträgt:

# A very silent check.  Only report SMART health status if it fails
# But send an email in this case
/dev/sg0 -H -m root@localhost
/dev/sg1 -H -m root@localhost

Anschließend muss man den Dienst aktivieren, damit dieser auch nach dem nächsten Neustart des Servers wieder mitgestartet wird:

tux:~ # chkconfig smartd on
tux:~ # 

Und um nicht bis zum nächsten Neustart warten zu müssen, aktiviert man diesen am besten sofort:

tux:~ # service smartd start
Starting smartd:                                           [  OK  ]
tux:~ # 

Benutzer bei einer älteren Version des SuSE Linux Enterprise Servers verwenden statt "service smartd start" am besten "rcsmartd start", um den SMART-Dienst zu starten. Jetzt ist nur noch wichtig, dass die E-Mails zum einen verschickt werden können (Einschränkungen z.B. durch Mail- oder Spam-Filter verhindern dies in einigen Fällen) und zum anderen, dass solche Benachrichtigungen auch gelesen und wahrgenommen werden...