Event-Log und E-Mail-Alert

Areca System Controls im Detail

System Controls -> View Events

In der Areca WebGUI finden Sie im unteren Teil den Abschnitt System Controls. Wenn Sie diese Rubrik aufklappen kommen Sie schließlich zu View Events. Dort haben Sie Einblick in das Ereignis-Log Ihres Controllers beziehungsweise des RAID-Systems. 

ARC-View-Events

In der abgebildeten Tabelle werden sämtlichen relevanten Ereignisse – aufgeteilt in fünf Spalten – aufgelistet: Time (Uhrzeit), Device (Gerät bzw. die meldende Schnittstelle), Event (das eigentliche Ereignis), Elapse Time (verstrichene Zeit) und Errors (Fehler)

Die gängigsten Events zum besseren Verständnis
Meldung  Bedeutung 
RAID powered on  Für das Starten des Controllers (Einschalten des Hosts oder das Einstecken des Thunderbolt-Systems) 
HTTP Log In  Bezeichnet die Login-Zeit (inkl. IP oder ggf. localhost) auf die Verwaltungsoberfläche des RAID-Controllers über einen Webbrowser mittels eines integrierten Webservers (ArcHTTP). Dabei meldet sich der Benutzer über eine HTTP-basierte GUI an, um den Controller zu konfigurieren, den Status zu überwachen und Verwaltungsaufgaben durchzuführen 
VT100 Log In  Bezieht sich auf die Anmeldung an einem System oder Gerät über eine VT100-kompatible Terminalemulation. Also Zugriff über CLI bzw. Terminal mit Timestamp sowie als Device: RS232 Terminal VT100 Log In  
Test Event  Eine absichtlich erzeugte Testnachricht, um die Überwachung und das Monitoring zu validieren 
Create RaidSet  Ein RAID-Set wurde erstellt. In der Spalte Device zeigt die WebGUI den entsprechenden Namen an z.B.: Raid Set # 000 
Delete RaidSet  Ein RAID-Set wurde gelöscht. In der Spalte Device zeigt die WebGUI den entsprechenden Namen an z.B.: Raid Set # 000 
Expand RaidSet  Der Anwender hat ein RAID-Set erweitert. In der Spalte Device zeigt die WebGUI den entsprechenden Namen an z.B.: Raid Set # 000 
Create Volume  Der Anwender hat ein Volume erstellt. In der Spalte Device zeigt die WebGUI den entsprechenden Namen an z.B.: ARC-1886-VOL#000 
Delete Volume  Der Anwender hat ein Volume gelöscht. In der Spalte Device zeigt die WebGUI den entsprechenden Namen an z.B.: ARC-1886-VOL#000 
Modify Volume  Der Anwender hat ein Volume verändert/modifiziert. In der Spalte Device zeigt die WebGUI den entsprechenden Namen an z.B.: ARC-1886-VOL#000 
Created Passthrough  Eine Passthrough-Festplatte wurde erstellt. In der Spalte Device wird deren Name angezeigt: PassthroughDisk#001 created 
Deleted Passthrough  Eine Passthrough-Festplatte wurde gelöscht. In der Spalte Device wird deren Name angezeigt: PassthroughDisk#001 deleted 
Start Initialization  Signalisiert den Beginn der Initialisierung eines RAID-Volumes. Dabei handelt es sich um einen wichtigen Prozess, bei dem der Controller das neu erstellte Volume vorbereitet, indem er die notwendigen Metadaten und Paritätsinformationen auf die Festplatten schreibt. Diese Initialisierung ist essenziell, um die Datenintegrität sicherzustellen und den stabilen Betrieb des RAID-Arrays zu gewährleisten. (Der jeweilige Timestamp wird dazu immer angezeigt) 
Abort Initialization  Der User hat die Initialisierung abgebrochen. Unter Elapse Time ist die bis dahin verstrichene Zeit zu sehen 
Completed Init  Die Initialisierung wurde fertiggestellt. Unter Elapse Time ist die bis dahin verstrichene Zeit zu sehen 
HotSpare created  Der Eintrag bedeutet, dass eine Festplatte als Hot Spare (Hot-Standby-Laufwerk) im RAID-Verbund eingerichtet wurde. Bei Ausfall Device Failed springt die Hot Spare HDD ein und das System initiiert den Rebuild 
HotSpare deleted  Eine zuvor erstellte Hot-Spare Festplatte wurde gelöscht. Der entsprechende Slot dieser HDD wird ebenfalls mit angezeigt 
Start rebuilding  Die Wiederherstellung hat begonnen. Um wieder in den "Normal" Status zu wechseln, muss der Rebuild abgeschlossen sein 
Stop rebuilding  Der Rebuild wurde manuell durch Nutzer-Eingriff gestoppt. Auch der Ausfall einer weiteren Platte kann den Rebuild unterbrochen haben 
Start checking  Der Controller hat mit einer Überprüfung (Check) des RAID-Arrays begonnen. Dabei handelt es sich meist um einen sogenannten „Consistency Check“ oder „Surface Scan“. In der Spalte Device zeigt die WebGUI den entsprechenden Namen an z.B.: ARC-8050-VOL#000 Start Checking 
Abort checking  Ein laufender Prüfprozess (z. B. ein Paritäts- oder Konsistenzcheck des RAID-Arrays) wurde vorzeitig abgebrochen. Dies kann durch einen manuellen Abbruch durch den Administrator oder durch ein unerwartetes Ereignis wie einen Fehler, eine Unterbrechung der Stromversorgung oder ein Problem mit einer Festplatte verursacht werden. Bei Elapse Time zeige das Log die bis dahin vergangene Zeit des Volume-Checks an 
Check completed  Der laufende Prüfprozess des RAID-Arrays wurde erfolgreich abgeschlossen. Dieser Prüfprozess, oft als Consistency Check oder Surface Scan bezeichnet, überprüft die Integrität der Daten und der Paritätsinformationen auf den Festplatten im RAID-Verbund. Die GUI zeigt zudem die dafür benötigte Zeit sowie die gefundenen Fehler an 
Device Inserted  Eine Festplatte (HDD oder SSD) wurde in das RAID-System eingesteckt oder wurde von diesem erkannt. Diese Systemmeldung dokumentiert also den erfolgreichen Einbau oder das Erkennen eines neuen Laufwerks. Den zugehörigen Slot zeigt das System ebenfalls an z.B.: E1 Slot#5) 
Device Removed  Eine Festplatte (HDD oder SSD) wurde aus dem RAID-System entfernt oder wird nicht mehr erkannt. Dies kann entweder durch das physische Herausnehmen der Festplatte aus dem Gehäuse oder durch einen Verbindungsverlust, einen Defekt oder einen Fehler im Laufwerk verursacht worden sein. In der Spalte Device wird der zugehörige Slot angezeigt z.B.: E1 Slot#5 
Failed  Es weist darauf hin, dass ein Gerät – ein Laufwerk (HDD oder SSD), Lüfter. Volume oder Netzteil – als ausgefallen erkannt wurde. Mit der Device-Bezeichnung (Können Sensoren oder Parts oder Geräte gemeint sein) z.B.:
 E#1 FAN#1 - Failed
 ARC-1886-VOL#000 - Volume Failed
 E1 Slot#5 - Device Failed
 E#1 Power#1 - Failed  
Device Failed(SMART)  Der Controller hat einen Fehler im SMART-Status (Self-Monitoring, Analysis and Reporting Technology) einer Festplatte erkannt. SMART ist ein integriertes Überwachungssystem von Datenträgern, das frühzeitig auf mögliche Hardwareprobleme hinweist. Das können etwa zunehmende Lesefehler, defekte Sektoren oder andere kritische Zustände sein. Der jeweilige betroffene Slot wird mit angezeigt 
Added  Ein Device wurde hinzugefügt. Der entsprechende Typ wird mit erwähnt: z.B.: Battery Module added 
Removed  Ein Device wurde entfernt z.B.: Battery Module removed 
Volume degraded  Ein RAID-Volume befindet sich in einem sich verschlechterten Zustand. Das RAID-Array ist zwar noch funktionsfähig, aber die Redundanz ist beeinträchtigt, meist aufgrund eines oder mehrerer ausgefallener oder fehlerhafter Laufwerke. Auf dem Volume kann zwar noch gearbeitet werden, es sollte aber schnellstmöglich das ausgefallene Laufwerk mit einer neuen "Global Hot-Spare" ersetzt werden. Erst wenn der Rebuild auf dem ersetzen Laufwerk abgeschlossen ist, zeigt das Volume wieder den Zustand "Normal" an  
Raidset degraded  Ein RAID-Set (also eine Gruppe von Datenträgern, die zusammen ein RAID-Volume bilden) befindet sich in einem verschlechterten Zustand. Dabei kann es sich um einen teilweisen Ausfall (Mindestens eine Festplatte im RAID-Set ist ausgefallen oder nicht verfügbar, wodurch die Redundanz des RAID-Arrays beeinträchtigt ist.), eingeschränkte Sicherheit (Das RAID-Set funktioniert zwar weiterhin, aber es besteht ein erhöhtes Risiko für Datenverlust, falls weitere Laufwerke ausfallen.) oder dringenden Handlungsbedarf (Das defekte Laufwerk sollte schnellstmöglich ersetzt werden, um das RAID-Set wiederherzustellen und die volle Redundanz sicherzustellen.) handeln. 
Complete Rebuild  Der Wiederherstellungsprozess eines RAID-Volumes wurde erfolgreich abgeschlossen. Ein Rebuild ist notwendig, wenn ein oder mehrere Laufwerke im RAID-Verbund ausgefallen und durch neue ersetzt wurden. Während des Rebuilds werden die fehlenden Daten oder Paritätsinformationen auf die neuen Laufwerke rekonstruiert, um die Redundanz und Datenintegrität des RAID-Arrays wiederherzustellen. Bei Elapse Time zeigt die GUI die dafür benötigte Zeit an 
Discovered  Ein neues Gerät oder eine neue Komponente wurde vom Controller erkannt. 
Recovered  In der Praxis bedeutet „Recovered“, dass ein Problem behoben wurde und das RAID-System oder die betroffenen Geräte aus einem Fehlerzustand wiederhergestellt wurden. Dies ist eine positive Meldung, die anzeigt, dass der Controller die Datenintegrität wiederhergestellt und den Normalbetrieb aufgenommen hat. z.B. E#1 FAN#1 Recovered (Falls vorher kein Tausch stattgefunden hat, sollte von einem vorausgehenden Defekt ausgegangen und das entsprechende Teil ersetzt werden) 
Over Temp  Areca RAID Controller und Storage-Systeme überwachen kontinuierlich die Temperatur von Komponenten wie dem Controller-Chip, den Festplatten und dem Gehäuse. Wird eine Temperatur von den Sensoren gemessen die über den Threshold / Grenzwert des jeweiligen „Gerätesensors“ steigt, merkt das der Controller und gibt eine entsprechende Meldung aus. 
Reading Error  Ein „Reading Error“ ist ein Warnsignal, dass die betroffene Festplatte möglicherweise beschädigt ist oder bald ausfallen könnte. Wenn diese Fehler häufig auftreten, kann dies die Stabilität und Datenintegrität des RAID-Arrays gefährden. In einem RAID-Verbund mit Redundanz (z. B. RAID 5 oder RAID 6) kann der Controller solche Fehler oft durch Paritätsinformationen ausgleichen, aber wiederholte Lesefehler erhöhen das Risiko eines Datenverlusts. Es wird empfohlen, bei Auftreten von „Reading Error“-Meldungen die betroffene Festplatte zu überprüfen, wichtige Daten zu sichern und gegebenenfalls das Laufwerk auszutauschen, um die Zuverlässigkeit des RAID-Systems zu gewährleisten. Meldung wäre z.B.: E1 Slot#5 Reading Error 
Writing Error  „Writing Error“ zeigt an, dass der Controller Probleme hatte, Daten korrekt auf eine Festplatte zu schreiben, was auf einen möglichen Hardwaredefekt oder beginnenden Ausfall hinweist und schnelles Handeln erfordert. Die Meldung wäre beispielsweise E1 Slot#2 Writing Error 
Under Voltage  Es bedeutet, dass die Versorgungsspannung des Controllers oder eines angeschlossenen Geräts unter den definierten Mindestwert gefallen ist. Diese Warnung zeigt an, dass die Stromversorgung nicht stabil oder ausreichend ist, was zu Fehlfunktionen, Instabilität oder sogar Schäden an der Hardware führen kann. (Deutet ebenfalls auf einen Hardware-Defekt hin.) Der Hardware-Monitor zeigt indes Live-Werte der Betriebsspannung an.  
Over Voltage  Signalisiert, dass die Spannung über den zulässigen Bereich gestiegen ist und Maßnahmen zur Sicherstellung einer stabilen und sicheren Stromversorgung notwendig sind, um Schäden am RAID-System zu vermeiden. (Deutet zudem auf einen Hardware-Defekt hin.) Der Hardware-Monitor zeigt die Live-Werte der Spannung an. 

System Controls -> Alert by Mail Configuration

Mit dem Alert by Mail Feature können Sie einen Benachrichtigung via E-Mail für bestimmte auftretende Events einrichten. Sie können verschiedene Empfänger und Benachrichtigungen für verschiedene Arten von Events angeben.

Tragen Sie dazu den entsprechenden SMTP-Server, E-Mail Adresse, User-Name und Passwort ein. Tragen Sie unter Sender-Name z.B. die Bezeichnung des Arecas, dessen Volume oder den Node-Name ein, der damit verknüpft werden soll.

Dadurhc erkenn Sie, dass die Benachrichtigungs-E-Mail genau von dem dementsprechenden Areca-Gerät stammt. Unter Warning Error Notification bekommen Sie dementsprechend jedes mal eine Meldung für die drei relevantesten Events: Urgent, Serious und Warning-Events Dann sind die wichtigen Fehlermeldungen festgelegt. Somit müssen Sie es nur einmal eintragen, um alle relevanten Meldungen gleichzeitig abzudecken.

Übersicht der Alert by Mail Funktion 

ARC-MailCfg

Ausgefülltes Beispiel ohne benötigten Account

ARC_Alert_by_Mail_Config

Noch Fragen?

KB
Konrad Beyer
Technik

Unser Technikchef verfügt über ein umfassendes Wissen in allen Storage- und Server-Themen.