Störung aller Produkte am 11.01.2019

Veröffentlicht am 11.01.2019.

Sehr geehrte Kunden,

am heutigen 11.01.2019 kam es zu massiven Störungen bei unseren Produkten, über deren Hintergründe wir Sie informieren möchten.

Auslöser / Ursache

Gegen 12.20 Uhr kam es zu einem Ausfall der Stromversorgung in dem Kölner Rechenzentrum, in dem auch wir Platz (sog. Colocation) für unsere Server gemietet haben. Nach unseren Erkenntnissen war das komplette Rechenzentrum für mehrere Minuten stromlos, der Betreiber HostEurope hatte ebenfalls mehrere Stunden mit Ausfällen seiner eigenen Produkte zu kämpfen (Presseartikel).

Im Regelbetrieb wird das Rechenzentrum von außen mit Strom versorgt (wie jedes andere Gebäude auch). Im Störungsfall sorgt eine zentrale USV-Anlage (unterbrechungsfreie Stromversorgung) mit einem ganzen Raum voller Batterien dafür, dass das Gebäude etwa 15 Minuten lang weiter läuft – so lange braucht der automatisch startende Notstrom-Dieselmotor, bis er angesprungen ist und synchronen Netz-Strom liefert.

Heute kam es unseren Informationen nach zu einer Fehlfunktion des USV-Systems (Ausfall mehrerer Anlagen und Nicht-Einspringen der Ersatzgeräte), wodurch die eigentliche Rechenzentrums-Fläche für einige Minuten stromlos war (obwohl der Außen-Strom gar nicht ausgefallen ist). Details kennen wir nicht, aber im Laufe des Nachmittags waren Elektriker vor Ort und haben bei laufendem Notstrom-Dieselmotor (um für den Fall eines tatsächlichen Stromausfalls sofort Strom zu haben) das Problem beseitigt.

(Update 17.01.2019: Unser Rechenzentrums-Anbieter hat den Ablauf der Störung inzwischen wie folgt beschrieben: An unserem Standort Köln (Data Center Room1, CGN1, Hansestr.) wurde ein defektes USV-Modul ausfindig gemacht. Um die Redundanz nicht zu gefährden, wurde eine Reparatur am Freitag, dem 11.01.2019 durchgeführt. Solche Arbeiten sind in der Regel unkritisch, da die USV-Anlagen redundant ausgelegt sind. Nach Entfernen des defekten USV-Moduls hat ein zweites USV-Modul eine Störmeldung ausgegeben und sich anschließend automatisch abgeschaltet. Aus bisher unbekannter Ursache haben sich die verbliebenen Module, die die Last im Rechenzentrum übernehmen sollten, ebenfalls abgeschaltet.")

Nachdem die Stromversorgung wieder gegeben war, sind einige unserer Komponenten nicht wieder sauber gestartet und benötigten manuelle Unterstützung (z.B. erneuten Reboot) durch unser Team vor Ort.

In (mindestens) einem Fall kam es auch zu einem technischen Defekt durch den Ausfall. Bei einem größeren Server kam es zu einer Fehlfunktion des sog. RAID-Controllers (Steuergerät zum redundanten Verteilen der Daten auf mehrere Festplatten) und auch zu Datenmüll (obwohl eine Pufferbatterie extra dafür sorgen soll, dass bei Stromausfall die Daten noch zu Ende geschrieben werden können). Der Server erforderte eine mehrstündige Hardware- und Dateisystem-Reparatur, ehe alle auf diesem System laufenden virtuellen Server wieder verfügbar waren.

Auswirkungen auf unsere Hosting-Produkte

Die ersten Produkte im Bereich Onlinespeicher und klassischer Webspace waren nach 30 Minuten bereits wieder online, Mail-Funktionalität folgte innerhalb der ersten Stunde.

Bis auf wenige Ausnahmen waren alle Produkte nach ca. 2 Stunden (gegen 14.30 Uhr) wieder verfügbar.

Auswirkungen auf unsere Telefonie-Produkte

Bereits kurz nach Diagnose des Problems wurde ein Umschalten unserer Telefonie auf einen Reserve-Rechenzentrums-Standort veranlasst. Für unsere Produkte im Leitstellen-/Hausnotruf-Umfeld bedeutet dies, dass diese nur kurz vom Ausfall betroffen waren. Für Kunden unserer Telefonanlage "HostedPBX" wurde damit auch automatisch, sofern hinterlegt, die Notfall-Rufumleitung (in der Regel auf ein Handy) aktiviert.

Zahlreiche Installationen der HostedPBX und auch der InstantPBX waren durch den Ausfall des o.g. Servers betroffen. Zwischen 16.15 Uhr und 17.45 Uhr sind nach und nach alle betroffenen Telefonanlagen wieder ans Netz gegangen.

Auswirkungen auf das DRKCMS

Je nach dem, auf welchem Datenbank-Server Ihr DRKCMS betrieben wird, war es möglicherweise auch bereits nach 30 Minuten wieder erreichbar. Andere Installationen waren erst ab 16.30 Uhr wieder verfügbar, hier kam es großflächig auch zu Datenverlust (weshalb einzelne Installationen auch möglicherweise noch bis in die späten Abendstunden unvollständig oder gar nicht funktionierten).

Die vom Defekt betroffenen beschädigten Datenbanken werden aktuell mit einem Backup der Vornacht ersetzt, der Vorgang wird noch bis in die Nacht andauern. Das bedeutet, dass mögliche redaktionelle Änderungen, die Sie am Freitag Vormittag gemacht haben, nicht mehr vorhanden sind. Gleiches gilt für Daten, die Besucher direkt in Ihrer Webseite eingetragen haben. Da bei den betroffenen CMSen ohnehin seit der Störung keine Arbeit im Backend mehr möglich war, handelt es sich also nur um das sehr kleine Zeitfenster Freitag bis 12.20 Uhr. Alle Funktionen, die mit der DRK-KDB zusammenarbeiten (Online-Spende, Mitglied werden, Kursterminbuchung) und z.B. die PayPal-Spenden-Funktionalität sind davon nicht betroffen, diese Daten werden nicht in der TYPO3-Datenbank gespeichert. Ob Ihr CMS vom Zurückspielen des Backups betroffen ist, können Sie in unserem Kundenmenü unter Produkte -> DRKCMS -> Vorhandene CMSe sehen, dort wird dann eine deutliche Meldung eingeblendet.

Auswirkungen auf unsere eigene Erreichbarkeit

Ärgerlicherweise waren auch unsere internen Systeme (Webseite, Telefonanlage, Ticketsystem) bis ca. 17 Uhr nicht erreichbar, unsere Rufbereitschaftsnummer war "indirekt" erreichbar (wir haben versucht, zurückzurufen, allerdings hatte die Koordination der Entstörung natürlich Vorrang).

Verbesserungsmöglichkeiten

Wir werden den Vorfall im Nachgang analysieren und gucken, an welchen Stellen wir zukünftig das Ausfall-Potential minimieren können.

Tatsächlich können Störungen auch in redundanter Stromversorgung immer wieder passieren (vor rund einem Dreivierteljahr hat ein Ausfall in Frankfurt weite Teile des Internets über Stunden lahmgelegt). Insgesamt ist die gelieferte Qualität unseres Rechenzentrum-Vermieters gut, und die räumliche Nähe zu unserem Bürostandort hat sich heute wieder bewährt.

Wir werden versuchen, gemeinsam mit DELL herauszufinden, was an dem entsprechenden Server schiefgelaufen ist. Es ist ja gerade die Aufgabe eines Batterie-gepufferten RAID-Controllers, bei einem Ausfall die Daten korrekt wegzuspeichern und eben nicht für Datenmüll zu sorgen.

Wir werden auch gucken, wie wir im Falle eines Falles unsere Kundenkommunikation verbessern können.

Trotz der mehrstündigen Beeinträchtigung hat sich gezeigt, dass unsere Backup-Konzepte funktionieren. Die auf hohe Verfügbarkeit ausgelegten Produkte/Dienste liefen nahezu uneingeschränkt (Hausnotruf-/Leitstellenprodukte) oder im vorher definierten Notbetrieb (Weiterleitung auf z.B. Handys bei HostedPBX-Installationen) weiter, und die zerstörten Daten können zu 100% aus Backups wiederhergestellt werden.

Wir möchten uns bei Ihnen für die Unannehmlichkeiten entschuldigen und sagen Danke für Ihr Verständnis und Ihre Geduld bei der Entstörung.