Am 26.Juli 2024 fielen ein grosser Teil der Websites und E-Mail Konten auf dem Hosting-Server aus. Die Störung dauerte ungewöhnlich lange und trägt leider den unschönen Titel „längste Störung in unserer Firmengeschichte“. Die Störungssuche gestaltete sich ungewöhnlich schwierig und dessen Behebung sehr aufwendig. Während einige Kundenaccounts tadellos funktionierten, waren andere Kunden von Teilausfällen betroffen und weitere komplett offline. Die Kommunikation mit dem Rechenzentrum gestaltete sich zuweilen schwierig, da schlicht zuwenig informationen zu den Problemen vorlagen und geteilt wurden.
Es ist uns bewusst, wie unangenehm solche Ereignisse sind und welche Einschränkungen bei unseren Kunden dadurch entstehen können. Wir haben versucht, mittels der Status-Seite aktiv zu informieren, um unsere Kunden laufend und möglichst transparent mit Informationen zu versorgen. Teilweise wurden die Informationen zusätzlich zur Status-Seite auch per E-Mail versendet. Um eine Flut von E-Mails zu verhindern, haben wir auf den Versand jeder Meldung per Mail verzichtet und teilweise nur die Status-Seite aktualisiert.
Mit diesem Beitrag versuchen wir, die Vorgänge für unsere Kunden etwas mehr zu beleuchten und aufzuzeigen, wie schwierig sich die Fehlersuche und gleichzeitige Information gestaltete. Völlig klar ist aber, dass dies nicht die Leistung sein soll, welche wir und auch das Rechenzentrum erbringen möchte. Für die entstandenen Umstände bei unseren Kunden möchten wir uns daher nochmals in aller Form entschuldigen!
Das Thema ist für uns aber sicher mit dieser Mitteilung nicht abgeschlossen. Wir werden hierzu noch mehr Informationen einfordern um besser zu verstehen was passiert ist und welche Fehler – allenfalls auch bei unserer Störungsbehebung – passiert sind. Die Erkenntnisse werden jedenfalls auch bei zukünftigen Ausrichtungen der Einrichtungen einbezogen werden.
Wichtige Fakten
Über die folgenden Fakten möchten wir hier transparent informieren:
- Der Server läuft soweit stabil, verzeichnete bis heute Mittag immer wieder kurzzeitig und in unregelmässigen Abständen Probleme in der Performance. Das Rechenzentrum arbeitet hierzu mit dem Hersteller des Plesk zusammen, um dieses noch aktive Problem genauer zu verstehen und Lösungen zu finden. Die kurzzeitigen Aussetzer sind mehrheitlich beim Datenbankdienst zu verzeichnen.
- Heute (07.08.2024) wurden nochmals Wartungsarbeiten vorgenommen, dies mit dem Ziel die Performance und Ausfallsicherheit zu verbessern. Die Arbeiten waren in der Umsetzung erfolgreich, wir beobachten nun ob die Schwachpunkte damit behoben werden konnten.
- DNSSEC ist derzeit bei den meisten Domains nicht (mehr) aktiv. Dies bedeutet keine aktive Einschränkungen in der Funktion., war aber ein Hauptthema der Störung. Wir sind hier derzeit mit Tests daran, besser beobachten können, wie sich die Einstellung verhält, bevor wir hier wieder grossflächig Aktivierungen bei unseren Kunden vornehmen.
- Eine abschliessende Analyse des Rechenzentrums zu den Ereignissen steht derzeit noch aus. Wir hoffen das sich die Probleme weiter reduzieren lassen und beobachten die Aktivitäten und das Monitoring sehr aktiv.
- Es wird in unserem täglichen Handeln stets versucht, Applikationen nachhaltig und sicher zu betreiben. Wir arbeiten mit unserem Partner im Rechenzentrum bereits seit über 10 Jahren erfolgreich zusammen, ohne je eine vergleichbare Störung erlebt zu haben. Solche Ereignisse sind leider nicht auszuschliessen, trotzdem möchten wir daraus lernen.
Performance / Erreichbarkeit
Monitoring am 05./06.08.2024: Im Bild ersichtlich ist deutlich die noch teilweise erhöhte Antwortzeit (blaue, hohe Peaks) und die dadurch teilweise einbrechende Erreichbarkeit (gründe Linie).
Das Rechenzentrum arbeitet hierzu mit dem Hersteller des Plesk zusammen, um dieses noch aktive Problem genauer zu verstehen und Lösungen zu finden.
Was ist passiert?
Leider sind noch nicht alle Umstände klar und werden primär durch das Rechenzentrum geklärt. Aber die folgenden Faktoren sind aufgetreten und haben – teilweise kombiniert – zur langen Störungszeit beigetragen:
- Wartungsarbeiten – Migration des Betriebssystems
In der Nacht von Donnerstag auf Freitag 25./26.Juli wurden vom Rechenzentrum Wartungsarbeiten ausgeführt. Das Ziel war eine Migration des Betriebssystems, um die Zuverlässigkeit und Sicherheit des Servers aufrecht zu erhalten. Leider haben schon die Dienstunterbrüche in der Nacht auf Probleme hingedeutet, da diese deutlich länger ausfielen als durch das Rechenzentrum angekündigt wurde. Die Ursache dazu war eine mit Malware verseuche CMS-Installation, welche hier für Verzögerung gesorgt hat.
In den Morgenstunden nach der Migration fielen auf dem Monitoring des Servers immer wieder Dienste in erhöhter Reaktionszeit auf. Eine Meldung der Beobachtung an das Rechenzentrum blieb leider recht lange unbeantwortet, nach dem Kernproblem wurde jedoch gesucht. Der Server war zwar online, jedoch immer wieder von Unterbrüchen geplagt.
- Probleme mit DNSSEC
Während längerer Suche fiel uns auf, dass offenbar primär Domains welche mit DNSSEC geschützt waren, ausgefallen waren. Teilweise waren daneben weitere Domains zu beobachten, bei welchen die Website das E-Mail und alle weiteren Funktionen tadellos funktionierten. So versuchten wir, erste Domains als Test aus dem DNSSEC zu holen, damit getestet werden konnte, ob sich das Problem umgehen liesse. Da aber die Einträge für DNSSEC sowohl in der Domain, im Plesk aber auch in der Domain-Registry gespeichert werden, musste dafür die Aktualisierungszeit des DNS für jede einzelne Domain reduziert und ein DNS-Reload abgewartet werden. So konnte erst zwei bis drei Stunden später erkannt werden, dass die Handlung erfolgreich ist! Diese Verzögerung war auch der vermutete Grund, dass betroffene Domains verzögert nach den Wartungsarbeiten ausfielen.
Der Fokus auf die Funktion DNSSEC teilten wir mit dem Rechenzentrum, ohne das dies flächendeckend für alle Domains gelöst werden konnte. Für jede Domain mussten damit sowohl im Domain-Portal wie auch im Plesk mehrere Anpassungen vorgenommen werden. Allein diese Arbeiten dauerten für jede einzelne Domain einige Minuten. Erschwerend kam hinzu, dass das Controlpanel Plesk aufgrund der Störungsbehebung nur sehr langsam reagierte und zuweilen komplett streikte.
- Ausgefallene Subdomains und blockierte Domains
Weitere Überraschungen mussten bewältigt werden, indem einige Subdomains zwar vorhanden aber nicht mehr erreichbar waren. So wurden auch hier Lösungen getestet bis die Probleme beseitigt und bis alle Subdomains wieder online waren.
Bei wenigen Domains wurden teilweise fehlende DNS-Records entdeckt, was ebenfalls noch nicht erklärbar ist. Die Einträge mussten händisch nachgeschrieben werden oder bei Standart-Einträgen zurückgesetzt werden. Eine letzte Domain war trotz allen Versuchen von Plesk blockiert und konnte nicht wieder reaktiviert werden. Dieser Kunde wurde inzwischen mit allen Daten auf einen anderen Server migriert.
- Wiederholte Cyberangriffe auf den Server
Wiederholte Cyberangriffe erschwerten teilweise die Erreichbarkeit und Performance des Controlpanel Plesk und weiterer Dienste massiv, was wiederum die Störungsbehebung stark verzögerte.
- Zertifikatsfehler
Es traten Fehler bei den Zertifikaten auf, indem bestehende SSL-Zertifikate als unsicher abgelehnt und neu angeforderte Zertifikate nicht mehr erstellt werden konnten. Hier hat offenbar eine Schutzfunktion von Let’s Encrypt eingegriffen und so Zertifikate gesperrt. Diese Probleme konnten jedoch schnell durch das Rechenzentrum gelöst werden.
Weitere Nacharbeiten
Aktuell werden alle Domains bezüglich der Aktualisierungszeit im DNS wieder normalisiert, was aber keine Einschränkungen oder Ausfälle zur Folgen haben wird. Ebenfalls werden gleichzeitig erste Tests angegangen, um DNSSEC stufenweise wieder reaktivieren zu können.
Für die entstandenen Umstände bei unseren Kunden möchten wir uns entschuldigen! Wir hoffen und arbeiten daran, dass der Hosting-Server nun schnellst möglich zur vorherigen Stabilität zurückfindet.