Defekter Core Router verursachte gravierende Netzwerkstörung
Eine defekte Baugruppe an einem der redundanten Core Router verursachte am Mittwoch, den 22. Juli 2015, in der Zeit von 15.26 Uhr bis 17.50 Uhr, eine teilweise bis vollständige Nichterreichbarkeit nach Aussen für eine Vielzahl der Systeme von hostfactory während bis zu drei Stunden.
Von der Störung ganz oder zumindest teilweise betroffen waren zahlreiche Virtual Shared Hosting Server, einige dedizierte Root Server (VPS), aber auch die Website www.hostfactory.ch und my.hostfactory.ch selbst. Während der gesamten Dauer der Störung waren jederzeit alle Systeme laufend, aber nach Aussen hin nicht erreichbar.
Die Netzarchitektur im gesamten Rechenzentrum ist zwar vollständig redundant gestaltet und auf höchste (99.99%) Verfügbarkeit ausgelegt, wobei unter Verwendung teils mehrfach geschachtelter Protokolle ein Maximum an Fehlertoleranz geplant wurde. Leider lassen sich aber nur Situationen konzeptionell abfangen, welche tatsächlich vorhersehbar sind. - Im konkreten, gestrigen Fall allerdings verhielt sich eine Netzwerkkomponente, beziehungsweise eine ganze Baugruppe völlig unerwartet und entgegen jeder Dokumentation. Daher konnten die implementierten Abfangmechanismen nicht greifen und das Verhalten wurde unkontrollierbar, später vollständig fehlerhaft. Der Defekt führte zu einem abnormalen Verhalten und hatte dadurch schwerwiegende Auswirkungen auf die Forwarding- und Routingfunktion, welches sich schliesslich auch auf die weiteren, redundanten Core-Rotuer repliziert hat.
Der Fehler konnte inzwischen vollständig analysiert und beseitigt werden: die betroffene Baugruppe wurde vollständig ausgetauscht. Eine weitere, tiefergehende Analyse des Defektes wird gemeinsam mit dem Komponentenhersteller im Verlauf der nächsten Tage durchgeführt, so dass ein wiederholung gleicher oder ähnlicher Störungen in Zukunft möglichst augeschlossen werden kann.
Wir sind uns vollumfänglich bewusst, dass derartige Vorkommnisse für alle Beteiligten höchst unangenehm sind - entsprechend möchten wir uns bei Ihnen für diese breite Störung in aller Form entschuldigen! Leider sind wir nicht in der Lage zu versichern, dass sich ein derartiger Vorfall unter keinen Umständen wiederholen kann, jedoch aber versprechen wir Ihnen, jederzeit unser bestmögliches zu tun, um derartiges tunlichst zu vermeiden.
Für weitere Fragen in dieser Sache kontaktieren Sie bitte bei bedarf unseren Helpdesk.
Update: Die Stellungnahme zum Vorfall vom 8. August 2019 finden Sie hier.