Luft raus. Mit diesem aufblasbaren Zelt in Form einer Wolke warb Amazon vor einem Jahr auf der CeBIT in Hannover für seine webservices. Foto: Peter Steffen/dpa
p

Ausfall von Amazons Clouddiensten Ein paar fehlerhafte Kommandos zu viel

2 Kommentare

Das Cloudgeschäft ist für Amazon ebenso wichtig wie die Handelsaktivitäten. Zwei Tage nach den Serverausfällen in den USA erklärt das Unternehmen nun die Ursachen - und wie ein solcher Kollaps in Zukunft verhindert werden soll.

Berlin – Ein nicht ganz korrekt eingetipptes Kommando, das war die Ursache für einen der größten Ausfälle von Clouddiensten weltweit. Am Dienstag hatte die Störung des Simple Storage Services von Amazon in der US-Region Nord Virginia diverse auch internationale Webseiten und Onlinedienste über mehrere Stunden lahmgelegt. Betroffen war unter anderem die Foto-App Snapchat, die Reise-Webseite Expedia sowie mehrere News-Seiten wie Buzzfeed oder Medium. Auch Dienste von Amazon selbst waren offenbar beeinträchtigt. So berichteten Nutzer von Störungen von Amazons Assistenzsystem Alexa.

Amazon ist mit seinen Web Services Marktführer bei Clouddienstleistungen. Über ein Drittel des Umsatzes in diesem Geschäftszweig entfiel 2016 Jahr auf das Unternehmen. Microsoft, Google und IBM kommen zusammen auf ein weiteres Drittel. In der Cloud werden einerseits Daten gespeichert. Anbieter wie Amazon stellen ihren Kunden über Cloudserver andererseits Rechenkapazität zur Verfügung. In der Amazon-Bilanz übersteigen die Gewinne aus dem Cloudgeschäft nach wie vor die Ergebnisse aus dem Handelsgeschäft.

Auch Netflix streamt über Amazon-Server

Umso wichtiger war es für Amazon, seine Cloud-Kunden – selbst Amazon Video-on-Demand-Konkurrent Netflix streamt seine Filme und Videos über Server von Jeff Bezos Firma – nach dem massiven Serverausfällen von Dienstag zu beruhigen. In der Nacht zu Freitag veröffentlichte das Unternehmen eine mehrere Din-A-4-Seiten lange Zusammenfassung, wie es dazu kam und wie solche Vorfälle in Zukunft verhindert werden sollen.

Ausgangspunkt der Kettenreaktion war die Fehlerbeseitigung im Abrechnungssystem des Simple Storage Services. Im Zuge der Reparatur wollte ein autorisierter Mitarbeiter des Amazon-Teams mehrere kleinere Server eines Subsystems abschalten, das vom Abrechnungssystem genutzt wird. Eine der dafür nötigen Eingaben war jedoch fehlerhaft und setzte eine weitaus größere Anzahl von Servern außer Betrieb. Davon wiederum waren zwei andere Untersysteme betroffen – mit fatalen Auswirkungen. Auf einem der Subsysteme befand sich der Index mit den genauen Informationen, wo sich die Daten aller Amazon Clouddienste in dieser Region befanden. Das zweite Subsystem wurde benötigt, um neue Daten zu speichern und muss ebenfalls auf den nicht mehr erreichbaren Index zugreifen. Der Fehler konnte erst durch eine Neustart der betroffenen Systeme behoben werden, was wiederum eine Reihe anderer Dienste in Mitleidenschaft zog.

Die Folgen des Ausfalls waren besonders groß, weil die Anlage in Nord Virginia zu den größten gehört und viele international aktive US-Onlinedienste betraf. Zuletzt hatte eine größere Störung 2015 unter anderem Netflix und AirBnB ausgebremst. Insgesamt dauerte es mehrere Stunden, bis die Amazon Web Services in dieser Region wieder ordnungsgemäß funktionierten.

In der Ruhe liegt die Kraft

Als Konsequenz aus dem Cloud-Debakel hat Amazon einige Prozesse verändert. Künftig soll es nicht mehr möglich sein, so große Serverkapazitäten auf einmal zu entfernen. Über zusätzliche Sicherheitsrichtlinien soll zudem verhindert werden, dass für Subsysteme nicht mehr genügend Kapazitäten vorhanden sind. Durch diese Maßnahmen werde verhindert, dass ein fehlerhaftes Kommando erneut zu einem vergleichbaren Ausfall führen kann, verspricht Amazon. Und damit die Webseite, auf der Amazon über den Status der Clouddienste informiert, künftig immer erreichbar ist, wird sie in Zukunft über mehrere Regionen hinweg betrieben. Am Dienstag hatte Amazon die Kunden nur via Twitter über den Fortgang der Reparaturen unterrichten können. Kurt Sagatz

Zur Startseite