Störung im Netz – der Bericht
Damit unsere Infrastruktur in unserem Datacenter nicht ganz alleine dasteht, muss diese mit dem Internet verbunden werden. Dies machen wir nicht selber, sondern greifen auf die Dienste unseres Carriers Init7 zurück. Init7 betreibt einen eigenen sogenannten Backbone, also ein eigenes Netz, das mit vielen weiteren Teilnehmern zusammengeschlossen ist und im Verbund das Internet darstellt.
Was ist passiert?
Heute Mittag kurz nach 12 Uhr passierte nun, was nicht passieren darf, aber dennoch nie ganz ausgeschlossen werden kann: Das Netzwerk von Init7 stürzte ab und wir waren von der Aussenwelt abgeschnitten. Schuld an diesem Unterbruch war offenbar menschliches Versagen — sobald genauere Informationen dazu vorliegen, werden wir in unserer Statusmeldung darüber berichten.
Neben all unseren Kunden waren auch weitere Hoster und andere Firmen wie zum Beispiel die Zürcher Blogwerk AG betroffen, welche zahlreiche beliebte und häufig gelesene Blogs betreibt.
Nach rund zwei Stunden konnte die Störung an gewissen Orten bereits wieder behoben werden, andere Knoten wie die Verbindung zu cyon konnten jedoch erst gegen 17:00 Uhr wieder hergestellt werden.
Was tun wir, damit sich dieses Szenario nicht wiederholt?
Es gibt eine Technologie mit dem Namen Multihoming, welche es ermöglicht, nicht nur über einen sondern über mehrere Carrier ins Internet zu gelangen.
Dieses Projekt haben wir bei cyon bereits vor einigen Wochen in Angriff genommen und eine fertig ausgearbeitete Lösung sowie die nötige Offerten liegen auf dem Papier bereit. In den kommenden Wochen und Monaten wird dieses Projekt nun fertig umgesetzt.
Auch mit Multihoming lässt sich kaum 100% ausschliessen, dass es in einem Netzwerk Probleme geben kann — zu komplex sind alle beteiligten Technologien und Systeme.
Was wir aber sicher sagen können: Sobald wir das Projekt fertig umgesetzt haben, ist die Wahrscheinlichkeit für einen solchen Ausfall noch einen Bruchteil so hoch.
Für die heute entstandenen Unannehmlichkeiten möchten wir uns bei allen Kunden und betroffenen Personen in aller Form entschuldigen! Wir sind froh, die richtigen Massnahmen bereits eingeleitet zu haben, auch wenn wir für den heutigen Tag noch nicht komplett gewappnet waren.
Bereit für den Wechsel?
Wechsle jetzt zu cyon für ein souveräneres und nachhaltigeres Internet.
Beteilige dich an der Diskussion
45 Kommentare
Sicherheit und Perfektion ist das Wunschdenken jener, welche aus Angst vor der Unvollkommenheit des Lebens sofort Rechenschaft über das unlösbare Chaos der andern erwarten…
Dennoch, mit ein wenig Geduld und den vorbildlichen Informationen über Status etc. kann locker behauptet werden, die Jungs beherrschen ihr Handwerk und ein Spitzenrang auf einer imaginären Hitliste ist durchaus angebracht ;-)
Lieber spät als nie möchte ich auch noch schnell meinen Senf dazu geben… ;-)
Klar ist ein Ausfall unangenehm, aber wo Menschen arbeiten können auch Fehler passieren…
Das gehört halt einfach dazu.. nichts ist perfekt… (Sogar mein MacBook Air musste schon mal in die Reparatur.. und das heisst was :-P ;-) )
Ich muss gestehen, ich bin selber nicht besser und fange an rumzunervöseln wenn meine Seiten nicht erreichbar sind..
Aber mal Hand aufs Herz…
Ist das Internet wirklich sooo wichtig geworden????
Leben nicht trotzdem alle von uns gesund und munter weiter?
Schlussendlich sind keine Lebenswichtigen Systeme betroffen gewesen, keine Krankenhaus Geräte oder AKW Steuerungen…
Take it easy and keep cool ;-)
Ah okay, Merci.
@Steinie: Wir haben vorgestern die Stellungnahme von Init7 in der Statusmeldung veröffentlicht. Hier ist sie nochmal:
«Aufgrund einer Fehlkonfiguration auf einem userer Router, hat es eine unglückliche Verkettung von Umständen im Backbone gegeben. Dies führte zu erheblichen Verbindungsproblemen und verschiedene Kunden waren durch den Ausfall betroffen.
Wir bedauern dieses Versehen ausserordentlich und entschuldigen uns für Ihre Unannehmlichkeiten.»
«Wir streben an» klingt doch etwas sehr weich… ;-)
Aber ich bin guter Hoffnung, dass es auch dann wirklich SCHNELL umgesetzt wird.
Wie schaut es eigentlich mit der eigentliche Ursache aus? Diese sollte laut Statusmeldung doch noch nachgereicht werden? Wie lange kann die Recherche denn da dauern? Wäre schön, wenn das auch noch aufgeklärt wird…
@Steinie: Ein definitves Datum für Multihoming ist noch nicht gesetzt. Wir streben Sommer 2009 an.
@Pascal Steck und @rif: Klar, die Kommunikation während des Ausfalls war ungenügend. Wir waren durch den Ausfall ja selber entsprechend eingeschränkt.
Wie weiter oben schon angemerkt ziehen wir auch weitere Projekte wie eine extern gehostete Statusseite etc. aus diesem Vorfall. Ob eine SMS Benachrichtigung auch dabei sein wird, wissen wir noch nicht.
Merci für die transparente Information. Ärgern tut ein solcher Fall immer, aus eigener Berufserfahrung weiss ich aber, dass trotz aller getroffenen Massnahmen nie eine 100% Sicherheit garantiert werden kann. Die angesprochenen Massnahmen sind sicher sinnvoll.
Am meisten geärgert hat mich die fehlende Information. Eine externe Seite zu schalten ist sicher eine Möglichkeit die etwas bringt. Ich wünschte mir aber eine etwas proaktivere Lösung, wie wäre es z. Bsp. mit einem SMS-Service?
Insgesamt bin ich mit dem Service sehr zufrieden und kann Cyon immer noch vorbehaltlos weiter empfehlen – macht weiter so!
Ich habe mich gestern auch genervt und hatte einige unangenehme Telefonate mit Kunden, die sich über den Ausfall beschwerten. Müssig zu sagen, dass das nicht passieren sollte – da sind sich wohl alle einig. Ich bin daher einigermassen beruhigt zu lesen, dass Cyon bereits an entsprechenden Verbesserungen arbeitet. Ich würde mir jedoch, wie offenbar viele hier ebenfalls, eine bessere Information in solchen Fällen wünschen. Dass nichts geht ist unangenehm. Dass nichts geht und man nicht weiss warum ist aber noch deutlich unangenehmer.
Allerdings muss ich fairerweise auch sagen, dass ich auch schon wesentlich schlimmeres erlebt habe – bei grösseren und bekannteren Providern. Ich denke da z.B. an den Totalausfall bei Hostpoint vor zwei oder drei Jahren bei dem drei Tage (!) alles offline war. Das war definitiv eine Katastrophe.
Die transparenz ist das wichtig.
Leider habe ich mit init7 fürher schon oft probleme … schade das cyon sich davon nicht löst.
wie wäre es mit einem SMS Service für die Kunden?
via MNC (939) könnte ich so was einfach einrichten. die Kunden zahlen … erhalten aber soffort einen Status den Cyon veröffentlich?
info@regiokalender.ch
Pascal
Wie schaut denn der Horizont bzw. die Deadline für die Umsetzung für Multihoming aus? Sollte doch in einem Projekt definiert sein… ;-)
Besonders nach so einem Zwischenfall sollte es ja nun umso schneller vorangetrieben werden. Wie ist hier der genaue Plan, bzw. das anvisierte Datum?