Serverausfall bei 1&1 – 26.09.2011

Von | 26.09.2011

Zwei Mal 2.5 Stunden Ausfall (aller?) Dedicated, Managed und Rootserver in Deutschland, USA und UK bei 1&1 heute, Hotline völlig überlastet, 1&1 Statusseite meldete die ganze Zeit über keine Fehler. Inzwischen traf eine Erklärung von 1&1 per eMail ein. Siehe Ende des Posts.

Seit ca. 15:00 Uhr waren alle unsere 1&1 Rootserver down, ebenfalls betroffen waren Managed und Dedicated Server in den 1&1 Rechenzentren in  DE, USA und den UK. 1und1 SharedHost Server schienen nur minimalst beeinträchtigt zu sein – dieses Blog läuft z.b. auf einem Dual Advanced Tarif ebenfalls bei 1&1. Die Hotline von 1und1 hat eine Bandansage geschalten: „Derzeit kann es beim Abruf von Webseiten zu Beeinträchtigungen kommen. die Störung wird behoben.“ – wer da allerdings nicht durchkommt, muss sich keine Sorgen machen, die Hotline ist ebenso überlastet und statt der Bandansage gibts auch gerne mal nur ne Fehlermeldung.

Update 17:10: So langsam scheint 1und1 die Sache in den Griff zu bekommen, erste Server sind jetzt wieder erreichbar, aber noch lange nicht alle..

Update 18:55: So ganz „hasenrein“, wie Oma immer sagte, scheint die Sache noch nicht zu sein, mein Servermonitoring Anbieter Pingdom.com hat mir grad ne SMS geschickt, dass einer meiner Server wieder down ist – über Telekom geht jedoch alles.

Update 19:55: Und down sind sie wieder.. 20:20: 1und1 bestätigt Ausfall via Twitter. (wie verlinkt man eigentlich auf nen Tweet?)

Update: 21:00: Nachricht von 1&1 via Twitter: „und wir arbeiten mit Hochdruck an einer abschließenden Lösung. Die ersten Server sind in Kürze wieder erreichbar. …

Update 21:45 „Die ersten Dedicated und Virtual Server sind bereits online. In der nächsten halben Stunde sollten die meisten Server wieder am Netz sein.“ – einer meiner Server war auch tatsächlich für 10 minuten erreichbar, aber ist nun (22:05) wieder down.

Update 22:30 – und nach dem zweiten 2,5h Stunden Ausfall heute sind derzeit alle meine Server wieder erreichbar

 

So schauts aus:

Zugriff über HTTP, SSH2, etc. ist auf keinen unserer Server mehr möglich. Das Controlcenter selbst ist kreuzlahm und funktioniert ebenfalls nicht mehr, ständige Fehler 500.

Ping über die Telekom endet am 05. Hop: dtag.bb-c.tp.kae.de.oneandone.net – danach geht nix mehr:

Reaktionen von 1&1:

Im 1&1 Supportforum schwillt der „mein Server ist down“ Thread https://forum.1und1.de/index.php?page=Thread&threadID=8968 auf Rekordgröße an. Sauber.

 

Hallo,

aufgrund einer Störung eines unserer
internen Systeme, kommt es derzeit zu Ausfallerscheinungen einiger Dienste und
der Darstellung Ihrer Webseiten. Unsere Techniker sind bereits mit Hochdruck an
der Problembehebung.

Davon betroffen sind auch interne Systeme, wie z.B.
das 1&1 Control-Center.

Sobald es neue Informationen gibt, melde ich
mich direkt wieder hier.

Viele Grüße,
1&1 Internet AG

Quelle: https://forum.1und1.de/index.php?page=Thread&postID=58708#post58708

Und hier noch schnell der Link zum 1&1 Twitter Account: http://twitter.com/1und1 , dort kam übrigens gerade dieser nette Tweet:

Neben Deutschland und USA sind also auch die 1&1 Server in England  betroffen – siehe http://twitter.com/1and1_uk

Sehr erheiternd:

1und1s offizielle Netzwerk-Status Seite http://status.1und1.de/ meldet fröhlich:

und das obwohl wir alle bereits 1,5 Stunden down sind.  Ja, das beruhigt mich jetzt ungemein. NOT..

Server waren von 17:30 bis 19:55 wieder verfügbar, danach wieder 2.5 Stunden down

Nach knapp 2.5 Stunden schien der Spuk vorbei zu sein, unsere Server waren wieder da, jedoch währte die Freude nicht sonderlich lange, gegen 19:55 war wieder Ende.

Seit 22:30 wieder alles Ok.

Hoffen wir zusammen auf eine lückenlose Aufklärung in Form eines detaillierten Post-Mortem Berichts von 1und1. was denn nun genau los war.. äh.. lol.. ja.. :D

Na, nicht unken, hier schonmal ein Satz dazu:

Hier neue Infos: Durch einen Datenbank-Ausfall in Kombination mit einem Softwarefehler kam es zu einer fehlerhaften Routserver-Konfiguration. (via Twittér)

Zum zweiten Ausfall ebenfalls via Twitter:

Ursache ist ein Softwarefehler, der zu fehlerhaften Netzwerkkonfigurationen geführt hat.

Und hier eine Erklär eMail vom 27.09.:

Von: rootserver@hosting.1und1.de [mailto:rootserver@hosting.1und1.de]
Gesendet: Dienstag, 27. September 2011 12:00
An: xxx
Betreff: Informationen zur fehlerhaften Netzwerk-Konfiguration bei 1&1
Dedicated Servern am 26.09.2011

 Sehr geehrte Damen und Herren,

 durch einen Softwarefehler kam es gestern zwischen 15 und
17.30 Uhr und erneut zwischen 20 und 23 Uhr zu einer fehlerhaften
Netzwerk-Konfiguration bei den Dedicated, Virtual und Dynamic Cloud Servern
unserer Kunden. Dadurch waren diese Server vorübergehend nicht im Internet
erreichbar.

 Die weitaus größere Anzahl von Kunden mit Hosting-Paketen
(Shared/Dual-Hosting/Cloud/Do-It-Yourself) war nicht von dieser Störung
betroffen, ebensowenig wie alle DSL-, Mobilfunk-, Telefonie- und Mail-Kunden.

 Die Netzwerkeinstellungen werden in einer zentralen
Sybase-Datenbank verwaltet. Insbesondere bei unseren Dedicated Servern ändern
sich diese Einstellungen häufig, etwa beim Ändern von Firewall-Einstellungen.
Diese Änderungen müssen allen Netzwerkkomponenten (Router, Switches) mitgeteilt
werden. Vor ca. einem Monat haben wir eine so genannte Middleware installiert,
die in regelmäßigen Abständen die Einstellungen der Datenbank abfragt und
zentral an die Netwerkkomponenten verteilt.

 Dieses System lief bis gestern reibungslos. Gestern hatte
der Sybase-Server eine hohe Last und entsprechend verzögerte Antwortzeiten.
Durch einen Fehler in der Middleware, einem so genannten Sybase::DBI
Connector,  interpretierte die Software
die lange Wartezeit als „leere“ Antwort und überschrieb so die
Netzwerkeinstellungen der Router und Switches in unseren Server-Segmenten.

 Nachdem der Fehler identifiziert war, mussten die
korrekten Netzwerkdaten zunächst manuell wiederhergestelt werden. Gleichzeitig
haben wir vorübergehend die automatische Datenbankabfrage durch die Middleware
gestoppt. In dieser Zeit waren keine Änderungen an Firewall-Einstellungen und
Einrichtung neuer IP-Adressen möglich.

 Damit eine solche Störung nicht mehr auftreten kann,
haben wir den zusätzliche Prüfroutinen in unserem Netzwerk implementiert, die
den aufgetretenen Fehler verhindern. Änderungen an den Netzwerkeinstellungen
sind im 1&1 Control Center nun wieder möglich, werden aber aufgrund der
Prüfmechanismen erst mit ca. 15 Minuten Verzögerung aktiviert.

 Gleichzeitig befinden wir uns in Gesprächen mit dem
Softwarehersteller, um die Fehler in der Middleware schnellstmöglich zu
beheben.

 Für die entstandenen Unannehmlichkeit bitten wir um
Entschuldigung.

 Mit freundlichen Grüßen

 Kundenservice 1&1 WebHosting

 

30 Kommentare zu “Serverausfall bei 1&1 – 26.09.2011

  1. admin Autor

    Ich hab auch so ein Problem Server, allerdings Rootserver, einer von 4 bei 1&1. Der bleibt ohne ersichtlichen Grund immer wieder stehen und muss dann über die Serielle Konsole neu gestartet werden. Haben da auch schon alles probiert, nichts hilft, auch nicht das ReImage mit neuen OS, wir vermuten inzwischen ein Hardwaredefekt. Aber 1&1 ist das total egal. „Rootserver nicht unser Problem“ und das wars. Support? Absolute Fehlanzeige.

    Antworten
  2. SYLSCH GmbH

    So, das muss jetzt einfach mal raus: Wir haben einen Managed Server bei 1und1. Nachdem wir unser Paket nun erweitert haben von Dual auf einen Quad-Server (Managed) haben wir täglich stundenweise Serverausfälle! Seit dem 16.11.2011 geht das nun so. Ich habe gefühlte dutzendmal bei 1&1 angerufen und den Server neu starten lassen. Heute nun endlich (gerade wieder mit dem Service telefoniert, weil Server tot – 6.45 Uhr) soll die Hardware überprüft werden. Wir haben weit über 100 Domains auf diesem Server liegen. Darunter zig Shops… Wer ersetzt die Verdienstausfälle, wer meine Arbeits- und verlorene Lebenszeit? FUCK! Fazit: Wir werden NIE wieder bei 1und1 irgendetwas buchen, keine Domains mehr ordern und ab sofort alle Webseiten zur Konkurrenz (z.B. Hetzner) umziehen! Dort haben wir schon einige Seiten liegen und der Service funktioniert. Keine Warteschleife von bis zu 15 Minuten und wenn man jemanden dran hat, dann wird sich gekümmert! 1und1 ist anscheinend so groß, dass Sie nicht mehr klarkommen! Und Tschüß! Übrigens der Server ist noch immer tot (7.05 Uhr)…

    Antworten
  3. admin Autor

    Wenigstens hat 1und1 heute noch nicht den Standardspruch losgelassen: „Das isn Rootserver, das ist Ihr Problem“, den höre ich sonst immer..

    Antworten
  4. DRIVZ

    1und1 Serverausfälle…. Leute wir warten! Bei ProSieben brennt es Alm Logos auf den Bildschirm und hier ist wahrscheinlich Herr D. aus der Werbung mit seinem Laptop in die Serverhalle gestolpert und hat zu laut „voller Empfang“ geschrien… aber hier ist er nicht angekommen. Sie müssen lauter schreien!

    Antworten
  5. Flo

    Sehr geehrtes 1und1 Team (man bemerke die jetzige Anrede),

    bitte teilen Sie mir detailliert den Grund der Ausfälle mit. Da Sie ja hier eher antworten wie im 1und1 Forum, bitte ich Sie, mir eine detailierte Beschreibung Ihres wiederholten Fehlers mitzuteilen.

    Antworten
  6. Flo

    Liebes 1und1 Team,

    ich versuche mich zu beherrschen!

    Bitte macht etwas weniger Werbung mit Eurem albernen (was war das? Kundenmanager Marcel irgendwie).

    Steckt die Kohle in Standortübergreifende Failover-Cluster.

    Ich suche mir bereits Alternativen. Da zahl ich lieber mehr und habe eine kompetente Hotline und einen Support der mir auch Auskunft geben kann.

    Wir alle wollen Geld verdienen! Ich auch (nur so nebenbei)

    Antworten
  7. DRIVZ

    Oh mann. Das sowas überhaupt heutzutage noch möglich ist. Aber Ausfälle sind wir ja gewohnt, naja wünsche denen viel Erfolg!

    Ändert dennoch nichts daran, dass ich ausrasten könnte…

    Antworten
  8. Flo

    Das Schlimme dabei ist, daß zahlreiche Werbeanzeigen geschaltet sind und diese nicht so schnell deaktiviert werden können.

    Find ich SUPER: Ich zahl Kohle für Werbung die ins Leere läuft und noch dazu einen Negativeindruck auf den Shop wirft.

    Grrrrrrrrrr!

    Antworten
  9. Mike

    Willkommen Club der toten Server..

    mal gespannt bin wie lange sowas dauert…
    denn ärgerlich ist das schon für alle.

    Antworten
  10. admin Autor

    Schaut wieder genau gleich aus wie heut Nachmittag. Na dann, in 2 Stunden kann ich dann wahrscheinlich mal wieder meine eMails lesen. Wenigstens ist die Kundschaft inzwischen überwiegend im Feierabend, mein Akku ist inzwischen leer.

    Antworten
  11. Gebi

    Seit 19.45 h wieder alles down. Kaum haben wir unsere Kunden informiert dass nach 2,5 Std. die Sites wieder laufen, sind sie schon wieder weg. Und auf Twitter keine Reaktion von 1und1.

    Antworten
  12. ich

    ….und weg ist er wieder…

    …und dazu gibt’s werbung für die do-it-yourself-homepage per mail …

    Antworten
  13. Flo

    Schon wieder Down!!!!!

    Nachdem unsere Server wieder um ca. 17:00 wieder online waren, sind jetzt wieder alle tot.

    Murphys Law hin oder her, so etwas darf beim Marktführer nicht passieren. Ich sehe ein, daß technische Defekte vorkommen (Redundanz hin oder her). Es gibt keine 100% Verfügbarkeit.

    Aber ich verlier hier Umsätze und das ärgert mich!

    Antworten
  14. Pingback: Kurzer Ausfall im Rechenzentrum » Kolfzucht vom Engel, Teufel und Drachen

  15. Nento

    Bei uns ist immer noch alles TOT. 1und1 Root Server
    Verdammt. Jetzt schon seit fast 3 Std. So ein dr..k

    Antworten
  16. Pingback: Anonymous

  17. Rainer

    einer ist inzwischen auch wieder online…. :-)… PING pong mal anders… *schlürf*…

    Antworten
  18. admin Autor

    Ich glaub, ich geh mal ne runde mit den Hunden.. denen is das mit dem Server irgendwie total egal. Und erst 2 Kundne haben hier angerufen. Den Kaffe trinke ich nachher gerne :-)

    Antworten
  19. Rainer

    …so blöde das klingt, immerhin komme ich mir jetzt nicht mehr ganz so alleine gelassen vor. Nun ja, in den Servermitteilungen stand was von Umzug Rechenzetrum am 06.10

    Hier sind auch zwei Server seit 15:00 offline.

    Nun ja, die 1&1 Hotline ist irgendwie für den A…h. Ist halt irgendwie ärgerlich, dass man jetzt den Tag damit verbringen darf, die eigenen Kunden bei Laune zu halten.

    Proste mal mit einem Wartekaffee in die Runde…

    Antworten
  20. Matze

    Tja das kann wohl länger dauern. Alle unsere Online-Services für unsere Kunden laufen nicht mehr. Wenn 1&1 kein Fallback bietet müssen wir uns für die Zukunft was überlegen.

    Antworten
  21. Stephan

    Habe auch seit 15:00 auf 3 Root-Server keinen Zugriff mehr. Platinservice (sofern man das so nennen darf) hab ich dann endlich auch mal nach fast 1 1/2 Std. erreicht. Sorry aber solche Ausfälle über so einen langen Zeitraum darf es bei dem größten Provider in D nicht geben. Das hat schon einen deletantischen Beigeschmack. Irgendwer hat da seine Hausaufgaben nicht richtig gemacht. Aber was soll´s, muss der Kunde sich eben ein wenig gedulden.

    Antworten
  22. Flo

    Die 1und1 Statusseite wurde ja auch am 04.08.2011 das letzte mal aktualisiert :-) Sehr fix die Jungs

    Antworten
  23. admin Autor

    Mein Blog, auf nem Dual Advanced, ist nur teilweise betroffen, ein paar Plugins, die von außen Daten nachladen funktionieren nicht und musste ich grad abstellen.

    Antworten
  24. admin Autor

    Ja, da ist wohl ne Kleinigkeit kaputt. Im Forum is auch gut was los, Link hab ich grad in den Post reineditiert.

    Antworten
  25. Gerald

    Kann ich bestätigen.
    Sowohl Root-Server als auch Managed Server sind betroffen.
    Per serieller Konsole kommt man auf seinen Server, hier endet bei einem Traceroute das Routing nach 2 Hops.
    Scheint ein Routerausfall o.ä. bei 1und1 intern zu sein.

    Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.