DIVERA 24/7 - Überlastung durch Probealarmierungen am Sa 12:00 Uhr – Details zu Vorfällen

Alle Systeme funktionieren

Überlastung durch Probealarmierungen am Sa 12:00 Uhr

Gelöst
Großer Ausfall
Aufgetreten am vor 5 MonatenDauerte 2 Tage

Betroffen

Hauptsysteme

Großer Ausfall aus 11:04 AM zu 2:32 PM, Funktionsfähig aus 2:32 PM zu 5:13 PM

DIVERA 24/7 (API + Web-App)

Großer Ausfall aus 11:02 AM zu 11:11 AM, Funktionsfähig aus 11:35 AM zu 5:13 PM

Marketing-Website

Großer Ausfall aus 11:04 AM zu 2:32 PM, Funktionsfähig aus 2:32 PM zu 5:13 PM

Aktualisierung
  • Gelöst
    Gelöst

    Montags um 18 Uhr gibt es wöchentlich eine ähnliche Last wie an Samstagen um 12 Uhr. Diese Spitzenlast wurde nach der Änderung soeben erfolgreich abgefangen und führte zu keinen Beeinträchtigungen mehr. Die Anpassung der Konfiguration hat also erfolgreich gewirkt.

  • Überprüfung
    Update

    Die Wartungsarbeiten wurden erfolgreich ohne Unterbrechungen abgeschlossen, die Performance der betroffenen Komponente bei der nächsten Spitzenlast wird jetzt beobachtet.

  • Überprüfung
    Update

    Während weiterer Analyse wurde eine mögliche Ursache für das Problem gefunden. Es gab eine undokumentierte Änderung im verwendeten Datenbankproxy, bei dem sich die Default-Konfiguration für die Anzahl zu verwendender Threads von "auto" auf "1" reduziert hat. Hierdurch werden die verfügbaren Server-Ressourcen nicht ausgenutzt und die Belastbarkeit reduziert sich.

    Diese Änderung werden wir jetzt nach und nach für alle Server wieder rückgängig machen, um anschließend die Belastbarkeit erneut zu überprüfen.

  • Überprüfung
    Überprüfung

    Seit 12:22 Uhr sind unsere Dienste wieder erreichbar.

  • Identifizierung
    Identifizierung

    DIe Ursache scheint eine Software-Komponente zu sein, die letzten Donnerstag aktualisiert wurde. Die Belastbarkeit bei Spitzenlast scheint sich deutlich verschlechtert zu haben.

    Wir gehen davon aus, dass sich das Problem mit sinkender Last in wenigen Minuten von alleine behebt. Außerdem werden wir prüfen, welche Maßnahmen wir ergreifen werden um bei Spitzenlasten wie dem Samstag 12:00 Uhr Probealarm wieder wie gewohnt Stand zu halten.

  • Analyse
    Analyse

    Aktuell kommt es zu extrem langen Antwortzeiten und teilweise Unerreichbarkeit des Dienstes.