Problem z TPIX – zakończenie.

W godzinach porannych obserwowaliśmy flapowanie sesji do TPIX.

TPIX napisał przed momentem:

“W związku z przeprowadzanymi pilnymi pracami serwisowymi pojawiła się niestabilność w pracy jednego z routerów platformy TPIX.

Usterka została już usunięta.

Przepraszamy za problemy.

Pozdrawiamy”

 

[KAT-OP] Problem z transmisją KAT-WRO.

Obserwujemy brak transmisji Korbank KAT-WRO.
Nie mamy dalszych informacji.

Awaria w EPIX [Zakończenie].

Informujemy, iż awaria (czego, czyjej) została usunięta.
Jej przyczyną było (co).
Serdecznie przepraszamy za kłopoty!

Awaria w EPIX [Kontynuacja].

Informujemy, iż awaria jest w trakcie usuwania.
Trwają prace polegające na (opis).

Prawdopodobny termin ich zakończenia to xx.xx.
Serdecznie przepraszamy za kłopoty!

Awaria w EPIX – niezidentyfikowana.

Informujemy, iż obserwujemy awarię (czego, czyjej).

Objawia się ona (czym).

Jesteśmy w trakcie jej (lokalizacji/usuwania).

Prawdopodobny czas usunięcia: (nieznany, x minut/godzin).

[KAT-EP-Global] Problemy z routingiem – kontynuacja.

Rozpoznano przyczynę usterki.
W dniu wczorajszym rozpoczęliśmy wdrażanie nowego systemu automatyki antyDDOS/BH.
Niestety podczas tuningowania ustawień napotkaliśmy problem relacji czasowych pomiędzy reakcjami sytemu BH, a ustawieniami BFD na naszych routerach.
Spowodowało to nieprzewidziane resety sesji do niektórych naszych upstreamów.
Ostatni atak DDOS miał inną charakterystykę niż poprzednie dzisiaj (a odnotowaliśmy już kilka skutecznie wyeliminowanych) i wykazał niewłaściwe ustawienia, które skorygowano.

W ciągu najbliższych dni będziemy korygowali nastawy systemu tak, aby docelowo wyeliminować całkowicie wpływ DDOS na innych poza atakowanym użytkowników usługi EP-Global.
Mamy nadzieję, iż proces wdrożenia nie będzie przebiegał burzliwie i po jego zakończeniu Wasza satysfakcja z korzystania z naszej usługi wróci do poziomu sprzed obecnej nasilonej fali DDOS.

Przepraszamy.

[KAT-EP-Global] Problemy z routingiem.

Badamy naturę problemu.

[KAT-Polmix] Selektywny brak dostępności Onet.

Mamy kilka zgłoszeń o niedostępności celów związanych z onet z niektórych prefixów naszych uczestników w usłudze EP-Polmix.
Zgłaszamy problem do Onet.

Jeśli obserwujecie taki problem prosimy o informacje i tracerouty z podaniem adresu źródłowego na noc@epix.net.pl.

[WAR] Awaryjny restart jednego z przełączników – kontynuacja #2.

Znaleziono przyczynę problemu, błędne działanie translacji vlanów na jednym z przełączników.
Sytuacja jest opanowana, jednak zdecydowaliśmy o radykalnych krokach zmierzających do wyeliminowania w WAR nieodpornej na takie błędy przełączników topologi ringu.
W najbliższych dniach rozplanujemy migrację na sprawdzoną w EPIX KAT architekturę dual core + access wraz z hermetyzacją szkieletu.
Będziemy informowali o planowych pracach w tym zakresie.

Awaryjny restart jednego z przełączników – kontynuacja.

Niestety obserwujemy dalsze problemy z jednym z przełączników, trwają prace zmierzające do usunięcia problemu.