Awaria EPIX

Informujemy, iż obserwujemy anomalie w działaniu jednego z przełączników EPIX, obsługującego węzeł GGC i klientów w 4DC.
Niestety musieliśmy dokonać jego restartu, przypadek zgłoszony do Extreme.

Awaria EPIX -> DCenter – Wyjaśnienie DC.

Witam,

W związku z dzisiejszą awarią przekazujemy komunikat wyjaśniający naturę awarii, która dotknęła dużą część transmisji realizowanych w węźle WAR.eFn.

O godzinie 11:21 pracownicy NOC stwierdzili zerwanie dużej ilości klienckich sesji BGP w usługach GLOBAL oraz KIX. Natychmiast przystąpiono do diagnostyki problemu. W związku z brakiem komunikacji z przełącznikami WAR.eFn kolokowanymi na 42p LIM pierwotnie przyjęto możliwość awarii przełącznika w węźle LIM. Jeden z administratorów natychmiast udał się do LIM w celu sprawdzenia sprzętu i ewentualnej jego wymiany. Jednocześnie inny zespół diagnozował problem lokalnie i odpowiadał na zgłoszenia telefoniczne.

Po kilkunastu minutach stwierdzono dziwne zachowanie przełącznika węzłowego WAR.eFn (Extreme x670-48x) kolokowanego w serwerowni dcenter.pl w Orco Tower w Warszawie. W logach nie znajdowały się żadne nietypowe wpisy, przeprowadzone na switchu operacje diagnostyczne nie wykazywały nieprawidłowości, jednak padło podejrzenie że przełącznik pomimo wpisywania adresów MAC do tablicy przestał w sposób prawidłowy forwardować ramki.

W tym samym czasie od administratora wysłanego na LIM 42p przyszła informacja, że wszystkie urządzenia tam zlokalizowane działają prawidłowo. Po przeprowadzeniu jeszcze kilku testów i wewnętrznej konsultacji, przed godziną 12:00 podjęto decyzję o restarcie przełącznika WAR.eFn zlokalizowanego w węźle w Orco Tower.

Restart urządzenia rozwiązał problem i od godziny 12:00 wszelkie transmisje działają prawidłowo.

Trwają jeszcze prace nad bardziej precyzyjnym ustaleniem przyczyny problemu – wiadomo że awarię spowodował błąd oprogramowania przełącznika węzłowego Extreme x670-48x będącego częścią warszawskiego ringu projektu TanieLacze, jednak ze względu na brak jakichkolwiek komunikatów w logach czy innych informacji z urządzenia – bardziej precyzyjne określenie przyczyny może okazać się niemożliwe.

pozdrawiam,
NOC KIX

Łącze do Czech.

W dniu dzisiejszym obserwowaliśmy krótkie przerwy w transmisji do Czech (w zakresie od 10.30 do 12.30).
Były one spowodowane wolnym przełączaniem się spanning tree między łączem głównym a obejściowym.
Niestety ostatnie przełączenia zbiegły się w czasie z awarią w DCenter, co spowodowało zwiększenie się zakresu niedostępnych tras w usłudze EP-Global.
Pracujemy nad rozwiązaniem, jutro nad ranem przeprowadzimy krótkie testy symulacyjne zastosowanych zmian w konfiguracji (nie powinny być destrukcyjne).

Awaria EPIX -> DCenter – Zakończenie.

Awaria została zlokalizowana w Dcenter, był to problem oprogramowania w jednym ze switchy szkieletowych, został on zrestartowany.

EPIX wprowadzi zmiany w timerach usług upstreamowych EP-Global, co powinno ograniczyć bardzo długi czas konwergencji ścieżek przy awarii tego typu (czyli wielu następujących po sobie przerw w transmisji, lub polegających na utrzymaniu sesji na zdegradowanej transmisji).

Awaria EPIX

Informujemy, iż obserwujemy anomalie w działaniu EPIX.
Trwa identyfikowanie przyczyny problemu.

Awaria EPIX – Sitel – Czechy – zakończenie.

Prace zmierzające do naprawy drogi obejściowej zakończyły się sukcesem, łącze wygląda stabilnie.
Przez najbliższy czas (jak się okazuje nawet miesiąc) będziemy szli znacznie dłuższą drogą, co w pewnym stopniu zwiększa podatność na awarie CZ-Global i CZ-IX.
Uczestników dla których CZ-Global jest podstawowym łączem, bez backupu polecamy migrację do usługi EP-Global, której dokonamy od ręki (opłata za uruchomienie nowego vlana i sesji to 50+50PLN), a kontrakt na CZ-Global ulega samoczynnemu rozwiązaniu.
Usługa EP-Global jest realizowana 6 różnymi operatorami upstreamowymi, 4 niezależnymi drogami do KAT i umożliwia korzystanie z 2 sesji na dwóch różnych routerach i naszych węzłach.

Awaria EPIX – Sitel -Czechy

W związku z pracami konserwacyjnymi czeskiej sieci energetycznej nastąpiło rozłączenie włókien światłowodowych służących do transmisji Katowice-Ostrawa.
Prace będą trwały dłuższy czas (ok 14 dni), Czesi wraz z Sitelem zapewnili obejście dla naszych transmisji na czas realizacji prac.
Niestety droga obejściowa okazała się niesprawna, pracują nad rozwiązaniem problemu.
Czas usunięcia nieznany, podejrzewam, iż może to potrwać.

Awaria EPIX – Zakończenie.

Informujemy, iż przyczyną problemów z routerem jest niewłaściwa obsługa multilinków 10G w jednym ze switchy EPIX.
Problem pozostaje nierozwiązany, raportujemy problem do supportu przełączników.

Zastosowano rozwiązanie zastępcze, które powinno postrzymać występowanie problemów do czasu ich finalnego rozwiązania (zapewne update oprogramowania przełącznika).

Awaria EPIX – Router/RS1.

Informujemy, iż obserwujemy anomalie w działaniu jednego z routerów EPIX.
Trwa identyfikowanie przyczyny problemu.

Awaria EPIX – Atman.

Informujemy, iż obserwujemy awarię łącza Atmana KATOWICE-WARSZAWA.

Na chwilę obecną nie dysponujemy żadnymi informacjami dotyczącymi rodzaju/lokalizacji usterki oraz przybliżonego terminu przywrócenia transmisji.