Awaria EPIX – Atman – Zakończenie.
W dniu dzisiejszym w po godzinie 15.20 rozpoczął się trwający kilkanaście minut problem w sieci szkieletowej EPIX, który można było zaobserwować jako zakłócenia w dostępie do wszystkich usług.
Był on spowodowany dość nietypową w skutkach pętlą L2, wyjaśniamy przyczyny tak dużego wpływu na cały EPIX:
1. Sprawca, czyli uruchamiany dzisiaj usługowo port dla klienta był sztuką z recyklingu, skonfigurowanym uprzednio tylko dla usługi IPTV SGT, w związku z tym nie miał skonfigurowanych standardowo restrykcyjnych zasad ochrony przed działaniami abusywnymi, przegapienie tego to pierwsza przyczyna, która nie musiała jeszcze doprowadzić do awarii…
2. Czujność inżynierów została uśpiona przez fakt, iż przełącznik ten jest przeznaczony do wymiany na bardziej zaawansowany w najbliższych dniach, więc podchodzą do niego z luzem, bo będzie budowana nowa konfiguracja od zera, ale….
3. Nasi inżynierowie do dzisiaj absolutnie nie zakładali, iż nowy klient EPIX może posiadać czynne połączenie z vlanem peeringowym naszego IX zrealizowanego portem innego kolegi (notabene jest prawdopodobne że nieświadomie – vlan leak), dlatego usuwanie problemu nie trwało kilkudziesięciu sekund tylko kilkanaście minut, bo nie wiązaliśmy jednoznacznie uruchomienia vlanu na porcie (okolice 14.00) z awarią po podniesieniu się L3 u klienta (15.20).
Niestety nie wiemy jednego, dlaczego pętla rozpropagowała się w naszym teoretycznie (praktycznie zresztą też, bo taka sytuacja ostatni raz wystąpiła ponad rok temu) dobrze zabezpieczonym szkielecie, i co najdziwniejsze daleko do sieci naszych klientów i dostawców, w tym dużych, dysponujących zaawansowanym sprzętem (Atman, Netia, Polsl, Sitel), który również nie zabezpieczył ich przed skutkami tej usterki. Być może pozyskamy ich logi, które pomogą rozpoznać naturę problemu i ustrzec się przed nim w przyszłości nie tylko procedurami, ale też mechanizmami zabezpieczającymi przed ew. błędem człowieka.
Serdecznie przepraszamy!
Napisz komentarz
Want to join the discussion?Feel free to contribute!