19.01.2016 - Driftsmelding

 

Statusrapport: (pr 24. mai 2016)

Nytt vedlikeholdsvindu er planlagt søndag 29. mai. Backup nettverk skal settes i produksjon igjen og vi forventer at dette er siste runde med arbeid for å få avsluttet denne saken.

Statusrapport: (pr 5. mai 2016)

Det er foretatt nok et switch bytte på Vollebekk, videre feilsøking vil bli gjort med Dell.

Statusrapport: (pr 27. april 2016)

Ny runde med feilsøking av utstyr. Har involvert Dell for hands-on bistand.

Statusrapport: (pr 3. mars 2016)

Utskifting av utstyr og funksjonstest av våre systemer vil bli gjennomført søndag 6. mars og krever nedetid i vårt datasenter. Vi forventer at dette vil være siste runde med arbeid etter den uplanlagte nedetiden 19. januar 2016.

Statusrapport: (pr 29. februar 2016)

Etter feilsøking 28. februar er det konkludert med fysisk defekt nettverksutstyr som må byttes. Kommer tilbake til tidspunkt for dette.

Statusrapport: (pr 23. februar 2016)

Videre feilsøking vil bli gjennomført 28. februar 2016 og vil kreve nedetid i vårt datasenter.

Statusrapport: (pr 16. februar 2016)

Videre dialog med Dell fører til at vi må oppgradere software på vår nettverks infrastruktur for videre feilsøking. Det vil bli sendt ut varsling om nedetid i nær framtid.

Statusrapport: (pr 15. februar 2016)

Etter innmeldt sak til Pro support hos Dell er det gjennomført feilsøking av SAN og kjernenettverk på vårt datasenter. Innsamlet data og dokumentasjon danner grunnlaget for videre dialog og framdrift med Dell.

Statusrapport: (pr 20. januar 2016 kl 15:30)

Natt til tirsdag 19. januar ca kl 01:45 ble det påstartet arbeid med å patche firmware på sentrale disksystemer (SAN). Alle våre SAN har doble kontrollere og redundant nettverk slik at denne typen arbeid skal kunne foregå uten nedetid og regnes som en rutine oppgave.

Når firmware patches oppgraderer SANet først den passive kontrolleren, deretter gjør SANet en kontrollert failover fra aktiv til passiv kontroller før den nå passive kontrolleren patches. På den måten vil begge kontrollerer ha fått oppgradert firmware.

Firmware ble patchet som normalt på den passive kontrolleren, men da SANet gjorde en kontrollert failover fra aktiv til passive kontroller mistet vi kontakt med SANet. Dette skjedde kl 01:52.

Det ble deretter sendt ut personell til datasenteret for videre feilsøking og det ble til slutt foretatt en manuell failover tilbake til fungerende kontroller.

Pga av at alle virtuelle maskiner i en lengre periode var uten tilgang til sin systemdisk ble vi nødt til å slå av alle maskiner og starte dem opp igjen på nytt. Pga den store mengden med virtuelle maskiner og jobben med å få tatt ned miljøet, kjørt det opp igjen kontrollert samt en større manuell jobb med kvalitetssikring av oppkjørte servere og løsninger var ikke alle servere oppe før ca kl 08:40. En av våre eldre epost systemer måtte kjøre full disk sjekk pga feil og var ikke tilgjengelig før ca kl 13.00.

I etterkant av denne hendelsen er all konfigurasjon av SAN og Nettverk kvalitetssikret på nytt og vi har kontaktet Dell Pro Support for bistand til videre feilsøking.

Denne saken oppdateres så snart vi har mer informasjon om årsak og videre tiltak.

Oppdatering 08:47:

Nesten alle tjenester kjører nå som normalt. Det kan ta litt tid før e-post sendes/mottas.

Oppdatering 12:55:
Alle tjenester tilbake som normalt. Fullstending rapport kommer i løpet av 20.01.2016.

Vi opplever for tiden problemer med vår infrastruktur, flere tjenester er utilgjengelige på grunn av dette. Oppdateringer vil komme fortløpende.

English status report (20th of januar 15:30)

On Tuesday 19 January, approximately at 1:45, it was commenced efforts to patch firmware on central disk systems (SAN). All our SANs has dual controllers and redundant network so that this type of work should be able to take place without downtime and is considered a routine task.

When a firmware upgrade takes place the passive controller is patched first, then the SAN does a controlled failover from active to passive controller before the now passive controller patches. That way, both controls have been upgraded to new firmware.

Firmware was patched as normal on the passive controller, but when the SAN did a controlled failover from active to passive controller we lost contact. This happened at 1:52.

It was then sent out personnel to the data center for further troubleshooting and it was eventually performed a manual failover back to the functioning controller.

Because all virtual machines for an extended period of time had no access to its system disk we were obliged to turn off all machines and start them up again. Because of the large amount of virtual machines and the job of taking down the environment, starting it up again and a lot of manual work checking servers and services not all servers were up and running before 8:40 PM. One of our older email systems needed to do a full disk check because of disk errors and was not available until approximately 13.00.

In the aftermath of this incident all the configuration of our SANs and network infrastructure have been checked and we have contacted Dell Pro Support for assistance for further troubleshooting.

This case is updated as soon as we have more information about the cause and further action.