Passer le menu

Auteur Sujet: Rapport d'incident du 20 juin 2018  (Lu 247 fois)

Zatalyz

  • La Papesse
  • Orateur émérite
    • Voir le profil
Rapport d'incident du 20 juin 2018
« le: 22 juin 2018 à 09:42:02 »
Bonjour à toutes et tous,
Nous venons d'avoir un beau plantage sur la partie web. Le 20 juin vers 10h, tout s'est mis à sévèrement buguer sur notre VM jukni3 (qui héberge la majorité du site web). J'étais présente, donc j'ai pu rapidement me mettre au travail dessus, mais les dégâts étaient un peu trop gros pour que je remette rapidement le système en place.

Parenthèse technique et résumée pour celles que ça intéresse : le système a cafouillé et s'est mis à attribuer des droits aberrants à des fichiers systèmes ; le disque est passé en lecture seule. Des erreurs sur le disque lui-même sont apparus, nécessitant un fsck. J'ai tenté diverses opérations de récupération, sans grand succès et ça a du casser d'autres choses au passage (entre autre le /etc/shadow, il est probable que ça vienne d'une de mes manip). J'ai fini par copier les données de côté, puis réinitialiser le dernier snapshot qui datait de fin mai, soit 20 jours de pertes ; j'ai resynchronisé les données du web ensuite.

Fin de la parenthèse technique. Théoriquement, aucun travail ne devrait être perdu. Si vous rencontrez des bugs nouveaux, merci de les signaler. Une seule chose n'est pas revenu à la normale, c'est le nextcloud, je n'ai pas encore réussi à le récupérer. Au pire, je referais son installation, ce n'est pas très grave.

Le problème lui-même ne devrait pas se reproduire tout de suite si j'ai bien analysé la cause probable... Par contre, cet épisode a mis en avant nos manquement en matière de sauvegarde. Si rien n'a été perdu, c'est de la chance, car il était encore possible de récupérer les données. Un plantage plus sévère aurait mené à vraiment perdre le travail accompli sur un mois. Malheureusement je ne peux pas dire que ce problème va se régler dans les jours qui viennent, nous manquons de moyens humains pour faire ce travail, même si je vais tenter de faire ce que je peux.

Zatalyz

  • La Papesse
  • Orateur émérite
    • Voir le profil
Re : Rapport d'incident du 20 juin 2018
« Réponse #1 le: 24 juin 2018 à 21:28:42 »
Après la remise à neuf, les flux rss étaient cassés. Cela devrait être réglé. D'ailleurs ce message est un peu là pour tester si pendorid va courir  >:D

Tags: