Maintenance de nos infrastructures

Note de ce sujet :
  • Moyenne : 0 (0 vote(s))
  • 1
  • 2
  • 3
  • 4
  • 5
#1
Salut tout le monde

Ca ne vous a pas échappé, nous avons passé une semaine de merde, et ça risque de continuer un peu ces prochains jours.


Déjà l'explication des évènements.

FirstHeberg a réalisé l'ouverture de sa nouvelle plateforme VPS la semaine dernière. Cette nouvelle plateforme possède une infra (VM) différente de l'ancienne ce qui lui permet d'être plus performante et plus efficace lorsque leur client souhaite switcher d'une offre à une autre.

Passé la vague de première commande, ils ont commencé à migrer les anciens comptes vers la nouvelle plateforme ce qui devait se faire sans accros. Or, loi de murphy oblige, ça a merdé et ils sont revenu en arrière.

C'est à partir de ce moment que nos problèmes sont apparus. En effet nos deux serveurs ont choisit ce moment pour écouter sur le port 80 en IPV6 ce qui a purement et simplement coupé les sites de la surface du net.

Se rendre compte de cela, corriger le problème sur nos Debian (merci à FH pour le coup de main) nous a pris 24H et a entrainé le bon redémarrage de notre serveur secondaire. Seulement, Murphy oblige, nous avons eu affaire à une panne sur l'ancienne infrastructure VPS qui portait sur l'I/O des disques (disques dur ralentis à mort) et pile au moment ou nous étions en train de remettre à jour le serveur primaire. Complètement coincé ça nous a pris encore 24H pour reprendre la main sur celui ci, le migrer d'infrastructure (10Go de données à migrer), lui corriger ses problèmes provoquées par les dernières turbulences comme le serveur Mysql qui était corrompu et le redémarrer correctement ce qui nous amène à hier matin.

Ensuite ?

Ce n'est pas finit. Déjà le serveur principal s'est coupé tout seul hier dans la journée sans que je sache pourquoi (?!) Un audit doit être mené par des collègues prochainement mais il est évident que je vais devoir revoir (comprenez hard-reset) ce serveur dans les mois qui viennent. Les démos ne sont pas toute relevées, je n'ai juste pas eu le temps de me pencher dessus même si ce ne doit pas être de gros problème. Ensuite il nous reste le serveur secondaire sur l'ancienne infra qui doit encore migrer vers la nouvelle infra et enfin notre nouveau serveur dédié aux démos doit encore être amélioré avant sa mise en production.

En clair de nouvelles coupures vont forcement arriver. Touchant tous les sites de la communauté et certainement pas aux meilleurs moments, vous m'en voyez désolé.

Afin d'améliorer notre réactivité et vous remonter les informations d'indisponibilité nous avons déjà prévu avec FirstHeberg de monter une IP FailOver comme chez Ovh, mais également de mettre en place de manière temporaire une page spéciale en dehors de nos serveurs qui devrait rester accessible même en cas de crash de nos serveurs. Vous trouverez également sur cette page la liste publique de nos sites web avec leur statut ONLINE/OFFLINE + un commentaire pour vous indiquer si c'est une maintenance ou un réel plantage. Cette page est actuellement en 100% statique, ne vous offusquez pas si ce n'est pas mis à jour en temps réel, nous faisons toujours au mieux Smile

En tout cas pensez bien à l'ajouter à vos favoris : http://ping.cmsmadesimple.fr
Répondre
#1
Salut tout le monde

Ca ne vous a pas échappé, nous avons passé une semaine de merde, et ça risque de continuer un peu ces prochains jours.


Déjà l'explication des évènements.

FirstHeberg a réalisé l'ouverture de sa nouvelle plateforme VPS la semaine dernière. Cette nouvelle plateforme possède une infra (VM) différente de l'ancienne ce qui lui permet d'être plus performante et plus efficace lorsque leur client souhaite switcher d'une offre à une autre.

Passé la vague de première commande, ils ont commencé à migrer les anciens comptes vers la nouvelle plateforme ce qui devait se faire sans accros. Or, loi de murphy oblige, ça a merdé et ils sont revenu en arrière.

C'est à partir de ce moment que nos problèmes sont apparus. En effet nos deux serveurs ont choisit ce moment pour écouter sur le port 80 en IPV6 ce qui a purement et simplement coupé les sites de la surface du net.

Se rendre compte de cela, corriger le problème sur nos Debian (merci à FH pour le coup de main) nous a pris 24H et a entrainé le bon redémarrage de notre serveur secondaire. Seulement, Murphy oblige, nous avons eu affaire à une panne sur l'ancienne infrastructure VPS qui portait sur l'I/O des disques (disques dur ralentis à mort) et pile au moment ou nous étions en train de remettre à jour le serveur primaire. Complètement coincé ça nous a pris encore 24H pour reprendre la main sur celui ci, le migrer d'infrastructure (10Go de données à migrer), lui corriger ses problèmes provoquées par les dernières turbulences comme le serveur Mysql qui était corrompu et le redémarrer correctement ce qui nous amène à hier matin.

Ensuite ?

Ce n'est pas finit. Déjà le serveur principal s'est coupé tout seul hier dans la journée sans que je sache pourquoi (?!) Un audit doit être mené par des collègues prochainement mais il est évident que je vais devoir revoir (comprenez hard-reset) ce serveur dans les mois qui viennent. Les démos ne sont pas toute relevées, je n'ai juste pas eu le temps de me pencher dessus même si ce ne doit pas être de gros problème. Ensuite il nous reste le serveur secondaire sur l'ancienne infra qui doit encore migrer vers la nouvelle infra et enfin notre nouveau serveur dédié aux démos doit encore être amélioré avant sa mise en production.

En clair de nouvelles coupures vont forcement arriver. Touchant tous les sites de la communauté et certainement pas aux meilleurs moments, vous m'en voyez désolé.

Afin d'améliorer notre réactivité et vous remonter les informations d'indisponibilité nous avons déjà prévu avec FirstHeberg de monter une IP FailOver comme chez Ovh, mais également de mettre en place de manière temporaire une page spéciale en dehors de nos serveurs qui devrait rester accessible même en cas de crash de nos serveurs. Vous trouverez également sur cette page la liste publique de nos sites web avec leur statut ONLINE/OFFLINE + un commentaire pour vous indiquer si c'est une maintenance ou un réel plantage. Cette page est actuellement en 100% statique, ne vous offusquez pas si ce n'est pas mis à jour en temps réel, nous faisons toujours au mieux Smile

En tout cas pensez bien à l'ajouter à vos favoris : http://ping.cmsmadesimple.fr
Répondre
#2
Je vois que tu prends ton pied :lol:
Répondre
#2
Je vois que tu prends ton pied :lol:
Répondre
#3
t'as pas idée... c'est pas comme si j'avais que ça a faire que de zieuter des logs pour chercher ce qui déconne -_-
Répondre
#3
t'as pas idée... c'est pas comme si j'avais que ça a faire que de zieuter des logs pour chercher ce qui déconne -_-
Répondre


Atteindre :


Utilisateur(s) parcourant ce sujet : 1 visiteur(s)