Le 08/04/2022 à 16h18 heure de Paris - Verbatim post incident
Bonjour, nous faisons un retour suite à l'incident d'hier pour vous détailler ce qu'il s'est passé et comment nous avons réussi à fournir un accès à nos clients.
Le 7 avril 2022 à 15h35 heure de Paris exactement, notre load balancer principal, le point d'entrée quand on utilise nos services, n'a plus reçu aucun trafic public (d'internet). Pour cette situation précise, nous avons une procédure, basculer les adresses IP vers un autre load balancer, celui de secours, qui attend sagement. Nous lançons la bascule, mais l'opération reste en statut "Mise à jour en cours", normalement, c'est une opération qui prend quelques dizaines de secondes, mais la au bout de 5 minutes, rien ne se passe. Les IP pointent toujours vers le load balancer principal qui n'est pas accessible.
Nous avions déjà ouvert un ticket à l'assistance Scaleway pour leur indiquer que notre load balancer était inaccessible depuis l'extérieur. Nous ouvrons un second ticket en mode urgent pour indiquer que la bascule de nos adresses IP flottantes, celle qui reçoivent tout le flux entrant de nos services, ne basculent pas. Réponse de l'assistance : nous avons un switch hors service dans la baie de votre load balancer principal et les bascules d'adresses IP flottantes sont bloquées tant que le switch ne sera pas remplacé, il va falloir être patient. Nous commençons donc à attendre, en espérant que le remplacement du switch aille vite.
A 16h30 toujours pas d'information sur l'incident chez Scaleway. Remplacer un switch, ça peut être long, au-delà de l'opération physique, il faut recharger la configuration et ce n'est pas forcément simple. Nous sentons que ça va être long. Nous décidons de monter un 3ème load balancer avec de nouvelles adresses IP pour nous services. Nous trouvons une stratégie pour modifier les enregistrements DNS en masse pour pointer vers les nouvelles adresses IP et à 17h, le nouveau load balancer commence a recevoir du trafic.
Nous avons donc appris que l'utilisation d'adresses ip flottantes pouvait être un point bloquant et nous intégrons dans nos procédures l'utilisation d'adresses IP de secours pour gérer ce genre de situation.
La bascule d'adresse IP est restée bloquée jusqu'à 22h30 heure de Paris et Scaleway a subi un autre problème de switch dans la nuit qui a paralysé cette fois-ci notre load balancer de secours. Nous sommes donc encore sur le load balancer monté hier spécialement pour cet incident. Nous prévoyons de basculer sur le load balancer principal ce week-end et nous gardons ce troisième load balancer en cas d'incident similaire.
Le 07/04/2022 à 17h heure de Paris
Mise à jour à 17h heure de Paris. Les équipes de Scaleway sont sur le problème.
Nous avons décidé de mettre en route un troisième load balancer qui n'est pas impacté par le problème réseau de Scaleway.
Le DNS est en cours de mise à jour.
Le 07/04/2022 à 13h35 heure de Paris
Bonjour,
Depuis 15h35 heure de Paris, nos 2 load balancers sont injoignables depuis internet. Toute la plateforme VSA / VSP / VSE est fonctionnelle au travers de nos réseaux privés, mais inaccessible depuis l'extérieur. Nous nous rapprochons actuellement de notre hébergeur pour savoir ce qu'il en est.