Abonnez-vous au flux d'information !

05/09/2019

VSActivity / VSPortage / VSExperience Dysfonctionnement de notre système de cache

Nous avons du redémarrer hier soir, le 5 septembre à 23h30 heure de Paris, notre service de cache pour appliquer une mise à jour du noyau Linux qui corrige des failles de sécurité qui concernent les processeurs intel. Nous réalisons régulièrement de telles actions pour maintenir nos serveurs à jour et sécurisés.

Le redémarrage de notre service de cache s'est bien passé, mais une partie des données qui sont remontées en cache étaient incomplètes. Nous n'avions pas de sonde au niveau de nos outils de surveillance pour détecter une telle anomalie.

Cela a entrainé des problèmes de paramètres au niveau de la moitié des environnements VSA et VSP, paramètres qui étaient mal initialisés.

Ce matin, le 6 septembre à 9h15 heure de Paris, l'équipe support a alerté l'équipe système de ces dysfonctionnements. A 9h30 heure de Paris, l'équipe système a forcé une purge de notre système de cache afin de remettre les bons paramétrages dans celui-ci. Cette action a résolu les incidents remontés par nos clients.

Depuis cet incident, l'équipe système fait le nécessaire pour mettre en place une sonde au niveaux de nos outils de surveillances afin de détecter ce type d'anomalie. Notre procédure de redémarrage du système de cache va également être mise à jour pour contrôler que les données sont bien remontées une fois celui-ci redémarré. Notez que dès qu'un incident se produit, nous cherchons systématiquement à améliorer nos procédures pour que l'incident en question ne se reproduise pas, mais également pour que nos outils de surveillances détectent l'incident afin de pouvoir réagir rapidement.