Les valises sont prêtes, les billets pour les vacances rangés soigneusement avec le passeport. Cette fois vous n’avez pas oublié la crème solaire ni l’anti-moustique. Tout est parfait.
Côté boulot aussi vous avez pensé à tout. Il y a quelques temps vous avez recruté « Bob » le hacker de la NSA reconverti dans la sécurité des entreprises. Il veille sur vos données comme Cerbère sur les enfers. Au cas où « Bob » disparaisse, vous avez laissé des instructions hyper claires à vos équipes. Mais de toute façon il ne se passera rien, vos serveurs sont enterrés dans un bunker anti-atomique en Sibérie, gardés par des chasseurs alpins ninjas.
TOUT. Vous avez pensé à tout et votre messagerie, le service le plus critique de l’entreprise, est sous contrôle.
C’est là que votre portable se met à vibrer.
Un sms, puis un autre, puis un autre. Des dizaines et des dizaines de messages pleuvent. Vous n’avez pas le temps d’en lire un que le suivant est déjà là. Il y a Pascal de la compta qui vous demande « Ça revient quand, je dois boucler un truc urgent ?», Stéphanie du commerce « Je te rappelle que le contrat doit partir aujourd’hui », Bernard de la R&D : « comment je fais, on doit livrer un patch cet après-midi !? »…
C’est là que Bob le hackeur extraordinaire vous appelle.
– « On a un problème », vous dit-il.
La sueur vous perle sur le front, et Bob vous assène le coup :
– « Le service de messagerie est tombé ! »
– « Quoi !? Qu’est-ce qu’il s’est passé ?! On a été attaqué ? Une malveillance ? Un problème sur notre datacenter, notre plateforme de virtualisation ? »
« Non non…
« Le disque dur principal est plein »
A l’heure du numérique, des clouds hybride de l’IA à tout va, de la révolution numérique, de la supervision et observabilité de vos process, données et solutions, vous pourriez vous dire que la 1ère cause de panne pour une messagerie sera un problème électrique de votre datacenter ou un mauvais calibrage de l’hybridation de votre plateforme… et bien non ! Il s’agit bel et bien du préhistorique disk full !
Oui… une saturation de l’espace disque de la messagerie.
Le problème le plus courant a lieu dans le spool de mail (dépôt ou sont stockés les mails). Le service de messagerie chahute puis tombe, les opérations n’aboutissent plus, le serveur arrose d’erreurs et va finir par planter. Coté utilisateur, le service n’est plus rendu et le webmail envoie des erreurs à tout va, avant de ne plus répondre.
Plus rarement vous pourrez retrouver un « disk full » niveau système, mais l’autre vraie source de problème vient des logs. Votre messagerie en génère beaucoup. Si les logs ne sont pas sur une partition à part, ce qui est encore souvent le cas, c’est le système complet qui plante !
L’outil de monitoring « TICK » intégré à BlueMind permet de vous en rendre compte ! Les dashboards vous indiquent l’état en temps quasi réel de l’espace disque des utilisateurs. Les données sont historisées sur une fenêtre de 7 jours, donc vous pourrez revenir sur l’état du système avant et au moment de l’incident. Profitez-en pour rajouter une alerte sur l’espace disque !
Vous commencez à vous détendre. C’est bête, et ça aurait pu être évité, mais c’est réparable. Vous pouvez encore attraper votre avion et sauver vos vacances.
Mais Bob le hackeur se râcle la gorge. Il a une autre mauvaise nouvelle…
« Boss, on nous vole du temps »
Les machines virtuelles (VM) de la messagerie partagent des ressources avec d’autres instances sur une plateforme virtualisée. Le processeur (CPU – Central Processing Unit), le moteur qui exécute les instructions des systèmes et programmes de toute la plateforme, est l’une de ces ressources.
En temps normal, les CPU sont plutôt peu sollicités par un système hormis quelques pics d’utilisation, et c’est tout l’intérêt de la virtualisation de les partager entre différents systèmes/VM. Cependant en cas d’un trop grand nombre de VM ou de charge importante sur certaines d’entre-elles, il se peut que les demandent en CPU saturent la plateforme qui ne peut plus attribuer la ressource CPU à vos VM autant qu’elles le demandent.
Le « temps volé » à une VM par la plateforme représente le pourcentage de temps que la VM doit attendre la disponibilité d’un CPU alors qu’elle en a fait la demande – soit le temps ou la plateforme est trop occupée à servir d’autres VM pour répondre à la vôtre.
Ce temps volé est à surveiller car il peut poser des problèmes majeurs. Pour les tâches qui doivent être exécutées en temps quasi réel, comme répondre rapidement à de nombreuses requêtes web ou base de données, une diminution de performance peut entraîner la mise en file d’attente des demandes, d’où des ralentissements jusqu’à des erreurs ou pannes.
Si votre machine virtuelle affiche un pourcentage élevé de temps de vol, cela signifie que les CPU sont retirés de votre machine virtuelle pour servir à d’autres fins. Vous utilisez peut-être plus que votre part de ressources processeur ou le serveur physique peut être surchargé. Essayez de donner plus de ressources processeur à votre machine virtuelle si la plateforme n’est pas saturée, ou déplacez la VM vers un autre serveur physique.
– « Ok, Bob, vous savez régler ça non ? » demandez-vous, fébrile.
– « Oui, Boss. BlueMind permet de surveiller et consulter l’historique de ce temps volé, ce qui nous a permis de régler le problème. »
Au moment où vous vous apprêtez à raccrocher, recouvert de transpiration mais rassuré, Bob vous assène le coup de grâce :
– « Un dernier point…
« On est blacklistés, nos mots de passes sont trop faibles !»
Qui n’a pas déjà pesté devant un formulaire qui vous demande de choisir un mot de passe qui contient 70% de consonnes, 3 majuscules, 2 nombres premiers et un caractère sumérien… ? Et pourtant ces exigences ne sont pas vaines.
Les conséquences d’un mot de passe faible ou laissé par défaut, c’est un compte compromis qui est utilisé pour envoyer massivement du SPAM. Le spam, c’est la gangrène de la messagerie. Il sature votre serveur, mais plus grave, vous êtes catégorisés comme émetteur de SPAM et vos mails commencent à être rejetés par les serveurs de vos destinataires (les antispam bloquent le flux issu de votre serveur) et il faut généralement plusieurs jours à minima, après correction des problèmes, pour retrouver une situation normale.
Attention toutefois, contraindre vos utilisateurs à changer de mot de passe trop régulièrement peut conduire à des choix de mots de passe de plus en plus simples (pour pouvoir s’en rappeler), ou à un gros post-it sur l’écran avec le code actuel.
Avec BlueMind vous pouvez forcer une politique de mot de passe afin d’éviter ce problème.
Si vous utilisez un gestionnaire de mot de passe externe, par exemple avec votre annuaire LDAP, le plus efficace est de générer un mot de passe complexe ou d’inciter vos utilisateurs à choisir un mot de passe différent par compte.
« Partez en vacances tranquille »
Conclut Bob.
Vous vous êtes projetés sur des problèmes tellement complexes que vous en avez oublié l’essentiel : le suivi régulier de certains indicateurs simples permet d’éviter bon nombre de problèmes aussi basiques que bloquants pour vos utilisateurs.
Moralité, aucun « Bob » ne vous dispensera d’assurer un bon suivi !
Pour plus d’informations sur le monitoring de votre système de messagerie vous pouvez consulter l’article de blog qui lui est consacré, regarder la vidéo de présentation de l’outil et nous contacter pour que nous fassions le point ensemble !