Retour d'expérience du mois
Réduire le nombre d’alertes pour améliorer l’efficacité opérationnelleVladimir Kharlamoff d'AGIRC-ARRCO
Retour
Vladimir KHARLAMOFF est Responsable supervision chez AGIRC-ARRCO. Lors de la matinale du 10 mars 2026 sur le thème : « IT Operations : observabilité, AIOps et automatisation », Vladimir a présenté le projet de développement d’une intelligence événementielle dans le but d’améliorer la supervision, la réactivité, tout en réduisant les coûts. Il dévoile les coulisses du projet IEV qui centralise, enrichit et optimise le traitement de 33.000 évènements mensuels.
Nous voulions centraliser toute cette gestion des événements, ce qui nous amenés à développer un webhook permettant de récolter les événements et de générer des tickets. Nous voulions nous rendre indépendant du ou des futurs outils ITSM, en n’ayant qu’à faire évoluer le module d’interface avec l’API d’un éventuel nouvel outil ITSM. Fin 2021, nous avons développé une première version de notre outil IEV (Interface de gestion d’Événements).
Elles sont évidemment multiples. Nous collectons des informations provenant des postes de travail, de l’infrastructure, de nos systèmes, de nos applications, des processus métier et nous suivons nos traitements batch qui permettent de gérer plus de 60 millions d’assurés, de nous assurer que nous avons bien collecté les cotisations salariales et patronales d’1,8 million d’entreprises, et versé le bon montant de pension à chacun de nos 14 millions de bénéficiaires.
Pour nous recentrer sur la partie infrastructure, systèmes et applications, nous gérons les alertes générées par plus de 600.000 éléments, dont plus de 4100 éléments d’infrastructures, et plus de 3000 socles applicatifs, ce qui au total représente plus de 160 applications et plus de 450 bases de données
Tous ces événements sont désormais envoyés vers une solution centralisée : IEV (Interface Evènements), l’outil maison développé en Python. IEV reçoit les événements provenant de multiples outils comme notamment Prometheus, Splunk ou Centreon, et quelques outils complémentaires liés à notre plate-forme d’observabilité.
Si nécessaire, ces événements sont enrichis en récupérant des informations contenues dans notre CMDB. Pour donner un exemple, lorsqu’un file system envoie une alerte de taux de remplissage élevé, nous allons consulter la CMDB pour savoir quelle est l’application qui l’utilise, et ces informations seront intégrées dans le ticket ITSM, pour faciliter la tâche des équipes de support. Nous créons des tickets dans iTop, notre outil ITSM open source, et nous utilisons Grafana pour visualiser et gérer ces événements.
Nous avons également dû trouver une solution pour aider le prestataire à savoir quels étaient les tickets à traiter en priorité, plutôt que les traiter de façon chronologique. Ceci nous a conduit à développer une fonction de scoring. Les évènements les plus sensibles remontent avec un score élevé illustrant leur importance et permettant d’exécuter la consigne associée en priorité.
Nous avons également conçu un outil de remédiation instantanée sur certains événements bien connus. Par exemple, on sait qu’il faut redémarrer un serveur Java dès lors qu’il ne répond plus, alors nous le redémarrons automatiquement sans perdre de temps et sans créer de ticket.
En 2025, en moyenne nous gérons 33.000 événements par mois, c’est un volume important, mais il comprend un nombre important d’alertes proactives, ce qui nous permet de détecter en avance des incidents et même parfois de les éviter.
Notre système d’inhibition intelligente et automatisée permet d’éliminer 28.000 événements, soit une réduction de 85% du volume.
En juillet 2025, notre système d’agrégation a réduit de 40% le nombre de tickets, ce qui a représenté une économie significative sur notre facture mensuelle de pilotage externalisé, en passant de 7000 à 4000 tickets par mois.
Le projet a atteint ses objectifs, Nous avons réussi à réduire le nombre de tickets et à éliminer une grande partie du bruit, cela nous laisse plus de temps pour traiter les sujets de fond,
IEV nous a ouvert des perspectives. Avec notre plate-forme d’observabilité mature, nous maintenons un taux de disponibilité de notre SI supérieur à 99,8 % et notre gestion d’événements permet de maintenir les coûts de pilotage dans le budget prévu.
La prochaine étape consiste à évoluer vers l’AIOps. Grâce à une sémantique maîtrisée, à des événements enrichis par la CMDB, à des fiches de consignes opérationnelles et à un historique pleinement exploitable dans l’ITSM, nous disposons d’un socle de données solide. Celuici permettra de mettre en place une détection avancée des anomalies, capable de formuler des recommandations, voire d’automatiser certaines remédiations, constituant ainsi un véritable outil d’aide à la décision.
Il s’agira pour nous de développer un ensemble d’agents intelligents, capables d’exploiter nos signaux d’observabilité, nos évènements et nos bases de connaissance.
L’idée est d’aller de plus en plus vers une automatisation, que nous mettrons en place par étapes, à l’image du succès de notre gestion des évènements.
Qu’est-ce qui a déclenché votre projet IEV ?
En 2021, nous avons décidé de changer notre outil ITSM existant. A cette époque, nous disposions de multiples composants susceptibles de générer des alertes, avec des scripts développés en interne pour envoyer des mails à cet ancien outil ITSM et le prévenir de l’arrivée d’un événement.Nous voulions centraliser toute cette gestion des événements, ce qui nous amenés à développer un webhook permettant de récolter les événements et de générer des tickets. Nous voulions nous rendre indépendant du ou des futurs outils ITSM, en n’ayant qu’à faire évoluer le module d’interface avec l’API d’un éventuel nouvel outil ITSM. Fin 2021, nous avons développé une première version de notre outil IEV (Interface de gestion d’Événements).
Quelles sont les sources d’événements que centralise IEV ?
Elles sont évidemment multiples. Nous collectons des informations provenant des postes de travail, de l’infrastructure, de nos systèmes, de nos applications, des processus métier et nous suivons nos traitements batch qui permettent de gérer plus de 60 millions d’assurés, de nous assurer que nous avons bien collecté les cotisations salariales et patronales d’1,8 million d’entreprises, et versé le bon montant de pension à chacun de nos 14 millions de bénéficiaires.Pour nous recentrer sur la partie infrastructure, systèmes et applications, nous gérons les alertes générées par plus de 600.000 éléments, dont plus de 4100 éléments d’infrastructures, et plus de 3000 socles applicatifs, ce qui au total représente plus de 160 applications et plus de 450 bases de données
Tous ces événements sont désormais envoyés vers une solution centralisée : IEV (Interface Evènements), l’outil maison développé en Python. IEV reçoit les événements provenant de multiples outils comme notamment Prometheus, Splunk ou Centreon, et quelques outils complémentaires liés à notre plate-forme d’observabilité.
Si nécessaire, ces événements sont enrichis en récupérant des informations contenues dans notre CMDB. Pour donner un exemple, lorsqu’un file system envoie une alerte de taux de remplissage élevé, nous allons consulter la CMDB pour savoir quelle est l’application qui l’utilise, et ces informations seront intégrées dans le ticket ITSM, pour faciliter la tâche des équipes de support. Nous créons des tickets dans iTop, notre outil ITSM open source, et nous utilisons Grafana pour visualiser et gérer ces événements.
Avez-vous développé d’autres fonctionnalité sur IEV ?
Oui, certainement, cela s’est fait progressivement, dans une démarche d’amélioration continue d’IEV.
En 2024, nous avons décidé d’externaliser le pilotage de niveau 1 de son SI. Nous nous sommes rapidement rendu compte que nous envoyions trop de tickets, souvent liés à une même alerte. C’est ce qui nous a engagé à développer un système d’agrégation intelligente, avec des règles paramétrables. Durant une fenêtre de temps, nous regroupons tous les événements liés à cette application. Cette agrégation a permis de réduire le nombre de tickets ainsi que le coût de pilotage.Nous avons également dû trouver une solution pour aider le prestataire à savoir quels étaient les tickets à traiter en priorité, plutôt que les traiter de façon chronologique. Ceci nous a conduit à développer une fonction de scoring. Les évènements les plus sensibles remontent avec un score élevé illustrant leur importance et permettant d’exécuter la consigne associée en priorité.
Nous avons également conçu un outil de remédiation instantanée sur certains événements bien connus. Par exemple, on sait qu’il faut redémarrer un serveur Java dès lors qu’il ne répond plus, alors nous le redémarrons automatiquement sans perdre de temps et sans créer de ticket.
Quel bilan tirez-vous de cette expérience ?
En 2025, en moyenne nous gérons 33.000 événements par mois, c’est un volume important, mais il comprend un nombre important d’alertes proactives, ce qui nous permet de détecter en avance des incidents et même parfois de les éviter.Notre système d’inhibition intelligente et automatisée permet d’éliminer 28.000 événements, soit une réduction de 85% du volume.
En juillet 2025, notre système d’agrégation a réduit de 40% le nombre de tickets, ce qui a représenté une économie significative sur notre facture mensuelle de pilotage externalisé, en passant de 7000 à 4000 tickets par mois.
Le projet a atteint ses objectifs, Nous avons réussi à réduire le nombre de tickets et à éliminer une grande partie du bruit, cela nous laisse plus de temps pour traiter les sujets de fond,
IEV nous a ouvert des perspectives. Avec notre plate-forme d’observabilité mature, nous maintenons un taux de disponibilité de notre SI supérieur à 99,8 % et notre gestion d’événements permet de maintenir les coûts de pilotage dans le budget prévu.
La prochaine étape consiste à évoluer vers l’AIOps. Grâce à une sémantique maîtrisée, à des événements enrichis par la CMDB, à des fiches de consignes opérationnelles et à un historique pleinement exploitable dans l’ITSM, nous disposons d’un socle de données solide. Celuici permettra de mettre en place une détection avancée des anomalies, capable de formuler des recommandations, voire d’automatiser certaines remédiations, constituant ainsi un véritable outil d’aide à la décision.
Il s’agira pour nous de développer un ensemble d’agents intelligents, capables d’exploiter nos signaux d’observabilité, nos évènements et nos bases de connaissance.
L’idée est d’aller de plus en plus vers une automatisation, que nous mettrons en place par étapes, à l’image du succès de notre gestion des évènements.
Autres articles sur le même thème
Le retour d'expérience du mois
"Le bilan carbone est une donnée vivante que l’on remet régulièrement à jour"
par Rémi Ollivier, Directeur de programme Transformation chez U TECH
par Rémi Ollivier, Directeur de programme Transformation chez U TECH
Mag #32
Lire l'article
Le retour d'expérience d'un membre
Entre le FinOps et les Métiers, c’est une affaire de pragmatisme
Mahery Andriambololona, Public cloud FinOps Lead - Allianz France
Mahery Andriambololona, Public cloud FinOps Lead - Allianz France
Mag #31
Lire l'article