Le retour d'expérience du mois
Le déploiement de l’IA va engager des challenges stratégiques nouveaux en matière de HPCVictor Martin, Responsable de la plateforme numérique R&D Paris-Saclay - TotalEnergies OneTech
Retour
Victor MARTIN est Responsable de la plateforme numérique R&D Paris-Saclay chez TotalEnergies OneTech. Lors de la Matinale HPC du 20 janvier 2026, Victor a présenté l’évolution de la stratégie HPC au sein de l’entreprise, l’impact grandissant de l’IA sur les infrastructures, et les mesures prises pour limiter la croissance de la consommation énergétique du HPC
Le deuxième cas d’usage est la simulation de réservoir. Nous simulons les écoulements des fluides dans les couches réservoir du sous-sol, qui nous sont utiles à la fois pour la production de pétrole et de gaz, mais aussi pour l’injection de CO2. Même si ces modèles augmentent en taille et en résolution, ils ne représentent actuellement que 5% de nos ressources HPC.
Les 5% restants sont consommés par tous les autres cas d’usage, principalement liés à de nouveaux business pour TotalEnergies. Je pense par exemple à la dynamique et la simulation moléculaire, ou encore l’évaluation des turbulences dans les parc d’éoliennes.
L’essentiel de nos ressources HPC est localisé dans un datacenter sur notre centre de Pau.
En suivant ces évolutions technologiques, nous avons appris au fil du temps à standardiser nos processus de tests. C’est très utile pour pouvoir comparer entre elles de nouvelles machines avant d’en faire l’acquisition. Nous avons créé des proxy apps qui répliquent les cœurs de calcul, nous permettant ainsi de faire des optimisations mais surtout de tester et comparer les différents hardwares. Et comme tous les codes de calcul ont des besoins différents, en parallèle de notre infrastructure HPC principale, nous avons fait l’acquisition de machines plus petites et spécialisées pour différentes configurations.
On est passés d’un monde dans lequel nous avions quelques grosses applications HPC très ciblées, à un monde où nous utilisons un plus grand nombre d’applications, plus diverses, ce qui rend de plus en plus délicat pour nous de garder un système HPC à la fois stable et répondant à tous les usages, majoritairement Open Source.
En termes de plateformes matérielles, nous passons de quelques fournisseurs HPC établis à une palette de fournisseurs potentiels plus spécialisés dans le calcul, comme dans le stockage, sans oublier le cloud.
Pour réaliser notre veille et nos évaluations dans des phases précoces, nous avons une équipe située aux USA au cœur de l’écosystème du HPC. Elle réalise des tests R&D sur de nouveaux hardwares, sur de nouveaux modèles de programmation. Elle contribue également au portage de codes et à des tests de mise à l’échelle. Une fois que les workflows sont plus robustes ils sont mis à l’échelle de production et déployés à Pau par les équipes dédiées.
Avec la diversification des usages, le nombre d’utilisateurs HPC est en croissance, avec parfois des utilisateurs externes à TotalEnergies, ce qui peut poser des soucis en matière de cybersécurité.
Enfin, comme tout le monde, nous assistons à l’arrivée de workflows d’IA, avec des utilisateurs qui veulent installer des solutions IA provenant d’internet, ce qui nous oblige à ouvrir les HPC vers l’extérieur, tout en garantissant une sécurité maximale.
Par exemple, en matière de refroidissement, nous avons été précurseurs dès 2013 en déployant des technologies de Direct Liquid Cooling sur nos machines. Nous avons également déployé des systèmes de refroidissement à inertie avec de la glace qu’on forme de nuit, lorsque l’énergie est plus abondante et moins chère, et que l’on utilise durant la journée. Nous utilisons également de l’énergie stockée dans des batteries.
Le GPU permet de réduire le ratio mégawatt consommé par pétaflop, de façon à faire beaucoup plus de calcul, à consommation énergétique égale.
Enfin, depuis 2024, nous avons démarré des actions pour améliorer le profil énergétique des codes, en testant par exemple des solutions de variation de fréquence. TotalEnergies est membre signataire de la Coalition pour une IA durable.
Nous voyons arriver à la fois de plus en plus de codes de Computational Fluid Dynamics (mécanique des fluides numérique) utilisés par exemple pour les champs d’éoliennes, mais aussi des workflows d’IA et des modèles de prévision météo pour les renouvelables qui prennent de l’ampleur. Ces nouveaux usages sont le reflet de la diversification de nos businesses vers des énergies bas carbone.
Un challenge technique important est notre résilience vis-à-vis des évolutions d’architecture des CPU et GPU. On est passés du x86 au GPU et d’autres architectures arrivent : ARM, RISC V, Data Flow. Tout cela nécessite des adaptations de code, qui ne tirent pas parti de la même façon de ces différentes architectures.
Le déploiement de l’IA va engager des challenges stratégiques nouveaux. Avec l’IA, le HPC pour la simulation est différent d’un HPC pour l’entrainement de modèles, et encore différent d’un système pour l’inférence, ce qui pose des défis de prévision de balance des différentes configuration matérielles et réseau. Nous avons aussi commencé à utiliser des ressources HPC sur le cloud pour une application ciblée.
Le taux d’occupation des machines HPC est très important pour les calculs sismiques, ce qui milite pour poursuivre nos investissements sur des ressources on-prem pour cette application. En revanche, la moins grande intensité de calcul des modèles d’IA ‘faible’ favorise jusqu’ici plutôt une utilisation du cloud. Mais tout cela est en train de changer avec des modèles d’IA de plus en plus gros et des modalités d’entrainement qui s’approchent des applications de simulation en intensité de calcul. Notre division entre on-prem et cloud pourrait de ce fait évoluer si l’usage de modèles d’IA lourds se généralise.
Quels sont les principaux cas d’usage HPC chez TotalEnergies ?
Le plus important est un cas d’usage géoscience qui consiste à traiter des volumes de données extrêmement importants d’enregistrements sismiques afin de réaliser des images du sous-sol. L’objectif est d’identifier des gisements pétroliers, et de mieux les caractériser. De nouvelles méthodologies permettent désormais d’obtenir une résolution de plus en plus fine, et de mieux tenir compte de la complexité du sous-sol. Ce cas d’usage représente environ 90% de notre utilisation du HPC.Le deuxième cas d’usage est la simulation de réservoir. Nous simulons les écoulements des fluides dans les couches réservoir du sous-sol, qui nous sont utiles à la fois pour la production de pétrole et de gaz, mais aussi pour l’injection de CO2. Même si ces modèles augmentent en taille et en résolution, ils ne représentent actuellement que 5% de nos ressources HPC.
Les 5% restants sont consommés par tous les autres cas d’usage, principalement liés à de nouveaux business pour TotalEnergies. Je pense par exemple à la dynamique et la simulation moléculaire, ou encore l’évaluation des turbulences dans les parc d’éoliennes.
Comment avez-vous fait évoluer votre HPC ?
Nous avons commencé le HPC dans les années 1980, avec des ordinateurs vectoriels de type CRAY. Dans les années 90 nous sommes passés aux systèmes scalaires avec des machines Silicon Graphics et avons vécu avec les architectures x86 pendant assez longtemps. En 2019 nous avons introduit dans notre machine de production Pangea 3 les premières cartes GPU pour accélérer les workflows de traitement pour l’imagerie sismique. Le portage des codes vers des GPU est une tache significative qui nous a pris 4 ans : 2 ans d’évaluation et 2 ans de portage avec une équipe dédiée.L’essentiel de nos ressources HPC est localisé dans un datacenter sur notre centre de Pau.
En suivant ces évolutions technologiques, nous avons appris au fil du temps à standardiser nos processus de tests. C’est très utile pour pouvoir comparer entre elles de nouvelles machines avant d’en faire l’acquisition. Nous avons créé des proxy apps qui répliquent les cœurs de calcul, nous permettant ainsi de faire des optimisations mais surtout de tester et comparer les différents hardwares. Et comme tous les codes de calcul ont des besoins différents, en parallèle de notre infrastructure HPC principale, nous avons fait l’acquisition de machines plus petites et spécialisées pour différentes configurations.
L’évolution de l’activité de TotalEnergies remet-elle en question votre vision du HPC ?
Notre activité historique centrée autour du pétrole s’élargit aujourd’hui aux énergies renouvelables, au stockage d’énergie dans des batteries, dans la biomasse et le stockage géologique du CO2. Tout ceci entraine une diversification des problèmes physiques que l’on veut à la fois simuler et résoudre.On est passés d’un monde dans lequel nous avions quelques grosses applications HPC très ciblées, à un monde où nous utilisons un plus grand nombre d’applications, plus diverses, ce qui rend de plus en plus délicat pour nous de garder un système HPC à la fois stable et répondant à tous les usages, majoritairement Open Source.
En termes de plateformes matérielles, nous passons de quelques fournisseurs HPC établis à une palette de fournisseurs potentiels plus spécialisés dans le calcul, comme dans le stockage, sans oublier le cloud.
Pour réaliser notre veille et nos évaluations dans des phases précoces, nous avons une équipe située aux USA au cœur de l’écosystème du HPC. Elle réalise des tests R&D sur de nouveaux hardwares, sur de nouveaux modèles de programmation. Elle contribue également au portage de codes et à des tests de mise à l’échelle. Une fois que les workflows sont plus robustes ils sont mis à l’échelle de production et déployés à Pau par les équipes dédiées.
Avec la diversification des usages, le nombre d’utilisateurs HPC est en croissance, avec parfois des utilisateurs externes à TotalEnergies, ce qui peut poser des soucis en matière de cybersécurité.
Enfin, comme tout le monde, nous assistons à l’arrivée de workflows d’IA, avec des utilisateurs qui veulent installer des solutions IA provenant d’internet, ce qui nous oblige à ouvrir les HPC vers l’extérieur, tout en garantissant une sécurité maximale.
Comment concilier l’accroissement des usages HPC et la volonté de limiter la consommation énergétique ?
De la fin des années 90 jusqu’au début des années 2000, nous avons constaté une forte accélération de la consommation de puissance de calcul, de mémoire et de stockage qui ont accompagné la mise en œuvre de nouvelles méthodologies de calcul pour l’exploration pétrolière, Heureusement, la consommation électrique n’a pas suivi la tendance, en partie grâce à l’arrivée des GPU dans notre parc HPC, mais aussi aux différentes mesures mises en œuvre pour amplifier les économies d’énergie.Par exemple, en matière de refroidissement, nous avons été précurseurs dès 2013 en déployant des technologies de Direct Liquid Cooling sur nos machines. Nous avons également déployé des systèmes de refroidissement à inertie avec de la glace qu’on forme de nuit, lorsque l’énergie est plus abondante et moins chère, et que l’on utilise durant la journée. Nous utilisons également de l’énergie stockée dans des batteries.
Le GPU permet de réduire le ratio mégawatt consommé par pétaflop, de façon à faire beaucoup plus de calcul, à consommation énergétique égale.
Enfin, depuis 2024, nous avons démarré des actions pour améliorer le profil énergétique des codes, en testant par exemple des solutions de variation de fréquence. TotalEnergies est membre signataire de la Coalition pour une IA durable.
Comment voyez-vous l’évolution du HPC au sein de TotalEnergies ?
Notre utilisation principale du HPC va rester liée aux besoins exprimés par l’imagerie sismique. Les progrès sur l’optimisation des codes vont se poursuivre dans le temps afin d’utiliser au mieux des machines qui auraient besoin d’une puissance 30 fois supérieure pour traiter de tels algorithmes.Nous voyons arriver à la fois de plus en plus de codes de Computational Fluid Dynamics (mécanique des fluides numérique) utilisés par exemple pour les champs d’éoliennes, mais aussi des workflows d’IA et des modèles de prévision météo pour les renouvelables qui prennent de l’ampleur. Ces nouveaux usages sont le reflet de la diversification de nos businesses vers des énergies bas carbone.
Un challenge technique important est notre résilience vis-à-vis des évolutions d’architecture des CPU et GPU. On est passés du x86 au GPU et d’autres architectures arrivent : ARM, RISC V, Data Flow. Tout cela nécessite des adaptations de code, qui ne tirent pas parti de la même façon de ces différentes architectures.
Le déploiement de l’IA va engager des challenges stratégiques nouveaux. Avec l’IA, le HPC pour la simulation est différent d’un HPC pour l’entrainement de modèles, et encore différent d’un système pour l’inférence, ce qui pose des défis de prévision de balance des différentes configuration matérielles et réseau. Nous avons aussi commencé à utiliser des ressources HPC sur le cloud pour une application ciblée.
Le taux d’occupation des machines HPC est très important pour les calculs sismiques, ce qui milite pour poursuivre nos investissements sur des ressources on-prem pour cette application. En revanche, la moins grande intensité de calcul des modèles d’IA ‘faible’ favorise jusqu’ici plutôt une utilisation du cloud. Mais tout cela est en train de changer avec des modèles d’IA de plus en plus gros et des modalités d’entrainement qui s’approchent des applications de simulation en intensité de calcul. Notre division entre on-prem et cloud pourrait de ce fait évoluer si l’usage de modèles d’IA lourds se généralise.
Autres articles sur le même thème
Le retour d'expérience d'un membre
Entre le FinOps et les Métiers, c’est une affaire de pragmatisme
Mahery Andriambololona, Public cloud FinOps Lead - Allianz France
Mahery Andriambololona, Public cloud FinOps Lead - Allianz France
Mag #31
Lire l'article
Le retour d'expérience du mois
« Groupe SNCF GPT », une plateforme IA développée en interne, pour assurer la sécurité des données de l’entreprise
Dominique DAMIDE - Responsable du 574 Auvergne Rhône Alpes
Dominique DAMIDE - Responsable du 574 Auvergne Rhône Alpes
Mag #30
Lire l'article