Intel a présenté des performances de premier plan pour les charges de travail de calcul haute performance (HPC) et d’intelligence artificielle (IA)
mai 2023 par Intel
Intel a présenté ses nouvelles performances pour les charges de travail de calcul haute performance (HPC) et d’intelligence artificielle (IA), partagé son portefeuille de futurs produits HPC et IA, unifiés par le modèle de programmation ouvert oneAPI, et annoncé un effort international ambitieux pour utiliser le supercalculateur Aurora afin de développer des modèles d’IA génératifs pour la science et la société.
"Intel s’engage à servir la communauté HPC et IA avec des produits qui aident les clients et les utilisateurs finaux à faire des découvertes révolutionnaires plus rapidement", a déclaré Jeff McVeigh, vice-président d’entreprise d’Intel et directeur général du Super Compute Group. "Notre portefeuille de produits couvrant la série Intel® Xeon® CPU Max, la série Intel® Data Center GPU Max, les processeurs évolutifs Intel® Xeon® de 4ème génération et Habana® Gaudi®2 surpassent la concurrence sur une variété de charges de travail, offrant des avantages en termes d’énergie et de coût total de possession, démocratisant l’IA et offrant le choix, l’ouverture et la flexibilité."
Performances matérielles à grande échelle
Lors de la présentation d’Intel, M. McVeigh a mis en évidence les derniers résultats en matière de performances sur l’ensemble de la gamme de matériel et a fait part de la forte dynamique aux clients.
• L’Intel® Data Center GPU Max Series surpasse la carte PCIe Nvidia H100 de 30 % en moyenne sur diverses charges de travail1, tandis que l’éditeur de logiciels indépendant Ansys montre une accélération de 50 % pour le GPU Max Series par rapport à la carte H100 sur les applications HPC accélérées par l’IA.2
• Le processeur Xeon Max, le seul processeur x86 doté d’une mémoire à large bande passante, présente une amélioration de 65 % par rapport au processeur Genoa d’AMD dans le cadre du test de référence HPCG (High Performance Conjugate Gradients)1, tout en consommant moins d’énergie. La bande passante élevée de la mémoire a été notée comme l’une des caractéristiques les plus recherchées par les clients HPC.3
• Les processeurs Intel Xeon Scalable de 4e génération - les plus utilisés dans le domaine du calcul intensif - offrent une vitesse moyenne supérieure de 50 % à celle du processeur Milan4 d’AMD, et le nouveau cluster HPC Xeon de 4e génération de la société énergétique BP offre une performance 8 fois supérieure à celle des processeurs de la génération précédente, tout en améliorant l’efficacité énergétique.2
• L’accélérateur d’apprentissage profond Gaudi2 offre des performances compétitives en matière d’apprentissage profond et d’inférence, avec des performances jusqu’à 2,4 fois supérieures à celles de la Nvidia A100.1
Différents clients ont récemment annoncé de nouvelles installations avec les processeurs Intel Xeon et et Xeon Max de 4e génération :
• L’Université de Kyoto déploie des processeurs Xeon de 4e génération pour Laurel 3 et Cinnamon 3, et des processeurs Xeon Max Series pour Camphor 3.
• Cineca a déployé Leonardo avec des processeurs Intel Xeon de 4e génération.
• University of Rochester - Laboratory for Laser Energetics déploie un cluster avec des processeurs Xeon de 4e génération.
• Servicio Meteorológico Nacional de Argentina déploiera un système avec à la fois des processeurs et des GPU de la série Max.
De plus, le Cambridge Open Zettascale Lab de l’Université de Cambridge a déployé le premier banc d’essai de GPU série MAX au Royaume-Uni et constate des premiers résultats positifs sur la dynamique moléculaire et les applications d’imagerie biologique. En outre, RIKEN a annoncé un protocole d’accord (MoU) avec Intel visant à accélérer la recherche et le développement conjoints dans le domaine des technologies informatiques avancées, telles que l’IA, le HPC et l’informatique quantique. Dans le cadre du protocole d’accord, RIKEN s’engagera également avec Intel Foundry Services pour créer des prototypes de ces nouvelles solutions.
Des processeurs compétitifs pour chaque charge de travail
Les charges de travail HPC et IA, dynamiques et émergentes, nécessitent un portefeuille complet de solutions matérielles et logicielles. M. McVeigh a donné un aperçu des offres d’Intel en matière de centres de données, qui offrent de nombreux choix et solutions à la communauté HPC, contribuant ainsi à démocratiser l’IA.
Dans sa présentation, M. McVeigh a présenté la prochaine génération de CPU d’Intel, qui répondra aux exigences élevées en matière de largeur de bande de la mémoire. Intel a mené l’écosystème pour développer un nouveau type de module DIMM - Multiplexer Combined Ranks (MCR) - pour Granite Rapids. Le MCR permet d’atteindre des vitesses de 8 800 mégatransferts par seconde sur la base de la DDR5 et une capacité de bande passante mémoire supérieure à 1,5 téraoctet/seconde (TB/s) dans un système à deux sockets. Cette augmentation de la bande passante de la mémoire est essentielle pour alimenter le nombre croissant de cœurs des processeurs modernes et favoriser l’efficacité et la flexibilité.
Intel a également dévoilé un nouveau sous-système x8 Max Series GPU optimisé pour l’IA de Supermicro, conçu pour accélérer la formation à l’apprentissage profond. En plus de l’accès via la version bêta d’Intel® Developer Cloud5 plus tard cette année, plusieurs équipementiers proposeront des solutions avec des sous-systèmes OAM et des cartes PCIe à base de GPU Max Series x4 et x8, qui seront disponibles au cours de l’été.
Falcon Shores, la nouvelle génération de GPU de la série Max d’Intel, offrira aux clients la flexibilité de mettre en œuvre des combinaisons de CPU et de GPU discrets au niveau du système pour les charges de travail nouvelles et en évolution rapide de l’avenir. Falcon Shores est basé sur une architecture modulaire à base de tuiles :
• Prise en charge des types de données HPC et AI, de FP64 à BF16 en passant par FP8.
• Permet d’utiliser jusqu’à 288 Go de mémoire HBM3 avec une bande passante totale de 9,8 To/s et des E/S à grande vitesse considérablement améliorées.
• Renforcer le modèle de programmation CXL.
• Présenter une interface de programmation GPU unifiée grâce à oneAPI.
•
L’IA générative au service de la science
Le laboratoire national d’Argonne, en collaboration avec Intel et HPE, a annoncé son intention de créer une série de modèles d’IA générative pour la communauté de la recherche scientifique.
"Le projet vise à exploiter tout le potentiel du supercalculateur Aurora pour produire une ressource qui peut être utilisée pour la science en aval dans les laboratoires du ministère de l’énergie et en collaboration avec d’autres", a déclaré Rick Stevens, directeur associé du laboratoire d’Argonne.
Ces modèles d’IA générative pour la science seront formés sur des textes généraux, des codes, des textes scientifiques et des données scientifiques structurées provenant de la biologie, de la chimie, de la science des matériaux, de la physique, de la médecine et d’autres sources.
Les modèles qui en résulteront (avec pas moins de 1 000 milliards de paramètres) seront utilisés dans diverses applications scientifiques, de la conception de molécules et de matériaux à la synthèse de connaissances provenant de millions de sources pour suggérer des expériences nouvelles et intéressantes en biologie des systèmes, en chimie des polymères et en matériaux énergétiques, en science du climat et en cosmologie. Le modèle sera également utilisé pour accélérer l’identification des processus biologiques liés au cancer et à d’autres maladies et suggérer des cibles pour la conception de médicaments.
Argonne est le fer de lance d’une collaboration internationale pour faire avancer le projet, avec Intel, HPE, les laboratoires du ministère de l’énergie, des universités américaines et internationales, des organisations à but non lucratif et des partenaires internationaux, tels que RIKEN.
En outre, Intel et le laboratoire national d’Argonne ont présenté les progrès de l’installation, les spécifications du système et les premiers résultats de performance pour Aurora :
• Intel a achevé la livraison physique de plus de 10 000 lames pour le supercalculateur Aurora.
• Le système complet d’Aurora, construit à partir de superordinateurs HPE Cray EX, comprendra 63 744 GPUs, 21 248 CPUs et 1 024 nœuds de stockage DAOS. Il utilisera également le réseau Ethernet haute performance HPE Slingshot.
• Les premiers résultats montrent des performances de premier plan sur des charges de travail scientifiques et techniques réelles, avec des performances jusqu’à deux fois supérieures à celles des GPU AMD MI250, une amélioration de 20 % par rapport à H100 sur l’application de mécanique quantique QMPACK, et une mise à l’échelle quasi linéaire jusqu’à des centaines de nœuds.2
•
Aurora devrait offrir plus de 2 exaflops de performance de calcul en double précision lors de son lancement cette année.
Calcul accéléré productif et ouvert grâce à oneAPI
Dans le monde entier, environ 90 % de tous les développeurs bénéficient ou utilisent des logiciels développés ou optimisés par Intel.6 Depuis le lancement du modèle de programmation oneAPI en 2020, les développeurs ont fait la démonstration de oneAPI sur divers processeurs, GPU, FPGA et silicium d’intelligence artificielle provenant de plusieurs fournisseurs de matériel, relevant ainsi les défis des modèles de programmation accélérée d’un seul fournisseur. Les derniers outils Intel oneAPI offrent des accélérations pour les applications HPC avec OpenMP GPU offload, étendent le support pour OpenMP et Fortran, et accélèrent l’IA et l’apprentissage profond grâce à des frameworks optimisés, y compris TensorFlow et PyTorch, et des outils d’IA, permettant des améliorations de performance de plusieurs ordres de grandeur.
oneAPI facilite la programmation multiarchitecture pour les programmeurs grâce à l’implémentation SYCL de oneAPI, aux plug-ins oneAPI pour les processeurs Nvidia et AMD développés par Codeplay, et à l’outil de compatibilité Intel® DPC++ (basé sur l’open source SYCLomatic) qui migre le code de CUDA vers SYCL et C++, où 90-95% du code migre généralement de manière automatique.7 Le code SYCL qui en résulte présente des performances comparables à celles du même code exécuté sur les langages de systèmes natifs de Nvidia et d’AMD. Les données montrent que le code SYCL pour l’application d’astrophysique DPEcho fonctionnant sur le GPU Max Series surpasse de 48 % le même code CUDA sur le Nvidia H100.1
Clause de non-responsabilité et configuration :
1 Consultez la page de l’International Supercomputing Conference (ISC’23) sur intel.com/performanceindex pour connaître les charges de travail et les configurations. Les résultats peuvent varier.
2 Intel ne contrôle ni ne vérifie les données de tiers. Vous devez consulter d’autres sources pour en évaluer l’exactitude.
3 Hyperion Research HPC Market Update, novembre 2022.
4 Intel® Xeon® 8480+ est 1,5 fois plus performant que l’AMD EPYC 7763 pour le calcul haute performance géométrique sur 27 benchmarks et applications. Les résultats peuvent varier.
5 La version bêta d’Intel Developer Cloud est actuellement disponible pour certains clients préqualifiés.
6 Selon les estimations d’Intel.
7 Estimations d’Intel à partir de mars 2023. Basé sur des mesures effectuées sur un ensemble de 85 benchmarks et échantillons HPC, avec des exemples tels que Rodinia, SHOC, PENNANT. Les résultats peuvent varier.
Les performances varient en fonction de l’utilisation, de la configuration et d’autres facteurs. Les résultats des performances sont basés sur des tests effectués aux dates indiquées dans les configurations et peuvent ne pas refléter toutes les mises à jour publiquement disponibles. Aucun produit ou composant ne peut être absolument sûr.
Les coûts et les résultats peuvent varier.
Les technologies Intel peuvent nécessiter l’activation de matériel, de logiciel ou de service.