Alibaba dévoile un nouveau mécanisme de contrôle de la congestion pour les datacenters hautes-performances
août 2019 par Marc Jacob
Alibaba Cloud annonce le développement d’un mécanisme de contrôle du trafic de données nommé HPCC pour High Precision Congestion Control. Cette technologie permet la transmission de données avec une latence ultra-faible, une bande passante élevée et une grande stabilité. Il s’agit d’une étape importante vers la mise en place de datacenters ultra-rapides capables de libérer le potentiel de l’IA et de l’internet des objets. Alibaba Group a présenté cette technologie dans un livre blanc récemment publié lors de la conférence universitaire — ACM SIGCOMM’19 qui s’est tenue à Beijing, en Chine.
Lors de cette conférence, les chercheurs d’Alibaba ont prouvé par des expériences sur banc d’essai et des simulations à grande échelle que le HPCC réagit plus rapidement à la bande passante disponible et à la congestion que d’autres alternatives, tout en maintenant des files d’attente proches de zéro. Dans les simulations pour une charge de trafic inférieure à 50 %, la HPCC réduit jusqu’à 95 % les temps de complétion, ce qui cause peu de congestion même à grande échelle.
Forte de nombreuses années d’expérience dans l’exploitation de réseaux RDMA à grande échelle et à haut débit, Alibaba fait état de plusieurs limitations inhérentes aux solutions existantes de contrôle de congestion disponible, notamment la convergence lente, la mise en file d’attente inévitable des paquets et un paramétrage compliqué. Le HPCC est prêt à combler cette lacune.
Les chercheurs ont constaté que la cause fondamentale de ces limitations dans les solutions existantes est le manque d’informations granulaires sur la charge réseau au niveau des installations legacy. Toutefois, cette situation a récemment évolué avec la disponibilité de nouvelles fonctions In-band Network Telemetry (INT) sur les infrastructures. Les nouveaux switchs ASIC de commutation sont ainsi en mesure de fournir des informations détaillées sur la charge du réseau et de les utiliser pour fournir des mécanismes de contrôle de la congestion et donc mieux gérer la stabilité du réseau à très haut débit.
Les chercheurs d’Alibaba ont proposé le HPCC, car il a le potentiel de tirer parti des fonctionnalités INT pour obtenir des informations sur la charge des liens et contrôler le trafic avec un grand niveau de précision. En s’attaquant à des problèmes tels que le retard des informations INT pendant les congestions, ou la réaction excessive à ces mêmes informations, le HPCC peut rapidement utiliser la bande passante libre pour limiter ces problèmes et maintenir des files d’attente quasi nulles dans le réseau pour une latence extrêmement faible. HPCC a l’avantage supplémentaire de n’avoir besoin que de 3 paramètres à configurer et est également facile à déployer sur le matériel.
La performance des réseaux est aujourd’hui essentielle à la qualité de service du cloud. Une vitesse de mise en réseau plus rapide peut améliorer considérablement l’expérience des utilisateurs du cloud. En outre, poussée par le besoin de réseaux plus rapides, l’industrie IT a réussi à faire passer la vitesse de liaison dans les centres de données de 1 Gbps à 100 Gbps au cours de la dernière décennie, un taux de croissance qui continue à dépasser la loi de Moore.
Toutefois, un matériel plus rapide ne suffit pas à lui seul pour apporter une mise en réseau ultra-rapide des datacenters. Une autre considération est qu’une vitesse de liaison plus élevée peut également nuire à la stabilité du réseau. Avec des émetteurs plus rapides, capables de transférer simultanément de grands volumes de données sur le réseau, le risque de congestion devient bien plus probable. Cette dernière nuit également à la latence du réseau en raison des retards dans les files d’attente et de la perte potentielle de paquets. D’où la nécessité d’adopter d’autres solutions de contrôle de la congestion, comme le HPCC