Conception à double liaison : la bouée de sauvetage des clusters de serveurs d'IA
Le défaut fatal des architectures à liaison unique dans les clusters GPU à mille cartes - le——
Coût de la perturbation de la formation : une seule panne du commutateur Spine entraîne d'énormes pertes horaires pour l'entreprise
Défis liés à la latence : les opérations AllReduce nécessitent une latence de synchronisation de gradient
Goulot d'étranglement de la fiabilité : la topologie arborescente traditionnelle comporte 7 liens potentiels à point de défaillance unique
Leçons tirées du sang et des larmes : un cas réel d'une entreprise d'IA
Au troisième trimestre 2024, un fabricant n'a pas réussi à déployer des liaisons doubles, ce qui a entraîné :
une panne de port de commutation a entraîné une interruption de formation de 72 minutes
Perte indirecte : pénalité contractuelle due à un retard de livraison du modèle
La conception à double liaison est la solution principale à ce problème.
2. Analyse panoramique de l'architecture feuille-épine à double liaison
Diagramme de topologie physique (y compris le déploiement du module optique)
Description des composants clés :
Commutateur Spine : dorsale entièrement interconnectée, doit prendre en charge le module optique OSFP 800G et ECMP
Commutateur à feuille : chaque commutateur est connecté à deux colonnes vertébrales via des modules optiques doubles pour éviter toute défaillance ponctuelle
Connexion au serveur : utilisez un câble optique actif 200 G (AOC) pour vous connecter directement à Leaf
III. Principe de la technologie du cœur à double liaison
1. Adaptation de liens homogènes et hétérogènes
Les liaisons doubles peuvent utiliser des « liaisons homogènes » (deux liaisons du même type, telles que InfiniBand HDR) ou des « liaisons hétérogènes » (telles qu'une InfiniBand pour une communication à faible latence et une Ethernet pour une transmission de données à grande capacité)
2. Allocation dynamique des ressources de liens

Mécanisme de commutation transparent : utilisez le « mode actif/veille » ou « équilibrage de charge + réglage dynamique » :
Mode actif/veille : dans des conditions normales, le lien principal transporte le trafic principal et le lien de secours transmet uniquement les paquets de pulsation ; en cas de panne, le lien de secours prend en charge tout le trafic en quelques microsecondes pour garantir que les données ne soient pas perdues.
Mode d'équilibrage de charge : deux liens fonctionnent en même temps et le lien survivant prend automatiquement en charge tout le trafic après une panne (la couche de protocole doit prendre en charge la redistribution du trafic pour éviter la congestion).
Module optique FIBERTOP, livraison directe d'usine | Expédition sous 72 h | Solutions pour centres de calcul intelligents | Personnalisable