Blog
Maison

Blog

« Double assurance » pour les serveurs d'IA : explication détaillée de l'architecture à double liaison des modules optiques

« Double assurance » pour les serveurs d'IA : explication détaillée de l'architecture à double liaison des modules optiques

Jul 16, 2025

Conception à double liaison : la bouée de sauvetage des clusters de serveurs d'IA

Le défaut fatal des architectures à liaison unique dans les clusters GPU à mille cartes - le——

Coût de la perturbation de la formation : une seule panne du commutateur Spine entraîne d'énormes pertes horaires pour l'entreprise

Défis liés à la latence : les opérations AllReduce nécessitent une latence de synchronisation de gradient

Goulot d'étranglement de la fiabilité : la topologie arborescente traditionnelle comporte 7 liens potentiels à point de défaillance unique

Leçons tirées du sang et des larmes : un cas réel d'une entreprise d'IA

Au troisième trimestre 2024, un fabricant n'a pas réussi à déployer des liaisons doubles, ce qui a entraîné :

une panne de port de commutation a entraîné une interruption de formation de 72 minutes

Perte indirecte : pénalité contractuelle due à un retard de livraison du modèle

La conception à double liaison est la solution principale à ce problème.

2. Analyse panoramique de l'architecture feuille-épine à double liaison

Diagramme de topologie physique (y compris le déploiement du module optique)

Optical module to build AI server connection diagram

Description des composants clés :

Commutateur Spine : dorsale entièrement interconnectée, doit prendre en charge le module optique OSFP 800G et ECMP

Commutateur à feuille : chaque commutateur est connecté à deux colonnes vertébrales via des modules optiques doubles pour éviter toute défaillance ponctuelle

Connexion au serveur : utilisez un câble optique actif 200 G (AOC) pour vous connecter directement à Leaf

III. Principe de la technologie du cœur à double liaison

1. Adaptation de liens homogènes et hétérogènes

Les liaisons doubles peuvent utiliser des « liaisons homogènes » (deux liaisons du même type, telles que InfiniBand HDR) ou des « liaisons hétérogènes » (telles qu'une InfiniBand pour une communication à faible latence et une Ethernet pour une transmission de données à grande capacité)

2. Allocation dynamique des ressources de liens

Dynamic link resource allocation for AI computing power

Mécanisme de commutation transparent : utilisez le « mode actif/veille » ou « équilibrage de charge + réglage dynamique » :

Mode actif/veille : dans des conditions normales, le lien principal transporte le trafic principal et le lien de secours transmet uniquement les paquets de pulsation ; en cas de panne, le lien de secours prend en charge tout le trafic en quelques microsecondes pour garantir que les données ne soient pas perdues.

Mode d'équilibrage de charge : deux liens fonctionnent en même temps et le lien survivant prend automatiquement en charge tout le trafic après une panne (la couche de protocole doit prendre en charge la redistribution du trafic pour éviter la congestion).

Module optique FIBERTOP, livraison directe d'usine | Expédition sous 72 h | Solutions pour centres de calcul intelligents | Personnalisable

Propriété intellectuelle, entreprise de haute technologie
Propriété intellectuelle, entreprise de haute technologie
En savoir plus

Besoin d'aide? laisser un message

laisser un message
Si vous êtes intéressé par nos produits et souhaitez en savoir plus, veuillez laisser un message ici, nous vous répondrons dès que possible.
soumettre

Maison

Des produits

whatsApp

contact