Mentre le aziende continuano ad approfondire la loro trasformazione verso l’intelligence, la precedente architettura di rete è diventata un collo di bottiglia. L'infrastruttura di rete con caratteristiche AI-ready non è solo un aggiornamento hardware, ma un sistema completo creato appositamente per carichi di lavoro AI con caratteristiche ad alta intensità di dati, bassa latenza ed elevata concorrenza. Ciò dimostra che la rete deve trasformarsi da canale di connessione passivo in una piattaforma intelligente in grado di rilevare le applicazioni e allocare dinamicamente le risorse.

Quali sono le caratteristiche principali dell'infrastruttura di rete predisposta per l'intelligenza artificiale

Il sistema lossless è la caratteristica principale di una rete pronta per l'intelligenza artificiale. L'Ethernet tradizionale subirà una perdita di pacchetti durante la congestione, il che è disastroso per l'addestramento dell'intelligenza artificiale distribuita e potrebbe causare la stagnazione dell'intera operazione di addestramento o la produzione di modelli errati. Pertanto, deve disporre di una tecnologia di rete avanzata senza perdita di dati del data center per garantire zero perdite di pacchetti, bassa latenza e throughput elevato.

Il secondo è la prestazione prevedibile. I lavori di intelligenza artificiale, in particolare i servizi di inferenza, hanno requisiti limite superiori estremamente rigidi per la latenza. La rete deve fornire una latenza stabile a livello di microsecondi ed essere in grado di segmentare e isolare il traffico di diversi tenant o servizi per evitare interferenze reciproche. Ciò richiede un'ottimizzazione completa dell'intero stack, a partire dalla scheda di rete, fino allo switch e quindi al sistema operativo.

Perché è difficile per le reti tradizionali supportare le esigenze di elaborazione dell’intelligenza artificiale?

La progettazione tradizionale della rete è diretta al traffico "nord-sud", che è il metodo di accesso dal client al server. Tuttavia, l’informatica basata sull’intelligenza artificiale, in particolare la formazione su larga scala, genera un’enorme quantità di traffico “est-ovest” e centinaia di server GPU devono sincronizzare continuamente i dati del gradiente. La larghezza di banda e il ritardo della tradizionale architettura di rete a tre strati non possono adattarsi a questa densa modalità di comunicazione orizzontale.

Il funzionamento e la manutenzione tradizionali della rete sono reattivi e la risoluzione dei problemi viene avviata solo dopo che si verifica un guasto. Le operazioni di intelligenza artificiale hanno requisiti di continuità. Questo requisito significa che la rete deve essere in grado di monitorare in tempo reale, avvisare tempestivamente e persino autoripararsi. La gestione della configurazione statica e i metodi di funzionamento e manutenzione manuali sono inefficienti e soggetti a errori quando si affrontano cluster di intelligenza artificiale dinamici.

Come pianificare e implementare un'infrastruttura di rete pronta per l'intelligenza artificiale

La fase iniziale della pianificazione è l’analisi della domanda. È necessario chiarire le principali categorie di carico di lavoro dell’IA, siano esse training di modelli di grandi dimensioni, inferenza batch o servizi online. Scenari diversi hanno requisiti molto diversi in termini di larghezza di banda, latenza e scalabilità della rete. Ad esempio, i cluster di training richiedono una larghezza di banda di interconnessione a nodo singolo molto elevata, mentre i cluster di inferenza prestano maggiore attenzione alla stabilità e all’elasticità dei servizi di rete.

Durante l'implementazione si consiglia di utilizzare come base l'architettura CLFS "Spine". Questa architettura fornisce un'interconnessione con caratteristiche di larghezza di banda elevata senza blocchi. L’attenzione si concentra sulla selezione di metodi tecnologici di interconnessione che soddisfino i requisiti ad alte prestazioni per le unità di calcolo AI. Ad esempio, le prestazioni di questi due sono molto buone, ma il loro ambiente ecologico è relativamente chiuso, si basa su Ethernet, la loro compatibilità è buona, ma richiede un'attenta regolazione e ottimizzazione per raggiungere uno stato senza perdite.

Quali componenti tecnici chiave sono necessari per le reti predisposte per l’intelligenza artificiale?

Uno dei componenti correlati più importanti è la scheda di rete intelligente (DPU/), che trasferisce le funzioni di rete, archiviazione e sicurezza dalla CPU a un chip dedicato, liberando notevolmente le risorse della CPU host per l'elaborazione AI. È anche una scheda di rete intelligente in grado di ottenere un efficiente accesso diretto alla memoria remota (RDMA), che costituisce la base per la comunicazione di rete a latenza ultra bassa.

Un’altra tecnologia chiave è l’automazione della rete e le piattaforme intelligenti di funzionamento e manutenzione. Questa piattaforma deve essere in grado di emettere automaticamente policy di rete, configurare la qualità del servizio (QoS) e implementare parametri di isolamento in base alle esigenze rilevanti delle operazioni di intelligenza artificiale. Allo stesso tempo, la tecnologia di telemetria deve essere utilizzata per estrarre i dati di rete in modo tempestivo e gli algoritmi di intelligenza artificiale devono essere utilizzati per prevedere il traffico, effettuare il rilevamento delle anomalie ed eseguire l’analisi delle cause profonde.

Quali sfide di sicurezza e governance deve affrontare l’infrastruttura di rete AI?

Con l’introduzione delle reti IA sono emerse nuove superfici di attacco. Poiché i dati circolano tra i nodi in grandi quantità e ad alta velocità, il contenuto può includere dati originali sensibili o parametri del modello, quindi è necessario prevenire intercettazioni e manomissioni. In considerazione di ciò, la tecnologia di crittografia deve essere integrata a livello di rete per garantire la riservatezza e l’integrità dei dati durante la trasmissione.

Dal punto di vista della governance, esistono sfide relative all’equità delle risorse e alla conformità negli ambienti multi-tenant. Quando le operazioni di intelligenza artificiale di diversi team o progetti condividono la rete, come garantire che non siano in competizione tra loro per le risorse? Ciò richiede strategie di pianificazione del traffico e gestione delle quote molto sofisticate. Allo stesso tempo, tutte le operazioni di rete devono conservare i registri di controllo per soddisfare i requisiti di conformità.

Quale sarà il trend di sviluppo dell’AI nelle infrastrutture di rete in futuro?

La prossima tendenza è l'integrazione delle "reti informatiche". La rete non viene utilizzata solo per trasmettere dati. Ha anche la capacità di partecipare ad alcune attività informatiche, come l'esecuzione di operazioni iniziali come l'aggregazione e la compressione nel processo di trasmissione dei pacchetti di dati, riducendo così ulteriormente il ritardo end-to-end. Questa situazione è chiamata "In-" punto e basta.

Un’altra tendenza è l’offerta di funzionalità di intelligenza artificiale che integrano cloud e rete. Le imprese possono utilizzare contemporaneamente cluster di intelligenza artificiale locale e servizi di intelligenza artificiale su cloud pubblico. La rete deve fornire un’interconnessione ininterrotta del cloud ibrido in modo che i dati e la potenza di calcolo possano fluire in modo efficiente e sicuro tra i confini, formando così una “rete di potenza di calcolo dell’intelligenza artificiale” integrata.

Vorrei conoscere l'attuale dilemma di tutti in modo che possa essere più in linea con lo scenario reale. La situazione è la seguente: quando inizi a promuovere un progetto AI, il vincolo di rete più grave che incontri è una larghezza di banda insufficiente, una latenza instabile o una complessità di funzionamento e manutenzione troppo elevata? Siete invitati a condividere le vostre esperienze nell'area commenti. Se questo articolo ti ha ispirato, metti mi piace anche a lui e sostienilo.

Posted in

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *