Intelligenza Artificiale
Come funziona un LLM: visualizzazione 3D della pipeline
Tokenizzazione, embedding, self-attention e output in un'unica demo interattiva. Guarda cosa succede dentro un Large Language Model, passo dopo passo.
Un Large Language Model non “capisce” il testo nel senso umano del termine. Lo trasforma in sequenze di numeri, lo proietta in spazi ad alta dimensione, calcola relazioni tra ogni parola e ogni altra, poi genera il token successivo più probabile. Questa demo mostra esattamente queste sei fasi, su un input reale.
Ogni step della pipeline è visualizzato in 3D: le sfere sono i token, le linee sono le relazioni di attenzione, i colori codificano l'identità di ogni frammento di testo. Il pannello laterale spiega la matematica dietro a ciò che vedi.
Le sei fasi della pipeline
Dal testo grezzo al token generato, il modello esegue sei trasformazioni distinte. Ognuna aggiunge informazioni o le raffina. Capirle significa capire perché i modelli si comportano come si comportano.
① Tokenizzazione
Il testo viene spezzato in frammenti detti token. Ogni token diventa un ID numerico nel vocabolario del modello. Il modello non vede mai parole: vede interi.
② Embedding
Ogni ID viene proiettato in un vettore denso ad alta dimensione. Token semanticamente simili finiscono in regioni vicine dello spazio. è qui che il significato diventa geometria.
③ Positional Encoding
Il Transformer elabora tutti i token in parallelo. Per non perdere l'ordine, aggiunge un vettore di posizione a ogni embedding. Senza questo, "cane morde uomo" e "uomo morde cane" sarebbero identici.
④ Self-Attention
Ogni token interroga tutti gli altri: quanto sei rilevante per me? Le risposte diventano pesi che modulano la rappresentazione finale. è il cuore del Transformer.
⑤ Feed-Forward
Dopo l'attenzione, ogni token passa attraverso una rete densa a due layer. Introduce non-linearità e aumenta la capacità rappresentativa. Si ripete per ogni layer dello stack.
⑥ Output
Il vettore finale viene proiettato sul vocabolario, producendo un punteggio per ogni token possibile. Softmax lo converte in probabilità. Il token con la probabilità più alta viene selezionato.
Cosa impari guardando questa demo
- Perché un LLM non legge parole ma numeri, e cosa questo implica per i limiti del modello
- Come il meccanismo di self-attention permette al modello di "capire il contesto" senza memoria esplicita
- Perché il positional encoding è fondamentale: senza ordine, frasi diverse producono lo stesso risultato
- Come la distribuzione di probabilità sull'output spiega il comportamento non deterministico dei modelli
- Cosa cambia tra temperatura bassa (deterministico) e temperatura alta (creativo) nel campionamento
Come usare la demo
Scrivi un testo nella barra in alto e premi PROCESSA. Il modello (simulato) tokenizza l'input e ne calcola embedding, attenzione e output. Naviga tra le sei fasi con i pulsanti Prec e Succ, oppure usa Auto-Play per la sequenza automatica.
Il pannello a destra mostra la spiegazione matematica di ogni fase. La colonna al centro ruota la scena 3D per mostrare le relazioni nello spazio. Prova a inserire testi diversi e osserva come cambiano posizioni, connessioni e probabilità.
Vuoi applicare questi concetti nella tua carriera?
Capire come funzionano gli LLM internamente ti distingue come sviluppatore. Il corso di Architettura del Software ti insegna a prendere decisioni tecniche solide, anche quando lavori con AI.
Prova la demo
Inserisci un testo, seleziona la fase e osserva la pipeline in 3D. Usa Auto-Play per la sequenza completa o naviga manualmente fase per fase.
Rotella: zoom · Trascina: ruota