Intelligenza Artificiale

Come funziona un LLM: visualizzazione 3D della pipeline

Tokenizzazione, embedding, self-attention e output in un'unica demo interattiva. Guarda cosa succede dentro un Large Language Model, passo dopo passo.

Un Large Language Model non “capisce” il testo nel senso umano del termine. Lo trasforma in sequenze di numeri, lo proietta in spazi ad alta dimensione, calcola relazioni tra ogni parola e ogni altra, poi genera il token successivo più probabile. Questa demo mostra esattamente queste sei fasi, su un input reale.

Ogni step della pipeline è visualizzato in 3D: le sfere sono i token, le linee sono le relazioni di attenzione, i colori codificano l'identità di ogni frammento di testo. Il pannello laterale spiega la matematica dietro a ciò che vedi.

Le sei fasi della pipeline

Dal testo grezzo al token generato, il modello esegue sei trasformazioni distinte. Ognuna aggiunge informazioni o le raffina. Capirle significa capire perché i modelli si comportano come si comportano.

① Tokenizzazione

Il testo viene spezzato in frammenti detti token. Ogni token diventa un ID numerico nel vocabolario del modello. Il modello non vede mai parole: vede interi.

② Embedding

Ogni ID viene proiettato in un vettore denso ad alta dimensione. Token semanticamente simili finiscono in regioni vicine dello spazio. è qui che il significato diventa geometria.

③ Positional Encoding

Il Transformer elabora tutti i token in parallelo. Per non perdere l'ordine, aggiunge un vettore di posizione a ogni embedding. Senza questo, "cane morde uomo" e "uomo morde cane" sarebbero identici.

④ Self-Attention

Ogni token interroga tutti gli altri: quanto sei rilevante per me? Le risposte diventano pesi che modulano la rappresentazione finale. è il cuore del Transformer.

⑤ Feed-Forward

Dopo l'attenzione, ogni token passa attraverso una rete densa a due layer. Introduce non-linearità e aumenta la capacità rappresentativa. Si ripete per ogni layer dello stack.

⑥ Output

Il vettore finale viene proiettato sul vocabolario, producendo un punteggio per ogni token possibile. Softmax lo converte in probabilità. Il token con la probabilità più alta viene selezionato.

Cosa impari guardando questa demo

Perché un LLM non legge parole ma numeri, e cosa questo implica per i limiti del modello
Come il meccanismo di self-attention permette al modello di "capire il contesto" senza memoria esplicita
Perché il positional encoding è fondamentale: senza ordine, frasi diverse producono lo stesso risultato
Come la distribuzione di probabilità sull'output spiega il comportamento non deterministico dei modelli
Cosa cambia tra temperatura bassa (deterministico) e temperatura alta (creativo) nel campionamento

Come usare la demo

Scrivi un testo nella barra in alto e premi PROCESSA. Il modello (simulato) tokenizza l'input e ne calcola embedding, attenzione e output. Naviga tra le sei fasi con i pulsanti Prec e Succ, oppure usa Auto-Play per la sequenza automatica.

Il pannello a destra mostra la spiegazione matematica di ogni fase. La colonna al centro ruota la scena 3D per mostrare le relazioni nello spazio. Prova a inserire testi diversi e osserva come cambiano posizioni, connessioni e probabilità.

Vuoi applicare questi concetti nella tua carriera?

Capire come funzionano gli LLM internamente ti distingue come sviluppatore. Il corso di Architettura del Software ti insegna a prendere decisioni tecniche solide, anche quando lavori con AI.

Scopri il corso di Architettura del Software

Prova la demo

Inserisci un testo, seleziona la fase e osserva la pipeline in 3D. Usa Auto-Play per la sequenza completa o naviga manualmente fase per fase.

LLM PIPELINE 3D VISUALIZER

TESTO: Fase 1 / 6

PIPELINE LLM

X · Y · Z — proiezione 3D PCA

🖱

Clicca per interagire
Rotella: zoom · Trascina: ruota

STEP 01

Tokenizzazione

ATTENTION MATRIX

P(PROSSIMO TOKEN | CONTESTO)