Tokenomics: come sta cambiando l' economia dei sistemi AI

Il prezzo di un token è crollato del 99%, eppure i costi per AI è triplicano

Luciano Cipriano

6/30/20265 min read

Ciao a tutti,

Ben arrivati su WikiLuc.

Per due anni abbiamo vissuto nell' illusione che l'AI sarebbe diventata quasi gratis. E sui prezzi di listino è successo davvero — il costo per token è sprofondato in un modo che pochi si aspettavano. Poi, in fase di review dei costi di un progetto, ho guardato la fattura mensile di chi quegli agenti li ha messi in produzione. Non era diminuita. Era triplicata. È il paradosso che ho deciso di mettere per iscritto, perché chi gestisce budget AI ci sbatte contro adesso, e quasi sempre senza averlo previsto.

Di cosa parliamo oggi:

Quanto sono davvero crollati i prezzi per token
Perché, nonostante questo, le bollette AI esplodono
I costi invisibili: cosa c'è oltre la "fattura del modello"
Come gli agenti che lavorano 24/7 moltiplicano i consumi
Cosa significa fare FinOps applicato all'AI

Partiamo dal problema.

Quanto è crollato il prezzo per token

Cominciamo dal dato che dà ragione alla profezia, perché è reale e impressionante. Una capacità equivalente a GPT-4 costava circa 20 dollari per milione di token a fine 2022; nel 2026 costa intorno a 0,40 dollari. È un calo di circa 50 volte sulla singola capacità, e se si guarda all'intera curva di efficienza dell'inference si parla di una riduzione dell'ordine di 1.000× in tre anni. Sui tier comparabili, il costo è sceso da circa 0,06 dollari per mille token all'inizio del 2025 a circa 0,006 a metà 2026 — un altro 10× in diciotto mesi.

Questo crollo ha un effetto concreto: rende economicamente sostenibili categorie di prodotto che dodici mesi fa non lo erano. L'inference a 0,10 dollari per milione di token di input apre a strutture di pricing e pattern di deployment prima impensabili. La profezia, sul costo unitario, si è avverata.

Eppure i costi aumentano. Perché?

Ed ecco il paradosso. Mentre il prezzo per token crollava, il budget AI medio di un'azienda è passato da circa 1,2 milioni di dollari l'anno nel 2024 a 7 milioni nel 2026. Il costo unitario giù, la spesa totale su. Non è una contraddizione: è il classico paradosso di Jevons applicato all'AI. Quando una risorsa diventa molto più economica, non ne consumi un po' di meno — ne consumi enormemente di più.

Cosa è cambiato nell'uso

Il salto sta nel passaggio dalla sperimentazione alla produzione. Nel 2024 l'AI in azienda era per lo più un chatbot usato a intermittenza da qualche team. Nel 2026 sono migliaia di workflow agentici che girano 24 ore su 24, 7 giorni su 7. E qui c'è il moltiplicatore che pochi mettono nel conto: un workflow agentico moltiplica l'uso di token di 50-500 volte per singolo task rispetto a una chiamata diretta. Un agente non fa una domanda e riceve una risposta: ragiona, richiama strumenti, ritenta, verifica, itera. Ogni passo è token.

Moltiplica un costo unitario crollato per un volume esploso di tre ordini di grandezza, e ottieni un valore di spesa complessiva che cresce mentre il listino scende. È matematicamente inevitabile non appena passi da dieci query al giorno a diecimila agenti che lavorano in continuo.

I costi invisibili: oltre la fattura del modello

C'è poi una seconda voce, e per me è la più sottovalutata. Quando pensi al costo dell'AI, pensi a quanto paghi il modello. Ma in produzione il 72% del costo AI sta fuori dalla fattura del modello: orchestrazione, retrieval, retry, observability. Tradotto: per ogni euro che vedi sul listino del fornitore di LLM, ne stai spendendo quasi tre in tutto ciò che serve a far funzionare quel modello in un sistema reale.

Sono i costi del "tubo" intorno al modello: i sistemi che recuperano i documenti giusti (retrieval), quelli che ritentano quando una chiamata fallisce (retry), quelli che orchestrano più agenti, quelli che osservano e tracciano cosa succede (observability) perché senza non puoi fare debug né controllo. Nessuna di queste voci compare quando guardi il prezzo per token, eppure è lì che si nasconde la maggior parte della spesa. Non a caso, l'inference rappresenta oggi circa l'85% del budget AI enterprise: la fase di training fa notizia, ma è l'uso quotidiano in produzione a pesare sul conto.

Cosa significa fare FinOps sull'AI

Il punto operativo è qui. Se guardi solo il prezzo per token per decidere se un progetto AI è sostenibile, stai guardando la variabile sbagliata — quella che è già crollata e continuerà a crollare. Le variabili che contano sono altre: quanti task al giorno, quante iterazioni per task, quanto costa il tubo intorno al modello, e qual è il ritorno misurato di tutto questo.

È esattamente la disciplina che il mondo cloud ha imparato dieci anni fa con il FinOps, ora trasferita all'AI. La domanda non riguarda più il prezzo di una chiamata, ma il costo end-to-end di un workflow e il valore che produce.

Le domande che userei prima di approvare un budget AI

So stimare quante chiamate al modello genera, in media, un singolo task del mio agente? Se non lo so, il prezzo per token non mi dice nulla sul costo reale.
Ho visibilità sulla quota di spesa che sta fuori dalla fattura del modello — orchestrazione, retrieval, retry, observability? Se quel 72% è una scatola nera, il budget mi sfuggirà di mano.
Sto misurando il ritorno per workflow, o solo il costo aggregato? Senza il numeratore, ogni discussione sul costo è metà discussione.

Risposte solide a queste domande ci permettono di governare coerentemente un progetto; mentre se abbiamo dati poco chiari su queste metriche sarà allora complesso avere una visione completa dei costi AI del nostro progetto.

Notizie da tenere d'occhio

L'era dei 0,10 dollari per milione di token
Il costo dell'inference frontier-adjacent è sceso a livelli che riscrivono i modelli di business AI.
Perché importa: abilita prodotti e prezzi prima impossibili, ma sposta tutta la pressione sui margini dal listino al volume.
Il training fa notizia, l'inference fa la spesa
L'inference vale circa l'85% del budget AI enterprise 2026.
Perché importa: chi alloca risorse guardando ai costi di addestramento sta ottimizzando la voce sbagliata.
Il costo fuori-modello come nuova frontiera
Il 72% della spesa AI in produzione vive in orchestrazione, retrieval, retry e observability.
Perché importa: è lì che si gioca l'efficienza dei prossimi anni, ed è dove servono competenze di FinOps più che di prompt.

Una cosa da usare

🔧 Un esercizio di "cost per task", non di "cost per token" — Prendi un workflow AI reale che hai in mano e prova a stimare il costo completo di un singolo task end-to-end: chiamate al modello × iterazioni medie, più la quota di orchestrazione e retry. Confrontalo con il valore che quel task produce. È il foglio di calcolo più utile che puoi costruire oggi, e quasi nessuno lo fa.

Il prezzo per token continuerà a scendere, e chi ne fa il termometro della sostenibilità dell'AI guarderà sempre lo strumento sbagliato. Quello che decide se un progetto regge in produzione è la capacità di governare i volumi degli agenti e i costi invisibili che li circondano — perché è lì, e non sul listino del modello, che la bolletta di fine mese si forma davvero.

Grazie per aver letto questo articolo fammi sapere cosa ne pensi!

Ci vediamo presto qui su WikiLuc!

Contatti

Scrivimi per domande o collaborazioni

Email

luciano.cipriano1994@gmail.com