Claude Opus 4.7 e i task budget:

Come Anthropic ha cambiato il modo in cui un agente "pensa"

Luciano Cipriano

6/3/20266 min read

Ciao a tutti,

Ben arrivati su WikiLuc.

Quando Anthropic ha introdotto il concetto di "task budget" in Claude Opus 4.7, la prima reazione di molti developer è stata pragmatica: un altro parametro da configurare. Poi ho iniziato a leggere i dettagli tecnici e ho capito che stava succedendo qualcosa di più interessante.

Un task budget non è un limite di token nel senso tradizionale. È un'allocazione di budget computazionale per l'intero loop agentivo — ragionamento interno, tool call, risultati degli strumenti, output finale. In un colpo solo, Anthropic ha reso esplicita una risorsa che nei modelli precedenti era implicita e difficile da controllare: il tempo e i token che un agente può usare per "pensare" prima di agire.

L'87.6% su SWE-bench Verified — 6.8 punti in più rispetto a Opus 4.6 — non è un numero che si ottiene ottimizzando il prompt. È il risultato di un'architettura di ragionamento che cambia come il modello si comporta su task complessi. Vale la pena capire come funziona.

Di cosa parliamo oggi:

  • Cosa sono i task budget e perché cambiano tutto per gli agenti

  • I tier di effort e i numeri che contano

  • 87.6% SWE-bench: cosa misura davvero e perché è significativo

  • Il nuovo tokenizer e le implicazioni su costo e contesto

  • Notizie da tenere d'occhio

Partiamo analizzando la questiona in modo semplice e strutturato.

Claude Opus 4.7: il ragionamento che si può configurare
Task budget — la definizione operativa

Un task budget in Claude Opus 4.7 è l'allocazione di token riservati all'intera sequenza di ragionamento che precede la risposta finale. Include i token del pensiero interno (il "chain-of-thought" esteso), le chiamate agli strumenti, i risultati restituiti dagli strumenti, e le iterazioni del loop agentivo prima dell'output.

Nei modelli precedenti, il ragionamento interno aveva limiti impliciti — il modello usava "quanto gli sembrava necessario" in base al contesto. Il task budget rende quel limite esplicito e configurabile per chi chiama l'API. Puoi dire al modello quanto pensare, non solo cosa produrre.

Questo ha due implicazioni dirette.

  • Lato performance: aumentare il budget — passing effort: "xhigh" nei parametri della chiamata — porta il modello ad allocare il 30–50% di token in più per il ragionamento interno. Su task complessi come l'analisi di bug su codebase grandi o la pianificazione di task multi-step, questo si traduce in +5–8 punti percentuali su SWE-bench Verified. Non è marginale.

  • Lato costo e latenza: xhigh è circa 2× più lento di high e costa proporzionalmente di più per chiamata. La scelta del tier diventa quindi una decisione architetturale, non solo una preferenza: usare xhigh su ogni chiamata di un sistema agentivo con 10.000 esecuzioni al giorno è una decisione economica che va modellata esplicitamente.

I tier di effort — cosa significa ognuno

Opus 4.7 introduce tre tier di effort configurabili:

  • low — ragionamento minimo, latenza ridotta al massimo, ottimo per task semplici e ripetitivi dove la profondità di analisi non è il fattore critico. Retrieval, classificazione, generazione di testo strutturato su template.

  • high — tier default. Ragionamento esteso ma controllato. È il punto di equilibrio per la maggior parte dei task agentici in produzione — coding assistance, analisi di documenti, generazione di codice con contesto moderato.

  • xhigh — ragionamento massimizzato. 30–50% di token in più dedicati al pensiero interno, 2× la latenza, costo proporzionalmente superiore. Il tier per i task dove sbagliare ha un costo alto: architettura di sistemi, revisione di codice critico, analisi legale, pianificazione multi-step con dipendenze complesse.

La logica di design di Anthropic è chiara: non c'è un modello migliore in assoluto, c'è un'allocazione di risorse giusta per ogni task. Il task budget è lo strumento per fare quella scelta in modo esplicito e misurabile.

SWE-bench Verified: cosa misura e perché l'87.6% è rilevante

SWE-bench Verified è il benchmark che misura la capacità di un modello di risolvere issue reali estratti da repository GitHub pubblici — bug report, feature request, test failure — su codebase vere, con tutti i file di contesto che un developer avrebbe. Non è un test di coding generico: richiede di capire l'architettura di un progetto, identificare il punto di intervento corretto, e generare una patch che superi i test esistenti.

Il "Verified" nel nome indica che le soluzioni vengono valutate su un subset di issue che sono stati manualmente verificati da human evaluators per assicurarsi che abbiano una soluzione deterministica e non ambigua.

Claude Opus 4.6 era all'80.8%. Opus 4.7 con effort xhigh arriva all'87.6%. Sei virgola otto punti percentuali su un benchmark che misura task reali su codice reale è un salto significativo — equivale a passare dall'80% all'88% delle issue di GitHub che il modello riesce a risolvere autonomamente con una patch corretta.

Per chi usa agenti AI in workflow di sviluppo software — code review automatizzata, generazione di test, bug fixing su issue trackers — questo numero si traduce in meno fallback all'intervento umano, non in zero fallback. Il 12.4% che il modello non risolve autonomamente è ancora lì.

Il nuovo tokenizer — 1× a 1.35× di differenza

Claude Opus 4.7 introduce un tokenizer aggiornato con una tokenizzazione più efficiente per alcune categorie di contenuto. L'impatto è un fattore di compressione tra 1.0× e 1.35× rispetto al tokenizer precedente — dipende dal tipo di contenuto.

I formati che beneficiano di più: testo tecnico con molto codice, tabelle, JSON strutturato. I formati con minor differenza: testo narrativo in linguaggio naturale.

In pratica: lo stesso documento che prima occupava 10.000 token con Opus 4.6 può occuparne 7.400–10.000 con Opus 4.7, a seconda della composizione. Per task con contesti molto lunghi — RAG su documenti tecnici, analisi di codebase complete — la riduzione può essere significativa sia sul costo che sulla possibilità di fare stare tutto nel contesto.

Sul fronte immagini: Opus 4.7 supporta immagini fino a 2576px e 3.75 megapixel — un aggiornamento che conta per chi usa il modello in task di analisi visiva su documenti ad alta risoluzione, screenshot di interfacce, o diagrammi tecnici.

Le domande che uso per scegliere il tier giusto

Prima di configurare un sistema agentivo con Opus 4.7, queste sono le domande che mi aiutano a scegliere il tier:

  • Qual è il costo di un errore su questo task? Se il modello sbaglia e l'errore viene catchato subito da un human in the loop, high è sufficiente. Se il modello sbaglia e l'errore si propaga in una pipeline automatizzata con effetti difficili da rollback, xhigh è giustificato anche a costo maggiore.

  • Quanto spesso questo task viene eseguito? Un task critico eseguito 10 volte al giorno può usare xhigh senza impatti economici rilevanti. Lo stesso tier su 100.000 esecuzioni quotidiane richiede un modello economico esplicito.

  • Il task beneficia davvero del ragionamento esteso? La classificazione di email, la formattazione di dati strutturati, la generazione di testo su template — questi task non vedono benefici rilevanti da xhigh. Il ragionamento esteso conta quando il task richiede vera pianificazione multi-step o analisi di contesti complessi e ambigui.

Notizie da tenere d'occhio
  • Anthropic rilascia Claude Opus 4.7 con task budget e effort tiers (maggio 2026) La disponibilità iniziale è via API per i developer, con rollout su Claude.ai nelle settimane successive. Il modello è disponibile nei tier Pro e Team con le stesse limitazioni di rate dei modelli precedenti. Perché importa: il task budget è il segnale che il controllo granulare del ragionamento degli agenti sta diventando un'API di prima classe — non un parametro nascosto, ma una scelta esplicita del developer.

  • SWE-bench Verified aggiorna il dataset con issue del 2025-2026 (aprile 2026) L'aggiornamento include issue da repository attivi negli ultimi 18 mesi, riducendo il rischio di data contamination per i modelli addestrati su dati recenti. Il benchmark è diventato il punto di riferimento de facto per valutare i modelli su task di coding realistici. Perché importa: i risultati su SWE-bench aggiornato sono più difficili da gonfiare con overfitting sul dataset. L'87.6% di Opus 4.7 è un numero robusto.

  • Anthropic pubblica le best practice per i task budget negli agenti AI (maggio 2026) Il documento tecnico include linee guida su come scegliere il tier di effort per categoria di task, come monitorare il consumo effettivo di token nel loop agentivo, e come fare cost optimization senza degradare le performance. Perché importa: è il playbook operativo per chi sta costruendo sistemi agentici con Opus 4.7.

Una cosa da provare

Anthropic Workbench — il tool di testing dell'API che permette di confrontare effort tier sullo stesso task.

Il modo più rapido per capire se xhigh vale il costo sul tuo caso d'uso specifico è testarlo direttamente su un campione di task reali dal tuo dataset. Il Workbench permette di fare A/B tra tier diversi con le stesse chiamate e visualizzare il delta di token usati e la qualità dell'output. Non è un benchmark generico — è il tuo benchmark sul tuo problema.

I task budget sono il segnale che Anthropic sta pensando agli agenti come sistemi con economics proprie — non solo come modelli con un'API. Dare al developer il controllo esplicito su quanto "pensa" il modello prima di agire è la mossa giusta: sposta la responsabilità dove deve stare, e permette di costruire sistemi dove la qualità e il costo sono parametri scelti, non subiti.

Chi impara a fare quella scelta in modo consapevole costruirà agenti migliori. Chi non la fa pagherà troppo per task semplici o riceverà qualità insufficiente su task complessi — e in entrambi i casi non saprà perché.

Grazie per aver letto questo articolo fammi sapere cosa ne pensi!

Ci vediamo presto qui su WikiLuc!

Contatti

Scrivimi per domande o collaborazioni

Email

luciano.cipriano1994@gmail.com

© 2025. All rights reserved.