L'ecosistema AI cinese nel 2026: DeepSeek, Qwen3 e Doubao

A inizio 2025 i modelli cinesi rappresentavano meno del 2% del traffico su OpenRouter. Oggi quella quota è oltre il 45%. Cosa sta succedendo davvero stando sui numeri

Luciano Cipriano

5/28/20266 min read

Ciao a tutti,

Ben arrivati su WikiLuc.

A inizio 2025, i modelli cinesi rappresentavano meno del 2% del traffico su OpenRouter — la piattaforma che aggrega le chiamate API ai principali LLM e che è diventata uno dei proxy più affidabili per capire cosa il mercato usa davvero. Oggi quella quota è oltre il 45%.

Non è un fenomeno che si spiega con il nazionalismo tecnologico o con la geopolitica, anche se questi elementi sicuramente giocano un ruolo. Si spiega con qualcosa di molto più semplice: i modelli cinesi stanno performando bene su benchmark indipendenti, costano meno per token, e vengono rilasciati con architetture che il mercato non aveva previsto.

Il problema è che la narrazione mainstream su questo tema tende a oscillare tra due estremi — o "i cinesi ci hanno copiato tutto" o "l'AI cinese cambierà il mondo domani" — e nessuno dei due aiuta chi deve prendere decisioni concrete su quale modello usare o come posizionarsi rispetto a questo mercato.

Quello che voglio fare oggi è stare sui numeri e provare ad analizzare insieme il fenomeno

Di cosa parliamo oggi:

  • Qwen3-Max e il benchmark che ha sorpreso tutti

  • DeepSeek V3.2: architettura MoE e implicazioni di costo

  • ByteDance Doubao 2.0 e Seeddream 5.0 — il multimodale silenzioso

  • Cosa significa il 45% di OpenRouter per chi costruisce prodotti

  • Notizie da tenere d'occhio

Partiamo dai dati.

L'ecosistema AI cinese: cosa sta succedendo davvero
Qwen3-Max: il benchmark che vale la pena capire

A maggio 2026, Alibaba ha rilasciato Qwen3-Max con un risultato sul LiveBench — uno dei benchmark più aggiornati e difficili da manipolare perché usa dati mai visti durante il training — di 70.3 punti. Claude Sonnet 4.6, nello stesso periodo, si attestava a 68.1.

Vale la pena capire cos'è LiveBench prima di trarre conclusioni. A differenza di benchmark come MMLU o HumanEval, LiveBench aggiorna continuamente le domande usando dati recenti — notizie, paper, competizioni — per evitare che i modelli vengano ottimizzati specificamente sui test. È il benchmark che resiste meglio al dataset contamination, che è il problema principale di tutti gli altri.

Detto questo: un benchmark è una misura, non una sentenza. Qwen3-Max supera Claude Sonnet 4.6 su LiveBench generale, ma le differenze tra modelli su task specifici — ragionamento su codice complesso, coerenza su contesti lunghi, instruction following — possono invertire il risultato.

Il punto non è "Qwen batte Claude". Il punto è che il margine si è assottigliato a tal punto che la scelta del modello non può più essere fatta a priori senza testare sul proprio caso d'uso.

La famiglia Qwen3 è rilasciata con licenza Apache 2.0 — utilizzo commerciale incluso, senza royalties. L'architettura base del modello è pubblica. Questo lo rende immediatamente deployabile su infrastructure propria, il che è un vantaggio sostanziale per chi ha requisiti di data residency o vuole evitare dipendenze da API esterne.

DeepSeek V3.2: l'architettura MoE e il costo per token

DeepSeek V3.2 è un modello con 685 miliardi di parametri totali, architettura Mixture of Experts (MoE). In pratica: non tutti i 685 miliardi di parametri si attivano per ogni token generato — solo un sottoinsieme, tipicamente il 10–15%, viene chiamato in causa per ciascuna inferenza.

Il risultato è che il costo computazionale effettivo per token è molto inferiore a quello che il numero totale di parametri suggerirebbe. Un modello MoE da 685B parametri attivi per il 12% ha un costo di inferenza paragonabile a un modello denso da 80–90B — ma con la capacità di un modello molto più grande quando il contesto lo richiede.

È l' architettura che spiega una parte del vantaggio di costo dei modelli cinesi rispetto agli equivalenti americani. Non è magia — è una scelta architetturale deliberata, con trade-off precisi (i modelli MoE sono più difficili da addestrare e da fare scaling, ma molto più efficienti nell'inferenza).

DeepSeek pubblica i pesi del modello e i dettagli architetturali — una policy di trasparenza che ha contribuito in modo significativo alla crescita della community e all'adozione enterprise. Chi vuole deployare DeepSeek su infrastruttura propria ha accesso completo a ciò che serve per farlo.

ByteDance Doubao 2.0 e Seeddream 5.0: il multimodale che si muove in silenzio

ByteDance è il player cinese di cui si parla meno nel mercato occidentale, ma che ha forse il posizionamento più interessante dal punto di vista applicativo.

  • Doubao 2.0 è il modello testo-to-text di ByteDance, integrato direttamente nelle applicazioni consumer del gruppo — principalmente TikTok e il suo equivalente cinese Douyin, con oltre 700 milioni di utenti attivi. È il modello AI con la base di utenza consumer più grande al mondo in termini di volume di interazioni. Il dato che emerge dai rapporti interni è un volume di query che supera quello di ChatGPT nel segmento mobile asiatico.

  • Seeddream 5.0 è il modello di generazione video e immagini sviluppato dalla divisione Seed Lab di ByteDance. Le valutazioni comparative su task di video generation — coerenza temporale, qualità del movimento, aderenza al prompt — lo collocano nella stessa fascia di Sora e Runway Gen-3. La differenza è che Seeddream 5.0 è integrato direttamente nel flusso di produzione dei creator TikTok, il che significa che ha già un canale di distribuzione con centinaia di milioni di utenti.

Il punto qui non è la qualità del modello in modo assolutov. È che ByteDance sta costruendo un flywheel di dati e distribuzione che è difficile da replicare: ogni creator che usa Seeddream 5.0 genera feedback su cosa funziona e cosa no, e quel feedback rientra nel ciclo di miglioramento del modello.

Il 45% di OpenRouter: cosa significa per chi costruisce prodotti

Tornando al dato di partenza: il 45% del traffico OpenRouter che fluisce verso modelli cinesi è un segnale che va letto con attenzione.

OpenRouter è usato principalmente da sviluppatori e team tecnici che costruiscono applicazioni, non da utenti finali che chattano. Il fatto che quasi la metà del traffico vada su modelli cinesi significa che i builder — le persone che scelgono il backend dei prodotti — stanno valutando e usando questi modelli su task reali.

Le motivazioni principali che emergono dai forum tecnici (LessWrong, Hacker News, Discord dei principali framework): costo per token, disponibilità di modelli open-weight deployabili localmente, e — per alcune categorie di task come il coding — performance comparabile o superiore ai modelli closed-source di punta.

Per chi costruisce in Europa, c'è un layer aggiuntivo da considerare: la data sovereignty. I modelli cinesi ospitati su infrastruttura non europea sollevano questioni di compliance al GDPR che i modelli open-weight deployabili su infrastructure propria in Europa risolvono. Qwen3 e DeepSeek V3.2 sono entrambi deployabili su stack interno — e questo è un vantaggio competitivo concreto per use case con dati sensibili.

Notizie da tenere d'occhio
  • Alibaba rilascia Qwen3-Max con LiveBench 70.3 (maggio 2026) La famiglia Qwen3 copre adesso modelli da 0.6B a 235B parametri, tutti con licenza Apache 2.0. Il modello MoE Qwen3-235B-A22B — 235 miliardi di parametri totali, 22 miliardi attivi per inferenza — è quello con il miglior rapporto performance/costo nella famiglia. Perché importa: la granularità dell'offerta (dalla versione edge alla versione flagship) rende Qwen3 un ecosistema completo, non un singolo modello da valutare in isolamento.

  • DeepSeek rilascia V3.2 con architettura MoE aggiornata (aprile 2026) Il modello da 685B parametri migliora le performance su coding e mathematical reasoning rispetto a V3.1. Il costo API è $0.14 per milione di token in input — circa 6× inferiore rispetto a GPT-4o al momento del rilascio. Perché importa: per applicazioni cost-sensitive su grandi volumi — RAG, processing documentale, pipeline di classificazione — il differenziale di costo ha un impatto economico diretto sulla sostenibilità del prodotto.

  • ByteDance Seed Lab pubblica i risultati di Seeddream 5.0 su benchmark video (maggio 2026) Le valutazioni su EvalCrafter — benchmark per la qualità della generazione video — collocano Seeddream 5.0 nella stessa fascia dei migliori modelli occidentali. La distribuzione diretta via TikTok Studio è già attiva per un subset di creator selezionati. Perché importa: il mercato della generazione video AI si sta consolidando rapidamente. Chi non ha ancora un player asiatico nella propria analisi competitiva lo sta ignorando.

Una cosa da leggere

Qwen3 Technical Report — Alibaba Cloud, maggio 2026 (disponibile su arXiv).

  • È uno dei documenti tecnici più dettagliati rilasciati da un lab asiatico: architettura, dati di training, risultati su benchmark con confronto diretto con i competitor. La sezione sul processo di post-training — in particolare sul ragionamento a catena applicato ai task matematici — è quella che mi ha sorpreso di più per la qualità dell'analisi. Vale la lettura anche solo per capire come un lab non-OpenAI documenta le proprie scelte.

  • Il 45% di OpenRouter non è un'anomalia temporanea — è il segnale che il mercato degli LLM ha smesso di essere un oligopolio a due o tre player. L'ecosistema AI cinese non è omogeneo, non è monolitico, e non va letto con le stesse categorie che usiamo per i lab americani.

La domanda che mi sembra più utile fare adesso non è "i modelli cinesi sono migliori?". È: "su quale task specifico, a quale costo, con quali vincoli di governance — quale modello serve davvero?" Chi ha imparato a fare quella domanda prima degli altri ha un vantaggio che non si recupera facilmente.

Grazie per aver letto questo articolo fammi sapere cosa ne pensi!

Ci vediamo presto qui su WikiLuc!

Contatti

Scrivimi per domande o collaborazioni

Email

luciano.cipriano1994@gmail.com

© 2025. All rights reserved.