Salta al contingut principal

Recerca · Sorensen.ai · Open Source · 2026

Estudi: encara que entrenis la IA en català, segueix pensant en anglès — el cas de la coca

Encara que entrenis un model de llenguatge en català, els conceptes hi continuen entrant en anglès. 10 dels 11 LLMs provats — fins i tot els nadius en català — col·loquen coca al costat de cocaïna i Coca-Cola quan no hi ha context. La taxonomia que hi ha al darrere — i com es rescata.

Què demostra l'estudi?

«Coca Is Not Cocaine: Three Lexical-Cultural Collision Modes in Open-Weight LLMs, Probed in Catalan» és un estudi empíric publicat a GitHub per Xavier Vinaixa Roselló (Sorensen.ai) que prova si els grans models de llenguatge entenen els conceptes culturals catalans o els confonen amb les seves traduccions a l'anglès.

La pregunta central és deliberadament casolana: quan dius coca en català — un dolç tradicional, una pasta plana de la cuina catalana — el model té al cap el postre o té al cap la cocaïna i la Coca-Cola? Resposta empírica: 10 dels 11 models provats, sense context, col·loquen coca al costat dels anclatges de soroll (drogues, marques, begudes).

No és un cas anecdòtic: és un fenomen estructural de la geometria de l'espai latent. La col·lisió no depèn només de les dades d'entrenament — apareix també en els models entrenats explícitament per parlar català (Salamandra, ALIA) del Barcelona Supercomputing Center. La bona notícia: tots els models es recuperen amb un marc de prompt en català.

Metodologia

L'estudi analitza les relacions K-Nearest Neighbors (KNN) als espais d'embeddings de cada model, mesurant quants ancoratges del «clúster soroll» (cocaïna, Coca-Cola, drogues, begudes, marques) apareixen entre els 10 veïns més propers de la paraula coca. Es defineix un llindar preregistrat de ≥ 2 ancoratges de soroll fora del marc anglès per identificar una col·lisió estructural.

Cada model es prova amb quatre marcs de prompt diferents per aïllar l'efecte del context: bare (sense context), anglo_en (context en anglès), catalan_frame (marc cultural català) i neutral_ca (text neutre en català). Així es mesura no només la posició inicial de la paraula a l'espai latent, sinó també la capacitat de rescat del model en funció del marc lingüístic.

Tot el codi (Python), els CSVs amb les dades en brut, els scripts de reproducció i el report final són públics al repositori de GitHub. La metodologia detallada està documentada al fitxer metodologia.pdf i a docs/methodology.md.

11 models analitzats

L'estudi cobreix tres famílies de models de pesos oberts, estratificats per mida i propòsit:

01

Generalistes — petits

  • Gemma 2 2B (Google)
  • Gemma 4 E2B (Google)
  • Qwen2 1.5B (Alibaba)
  • Qwen 3.5 4B Base (Alibaba)

02

Generalistes — grans

  • Gemma 4 26B-A4B (Google)
  • Mistral Small 24B Base (Mistral)
  • Qwen 3.6 35B-A3B (Alibaba)
  • DeepSeek 67B Base (DeepSeek)

03

Control català — BSC

  • Salamandra 2B (Barcelona Supercomputing Center)
  • Salamandra 7B (Barcelona Supercomputing Center)
  • ALIA 40B (Barcelona Supercomputing Center)

Resultats clau

Tres troballes que sacsegen els supòsits sobre escala i entrenament en català:

  • > Col·lisió estructural

    10 de 11 models, sense context, col·loquen coca al costat de cocaïna o Coca-Cola. És un fenomen de pipeline, no només de biaix de dades.

  • > Paradoxa Salamandra 7B

    El model especialitzat en català fa pitjor sota marc anglès que els generalistes (9/10 ancoratges de soroll). Entrenar en català no garanteix immunitat.

  • > DeepSeek 67B divergeix

    És l'únic que evita les drogues, però hi va de cap a la semàntica de conte de fades (princeses, bosc encantat). Primera evidència empírica que els modes de col·lisió F1 i F2 són separables.

  • > L'escala no salva

    Tenir 67B paràmetres no fa un model més sensible al prompt. ALIA-40B té millor capacitat de rescat per marc que models més grans.

  • > El rescat funciona

    Tots els models recuperen el sentit correcte amb un marc cultural català fort. La intervenció més eficaç no és reentrenar — és donar context en català en temps d'inferència.

Taxonomia: tres modes de col·lisió

L'estudi proposa una taxonomia de tres modes de fallada lèxic-cultural que abans estaven barrejats al mateix calaix:

F1 — Col·lisió de clúster lèxic

Drag de cognats: la paraula nativa es veu arrossegada cap al clúster d'una paraula formalment similar en una altra llengua dominant. Aquí, coca → cocaïna / Coca-Cola. Apareix sobretot sota el marc bare i anglo_en.

F2 — Deriva narrativa anglosaxona

Substitució de marc cultural: el model trasllada el concepte a un imaginari estrany — fades, princeses, bosc encantat (DeepSeek 67B) — perquè la cultura nativa no és prou densa al pretraining. La paraula deixa de ser droga però tampoc no recupera el sentit.

F3 — Dominància polisèmica

El sentit més comú esborra els altres: entre tots els significats vàlids de la paraula a la llengua nativa, el model imposa el més bàsic o quotidià i amaga els especialitzats, dialectals o ritualistes. La diversitat semàntica del català es comprimeix en una sola accepció.

Per què importa

Aquest estudi és una peça de proves empírica al servei d'una tesi més gran: que el biaix anglocèntric dels LLMs no és només un problema d'inclusió simbòlica, sinó una distorsió mesurable de la realitat semàntica de les llengües minoritzades. Si demanes a un xat en anglès que et parli de la cuina catalana, hi ha una probabilitat no menyspreable que l'estigui llegint a través d'una capa fantasma d'estereotips angloamericans.

També és una guia pràctica per a periodistes, dissenyadors d'experiència i enginyers de prompt que treballen amb llengües no dominants. La conclusió enginyeril és clara: posa context cultural a la teva inferència. No deleguis a la mida del model. Un Salamandra 7B amb marc català ben construït rescata la coca; un ChatGPT colossal sense marc, no.

Connecta directament amb la línia de treball de Xavi Vinaixa sobre sobirania de dades, al·lucinació en LLMs i la idea que la resistència digital comença per recuperar el control sobre la matèria primera de la cultura — començant per la llengua.

Codi obert i reproducible

Tot el material — codi en Python, datasets en CSV, scripts de reproducció, taules de resultats i la documentació completa — és codi obert i està al repositori de GitHub. Llicència MIT per al codi i CC-BY 4.0 per a les dades. La carpeta /docs conté: methodology.md, findings.md, limitations.md, related-work.md i reproduce.md.

Per citar l'estudi: Vinaixa Roselló, X. (2026). Coca Is Not Cocaine: Three Lexical-Cultural Collision Modes in Open-Weight LLMs, Probed in Catalan. GitHub. ORCID: 0009-0005-2769-9215.

Conceptes clau

LLM Embeddings KNN Català BSC Salamandra BSC ALIA Gemma Qwen Mistral DeepSeek Biaix anglocèntric Sobirania lingüística Open Source

Referències

  1. Vinaixa Roselló, X. (2026). Coca Is Not Cocaine: Three Lexical-Cultural Collision Modes in Open-Weight LLMs, Probed in Catalan. — GitHub https://github.com/xaviviro/coca-is-not-cocaine
  2. Barcelona Supercomputing Center. Salamandra-7B model card. — Hugging Face https://huggingface.co/BSC-LT/salamandra-7b
  3. Barcelona Supercomputing Center. ALIA-40B model card. — Hugging Face https://huggingface.co/BSC-LT/ALIA-40b
  4. Vinaixa Roselló, X. (2025). Hallucination patterns in open-weight LLMs. — Zenodo (DOI 18976059) https://zenodo.org/records/18976059
  5. Vinaixa Roselló, X. (2025). Fine-tuning of literary style in instruction-tuned LLMs. — Zenodo (DOI 18975628) https://zenodo.org/records/18975628
  6. Cassany, R., Vinaixa, X. & Mauri, M. (2025). Identidad sonora personalizada mediante IA para personas sordas signantes. — Libro de Actas XVII CILCS, Madrid (ISBN 979-13-87819-03-3) https://congresolatina.net/wp-content/uploads/2025/12/Libro-de-actas-XVII-CILCS-2025.pdf
  7. Anthropic. Model Context Protocol — open specification. — modelcontextprotocol.io https://modelcontextprotocol.io/