Recerca · Sorensen.ai · Open Source · 2026

Estudi: encara que entrenis la IA en català, segueix pensant en anglès — el cas de la coca

Encara que entrenis un model de llenguatge en català, els conceptes hi continuen entrant en anglès. 10 dels 11 LLMs provats — fins i tot els nadius en català — col·loquen coca al costat de cocaïna i Coca-Cola quan no hi ha context. La taxonomia que hi ha al darrere — i com es rescata.

Codi i dades a GitHub Llegeix l'article a Substack Metodologia (PDF)

Publicat: 4 de maig del 2026 Última actualització: 5 de maig del 2026

Què demostra l'estudi?

«Coca Is Not Cocaine: Three Lexical-Cultural Collision Modes in Open-Weight LLMs, Probed in Catalan» és un estudi empíric publicat a GitHub per Xavier Vinaixa Roselló (Sorensen.ai) que prova si els grans models de llenguatge entenen els conceptes culturals catalans o els confonen amb les seves traduccions a l'anglès.

La pregunta central és deliberadament casolana: quan dius coca en català — un dolç tradicional, una pasta plana de la cuina catalana — el model té al cap el postre o té al cap la cocaïna i la Coca-Cola? Resposta empírica: 10 dels 11 models provats, sense context, col·loquen coca al costat dels anclatges de soroll (drogues, marques, begudes).

No és un cas anecdòtic: és un fenomen estructural de la geometria de l'espai latent. La col·lisió no depèn només de les dades d'entrenament — apareix també en els models entrenats explícitament per parlar català (Salamandra, ALIA) del Barcelona Supercomputing Center. La bona notícia: tots els models es recuperen amb un marc de prompt en català.

Metodologia

L'estudi analitza les relacions K-Nearest Neighbors (KNN) als espais d'embeddings de cada model, mesurant quants ancoratges del «clúster soroll» (cocaïna, Coca-Cola, drogues, begudes, marques) apareixen entre els 10 veïns més propers de la paraula coca. Es defineix un llindar preregistrat de ≥ 2 ancoratges de soroll fora del marc anglès per identificar una col·lisió estructural.

Cada model es prova amb quatre marcs de prompt diferents per aïllar l'efecte del context: bare (sense context), anglo_en (context en anglès), catalan_frame (marc cultural català) i neutral_ca (text neutre en català). Així es mesura no només la posició inicial de la paraula a l'espai latent, sinó també la capacitat de rescat del model en funció del marc lingüístic.

Tot el codi (Python), els CSVs amb les dades en brut, els scripts de reproducció i el report final són públics al repositori de GitHub. La metodologia detallada està documentada al fitxer metodologia.pdf i a docs/methodology.md.

11 models analitzats

L'estudi cobreix tres famílies de models de pesos oberts, estratificats per mida i propòsit:

Generalistes — petits

Gemma 2 2B (Google)
Gemma 4 E2B (Google)
Qwen2 1.5B (Alibaba)
Qwen 3.5 4B Base (Alibaba)

Generalistes — grans

Gemma 4 26B-A4B (Google)
Mistral Small 24B Base (Mistral)
Qwen 3.6 35B-A3B (Alibaba)
DeepSeek 67B Base (DeepSeek)

Control català — BSC

Salamandra 2B (Barcelona Supercomputing Center)
Salamandra 7B (Barcelona Supercomputing Center)
ALIA 40B (Barcelona Supercomputing Center)

Resultats clau

Tres troballes que sacsegen els supòsits sobre escala i entrenament en català:

Col·lisió estructural

10 de 11 models, sense context, col·loquen coca al costat de cocaïna o Coca-Cola. És un fenomen de pipeline, no només de biaix de dades.
Paradoxa Salamandra 7B

El model especialitzat en català fa pitjor sota marc anglès que els generalistes (9/10 ancoratges de soroll). Entrenar en català no garanteix immunitat.
DeepSeek 67B divergeix

És l'únic que evita les drogues, però hi va de cap a la semàntica de conte de fades (princeses, bosc encantat). Primera evidència empírica que els modes de col·lisió F1 i F2 són separables.
L'escala no salva

Tenir 67B paràmetres no fa un model més sensible al prompt. ALIA-40B té millor capacitat de rescat per marc que models més grans.
El rescat funciona

Tots els models recuperen el sentit correcte amb un marc cultural català fort. La intervenció més eficaç no és reentrenar — és donar context en català en temps d'inferència.

Taxonomia: tres modes de col·lisió

L'estudi proposa una taxonomia de tres modes de fallada lèxic-cultural que abans estaven barrejats al mateix calaix:

F1 — Col·lisió de clúster lèxic

Drag de cognats: la paraula nativa es veu arrossegada cap al clúster d'una paraula formalment similar en una altra llengua dominant. Aquí, coca → cocaïna / Coca-Cola. Apareix sobretot sota el marc bare i anglo_en.

F2 — Deriva narrativa anglosaxona

Substitució de marc cultural: el model trasllada el concepte a un imaginari estrany — fades, princeses, bosc encantat (DeepSeek 67B) — perquè la cultura nativa no és prou densa al pretraining. La paraula deixa de ser droga però tampoc no recupera el sentit.

F3 — Dominància polisèmica

El sentit més comú esborra els altres: entre tots els significats vàlids de la paraula a la llengua nativa, el model imposa el més bàsic o quotidià i amaga els especialitzats, dialectals o ritualistes. La diversitat semàntica del català es comprimeix en una sola accepció.

Per què importa

Aquest estudi és una peça de proves empírica al servei d'una tesi més gran: que el biaix anglocèntric dels LLMs no és només un problema d'inclusió simbòlica, sinó una distorsió mesurable de la realitat semàntica de les llengües minoritzades. Si demanes a un xat en anglès que et parli de la cuina catalana, hi ha una probabilitat no menyspreable que l'estigui llegint a través d'una capa fantasma d'estereotips angloamericans.

També és una guia pràctica per a periodistes, dissenyadors d'experiència i enginyers de prompt que treballen amb llengües no dominants. La conclusió enginyeril és clara: posa context cultural a la teva inferència. No deleguis a la mida del model. Un Salamandra 7B amb marc català ben construït rescata la coca; un ChatGPT colossal sense marc, no.

Connecta directament amb la línia de treball de Xavi Vinaixa sobre sobirania de dades, al·lucinació en LLMs i la idea que la resistència digital comença per recuperar el control sobre la matèria primera de la cultura — començant per la llengua.

Codi obert i reproducible

Tot el material — codi en Python, datasets en CSV, scripts de reproducció, taules de resultats i la documentació completa — és codi obert i està al repositori de GitHub. Llicència MIT per al codi i CC-BY 4.0 per a les dades. La carpeta /docs conté: methodology.md, findings.md, limitations.md, related-work.md i reproduce.md.

Per citar l'estudi: Vinaixa Roselló, X. (2026). Coca Is Not Cocaine: Three Lexical-Cultural Collision Modes in Open-Weight LLMs, Probed in Catalan. DOI: 10.13140/RG.2.2.10368.39682 · ORCID: 0009-0005-2769-9215.

Conceptes clau

LLM Embeddings KNN Català BSC Salamandra BSC ALIA Gemma Qwen Mistral DeepSeek Biaix anglocèntric Sobirania lingüística Open Source

Recursos i enllaços

GitHub — coca-is-not-cocaine

Repositori oficial: codi Python, datasets CSV, scripts de reproducció i informe complet (llicència MIT + CC-BY 4.0)

/docs — documentació

methodology.md, findings.md, limitations.md, related-work.md i reproduce.md

metodologia.pdf

Document metodològic complet en PDF amb el preregistre, llindars i protocol experimental

Substack — La coca no és cocaïna (excepte per a la IA)

Article de divulgació en català que explica les troballes i la seva implicació política i cultural

Salamandra (BSC) a Hugging Face

Model nadiu en català del Barcelona Supercomputing Center provat a l'estudi

ALIA-40b (BSC) a Hugging Face

Model nadiu en català del BSC provat a l'estudi (40B paràmetres)

ORCID — Xavier Vinaixa Roselló

Identitat acadèmica de l'autor

Referències

Vinaixa Roselló, X. (2026). Coca Is Not Cocaine: Three Lexical-Cultural Collision Modes in Open-Weight LLMs, Probed in Catalan. — GitHub https://github.com/xaviviro/coca-is-not-cocaine
Barcelona Supercomputing Center. Salamandra-7B model card. — Hugging Face https://huggingface.co/BSC-LT/salamandra-7b
Barcelona Supercomputing Center. ALIA-40B model card. — Hugging Face https://huggingface.co/BSC-LT/ALIA-40b
Vinaixa Roselló, X. (2025). Hallucination patterns in open-weight LLMs. — Zenodo (DOI 18976059) https://zenodo.org/records/18976059
Vinaixa Roselló, X. (2025). Fine-tuning of literary style in instruction-tuned LLMs. — Zenodo (DOI 18975628) https://zenodo.org/records/18975628
Cassany, R., Vinaixa, X. & Mauri, M. (2025). Identidad sonora personalizada mediante IA para personas sordas signantes. — Libro de Actas XVII CILCS, Madrid (ISBN 979-13-87819-03-3) https://congresolatina.net/wp-content/uploads/2025/12/Libro-de-actas-XVII-CILCS-2025.pdf
Anthropic. Model Context Protocol — open specification. — modelcontextprotocol.io https://modelcontextprotocol.io/