Saltar al contenido principal

Investigación · Sorensen.ai · Open Source · 2026

Estudio: aunque entrenes la IA en catalán, sigue pensando en inglés — el caso de la coca

Aunque entrenes un modelo de lenguaje en catalán, los conceptos siguen entrando en inglés. 10 de los 11 LLMs probados — incluso los nativos en catalán — colocan coca al lado de cocaína y Coca-Cola cuando no hay contexto. La taxonomía detrás — y cómo se rescata.

¿Qué demuestra el estudio?

«Coca Is Not Cocaine: Three Lexical-Cultural Collision Modes in Open-Weight LLMs, Probed in Catalan» es un estudio empírico publicado en GitHub por Xavier Vinaixa Roselló (Sorensen.ai) que prueba si los grandes modelos de lenguaje entienden los conceptos culturales catalanes o los confunden con sus traducciones al inglés.

La pregunta central es deliberadamente casera: cuando dices coca en catalán — un dulce tradicional, una pasta plana de la cocina catalana — ¿el modelo tiene en mente el postre o tiene en mente la cocaína y la Coca-Cola? Respuesta empírica: 10 de los 11 modelos probados, sin contexto, colocan coca junto a los anclajes de ruido (drogas, marcas, bebidas).

No es un caso anecdótico: es un fenómeno estructural de la geometría del espacio latente. La colisión no depende solo de los datos de entrenamiento — aparece también en los modelos entrenados explícitamente para hablar catalán (Salamandra, ALIA) del Barcelona Supercomputing Center. La buena noticia: todos los modelos se recuperan con un marco de prompt en catalán.

Metodología

El estudio analiza las relaciones K-Nearest Neighbors (KNN) en los espacios de embeddings de cada modelo, midiendo cuántos anclajes del «clúster ruido» (cocaína, Coca-Cola, drogas, bebidas, marcas) aparecen entre los 10 vecinos más cercanos de la palabra coca. Se define un umbral preregistrado de ≥ 2 anclajes de ruido fuera del marco inglés para identificar una colisión estructural.

Cada modelo se prueba con cuatro marcos de prompt distintos para aislar el efecto del contexto: bare (sin contexto), anglo_en (contexto en inglés), catalan_frame (marco cultural catalán) y neutral_ca (texto neutro en catalán). Así se mide no solo la posición inicial de la palabra en el espacio latente, sino también la capacidad de rescate del modelo en función del marco lingüístico.

Todo el código (Python), los CSVs con los datos en bruto, los scripts de reproducción y el report final son públicos en el repositorio de GitHub. La metodología detallada está documentada en el archivo metodologia.pdf y en docs/methodology.md.

11 modelos analizados

El estudio cubre tres familias de modelos de pesos abiertos, estratificados por tamaño y propósito:

01

Generalistas — pequeños

  • Gemma 2 2B (Google)
  • Gemma 4 E2B (Google)
  • Qwen2 1.5B (Alibaba)
  • Qwen 3.5 4B Base (Alibaba)

02

Generalistas — grandes

  • Gemma 4 26B-A4B (Google)
  • Mistral Small 24B Base (Mistral)
  • Qwen 3.6 35B-A3B (Alibaba)
  • DeepSeek 67B Base (DeepSeek)

03

Control catalán — BSC

  • Salamandra 2B (Barcelona Supercomputing Center)
  • Salamandra 7B (Barcelona Supercomputing Center)
  • ALIA 40B (Barcelona Supercomputing Center)

Resultados clave

Tres hallazgos que sacuden los supuestos sobre escala y entrenamiento en catalán:

  • > Colisión estructural

    10 de 11 modelos, sin contexto, colocan coca al lado de cocaína o Coca-Cola. Es un fenómeno de pipeline, no solo de sesgo de datos.

  • > Paradoja Salamandra 7B

    El modelo especializado en catalán lo hace peor bajo marco inglés que los generalistas (9/10 anclajes de ruido). Entrenar en catalán no garantiza inmunidad.

  • > DeepSeek 67B diverge

    Es el único que evita las drogas, pero se va de cabeza a la semántica de cuento de hadas (princesas, bosque encantado). Primera evidencia empírica de que los modos de colisión F1 y F2 son separables.

  • > La escala no salva

    Tener 67B parámetros no hace a un modelo más sensible al prompt. ALIA-40B tiene mejor capacidad de rescate por marco que modelos más grandes.

  • > El rescate funciona

    Todos los modelos recuperan el sentido correcto con un marco cultural catalán fuerte. La intervención más eficaz no es reentrenar — es dar contexto en catalán en tiempo de inferencia.

Taxonomía: tres modos de colisión

El estudio propone una taxonomía de tres modos de fallo léxico-cultural que antes estaban mezclados en el mismo cajón:

F1 — Colisión de clúster léxico

Drag de cognados: la palabra nativa se ve arrastrada hacia el clúster de una palabra formalmente similar en otra lengua dominante. Aquí, coca → cocaína / Coca-Cola. Aparece sobre todo bajo el marco bare y anglo_en.

F2 — Deriva narrativa anglosajona

Sustitución de marco cultural: el modelo traslada el concepto a un imaginario extraño — hadas, princesas, bosque encantado (DeepSeek 67B) — porque la cultura nativa no es lo bastante densa en el pretraining. La palabra deja de ser droga pero tampoco recupera el sentido.

F3 — Dominancia polisémica

El sentido más común borra los demás: entre todos los significados válidos de la palabra en la lengua nativa, el modelo impone el más básico o cotidiano y oculta los especializados, dialectales o ritualistas. La diversidad semántica del catalán se comprime en una sola acepción.

Por qué importa

Este estudio es una pieza de pruebas empírica al servicio de una tesis más amplia: que el sesgo anglocéntrico de los LLMs no es solo un problema de inclusión simbólica, sino una distorsión medible de la realidad semántica de las lenguas minorizadas. Si pides a un chat en inglés que te hable de la cocina catalana, hay una probabilidad no despreciable de que la esté leyendo a través de una capa fantasma de estereotipos angloamericanos.

También es una guía práctica para periodistas, diseñadores de experiencia e ingenieros de prompt que trabajan con lenguas no dominantes. La conclusión ingenieril es clara: pon contexto cultural en tu inferencia. No delegues en el tamaño del modelo. Un Salamandra 7B con marco catalán bien construido rescata la coca; un ChatGPT colosal sin marco, no.

Conecta directamente con la línea de trabajo de Xavi Vinaixa sobre soberanía de datos, alucinación en LLMs y la idea de que la resistencia digital empieza por recuperar el control sobre la materia prima de la cultura — empezando por la lengua.

Código abierto y reproducible

Todo el material — código en Python, datasets en CSV, scripts de reproducción, tablas de resultados y la documentación completa — es código abierto y está en el repositorio de GitHub. Licencia MIT para el código y CC-BY 4.0 para los datos. La carpeta /docs contiene: methodology.md, findings.md, limitations.md, related-work.md y reproduce.md.

Para citar el estudio: Vinaixa Roselló, X. (2026). Coca Is Not Cocaine: Three Lexical-Cultural Collision Modes in Open-Weight LLMs, Probed in Catalan. GitHub. ORCID: 0009-0005-2769-9215.

Conceptos clave

LLM Embeddings KNN Catalán BSC Salamandra BSC ALIA Gemma Qwen Mistral DeepSeek Sesgo anglocéntrico Soberanía lingüística Open Source

Referencias

  1. Vinaixa Roselló, X. (2026). Coca Is Not Cocaine: Three Lexical-Cultural Collision Modes in Open-Weight LLMs, Probed in Catalan. — GitHub https://github.com/xaviviro/coca-is-not-cocaine
  2. Barcelona Supercomputing Center. Salamandra-7B model card. — Hugging Face https://huggingface.co/BSC-LT/salamandra-7b
  3. Barcelona Supercomputing Center. ALIA-40B model card. — Hugging Face https://huggingface.co/BSC-LT/ALIA-40b
  4. Vinaixa Roselló, X. (2025). Hallucination patterns in open-weight LLMs. — Zenodo (DOI 18976059) https://zenodo.org/records/18976059
  5. Vinaixa Roselló, X. (2025). Fine-tuning of literary style in instruction-tuned LLMs. — Zenodo (DOI 18975628) https://zenodo.org/records/18975628
  6. Cassany, R., Vinaixa, X. & Mauri, M. (2025). Identidad sonora personalizada mediante IA para personas sordas signantes. — Libro de Actas XVII CILCS, Madrid (ISBN 979-13-87819-03-3) https://congresolatina.net/wp-content/uploads/2025/12/Libro-de-actas-XVII-CILCS-2025.pdf
  7. Anthropic. Model Context Protocol — open specification. — modelcontextprotocol.io https://modelcontextprotocol.io/