HiTZ Zentroa desarrolla el mayor modelo del lenguaje para el euskera: Latxa
Esta primera versión será esencial para construir herramientas para el gran público como chatbots
- Noticias
Fecha de primera publicación: 31/01/2024
Un modelo grande de lenguaje, o LLM en Inglés, es un tipo de modelo de inteligencia artificial que emplea técnicas de aprendizaje automático para comprender y generar lenguaje humano, basándose en el conocimiento obtenido de conjuntos de datos masivos. El euskera cuenta ya con su gran modelo de lenguaje: Latxa. Está basado en los modelos LLaMA de Meta y reúne modelos de entre 7 y 70 mil millones de parámetros. Los LLMs de hoy en día tienen un impresionante rendimiento en idiomas con muchos recursos; por ejemplo, ChatGPT o Bard-s en inglés. Pero en el caso del euskera y otros idiomas con pocos recursos, su rendimiento deja mucho que desear. Este hecho aumenta la brecha tecnológica entre idiomas con muchos y pocos recursos, al menos en cuanto a herramientas digitales. HiTZ, Centro Vasco de Tecnología del Lenguaje de la UPV/EHU ha desarrollado Latxa con el objetivo de superar esos límites y fomentar el desarrollo de investigaciones, innovaciones y productos que funcionan con euskera basado en LLMs. Este trabajo ha recibido el apoyo del Gobierno Vasco, dentro del proyecto IKER-GAITU.
Los modelos de Latxa son modelos básicos que no se han afinado en cuanto a instrucciones o preferencias dirigidas al usuario. Por lo tanto, estos modelos no están pensados para que el público general los utilice directamente. De todos modos, estos modelos son esenciales para construir herramientas exitosas que utilicen tecnología lingüística para el euskera. “Publicamos estos modelos abiertos, para que el personal técnico experto los utilice para desarrollar productos o para que ajuste el modelo a las aplicaciones que le interesen. Ya estamos trabajando con modelos capaces de seguir las instrucciones de las personas usuarias, pero todavía no está claro si será posible construir modelos para el euskera, con una calidad como la que proporcionan al público general los GPTs en el caso del castellano o el inglés. Ese es, precisamente, el fin de nuestras investigaciones. Por lo tanto, esta se puede considerar una primera versión, ya que queremos crear mejores modelos gracias a la investigación”, explica Eneko Agirre, director de HiTZ Zentroa. Para desarrollar los modelos han utilizado sus propios servidores del tipo GPU, y los últimos modelos los han entrenado en el superordenador Leonardo de CINECA, dentro de EuroHPC Joint Undertaking (proyecto EHPC-EXT-2023E01-013).
En cuanto al conjunto de textos para construir el modelo, han utilizado EusCrawl, un conjunto de textos formado por textos en euskera que contiene 1,72 millones de documentos y 288 millones de palabras. EusCrawl se extrajo de 33 páginas web con contenido de calidad en euskera. De esta manera, ofrece mejor calidad que otras técnicas utilizadas para completar los corpus desde Internet.
Con el fin de evaluar la calidad de los modelos, se ha medido la capacidad de los modelos en varias competencias lingüísticas como la comprensión lectora, sentido común y razonamiento, análisis de sentimientos, detección de intenciones, clasificación de temas, correferencia, inferencia y acepciones de las palabras.
En el gráfico se muestra el rendimiento de los diferentes modelos por tareas, y en la parte derecha se puede ver el promedio de los resultados. “Hemos probado los modelos LLaMA de inglés y algunos de los mejores modelos de lenguaje que incluyen el euskera, para poder compararlos con nuestros modelos (las tres barras moradas). Se ve claramente que nuestros tres modelos son los mejores y que, a medida que van creciendo de tamaño, los resultados también mejoran”, explica Agirre.
Los modelos Latxa heredan el llamado LLaMA-2 License, que permite la investigación y la actividad comercial. “Aunque estén basados en modelos de inglés, nuestros modelos están pensados para ser usados en euskera, por lo que no garantizamos la calidad en otros idiomas”, añade el director de HiTZ.
Los modelos se pueden obtener en HuggingFace