El sistema de aprendizaje automático desarrollado por Meta es una tecnología avanzada capaz de procesar palabras habladas en 101 idiomas diferentes. Este sistema no solo identifica y comprende múltiples lenguas, sino que también puede generar traducciones sintetizadas por voz en 36 idiomas distintos.
Diversas lenguas y escrituras en manos de la IA
Meta ha creado su propia versión moderna de la Torre de Babel con SeamlessM4T, un modelo de inteligencia artificial capaz de traducir y transcribir voz y texto en 101 idiomas. Así, el sueño del pez de Babel, el traductor de la famosa franquicia La Guía del Autoestopista Galáctico, podría estar más cerca de convertirse en realidad.
Esta tecnología, desarrollada por Meta, la compañía de Mark Zuckerberg, promete conjurar la maldición de la comunicación multilingüe. El modelo permite traducciones instantáneas de voz a voz o de texto a voz, y viceversa, imitando la expresión y el tono de los interlocutores. SeamlessM4T (Traducción de Máquinas Multilingüe y Multimodal, por sus siglas en inglés) supera a los tradicionales sistemas de traducción en cascada al integrar todo en un modelo unificado, mejorando la precisión entre un 8 % y un 23 %. Es notablemente más robusto frente al ruido de fondo y las variaciones en el habla, con una mejora del 50 % en su capacidad para adaptarse a estos desafíos.
“El modelo fue, liderado por la investigadora principal Marta Costa-Jussà, de la división de inteligencia artificial de Meta (FAIR, Foundational AI Research). Donde evaluamos a SEAMLESSM4T respecto a la toxicidad añadida y el sesgo de género para evaluar la seguridad de las traducciones. En el caso de la toxicidad, incluimos dos estrategias de mitigación, que funcionan ya sea en el entrenamiento o en el momento de la inferencia. Fue entrenado utilizando un millón de horas de audio de habla abierta, lo que le permite traducir incluso combinaciones de idiomas no incluidas explícitamente en su entrenamiento. Este enfoque permite al modelo aprender patrones en los datos, facilitando su adaptación a tareas específicas sin necesidad de grandes volúmenes de datos de entrenamiento personalizados.»
Allison Koenecke, científica computacional de la Universidad de Cornell, Nueva York
Horas de audio de discursos y traducciones humanas
La traducción automática ha avanzado significativamente en las últimas décadas, en gran parte gracias a la introducción de redes neuronales entrenadas con grandes volúmenes de datos. Si bien existen abundantes datos para los idiomas más hablados, como el inglés, estos son escasos para muchos otros, lo que ha limitado el alcance de las traducciones automáticas. El sistema de IA para traducir simultáneamente el habla, gracias a los 4,5 millones de horas de audio multilingüe que se utilizaron en su entrenamiento.
El equipo de Meta aprovechó su experiencia previa en traducción de voz a voz, así como un proyecto llamado No Language Left Behind, enfocado en ofrecer traducción de texto a texto para unos 200 idiomas. A través de esta experiencia, los investigadores descubrieron que hacer los sistemas de traducción multilingües puede mejorar el rendimiento, incluso con idiomas con poca disponibilidad de datos, aunque el motivo detrás de este fenómeno aún no está claro.
Desde la Agencia Noticiosa creemos que aunque la IA está diseñada para investigación y no para uso comercial, Meta ha liberado los datos y el código, demostrando así su compromiso con la tecnología lingüística de código abierto, sin dejar en la duda su forma de desarrollo y seguimiento en los avances tecnológicos en la era moderna.