Hacia una comunicación inclusiva con IA: lengua de señas, lectura labial y audio en un solo modelo
La inteligencia artificial avanza hacia nuevas fronteras de inclusión. Una investigación reciente propone un marco unificado basado en modelos de lenguaje de última generación (LLM) que combina tres elementos clave:
- Lengua de señas
- Lectura de labios
- Reconocimiento de audio
Este enfoque busca lograr una comunicación más completa y accesible para personas sordas e hipoacúsicas, integrando diversas modalidades en un mismo sistema.
¿Qué significa esto en la práctica?
Hasta ahora, las tecnologías suelen enfocarse en una sola vía: aplicaciones que traducen señas, sistemas que leen los labios o softwares de reconocimiento de voz. El problema es que ninguna modalidad por sí sola es suficiente:
- La lengua de señas no siempre es entendida por todos los interlocutores.
- La lectura de labios requiere entrenamiento y es poco precisa en entornos ruidosos.
- El reconocimiento de voz falla con acentos o ruido ambiental.
La propuesta de los investigadores es integrar estas tres vías en un solo modelo, logrando redundancia y complementariedad. Así, si una modalidad falla, las otras apoyan para transmitir el mensaje correctamente.
Avances y retos
- Avance: el modelo unificado mejora la precisión de la comunicación multimodal y abre nuevas oportunidades en educación, trabajo y servicios públicos.
- Reto: se necesita gran cantidad de datos en diversas lenguas de señas y contextos culturales, además de sistemas accesibles que no dependan de costosos dispositivos.
Impacto en la inclusión
Este tipo de tecnologías no reemplaza a la Lengua de Señas como idioma natural de las comunidades sordas, pero sí facilita la interacción en entornos donde la accesibilidad es limitada, como hospitales, servicios de emergencia o atención al cliente.
Además, abre puertas a la investigación aplicada en Latinoamérica, donde la diversidad lingüística de las lenguas de señas plantea un reto y a la vez una oportunidad para la innovación.
Fuente en inglés: Towards Inclusive Communication: A Unified LLM-Based Framework for Sign Language, Lip Movements, and Audio Understanding (Arxiv, septiembre 2025).