Microsoft se acerca al umbral humano en su tecnología de reconocimiento de voz
Cuando Apple dio a conocer Siri, hay que reconocer que la mayoría nos ilusionamos tremendamente al imaginar la multitud de posibilidades que ofrecía una tecnología de reconocimiento de voz como la que poseía el asistente personal de la manzana. Posibilidades que se han ido diluyendo un poco con el paso del tiempo e incluso empiezan a cuestionarse por parte de expertos en la materia.
Sin embargo, Microsoft parece caminar algunos pasos por delante de los de Cupertino y su equipo de reconocimiento conversacional asegura haber desarrollado una tecnología de reconocimiento de voz al mismo nivel de la que poseemos los humanos.
El equipo, al que podéis ver en su totalidad sobre estas líneas en una imagen tomada por Allison Linn, afirman que la tecnología desarrollada es capaz de transcribir conversaciones de manera tan fluida como lo haría cualquiera de nosotros.
El porcentaje de errores se cifra entorno al 5,9%, lo que equivale más o menos al mismo porcentaje de fallos atribuidos a traductores profesionales que trabajaron sobre los mismos textos y grabaciones. Para Microsoft esto supone un verdadero hito histórico y, en palabras del máximo responsable del departamento, Xuedong Huang, haber llegado a una paridad con el ser humano.
Para conseguirlo, el equipo ha utilizado el Computational Network Toolkit, un sistema deep learning diseñado por la propia Microsoft que el equipo a puesto a disposición de todo el mundo y con licencia de código abierto a través de GitHub. Este sistema emplea tecnología de redes neuronales capaz de agrupar palabras similares y crear patrones sintácticos en los sonidos que facilitan la tarea del software a la hora de ser más eficiente a la hora de trabajar palabra a palabra.
En la compañía ya piensan en utilizar esta tecnología en Cortana, su asistente de voz para Windows y las consolas Xbox One, además de desarrollar programas específicos de conversión de voz en texto.
A pesar del éxito indudable, aún queda mucho camino para que esta tecnología sea capaz de igualarse a la comunicación humana avanzada, sobre todo a la hora de diferenciar contextos y determinados conceptos semánticos, algo intrínseco a las conversaciones habituales y en los que Siri, Cortana y similares todavía están en pañales.
Vía | The Verge
Comentarios cerrados