04.25.06
Reconocimiento de voz
Acabo de instalarme el Dragon NaturallySpeaking. Muchos se preguntarán: “¿qué demonios es eso?”. Es un programa de dictado y reconocimiento de voz, que te ayuda a dictar tus documentos, o, al menos, eso pretende.
A decir verdad, el mundo del reconocimiento de voz ha evolucionado mucho. Hasta tal punto de que una frase puede ser dictada de forma continua sin pausas. Esto antes era impensable, ya que para hacer un dictado con los programas pioneros en el tema de reconocimiento de voz, tenÃas que ir diciendo cada palabra una a una y rezar para que te la reconociera. ParecÃas un jefe indio hablando con el rostro pálido. Ahora, la cosa ha llegado a tal punto en el que no sólo no se tiene por qué hablar asÃ, sino que se recomienda, o incluso se exige, que para un buen reconocimiento de voz no hagas pausas entre las palabras. De esta forma, es mucho más sencillo ya que puedes hablarle directamente con un tono de voz normal, eso sÃ, cuidando el acento, sin cecear en exceso y procurando vocalizar.
Este mundo sigue estando en pañales. Este programa en concreto, tiene varios fallos en cuanto al reconocimiento. Yo soy andaluz, como más de uno sabrá, y por eso tengo un ligero ceceo que, aunque, en mi caso no es tan pronunciado como en otra gente, sigue siendo un escollo para el programa de dictado. Tengo que forzarme por decir lo más posible las eses finales, asà como intentar no unir las palabras como hacemos los andaluces. También es una tentación hablar rápido ya que, como sabe todo el mundo, los andaluces nos caracterizamos por hablar excesivamente rápido. Yo creo que, con paciencia, este programa puede adaptarse a cualquier tipo de acento, con mayor o menor esfuerzo, pero con un éxito de un 80% o 90%.
Quitando el problema de la malinterpretación de las palabras, asà como de algunos comandos y ciertos signos, es posible tener una “relación buena” con este programa. Eso sÃ, siempre y cuando no intentemos que sea efectivo al 100%. Esto es debido al eterno problema de la interpretación del lenguaje. Nosotros tenemos un sistema de lenguajes que puede llevar a confusión, ya que por ejemplo, si intentamos escribir la palabra “tu” en un contexto de una oración como por ejemplo: “tu madre me dijo que tú estabas durmiendo”, es posible que la primera aparición de la palabra la entienda como con tilde y la segunda sin tilde, cuando es al contrario. También pueden suponer un problema palabras o expresiones que por su forma de pronunciarse pueden escribirse de dos o más maneras, como por ejemplo “a ver” y “haber”. De esta forma, si empiezas un texto con cualquiera de las dos palabras, el motor de reconocimiento podrá interpretar que estás intentando decir “haber” cuando quisiste decir “a ver”. Lógicamente, esto no es un problema de programación, ya que, en realidad, la mayorÃa de las veces lo entiende de una forma de otra, sino que es un problema de interpretación lingüÃstica.
El problema de la interpretación lingüÃstica viene sucediendo desde que el hombre creó los ordenadores, ya que, el hecho de que la gente del mundo pudiera hablar entre sÃ, llevó a las casas de creación de programas a la creación de sistemas de traducción. Este asunto trajo de cabeza a programadores, analistas, lingüistas y especialistas en informática en general. ¿Cómo se podrÃa intentar crear un programa que tradujera un texto de forma efectiva, con los menores errores posibles y que tuviera en cuenta la interpretación lingüÃstica para traducir diversas formas de expresión que sólo las entiende el ser humano? TodavÃa no se ha solucionado. ¿Cuando se solucionará? Yo creo que se arreglará cuando se cree la inteligencia artificial. Sólo entonces, los ordenadores podrán interpretar lo que una persona dice sin errores. De hecho, el problema de la interpretación viene pasando también en los programas de texto-a-voz. Estos programas leen algo en voz alta, justamente al contrario que el reconocimiento de voz. Debido a la gran cantidad de formas de leer una palabra, de las múltiples formas en las que una frase puede ser leÃda, e incluso de las infinidades de formas en las que una misma frase puede ser interpretada, los programas de texto-a-voz se ven ante el problema de que su lectura debe ser lo más neutral posible, anulando estados de ánimo, ironÃas, sarcasmos, énfasis o incluso las exclamaciones.
Hoy por hoy, tanto la interpretación de textos para la traducción, como el texto-a-voz o el reconocimiento de voz están en una fase alpha, es decir, un estado en el que comienza a dar los primeros pasos pero que necesita de mucho trabajo porque para que sea efectivo al 100%, los ordenadores deben pensar, razonar e interpretar lo que decimos, porque si no, el tema del texto-a-voz y el reconocimiento quedará estancado en un punto sin posibilidad de avance.
Para terminar, he de decir que el Dragon NaturallySpeaking ha sido el que me ha ayudado a escribir este texto. Quizás el tiempo que he estado dictando todo esto y corrigiendo los problemas que iban saliendo, podrÃa haber escrito dos como este, pero no habrÃa valido de nada mi valoración y mi análisis. Realmente no ha tenido muchos errores, en comparación con los que en su dÃa tuvieron sus compañeros a estas alturas. Digo esto porque el programa lleva funcionando un par de horas y le he dictado algo asà como media página de texto para probar. Después de eso me he puesto a dictarle este artÃculo con un éxito bastante grande.
Pienso que este tipo de programas tienen más efectividad para personas que están continuamente dictando y escribiendo textos. Para estas personas, pasarse un tiempo adaptando el programa a su voz puede ser bastante productivo ya que, lo compensará luego escribiendo textos el doble de rápido. También es muy útil para personas con movilidad reducida o incapacitadas, ya que permite manejar el propio sistema operativo (Windows) con la voz: manejar el menú inicio, abrir o cerrar ventanas, navegar por las que tenemos abiertas y controlar cualquier aspecto de Windows.


patricio solis said,
Septiembre 8, 2007 at 1:09 am
como puedo acceder a este programa gratuitamente y lo antes posible por favor…gracias
angro said,
Septiembre 8, 2007 at 7:20 pm
Este programa es de pago, puedes comprarlo en la página de Dragon:
http://www.digitalriver.com/v2.0-img/operations/scansoft/site/393027/es/dns-talk_spain.html