DeepSpeech de Mozilla. Un sistema de reconocimiento de voz de código abierto.

La empresa Estadounidense ha lanzado una herramienta de reconocimiento de voz próxima al reconocimiento de un humano. El software, llamado DeepSpeech, cuenta con código abierto que permite a los desarrolladores acceder de forma gratuita al proyecto.

Una tecnología precisa de reconocimiento de voz no es fácil de conseguir. Hay infinidad de factores a tener en cuenta para que la identificación de las palabras sean adecuadas. Además, el sistema tiene que ser capaz de reconocer expresiones, diferencias acentos y tonos de voz.

Esta complejidad hace que los desarrolladores de ésta tecnología la guarden celosamente. Aunque, no es el caso de Mozilla, donde creen que la tecnología debe ser abierta y accesible para todos, y eso incluye la voz.

 

El sistema DeepSpeech consiste en algoritmos de machine learning capaces de procesar el lenguaje y transformarlo en texto; y una variedad de innovaciones para construir un motor de conversación de voz a texto, que tiene una tasa de error de sólo 6,5%.

La versión inicial incluye paquetes preconstruidos para Python, Node JS y un binario de línea de comandos.

DeepSpeech dispone de una base de datos de 400.000 grabaciones, en el que 20.000 personas de todo el mundo han contribuido su composición, tras una convocatoria realizada por Mozilla. En total son 500 horas de audio que han servido para entrenar a los algoritmos.

Por el momento, la plataforma solo funciona en inglés, pero Mozilla prevé lanzar el producto en modo multilingüe en 2018.

 

La empresa confía en que este proyecto ayude a los futuros sistemas de voz a comprender con fluidez una amplia variedad de acentos y tipos de habla.

Más información sobre DeepSpeech aquí.

Deja un comentario