department of informatics

WEB WriteIt! - Creation of a Speech Transcriptor Web Service using Tomcat and Sphinx

  • Professor : Rolf Ingold
  • Senior Assistant (main contact): Jean Hennebert
  • Assistants: Andreas Humm
  • Student : Baris Ulucinar

Overview

  • Keywords: web service, java, speech recognition
  • Context:
    • The installation of a large vocabulary speech recognizer is not an easy task in itself. The technology is said to be data-driven (i.e. it learns automatically on data) and makes usage of different speech and linguistic corpus such as speech signal database, lexicons, text corpus, etc. Even though speech recognition engines are nowadays available as open-source on the web (for example Sphinx [1] or HTK [2]), the installation of such systems is not straightforward and still requires the assembling of different tools and linguistic resources.
    • The objective of the project is to implement a web service accessible by anyone and that will allow the user to upload a speech waveform and retrieve its transcribed content. The web interface will also enable the setting of the main parameters of the speech recognition engine.
  • Description:
    • The plan of the project includes the following steps:
  1. Assemble a speech recognition engine (very probably based on Sphinx) for a large vocabulary speech recognition task. This step will not require re-training of acoustic or language models.
  2. Tune this engine to target the implementation of the web service, i.e. by making realistic assumptions in terms of cpu and memory bandwidth. This step may involve retraining of the acoustic models and language models to catch with the constraints of the target environment.
  3. Implement the web service that allow the user to upload speech waveforms and retrieve the output of the speech recognition engine.
  • Technologies: Java, Java servlets, Tomcat, speech recognition (Sphinx/HTK)
  • References:
  1. Sphinx-4 A speech recognizer written entirely in the Java programming language
  2. HTK Speech Recognition Toolkit
 

Abstract

Le projet de Master Web WriteIt! a été proposé par le groupe DIVA du Département d’Informatique de l’Université de Fribourg, en Suisse.

 

Le but du projet est de proposer un accès simplifié aux possibilités de reconnaissance de parole de l’outil open source Sphinx. L’interface proposée utilise des technologies Web dans une architecture client serveur.

 

De façon plus détaillée, l’application tourne sur un serveur Web Tomcat atteignable à l'addresse Web suivante.

 

Web WriteIt! permet la transcription d’un fichier audio (au format WAVE audio, 16 bit, mono 16000 Hz), qu’un utilisateur aura “uploadé” depuis une interface Internet ou depuis tout autre application.

 

La reconnaissance de la parole continue se fait avec l’aide de Sphinx-4 en utilisant des modèles acoustiques et des modèles de langages disponibles open source en anglais et en français. Le projet visait également la création de nos propres modèles acoustiques en français accessible à l'adresse suivante.

 

Ces derniers ont été entraînés en utilisant la base de donnée Bref de laquelle 56 heures de parole ont été extraites.

 

Des tests de performance effectués, sur base de ces modèles, ont démontré que l’entraînement avait convergé vers de bons modèles acoustiques présentant des taux d’exactitude par mot de 78%. Ce qui correspond à des performances état de l’art supérieures aux modèles acoustiques open source utilisés dans la première phase de projet.

 

Plus d'information:

 
 

Interface Web:

 

Downloads: