# Speech to Text Recognition


## Selection of ASR Model

  Our research shows a selection of ASR model architectures that are pretrained on the German language and evaluates state-of-the-art open-source models in German language on diverse datasets. With comparison to English, fewer benchmark results have been published in German.

## Considerations for selection of model

- Speaker Independent
- Continuous and Spontaneous Speech
- Large Vocabulary
- Open Sourced and pretrained

## Selected Models

- Quartznet
- ContextNet
- Citrinet
- Conformer CTC
- Conformer Transducer
- wav2vec2 XLSR
- Whiper

### 1. QuartzNet: 
This model is based on the QuartzNet [architecture](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/asr/models.html#quartznet). It utilizes a character encoding scheme, and transcribes text in the standard character set that is provided in the German portion of Common Voice from Mozilla.

### 2. ContextNet: 
This model contains [ContextNet-1024](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/asr/models.html#contextnet) (around 140M parameters) trained on German [NeMo](https://github.com/NVIDIA/NeMo) ASR Set with over 2000 hours of German speech. It utilizes a Google SentencePiece tokenizer with vocabulary, and transcribes text in lower case German alphabet along with spaces without any punctuation. It uses Transducer/RNNT loss/decoder.

### 3. CitriNet: 
This model is a deep residual convolutional neural network [architecture](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/asr/models.html#citrinet) that is optimized for Automatic Speech Recognition tasks. It has been trained on over 2300 hours of German speech.It utilizes a Google SentencePiece tokenizer with vocabulary size 1024, and transcribes text in lower case German alphabet with spaces but without punctuation.

### 4. Conformer CTC: 
This model is a non-autoregressive variant of [Conformer model](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/asr/models.html#conformer-ctc) for Automatic Speech Recognition which uses CTC loss/decoding instead of Transducer. 

### 5. Conformer transducer: 
model is an autoregressive variant of [Conformer model](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/asr/models.html#conformer-transducer). It contains large size versions of Conformer-Transducer (around 120M parameters) trained on German NeMo ASRSet with over 2000 hours of speech. It transcribes speech in lower case German alphabet along with spaces but without punctuation.

Datasets:
All the above models are trained on a composite dataset (NeMo ASRSET) comprising of over two thousand hours of cleaned German speech:

MCV7.0 567 hours,  MLS 1524 hours and  VoxPopuli 214 hours

### 6. Wav2vec2.0 xlsr: 

This model is by facebook AI research (FAIR). There are several pretrained model are available on huggingface. Different finetuned versions of this model on lastest common voice datasets (V-6.0, V-7.0, V-8.0, V-9.0 ) are also available. We have selected one pretrained model wav2vec2 large xlsr-53-german by facebook And a fine-tuned version on Commonvoice (6.0) facebook wav2vec2 large [xlsr-53-german](jonatasgrosman/wav2vec2-large-xlsr-53-german) by Jonatas Grosman. Since it had the lowest self-reported WER on Common Voice (12.06%) compared to 18.5% reported for the [original model](https://huggingface.co/blog/fine-tune-wav2vec2-english) provided by [FAIR](https://github.com/facebookresearch/fairseq). It's architecture is based on Transformers’ encoder. 

### 7. Whiper: 

Whisper is a general-purpose speech recognition [model](https://github.com/openai/whisper). It is trained on a large dataset of diverse audio and is also a multi-task model that can perform multilingual speech recognition as well as speech translation and language identification.

# Performance of the selected models

In [5]:
# display audio
import IPython.display as display
display.Audio("test_audio_1.wav", autoplay=False )

### Whisper : 3/63 = 4.76% WER

Herr Holzer, was sagen Sie als Unbeteiligte zum Thema Stress? Stress, angeblich sagt man über den Stress, man hat ihn nicht, sondern man macht ihn sich.
Danke für diese philosophische Betrachtung. Mir ist allerdings die Herstellungsweise nicht bekannt. Deswegen kann ich wenig zu dem Stress aussagen. Sie testen gerade eine Aufzeichnung. Ja, aufzeichnen. So, aufzeichnen beenden. Ja, das wollen wir machen.

### Conformer-Transducer : 18/63 = 28.57% WER

herr holzer also sagen sie als unbeteiligter zum thema streß stress angeblich sorgt man über den stress man hat ihn nicht an sondern an macht in sich 	dann gewährt diese philosophische betrachtung mir ist allerdings die herstellungsweise nicht bekannt deswegen kann er wenig zum thema stress aussagen 
sie testen konnten die aufzeichnung aber auf eine sir aufzeichnung 
(*) (*) (*) beenden ja es wohl immer (*)

### Wav2vec xlsr-53: 29/63 = 46.03% WER

er holte also sagen sie als unbeteiligter zum thema stress stress an angeblich sorgt man über den stress mahatmnicht* am sondern am macht in sich 
dewärt (*) diese philosophische betrachtung  mir ist allerdings die herstellungsweise nicht bekannt das winken* wenig zum thema stress aus zu (*) dessen kunden (*) aufzeigen aber auf den therausierenden herr woman

### Conformer CTC: 20/63 = 31.74% WER

er hol sir also sagen sie als unbeteiligter zum thema stresß streß angeblich sorgt man über den streß man hat ihn nicht an sondern man (*) macht in sich 
dagew wirhr diese philosophische betrachtung mir ist allerdings die herstellungsweise nicht bekannt deswegen kannnu wenig zum thema stress aussagen sie testen kott eine aufzeichnung aber auch na sor aufzeichnung (*) (*) (*) beenden ja ist wohl ma (*)

### ContextNet: 25/63 = 39.68% WER

erholzer also sagen sie als unbeteiligte zum thema stress stress angeblich sorgt man über den stress man hat ihn nicht an sondern man (*) macht in sich dann gehört diese philosophische sprache wird (*) allerdings die herstellungsweise nicht bekannt deswegen kann wir wenig zum thema stress aussagen sie dessen konnte eine aufzeichnung aber auf eine auszeichnung (*) (*) (*) beenden (*) herr es wohlmann (*) 

### Citrinet: 28/63 = 44.44%

erol also sagen sie als unbeteiligte zum thema stres stress angeblich sorgt man über den stress man hat ihn nicht am sondern (*) macht in sich 
da gelt diese philosophische getrae wie esäuß ist die herstellungsweise nicht bekannt deswegen kam ich wenig zum thema stres aus s dessensten konnte eine auszeichnung ihrer auf na sir aufzeichnung (*) (*) (*) beenden ja es wohl man (*)

### QuartzNet: 40/63 = 63.49% WER

er holte versagen sie als unbeteiligter zum thema stress stress angeblich sorgt man über den stress (*) hat ihn nicht aum sondernman macht insch 
dargeletese3 philosophische gitrache mirdtäußergs3 die herstellungsweise nicht bekannt besvinkerne3 wenig zum timerstles2 aussah sidesten2 konte der aufzechnen ier auf innae sr offsehion enen jswo


![WER](d_output.png "Evaluation of the models")



The transcription of the whisper model is better than all other models.




### WORD ERROR RATES FOR THE MODELS AND DATASETS



![datasets](d_output2.png "Evaluation of the models on different datasets")
