Release Modèle Français 0.8 · wasertech/commonvoice-fr

Jeux de données :

Lingua Libre (~40h)
Common Voice FR (v8.0) (~826h, en autorisant jusqu'à 32 duplicatas)
Training Speech (~180h)
African Accented French (~15h)
M-AILABS French (~315h)
Att-HACK (~75h)
Multilingual LibriSpeech (~1'100h)

Total : ~2'551h (~1903h par défaut )

Paramètres :

EPOCHS=35
LEARNING_RATE=0.0001
DROPOUT=0.3
BATCH_SIZE=64
LM_ALPHA=1.053391235065787
LM_BETA=1.7465962238635773

Les paramètres qui ne sont pas mentionnés, sont ceux par default pour STT (c.f. paramètres par défaut de Coqui-STT)

Best params: lm_alpha=1.053391235065787 and lm_beta=1.7465962238635773 with WER=0.21547403738202855

Modèle de language :

dump wikipedia
dump débats assemblée nationale
dump exclues African Accented French*
dump exclues M-AILABS*
dump exclues MLS*
dump exclues Att-HACK*

* Phrases exclues des set de données d'entraînement, de validation et d'évaluation du modèle acoustique car trop longes.

Licence : MPL 2.0 https://github.com/common-voice/commonvoice-fr/blob/5699e59244d14bb14d5b7603b91c934b761c9194/DeepSpeech/LICENSE.txt

Fonctionne avec DeepSpeech v0.7, v0.8, v0.9 et Coqui-STT v1.0.0, v1.1.0, v1.2.0.

Résultats sur les sets de test:

Test on /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_test.csv - WER: 0.121251, CER: 0.040592, loss: 37.279240
Test on /mnt/extracted/data/African_Accented_French/African_Accented_French/African_Accented_French_test.csv - WER: 0.436634, CER: 0.248156, loss: 39.656155
Test on /mnt/extracted/data/Att-HACK/Att-HACK_test.csv - WER: 0.128722, CER: 0.060672, loss: 9.594825
Test on /mnt/extracted/data/M-AILABS/fr_FR/fr_FR_test.csv - WER: 0.122603, CER: 0.037138, loss: 48.013554
Test on /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_test.csv - WER: 0.593633, CER: 0.213140, loss: 9.540560
Test on /mnt/extracted/data/cv-fr/clips/test.csv - WER: 0.370288, CER: 0.194339, loss: inf
Test on /mnt/extracted/data/MLS/MLS_test.csv - WER: 0.268429, CER: 0.122745, loss: 123.213051

Notes de l'entraîneur:
Cette distribution ajoute plus de 1'200 heures d'audio pour l'entrainement du modèle acoustique mal-grès le fait qu'elle abandonne le set de données CCPMF due à de trop nombreuses erreurs présentes dans ce dernier. Cela suffit à améliorer les performances générales des modèles avec un taux d'erreur par mot (WER) moyen de 21.54 % contre 29.11 % (c.f. Release 0.6).

Le modèle de language voit quant à lui une petite augmentation du nombre de phrases en incluant celles exclues des sets de données acoustique car trop longues. Ceci permets d'ajouter le context des sets de test sans pour autant utiliser les sets de données acoustique.

Pour améliorer les performances du modèle acoustique sur un domaine particulier de la langue, il est vivement recommandé de créer son propre modèle de langage. (c.f. Modèle de Language KenLM)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Modèle Français 0.8