Skip to content

Modèle Français 0.9

Pre-release
Pre-release
Compare
Choose a tag to compare
@wasertech wasertech released this 09 Jun 20:19
· 5 commits to stt140-cv9 since this release

Jeux de données :

  • Lingua Libre (~40h)
  • Common Voice FR (v9.0) (~850h, en autorisant jusqu'à 32 duplicatas)
  • Training Speech (~180h)
  • African Accented French (~15h)
  • M-AILABS French (~315h)
  • Att-HACK (~75h)
  • Multilingual LibriSpeech (~1'100h)

Total : ~2'573h (~1925h par défaut )

Paramètres :

EPOCHS=40
LEARNING_RATE=0.0001
DROPOUT=0.3
BATCH_SIZE=64
LM_ALPHA=0.5853937631308501
LM_BETA=1.8116059936952276

Les paramètres qui ne sont pas mentionnés, sont ceux par default pour STT (c.f. paramètres par défaut de Coqui-STT)

Augmentations

Les données ont été augmentées avec les paramètres suivants:

Parsed augmentations: [
    Reverb(p=0.1, delay=ValueRange(start=50.0, end=50.0, r=30.0), decay=ValueRange(start=10.0, end=2.0, r=1.0)),
    Resample(p=0.1, rate=ValueRange(start=12000, end=8000, r=4000)),
    Codec(p=0.1, bitrate=ValueRange(start=48000, end=16000, r=0)),
    Volume(p=0.1, dbfs=ValueRange(start=-10.0, end=-40.0, r=0.0)),
    Pitch(p=0.1, pitch=ValueRange(start=1.0, end=1.0, r=0.2)),
    Tempo(p=0.1, factor=ValueRange(start=1.0, end=1.0, r=0.5), max_time=-1.0), 
    FrequencyMask(p=0.1, n=ValueRange(start=1, end=3, r=0), size=ValueRange(start=1, end=5, r=0)), 
    TimeMask(p=0.1, domain='signal', n=ValueRange(start=3, end=10, r=2), size=ValueRange(start=50.0, end=100.0, r=40.0)),
    Dropout(p=0.1, domain='spectrogram', rate=ValueRange(start=0.05, end=0.05, r=0.0)),
    Add(p=0.1, domain='signal', stddev=ValueRange(start=0.0, end=0.0, r=0.5)),
    Multiply(p=0.1, domain='features', stddev=ValueRange(start=0.0, end=0.0, r=0.5))
]

Invalidation régulière du feature_cache (toutes les 10 epoch).

Modèle de language :

  • dump wikipedia
  • dump débats assemblée nationale
  • dump exclues African Accented French*
  • dump exclues M-AILABS*
  • dump exclues MLS*
  • dump exclues Att-HACK*

* Phrases exclues des set de données d'entraînement, de validation et d'évaluation du modèle acoustique car trop longes.

Best params: lm_alpha=0.5853937631308501 and lm_beta=1.8116059936952276 with WER=0.1921812008479461

Licence :

Mozilla Public License (MPL) 2.0

Résultats sur les sets de test:

Test on /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_test.csv - WER: 0.109517, CER: 0.041046, loss: 16.648710 
Test on /mnt/extracted/data/African_Accented_French/African_Accented_French/African_Accented_French_test.csv - WER: 0.476964, CER: 0.266480, loss: 42.864929 
Test on /mnt/extracted/data/Att-HACK/Att-HACK_test.csv - WER: 0.128990, CER: 0.071407, loss: 7.359530
Test on /mnt/extracted/data/M-AILABS/fr_FR/fr_FR_test.csv - WER: 0.099164, CER: 0.033407, loss: 17.330360 
Test on /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_test.csv - WER: 0.676133, CER: 0.216262, loss: 8.465725
Test on /mnt/extracted/data/cv-fr/clips/test.csv - WER: 0.315567, CER: 0.152625, loss: inf
Test on /mnt/extracted/data/MLS/MLS_test.csv - WER: 0.226772, CER: 0.097849, loss: 78.408150 

Notes de l'entraîneur

La version 0.8 du modèle acoustique apportait suffisament de données de qualité, par rapport à la distribution précédente, qu'elles suffisaient à produire un taux d'erreur par mot (WER) plus faible.
(c.f. Release 0.6 et Release 0.8)

Cette distribution 0.9 voit une augmentation des données validés pour le modèle acoustique de 22 heures (données supplémentaire de la version 9.0 du 27/04/22 de CommonVoice en français).
Afin d'obtenir de meilleurs résultats que la distribution 0.8, les données ont été augmentées avec les paramètres mentionnés. Cela permet d'améliorer la capacité du modèle acoustique à généraliser dans un environnement bruyant (c.f. Bruit de fond).

La prochaine étape consiterait à augmenter davantage les données du modèle acoustique avec une ou plusieurs couches de bruit de fond provenant de divers environnements source de bruit (un ventilateur, une voiture, une foule de gens, etc).

Pour améliorer les performence du modèle acoustique sur vos données il est toujours préconisé de créer votre propre modèle le language.

Fonctionne avec DeepSpeech (v0.7, v0.8, v0.9) et 🐸-STT (Coqui-STT) (v1.0.0, v1.1.0, v1.2.0, v1.3.0, v1.4.0).