Common Voice fr

lissyx edited this page Oct 26, 2018 · 31 revisions

Groupe de travail pour Common Voice en français

Canaux

  • « Common Voice fr » sur Telegram pour la discussion/coordination : s'inscrire au groupe
  • Ce wiki pour les instructions, documentations…

Processus pour Common Voice fr – DeepSpeech fr

C'est un processus en deux grosses étapes :

  1. Construction d'un corpus de texte à faire lire, cf. les contraintes ci-dessous.
  2. Contribution vocale :
    • Différents genres
    • Différents âges
    • Différentes accents
  3. Une fois collecté suffisamment de variétés et de quantité (centaines d'heures d'audio), construction des ensembles pour l'apprentissage du modèle français.

Étape en cours : 1

On essaie de construire un premier ensemble de départ, ~10k phrases de sources variées, pour lancer une langue. Soumission des textes via https://voice-sprint.mozilla.community/upload/, soit directement pour des petits volumes, soit indirectement (Pastebin, etc. dépôts git…) pour les grosses quantités. Ensuite, processus manuel de validation des envois pour vérifier un minimum de qualité.
Pour faire partie de cette équipe de validateurs, prenez langue sur https://discourse.mozilla.org/c/voice

Construction du corpus de texte

Contraintes

  • Common Voice redistribue en CC0, il faut des corpus de texte « compatibles »
  • Texte représentatif (dialogues de film, débats, théâtre)
  • Différents registres de langue nécessaires
  • Normalisation des nombres (chiffres romains aussi)
  • Voir commonvoice-fr pour du code qui normalise proprement le texte

Sources de données en CC0

Liens à garder pour plus tard

Rajouter des phrases

Annonces et articles intéressants

Haussons la voix tous ensemble pour le Web – Common Voice – traduction de l'article de Daniel Kessler du 19 juillet 2017 par la communauté Mozilla francophone

Mozilla ouvre la voix – article de Kelly Davis du 28 juillet 2017 sur les plans de Mozilla d'ouvrir la reconnaissance vocale traduit par la communauté Mozilla francophone

Common Voice devient multilingue et s’enrichit de nouvelles langues – traduction de la Section Presse de l'annonce de Mozilla du 7 juin 2018

Clone this wiki locally
You can’t perform that action at this time.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session.
Press h to open a hovercard with more details.