Skip to content
Branch: master
Find file History
Latest commit 72a47fb May 14, 2019
Permalink
Type Name Latest commit message Commit time
..
Failed to load latest commit information.
README.md Update README.md May 14, 2019

README.md

Groupe de travail pour Common Voice en français

Table des matières

Vous trouverez dans ce document l’ensemble des instructions, documentations… pour le projet Common Voice.

Introduction

Le projet Common Voice est une initiative de Mozilla pour aider à apprendre aux machines comment les humains parlent vraiment. Il va permettre de collecter des données pour fournir du contenu aux algorithmes comme Deep Speech.

Canaux

Participer à Common Voice

La voix

Il est possible de parler et d’écouter des voix pour faire grossir la base de données.

Proposer et valider de nouvelles phrases

Plusieurs étapes :

  1. Vous devez posséder un compte sur Common Voice.
  2. Identifiez-vous sur le Collecteur de phrases avec vos identifiants de Common Voice.
  3. Pour valider les phrases, il faut utiliser la page de validation.
  4. Si vous souhaitez ajouter de nouvelles phrases, vous devez vous rendre sur Ajouter une nouvelle phrase

Processus pour Common Voice fr

C’est un processus en deux grosses étapes :

  1. Construction d’un corpus de texte à faire lire (voir les contraintes ci-dessous).

  2. Contribution vocale :

  • différents genres
  • différents âges
  • différents accents
  1. Une fois collectées suffisamment de variétés et de quantité (des centaines d'heures d'audio), il faut construire des ensembles pour l'apprentissage du modèle français.

Étape en cours

On essaie de construire un premier ensemble de départ – ~10k phrases de sources variées – pour lancer une langue. Ensuite prend place le processus manuel de validation des envois pour vérifier un minimum de qualité. Pour faire partie de cette équipe de validateurs, prenez langue sur https://discourse.mozilla.org/c/voice.

Construction du corpus de texte

Contraintes

  • Common Voice redistribue en CC0. Il faut donc des corpus de texte compatibles.
  • Texte représentatif (dialogues de film, débats, théâtre).
  • Différents registres de langue nécessaires.
  • Normalisation des nombres (chiffres romains aussi).
  • Voir commonvoice-fr pour du code qui normalise proprement le texte.

Sources de données en CC0

Liens à garder pour plus tard

Rajouter des phrases

https://common-voice.github.io/sentence-collector/#/add

Annonces et articles intéressants

Section Presse annonce Mozilla

Article de la communauté francophone

  • Haussons la voix tous ensemble pour le Web – traduction de l’article de Daniel Kessler du 19 juillet 2017 par la communauté Mozilla francophone
  • Mozilla ouvre la voix – article de Kelly Davis du 28 juillet 2017 sur les plans de Mozilla d’ouvrir la reconnaissance vocale traduit par la communauté Mozilla francophone

Interview

Autres articles

You can’t perform that action at this time.