# <center> Génération de données audio </center>

Nous avons besoin de générer des données audio contenant des erreurs grammaticales. Nous avons décidé d'utiliser une voix ayant un accent indien car il n'y avait pas d'accent français pour du texte anglais de disponible sur le TTS qu'on utilise. Cette caractéristique permettra par la suite d'affiner notre modèle STT à cet accent spécifique. Nous utilisons un jeu de données JFLEG qui contient des phrases erronées en anglais et leurs corrections. Nous allons utiliser un TTS pour obtenir ces phrases erronées à l'oral et ainsi obtenir notre jeu de données pour notre pipeline.

In [2]:
# !pip install gTTS datasets

Collecting gTTS
  Downloading gTTS-2.4.0-py3-none-any.whl (29 kB)
Collecting datasets
  Downloading datasets-2.15.0-py3-none-any.whl (521 kB)
     -------------------------------------- 521.2/521.2 kB 8.1 MB/s eta 0:00:00
Collecting pyarrow>=8.0.0
  Downloading pyarrow-14.0.1-cp39-cp39-win_amd64.whl (24.6 MB)
     --------------------------------------- 24.6/24.6 MB 20.4 MB/s eta 0:00:00
Collecting xxhash
  Downloading xxhash-3.4.1-cp39-cp39-win_amd64.whl (29 kB)
Collecting aiohttp
  Downloading aiohttp-3.9.1-cp39-cp39-win_amd64.whl (365 kB)
     ------------------------------------- 365.5/365.5 kB 22.2 MB/s eta 0:00:00
Collecting pyarrow-hotfix
  Downloading pyarrow_hotfix-0.6-py3-none-any.whl (7.9 kB)
Collecting multidict<7.0,>=4.5
  Downloading multidict-6.0.4-cp39-cp39-win_amd64.whl (28 kB)
Collecting yarl<2.0,>=1.0
  Downloading yarl-1.9.3-cp39-cp39-win_amd64.whl (76 kB)
     ---------------------------------------- 76.2/76.2 kB ? eta 0:00:00
Collecting aiosignal>=1.1.2
  Download



In [3]:
from datasets import load_dataset, concatenate_datasets, Dataset
from datasets.features.audio import Audio
import pandas
from gtts import gTTS

In [4]:
dataset = load_dataset("jfleg")
dataset

DatasetDict({
    validation: Dataset({
        features: ['sentence', 'corrections'],
        num_rows: 755
    })
    test: Dataset({
        features: ['sentence', 'corrections'],
        num_rows: 748
    })
})

Le dataset de JFLEG est composé d'un jeu de validation et d'un jeu de test. Nous concaténons ces deux ensembles pour les rediviser en jeu d'entrainement et de test avec les proportions que nous choisirons nous même plus tard.

In [5]:
dataset_concat = concatenate_datasets([dataset["validation"], dataset["test"]])
dataset_concat

Dataset({
    features: ['sentence', 'corrections'],
    num_rows: 1503
})

On va faire un prétraitement des données car certains textes de jfleg sont vides (indice 754 par exemple) et bloquent donc la création des audios.

In [6]:
dataset_concat["sentence"][754]

''

In [7]:
# Filtrer les textes vides dans dataset_concat
dataset_concat = dataset_concat.filter(lambda example: example["sentence"].strip() != "")

In [8]:
dataset_concat["sentence"][754]

'New and new technology has been introduced to the society .'

Nous retranscrivons maintenant chaque phrase en audio grâce au modèle TTS de google :

In [9]:
import os
audio_folder = "./audio"

# si les audios n'existent pas déjà, les créer
if not os.path.exists(audio_folder):
    os.makedirs(audio_folder)
    for i, sentence in enumerate(dataset_concat['sentence']):
      if sentence != "" or sentence is not None:
        print(sentence)
        tts = gTTS(sentence, lang='en', tld='co.in')
        tts.save(audio_folder+'/{}.mp3'.format(i))
else:
   print("Les retranscriptions audios se trouvent dans le dossier 'audio'. ")

Les retranscriptions audios se trouvent dans le dossier 'audio'. 


In [14]:
nb_audio=0
for file in os.listdir(audio_folder):
    if file.endswith('.mp3'):
        nb_audio+=1
print("Nombre total d'audio créé: {} sur {} textes du jeu de données JFLEG".format(str(nb_audio), len(dataset_concat["sentence"])))

Nombre total d'audio créé: 1141 sur 1501 textes du jeu de données JFLEG


L'API de notre STT nous empêche de convertir l'ensemble de nos données, mais 1141 audios sur les 1501 textes initiaux représente déjà une belle proportion d'audios.