Membres du groupe 
- AFOMALE David
- DOGBO Sarah
- BOTRE Aboudou
- TEPE Paulin
- NOYOULIWA Victoire

### Contexte général
Préparation des données ASR en langues Éwé et Gegbe

Ce notebook décrit et exécute l'ensemble des étapes nécessaires
pour transformer les données brutes collectées (audio + texte)
en un dataset utilisable pour l'entraînement ou l'évaluation
d'un modèle de reconnaissance automatique de la parole (ASR).


In [1]:
import sys
from pathlib import Path
if str(Path.cwd().parent) not in sys.path:
    sys.path.append(str(Path.cwd().parent))


**Vérification de la structure du projet : s’assurer que les données RAW existent avant le processing.**

In [4]:
from src.config.settings import EWE_RAW_DIR, GEGBE_RAW_DIR

ewe_audio = EWE_RAW_DIR / "audio"
gegbe_audio = GEGBE_RAW_DIR / "audio"

print("Audio RAW Éwé :", len(list(ewe_audio.glob("*.mp3"))) if ewe_audio.exists() else 0)
print("Audio RAW Gegbe :", len(list(gegbe_audio.glob("*.mp3"))) if gegbe_audio.exists() else 0)
print("Métadonnées Éwé :", (EWE_RAW_DIR / "metadata" / "ewe_bible_raw.json").exists())
print("Métadonnées Gegbe :", (GEGBE_RAW_DIR / "metadata" / "gegbe_bible_raw.json").exists())

Audio RAW Éwé : 413
Audio RAW Gegbe : 388
Métadonnées Éwé : True
Métadonnées Gegbe : True


### Étape 1 : Processing audio

Objectif : Standardiser tous les fichiers audio (WAV, mono, 16 kHz).

In [5]:
from src.preprocessing.audio_processing import convert_mp3_to_wav_16k

print("Conversion des audios Éwé...")
convert_mp3_to_wav_16k(lang="ewe")


INFO:src.preprocessing.audio_processing:EWE_RAW_DIR/audio existe ? True — 413 mp3
INFO:src.preprocessing.audio_processing:GEGBE_RAW_DIR/audio existe ? True — 388 mp3
INFO:src.preprocessing.audio_processing:Traitement de 413 fichiers pour 'ewe'... (dossier: C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traduction_ewe_francais\data\raw\ewe\audio)
INFO:src.preprocessing.audio_processing:Conversion terminée. 0 nouveaux fichiers créés.


Conversion des audios Éwé...


In [6]:

print("Conversion des audios Gegbe...")
convert_mp3_to_wav_16k(lang="gegbe")

INFO:src.preprocessing.audio_processing:EWE_RAW_DIR/audio existe ? True — 413 mp3
INFO:src.preprocessing.audio_processing:GEGBE_RAW_DIR/audio existe ? True — 388 mp3
INFO:src.preprocessing.audio_processing:Traitement de 388 fichiers pour 'gegbe'... (dossier: C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traduction_ewe_francais\data\raw\gegbe\audio)


Conversion des audios Gegbe...


INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_01.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_02.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_03.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_04.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_05.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_06.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_07.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_08.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_09.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_10.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_11.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_12.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_13.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_14.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_15.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_16.wav
INFO:src.preprocessing.audio_processing:✔ gegbe_1ch_17.w

### Étape 2 : Nettoyage des transcriptions

In [7]:
from src.preprocessing.text_cleaning import clean_all_texts

print("Nettoyage des textes...")
clean_all_texts()

INFO:src.preprocessing.text_cleaning:Traitement des textes pour : ewe


Nettoyage des textes...


INFO:src.preprocessing.text_cleaning:Traitement des textes pour : gegbe
INFO:src.preprocessing.text_cleaning:Nettoyage et fusion terminés dans C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traduction_ewe_francais\data\processed\transcripts


### Étape 3 : Construction du dataset ASR final

In [8]:
from src.preprocessing.dataset_builder import build_asr_dataset

print("Génération du fichier CSV pour l'entraînement...")
build_asr_dataset()

Génération du fichier CSV pour l'entraînement...


INFO:src.preprocessing.dataset_builder:Dataset ASR créé : 801 lignes (bible_asr_dataset.csv)


### Inspection du dataset final

In [9]:
import pandas as pd
from src.config.settings import PROCESSED_DIR

dataset_path = PROCESSED_DIR / "bible_asr_dataset.csv"
if dataset_path.exists():
    df = pd.read_csv(dataset_path)
    print(f"Dataset chargé avec {len(df)} entrées.")
    display(df.head())
else:
    print("Dataset non trouvé.")

Dataset chargé avec 801 entrées.


Unnamed: 0,audio_filepath,text,language
0,C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traductio...,Le gɔmedzedzea me Mawu wɔ dziƒo kple anyigba A...,ewe
1,C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traductio...,Ale Mawu wɔ dziƒo kple anyigba kpakple nu gbog...,ewe
2,C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traductio...,Nya 224 Nyaɖ 129 202Azɔ la da dze aye wu gbeme...,ewe
3,C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traductio...,Azɔ la Adam dɔ kple srɔa Xawa eye wòfɔ fu dzi ...,ewe
4,C:\EPL\MTH2321\MTH_2321_APEKE\Projet_traductio...,Mos I 127 28Adam ƒe dzidzimeviwo ŋutinya nye e...,ewe
