Membres du groupe 
- AFOMALE David
- DOGBO Sarah
- BOTRE Aboudou
- TEPE Paulin
- NOYOULIWA Victoire

### Contexte général
Préparation des données ASR en langues Éwé et Gegbe

Ce notebook décrit et exécute l'ensemble des étapes nécessaires
pour transformer les données brutes collectées (audio + texte)
en un dataset utilisable pour l'entraînement ou l'évaluation
d'un modèle de reconnaissance automatique de la parole (ASR).


In [1]:
import sys
from pathlib import Path
if str(Path.cwd().parent) not in sys.path:
    sys.path.append(str(Path.cwd().parent))


**Vérification de la structure du projet : s’assurer que les données RAW existent avant le processing.**

In [None]:
from src.config.settings import EWE_RAW_DIR, GEGBE_RAW_DIR

ewe_audio = EWE_RAW_DIR / "audio"
gegbe_audio = GEGBE_RAW_DIR / "audio"

print("Audio RAW Éwé :", len(list(ewe_audio.glob("*.mp3"))) if ewe_audio.exists() else 0)
print("Audio RAW Gegbe :", len(list(gegbe_audio.glob("*.mp3"))) if gegbe_audio.exists() else 0)
print("Métadonnées Éwé :", (EWE_RAW_DIR / "metadata" / "ewe_bible_raw.json").exists())
print("Métadonnées Gegbe :", (GEGBE_RAW_DIR / "metadata" / "gegbe_bible_raw.json").exists())

### Étape 1 : Processing audio

Objectif : Standardiser tous les fichiers audio (WAV, mono, 16 kHz).

In [None]:
from src.preprocessing.audio_processing import convert_mp3_to_wav_16k

print("Conversion des audios Éwé...")
convert_mp3_to_wav_16k(lang="ewe")

print("Conversion des audios Gegbe...")
convert_mp3_to_wav_16k(lang="gegbe")

### Étape 2 : Nettoyage des transcriptions

In [None]:
from src.preprocessing.text_cleaning import clean_all_texts

print("Nettoyage des textes...")
clean_all_texts()

### Étape 3 : Construction du dataset ASR final

In [None]:
from src.preprocessing.dataset_builder import build_asr_dataset

print("Génération du fichier CSV pour l'entraînement...")
build_asr_dataset()

### Inspection du dataset final

In [None]:
import pandas as pd
from src.config.settings import PROCESSED_DIR

dataset_path = PROCESSED_DIR / "bible_asr_dataset.csv"
if dataset_path.exists():
    df = pd.read_csv(dataset_path)
    print(f"Dataset chargé avec {len(df)} entrées.")
    display(df.head())
else:
    print("Dataset non trouvé.")