# Extraction d'un échantillon de 10 0000 fichiers audios du dataset common voice FR (https://commonvoice.mozilla.org/fr/datasets)

In [1]:
import os
import shutil
import random
import csv

# Paramètres
base_dir = "data/common_voice_mozilla_fr/cv-corpus-21.0-2025-03-14/fr"
tsv_file = os.path.join(base_dir, "validated.tsv")
clips_dir = os.path.join(base_dir, "clips")

output_dir = os.path.join(base_dir, "subset10K")
output_tsv = os.path.join(output_dir, "validated_subset.tsv")
output_clips_dir = os.path.join(output_dir, "clips")

nb_samples = 10000  # nombre d'échantillons

# Création des dossiers de sortie
os.makedirs(output_clips_dir, exist_ok=True)

# Lecture du TSV
with open(tsv_file, "r", encoding="utf-8") as f:
    reader = list(csv.reader(f, delimiter="\t"))
    header = reader[0]
    rows = reader[1:]

# Tirage aléatoire de 100k lignes
subset_rows = random.sample(rows, nb_samples)

# Écriture du nouveau TSV
with open(output_tsv, "w", encoding="utf-8", newline="") as f:
    writer = csv.writer(f, delimiter="\t")
    writer.writerow(header)
    writer.writerows(subset_rows)

# Copie des fichiers audio correspondants
for row in subset_rows:
    filename = row[1]  # colonne 'path'
    src = os.path.join(clips_dir, filename)
    dst = os.path.join(output_clips_dir, filename)
    if os.path.exists(src):
        shutil.copy(src, dst)

print(f"? Extraction terminée :")
print(f"- {output_tsv}")
print(f"- {len(os.listdir(output_clips_dir))} fichiers copiés dans {output_clips_dir}")


? Extraction terminée :
- data/common_voice_mozilla_fr/cv-corpus-21.0-2025-03-14/fr/subset10K/validated_subset.tsv
- 10000 fichiers copiés dans data/common_voice_mozilla_fr/cv-corpus-21.0-2025-03-14/fr/subset10K/clips


# Extraction d'un échantillon de 50 fichiers common voice pour l'application Streamlit

In [3]:
import os
import json
import random
import shutil
import pandas as pd

# --- paramètres ---
N = 50  # nombre d'échantillons
tsv_file = "data/common_voice_mozilla_fr/cv-corpus-21.0-2025-03-14/fr/validated.tsv"
clips_dir = "data/common_voice_mozilla_fr/cv-corpus-21.0-2025-03-14/fr/clips"
output_dir = "data/common_voice_mozilla_fr/cv-corpus-21.0-2025-03-14/fr/samples_commonvoice"
output_json = os.path.join(output_dir, "transcripts.json")

# --- création du répertoire ---
os.makedirs(output_dir, exist_ok=True)

# --- chargement du TSV ---
df = pd.read_csv(tsv_file, sep="\t")

# sélection aléatoire de N échantillons valides
subset = df.sample(N, random_state=42)

# dictionnaire pour transcripts.json
transcripts = {}

for _, row in subset.iterrows():
    src = os.path.join(clips_dir, row["path"])
    dst = os.path.join(output_dir, row["path"])
    # copie du fichier audio
    shutil.copy(src, dst)
    # ajout dans le dictionnaire (clé = nom du fichier, valeur = phrase)
    transcripts[row["path"]] = row["sentence"]

# écriture du nouveau JSON
with open(output_json, "w", encoding="utf-8") as f:
    json.dump(transcripts, f, ensure_ascii=False, indent=2)

print(f"? {N} fichiers copiés dans {output_dir}")
print(f"? Transcriptions sauvegardées dans {output_json}")


  df = pd.read_csv(tsv_file, sep="\t")


? 50 fichiers copiés dans data/common_voice_mozilla_fr/cv-corpus-21.0-2025-03-14/fr/samples_commonvoice
? Transcriptions sauvegardées dans data/common_voice_mozilla_fr/cv-corpus-21.0-2025-03-14/fr/samples_commonvoice/transcripts.json


# Extraction d'un échantillon de 10000 fichiers audio dans le jeu de données voxpopuli FR (https://github.com/facebookresearch/voxpopuli)

In [4]:
import os
import shutil
import random
import csv

# Dossiers VoxPopuli
base_dir = "/home/projet9/projet9/notebooks/data/voxpopuli_fr_train"
tsv_file = os.path.join(base_dir, "asr_train.tsv")

output_dir = os.path.join(base_dir, "subset10K")
output_tsv = os.path.join(output_dir, "asr_train_subset.tsv")
output_clips_dir = os.path.join(output_dir, "clips")

nb_samples = 10000  # nombre d'échantillons

# Création des dossiers de sortie
os.makedirs(output_clips_dir, exist_ok=True)

# Lecture du TSV complet
with open(tsv_file, "r", encoding="utf-8") as f:
    reader = list(csv.reader(f, delimiter="\t"))
    header = reader[0]
    rows = reader[1:]

# Tirage aléatoire de nb_samples lignes
subset_rows = random.sample(rows, nb_samples)

# Écriture du nouveau TSV réduit
with open(output_tsv, "w", encoding="utf-8", newline="") as f:
    writer = csv.writer(f, delimiter="\t")
    writer.writerow(header)
    writer.writerows(subset_rows)

# Copie des fichiers audio correspondants
for row in subset_rows:
    file_id = row[0]  # colonne "id" = nom du fichier sans extension
    filename = file_id + ".wav"

    # Chercher le fichier dans train_part_0 ... train_part_14
    found = False
    for part_idx in range(15):  # adapter si plus/moins de dossiers
        src = os.path.join(base_dir, f"train_part_{part_idx}", filename)
        if os.path.exists(src):
            dst = os.path.join(output_clips_dir, filename)
            shutil.copy(src, dst)
            found = True
            break

    if not found:
        print(f"?? Fichier audio introuvable : {filename}")

print(f"? Extraction terminée :")
print(f"- {output_tsv}")
print(f"- {len(os.listdir(output_clips_dir))} fichiers copiés dans {output_clips_dir}")


? Extraction terminée :
- /home/projet9/projet9/notebooks/data/voxpopuli_fr_train/subset10K/asr_train_subset.tsv
- 10000 fichiers copiés dans /home/projet9/projet9/notebooks/data/voxpopuli_fr_train/subset10K/clips


# Extraction d'un échantillon de 50 fichiers voxpopuli pour l'application de démonstration Streamlit

In [5]:
import os
import json
import random
import shutil
import pandas as pd

# --- paramètres ---
N = 50  # nombre d'échantillons
base_dir = "/home/projet9/projet9/notebooks/data/voxpopuli_fr_train"
tsv_file = os.path.join(base_dir, "asr_train.tsv")
output_dir = os.path.join(base_dir, "samples_voxpopuli")
output_json = os.path.join(output_dir, "transcripts.json")

# --- création du répertoire ---
os.makedirs(output_dir, exist_ok=True)

# --- chargement du TSV ---
df = pd.read_csv(tsv_file, sep="\t")

# sélection aléatoire de N échantillons
subset = df.sample(N, random_state=42)

# dictionnaire pour transcripts.json
transcripts = {}

for _, row in subset.iterrows():
    file_id = row["id"]  # nom du fichier sans extension
    filename = file_id + ".wav"
    normalized_text = row["normalized_text"]

    # rechercher dans les dossiers train_part_*
    found = False
    for part_idx in range(15):  # 0 à 14
        src = os.path.join(base_dir, f"train_part_{part_idx}", filename)
        if os.path.exists(src):
            dst = os.path.join(output_dir, filename)
            shutil.copy(src, dst)
            found = True
            break

    if found:
        transcripts[filename] = normalized_text
    else:
        print(f"?? Fichier introuvable : {filename}")

# écriture du JSON
with open(output_json, "w", encoding="utf-8") as f:
    json.dump(transcripts, f, ensure_ascii=False, indent=2)

print(f"? {len(transcripts)} fichiers copiés dans {output_dir}")
print(f"? Transcriptions sauvegardées dans {output_json}")


? 50 fichiers copiés dans /home/projet9/projet9/notebooks/data/voxpopuli_fr_train/samples_voxpopuli
? Transcriptions sauvegardées dans /home/projet9/projet9/notebooks/data/voxpopuli_fr_train/samples_voxpopuli/transcripts.json
