In [6]:
# ==========================================
# 1. INSTALLATION
# ==========================================
!pip install datasets pydub soundfile librosa numpy --quiet

import os
import random
import numpy as np
import soundfile as sf
from datasets import load_dataset
from pydub import AudioSegment
from tqdm import tqdm

# ==========================================
# 2. CONFIGURATION ET MAPPING
# ==========================================
OUTPUT_DIR = "/content/drive/MyDrive/GroundTruth_clean_no_overlap"
AUDIO_DIR = os.path.join(OUTPUT_DIR, "audioStereo")
RTTM_DIR = os.path.join(OUTPUT_DIR, "rttm")

os.makedirs(AUDIO_DIR, exist_ok=True)
os.makedirs(RTTM_DIR, exist_ok=True)

NUM_FILES = 30
TOTAL_DURATION_MS = 25 * 1000
SAMPLE_RATE = 16000

# Mapping des indices DODa (Speaker -> Intervalle)
DODA_RANGES = [
    (0, 999, "F1"),
    (1000, 1999, "M3"),
    (2000, 2730, "F2"),
    (2731, 2800, "M1"),
    (2801, 2999, "M2"),
    (3000, 3999, "M2"),
    (4000, 4999, "M1"),
    (5000, 5999, "F3"),
    (6000, 6999, "M1"),
    (7000, 7999, "F4"),
    (8000, 8999, "F1"),
    (9000, 9999, "M2"),
    (10000, 10999, "M1"),
    (11000, 11999, "M1"),
    (12000, 12350, "M2"),
    (12351, 12742, "M1")
]

# ==========================================
# 3. PR√âPARATION DES DATASETS
# ==========================================
print("‚è≥ Chargement des datasets (Streaming)...")
ds_wiki = load_dataset("atlasia/Moroccan-Darija-Wiki-Audio-Dataset",token="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", split="train", streaming=True)
ds_doda = load_dataset("atlasia/DODa-audio-dataset",token="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", split="train", streaming=True)

# Pour √©viter de scanner tout le dataset DODa √† chaque fois (ce qui est lent),
# on va cr√©er une liste de 30 points de d√©part int√©ressants tri√©s.
print("‚öôÔ∏è Planification des points de lecture...")

targets = []
for i in range(NUM_FILES):
    # On choisit un range au hasard (ex: F3 entre 5000 et 5999)
    start_range, end_range, label = random.choice(DODA_RANGES)
    # On se place au d√©but ou un peu apr√®s, mais avec assez de marge pour prendre plusieurs fichiers
    safe_start = random.randint(start_range, end_range - 20)
    targets.append({"file_idx": i, "doda_index": safe_start, "label": label})

# On trie les cibles par index DODa croissant pour n'avoir √† lire le dataset qu'une seule fois
targets.sort(key=lambda x: x["doda_index"])

# ==========================================
# 4. FONCTIONS UTILES
# ==========================================
def numpy_to_audio(audio_array, sr):
    audio_int16 = (audio_array * 32767).astype(np.int16)
    seg = AudioSegment(
        audio_int16.tobytes(),
        frame_rate=sr,
        sample_width=2,
        channels=1
    )
    return seg.set_frame_rate(SAMPLE_RATE)

# ==========================================
# 5. G√âN√âRATION PRINCIPALE
# ==========================================
print(f"\nüöÄ G√©n√©ration optimis√©e de {NUM_FILES} fichiers...")

# On cr√©e un it√©rateur Wiki simple (on prend les fichiers les uns apr√®s les autres)
iter_wiki = iter(ds_wiki)

# On cr√©e un it√©rateur DODa
iter_doda = iter(ds_doda)
current_doda_pos = 0

target_ptr = 0 # Quel fichier on est en train de construire

# Boucle principale sur les cibles (targets)
while target_ptr < len(targets):
    target = targets[target_ptr]
    target_idx = target["doda_index"]
    file_num = target["file_idx"]
    speaker_label = target["label"]

    # 1. AVANCER DANS DODA JUSQU'A LA CIBLE
    # Si on est √† l'index 0 et qu'on veut le 1000, on saute
    while current_doda_pos < target_idx:
        next(iter_doda)
        current_doda_pos += 1

    # 2. CONSTRUIRE LA SOURCE AUDIO DODA (Concat√©nation)
    # On veut ~30 secondes d'audio pour ce speaker
    doda_audio_buffer = AudioSegment.empty()

    # On prend plusieurs petits fichiers √† la suite (tant qu'ils sont du m√™me range)
    while len(doda_audio_buffer) < TOTAL_DURATION_MS + 5000:
        try:
            item = next(iter_doda)
            current_doda_pos += 1

            # V√©rif s√©curit√© : est-ce qu'on a chang√© de speaker ?
            # On v√©rifie si l'index actuel est toujours dans le bon range pour ce label
            is_same_speaker = False
            for s, e, l in DODA_RANGES:
                if s <= current_doda_pos - 1 <= e and l == speaker_label:
                    is_same_speaker = True
                    break

            if not is_same_speaker:
                # On a d√©pass√© le bloc du speaker, on arr√™te de prendre
                break

            seg = numpy_to_audio(item['audio']['array'], item['audio']['sampling_rate'])
            doda_audio_buffer += seg

        except StopIteration:
            break

    # Si vraiment pas assez d'audio (fin de bloc), on boucle ce qu'on a
    if len(doda_audio_buffer) < 1000: # S√©curit√© vide
         doda_audio_buffer = AudioSegment.silent(duration=1000)
    while len(doda_audio_buffer) < TOTAL_DURATION_MS + 5000:
        doda_audio_buffer += doda_audio_buffer

    # 3. CONSTRUIRE LA SOURCE AUDIO WIKI (Canal 1)
    # M√™me logique : on prend plusieurs fichiers Wiki √† la suite
    wiki_audio_buffer = AudioSegment.empty()
    while len(wiki_audio_buffer) < TOTAL_DURATION_MS + 5000:
        try:
            w_item = next(iter_wiki)
            w_seg = numpy_to_audio(w_item['audio']['array'], w_item['audio']['sampling_rate'])
            wiki_audio_buffer += w_seg
        except StopIteration:
            iter_wiki = iter(ds_wiki) # Reset si fini

    # 4. ASSEMBLAGE DU DIALOGUE (PING-PONG)
    filename = f"clean_audio_{file_num:03d}"

    left_track = AudioSegment.silent(duration=TOTAL_DURATION_MS, frame_rate=SAMPLE_RATE)
    right_track = AudioSegment.silent(duration=TOTAL_DURATION_MS, frame_rate=SAMPLE_RATE)

    rttm_lines = []
    current_time = 0

    cursor_wiki = 0
    cursor_doda = 0

    turn_idx = 0 if random.random() < 0.5 else 1 # 0=Wiki, 1=DODa
    is_dialogue = random.random() < 0.8

    while current_time < TOTAL_DURATION_MS - 2000:
        phrase_len = random.randint(2000, 5000)
        if current_time + phrase_len > TOTAL_DURATION_MS:
            phrase_len = TOTAL_DURATION_MS - current_time

        if turn_idx == 0:
            # --- WIKI (GAUCHE) ---
            chunk = wiki_audio_buffer[cursor_wiki : cursor_wiki + phrase_len]
            cursor_wiki += phrase_len

            left_track = left_track.overlay(chunk, position=current_time)

            st = current_time / 1000.0
            du = phrase_len / 1000.0
            rttm_lines.append(f"SPEAKER {filename} 1 {st:.3f} {du:.3f} <NA> <NA> SPEAKER_00 <NA> <NA>")

        else:
            # --- DODA (DROITE) ---
            if is_dialogue:
                chunk = doda_audio_buffer[cursor_doda : cursor_doda + phrase_len]
                cursor_doda += phrase_len

                right_track = right_track.overlay(chunk, position=current_time)

                st = current_time / 1000.0
                du = phrase_len / 1000.0
                rttm_lines.append(f"SPEAKER {filename} 1 {st:.3f} {du:.3f} <NA> <NA> SPEAKER_01 <NA> <NA>")

        # Pause
        pause = 0 if random.random() < 0.3 else random.randint(500, 1500)
        current_time += phrase_len + pause

        if is_dialogue:
            turn_idx = 1 - turn_idx
        else:
            turn_idx = 0

    # 5. EXPORT FINAL
    # Utilisation explicite des deux pistes
    final_stereo = AudioSegment.from_mono_audiosegments(left_track, right_track)
    final_stereo.export(os.path.join(AUDIO_DIR, f"{filename}.wav"), format="wav")

    with open(os.path.join(RTTM_DIR, f"{filename}.rttm"), "w") as f:
        f.write("\n".join(rttm_lines))

    print(f"  [OK] Fichier {file_num+1}/30 : Speaker DODa = {speaker_label} (Index ~{target_idx})")

    target_ptr += 1

print(f"\n‚úÖ Termin√© ! V√©rifiez le dossier : {OUTPUT_DIR}")

‚è≥ Chargement des datasets (Streaming)...


Resolving data files:   0%|          | 0/18 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/18 [00:00<?, ?it/s]

‚öôÔ∏è Planification des points de lecture...

üöÄ G√©n√©ration optimis√©e de 30 fichiers...
  [OK] Fichier 17/30 : Speaker DODa = F1 (Index ~12)
  [OK] Fichier 8/30 : Speaker DODa = F1 (Index ~682)
  [OK] Fichier 26/30 : Speaker DODa = M3 (Index ~1350)
  [OK] Fichier 25/30 : Speaker DODa = M3 (Index ~1754)
  [OK] Fichier 11/30 : Speaker DODa = M3 (Index ~1942)
  [OK] Fichier 12/30 : Speaker DODa = F2 (Index ~2340)
  [OK] Fichier 27/30 : Speaker DODa = M1 (Index ~2747)
  [OK] Fichier 3/30 : Speaker DODa = M1 (Index ~2760)
  [OK] Fichier 20/30 : Speaker DODa = M1 (Index ~2779)
  [OK] Fichier 2/30 : Speaker DODa = M2 (Index ~2941)
  [OK] Fichier 28/30 : Speaker DODa = M2 (Index ~3572)
  [OK] Fichier 5/30 : Speaker DODa = M1 (Index ~4270)
  [OK] Fichier 29/30 : Speaker DODa = M1 (Index ~4270)
  [OK] Fichier 30/30 : Speaker DODa = M1 (Index ~4569)
  [OK] Fichier 15/30 : Speaker DODa = M1 (Index ~4877)
  [OK] Fichier 9/30 : Speaker DODa = M1 (Index ~4929)
  [OK] Fichier 23/30 : Speaker DOD