# Cuaderno 01: Generación del Dataset Auditivo

**Objetivo:** Crear un dataset de archivos de audio `.wav` a partir de una lista de fonemas/letras clave para español e inglés.

**Flujo de Trabajo:**
1.  **Instalación de Librerías**: Instalar `gTTS` para la síntesis de voz y `pydub` para la conversión de audio.
2.  **Definición de Fonemas**: Crear las listas de sonidos a generar para cada idioma.
3.  **Generación de Audio**: Iterar sobre las listas, generar un archivo `.mp3` para cada fonema usando `gTTS`, y convertirlo al formato `.wav` usando `pydub`.

## Paso 1: Instalación de Librerías

Instalamos las dos librerías principales que necesitamos para este cuaderno.
* `gTTS` (Google Text-to-Speech): Convierte texto en audio.
* `pydub`: Una librería de alto nivel para manipulación de audio, que usaremos para exportar a formato `.wav`.

In [1]:
%pip install gTTS pydub

Collecting gTTS
  Downloading gTTS-2.5.4-py3-none-any.whl.metadata (4.1 kB)
Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting requests<3,>=2.27 (from gTTS)
  Using cached requests-2.32.5-py3-none-any.whl.metadata (4.9 kB)
Collecting click<8.2,>=7.1 (from gTTS)
  Downloading click-8.1.8-py3-none-any.whl.metadata (2.3 kB)
Collecting charset_normalizer<4,>=2 (from requests<3,>=2.27->gTTS)
  Using cached charset_normalizer-3.4.3-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (36 kB)
Collecting idna<4,>=2.5 (from requests<3,>=2.27->gTTS)
  Using cached idna-3.10-py3-none-any.whl.metadata (10 kB)
Collecting urllib3<3,>=1.21.1 (from requests<3,>=2.27->gTTS)
  Using cached urllib3-2.5.0-py3-none-any.whl.metadata (6.5 kB)
Collecting certifi>=2017.4.17 (from requests<3,>=2.27->gTTS)
  Using cached certifi-2025.8.3-py3-none-any.whl.metadata (2.4 kB)
Downloading gTTS-2.5.4-py3-none-any.whl (29 kB)
Downloading py

## Paso 2: Configuración y Definición de Listas de Fonemas

Importamos las librerías necesarias, definimos las rutas de salida y creamos las listas de fonemas/letras para cada idioma. Las listas están diseñadas para cubrir los sonidos más representativos.

In [None]:
import os
from pathlib import Path
from gtts import gTTS
from pydub import AudioSegment

# --- Rutas de Salida ---
project_root = Path.cwd().parent
# Creamos carpetas de salida específicas para cada idioma
output_dir_es = project_root / "data/02_processed/phoneme_audio/es"
output_dir_en = project_root / "data/02_processed/phoneme_audio/en"

output_dir_es.mkdir(parents=True, exist_ok=True)
output_dir_en.mkdir(parents=True, exist_ok=True)


# --- Listas de Fonemas/Letras ---

# Lista para español (incluye vocales, consonantes y dígrafos)
phonemes_es = [
    'a', 'e', 'i', 'o', 'u',
    'b', "c", 'd', 'f', 'g', 'j',"h", 'k', 'l', 'm', 'n', 'ñ', 'p', 'r', 'rr', 's', 't', 'y',"v", 'z',
    'ch', 'll'
]

# Lista para inglés (incluye sonidos de vocales cortas/largas y dígrafos comunes)
phonemes_en = [
    'a', 'e', 'i', 'o', 'u', # Vocales cortas
    'ay', 'ee', 'igh', 'oh', 'oo', # Vocales largas y diptongos
    'b',"c", 'd', 'f', 'g', 'h', 'j', 'k', 'l', 'm', 'n', 'p', 'r', 's', 't', 'v', 'w', 'y', 'z',
    'ch', 'sh', 'th', 'ng'
]

print(f"Se generarán {len(phonemes_es)} audios para español.")
print(f"Se generarán {len(phonemes_en)} audios para inglés.")

Se generarán 24 audios para español.
Se generarán 32 audios para inglés.


