# gTTS -> TTS simple

Este código implementa un sistema de conversión de texto a voz (Text-to-Speech, TTS) utilizando la biblioteca gTTS en Google Colab, diseñado para un experimento científico que requiere resultados rápidos y claros. El programa permite al usuario introducir un texto manualmente o cargar un archivo de texto, seleccionar un idioma (español, inglés, francés, alemán o portugués), elegir la velocidad del habla (normal o lenta), y reproducir el audio generado directamente en la consola sin almacenar archivos. Después de procesar cada texto o archivo, el programa se reinicia, mostrando un menú para introducir otro texto o archivo, lo que facilita pruebas iterativas.

El flujo del código está optimizado para manejar textos largos dividiéndolos en fragmentos de hasta 1000 caracteres, asegurando que cada fragmento se convierta en audio de manera eficiente. Incluye limpieza de texto para eliminar caracteres no soportados, manejo de errores para entradas inválidas o problemas de conexión, y una interfaz simple que muestra el texto procesado antes de reproducir el audio. Este diseño es ideal para experimentos que requieren comparar la salida de voz en diferentes idiomas o analizar la calidad del audio generado, manteniendo un proceso claro y repetitivo.

In [None]:
# Cell 1: Install gTTS
!pip install gTTS

# Cell 2: Text-to-speech with simplified languages
from gtts import gTTS
from IPython.display import Audio, display
import re

def clean_text(text):
    """Remove unsupported characters from text."""
    return re.sub(r'[^\x00-\x7FáéíóúÁÉÍÓÚñÑüÜ]', '', text)

def text_to_speech(text, lang='es', tld=None, slow=False):
    """Convert text to speech and return audio for console playback."""
    text = clean_text(text)
    if not text.strip():
        print("Error: El texto está vacío después de limpiar.")
        return None
    try:
        if tld:
            tts = gTTS(text=text, lang=lang, tld=tld, slow=slow)
        else:
            tts = gTTS(text=text, lang=lang, slow=slow)
        audio_file = "temp_audio.mp3"
        tts.save(audio_file)
        audio = Audio(audio_file, autoplay=True)
        return audio
    except Exception as e:
        print(f"Error al generar audio: {e}")
        return None

def read_text_file(file_path):
    """Read content from a text file."""
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            return file.read()
    except FileNotFoundError:
        print(f"Error: El archivo {file_path} no se encuentra.")
        return None
    except Exception as e:
        print(f"Error al leer el archivo: {e}")
        return None

def split_text(text, max_chars=1000):
    """Split text into smaller parts for audio generation."""
    paragraphs = re.split(r'\n\s*\n', text.strip())
    chunks = []
    current_chunk = ""

    for paragraph in paragraphs:
        if len(current_chunk) + len(paragraph) <= max_chars:
            current_chunk += paragraph + "\n\n"
        else:
            if current_chunk:
                chunks.append(current_chunk.strip())
            current_chunk = paragraph + "\n\n"

    if current_chunk:
        chunks.append(current_chunk.strip())

    return chunks

# Supported languages
languages = {
    '1': ('es', 'es', 'Español'),
    '2': ('en', 'us', 'Inglés'),
    '3': ('fr', None, 'Francés'),
    '4': ('de', None, 'Alemán'),
    '5': ('pt', 'pt', 'Portugués')
}

# Main interaction loop
print("Bienvenido al generador de voz para experimentos científicos.")
print("Introduce un texto o archivo, escucha el audio y repite.")

while True:
    print("\nOpciones:")
    print("1. Introducir un texto")
    print("2. Cargar un archivo de texto")
    print("3. Salir")

    choice = input("Selecciona una opción (1/2/3): ")

    if choice == '3':
        print("¡Hasta luego!")
        break

    if choice not in ['1', '2']:
        print("Opción no válida, por favor selecciona 1, 2 o 3.")
        continue

    # Select language
    print("\nSelecciona el idioma:")
    for key, (_, _, name) in languages.items():
        print(f"{key}. {name}")
    lang_choice = input("Introduce el número del idioma (1-5): ")

    if lang_choice not in languages:
        print("Idioma no válido, usando Español por defecto.")
        lang, tld = 'es', 'es'
    else:
        lang, tld, name = languages[lang_choice]
        print(f"Usando {name} para la voz.")

    # Select speed
    speed = input("¿Velocidad lenta? (s/n): ").lower() == 's'

    # Get text or file
    if choice == '1':
        text = input("Introduce el texto que quieres convertir a voz: ")
        if not text.strip():
            print("Por favor, introduce un texto válido.")
            continue
    else:  # choice == '2'
        file_path = input("Introduce la ruta del archivo de texto (ejemplo: texto.txt): ")
        text = read_text_file(file_path)
        if not text:
            continue

    # Process the text
    chunks = split_text(text, max_chars=1000)
    for i, chunk in enumerate(chunks, 1):
        print(f"\nReproduciendo parte {i}:")
        print(f"Texto: {chunk[:50]}..." if len(chunk) > 50 else f"Texto: {chunk}")
        audio = text_to_speech(chunk, lang=lang, tld=tld, slow=speed)
        if audio:
            display(audio)
        else:
            print(f"Error al reproducir la parte {i}.")

Collecting gTTS
  Downloading gTTS-2.5.4-py3-none-any.whl.metadata (4.1 kB)
Downloading gTTS-2.5.4-py3-none-any.whl (29 kB)
Installing collected packages: gTTS
Successfully installed gTTS-2.5.4
Bienvenido al generador de voz para experimentos científicos.
Introduce un texto o archivo, escucha el audio y repite.

Opciones:
1. Introducir un texto
2. Cargar un archivo de texto
3. Salir
Selecciona una opción (1/2/3): 1

Selecciona el idioma:
1. Español
2. Inglés
3. Francés
4. Alemán
5. Portugués
Introduce el número del idioma (1-5): 1
Usando Español para la voz.
¿Velocidad lenta? (s/n): n
Introduce el texto que quieres convertir a voz: Hola que tal estas? Yo estoy bien!

Reproduciendo parte 1:
Texto: Hola que tal estas? Yo estoy bien!



Opciones:
1. Introducir un texto
2. Cargar un archivo de texto
3. Salir
Selecciona una opción (1/2/3): 1

Selecciona el idioma:
1. Español
2. Inglés
3. Francés
4. Alemán
5. Portugués
Introduce el número del idioma (1-5): 2
Usando Inglés para la voz.
¿Velocidad lenta? (s/n): n
Introduce el texto que quieres convertir a voz: Hello how are you? I'm fine!

Reproduciendo parte 1:
Texto: Hello how are you? I'm fine!



Opciones:
1. Introducir un texto
2. Cargar un archivo de texto
3. Salir
Selecciona una opción (1/2/3): 1

Selecciona el idioma:
1. Español
2. Inglés
3. Francés
4. Alemán
5. Portugués
Introduce el número del idioma (1-5): 3
Usando Francés para la voz.
¿Velocidad lenta? (s/n): n
Introduce el texto que quieres convertir a voz: Bonjour, comment allez-vous ? Je vais bien !

Reproduciendo parte 1:
Texto: Bonjour, comment allez-vous ? Je vais bien !



Opciones:
1. Introducir un texto
2. Cargar un archivo de texto
3. Salir
Selecciona una opción (1/2/3): 1

Selecciona el idioma:
1. Español
2. Inglés
3. Francés
4. Alemán
5. Portugués
Introduce el número del idioma (1-5): 4
Usando Alemán para la voz.
¿Velocidad lenta? (s/n): n
Introduce el texto que quieres convertir a voz: Hallo, wie geht es Ihnen? Mir geht es gut!

Reproduciendo parte 1:
Texto: Hallo, wie geht es Ihnen? Mir geht es gut!



Opciones:
1. Introducir un texto
2. Cargar un archivo de texto
3. Salir
Selecciona una opción (1/2/3): 1

Selecciona el idioma:
1. Español
2. Inglés
3. Francés
4. Alemán
5. Portugués
Introduce el número del idioma (1-5): 5
Usando Portugués para la voz.
¿Velocidad lenta? (s/n): n
Introduce el texto que quieres convertir a voz: Olá, como estás? Estou ótimo!

Reproduciendo parte 1:
Texto: Olá, como estás? Estou ótimo!



Opciones:
1. Introducir un texto
2. Cargar un archivo de texto
3. Salir
Selecciona una opción (1/2/3): 1

Selecciona el idioma:
1. Español
2. Inglés
3. Francés
4. Alemán
5. Portugués
Introduce el número del idioma (1-5): 1
Usando Español para la voz.
¿Velocidad lenta? (s/n): s
Introduce el texto que quieres convertir a voz: Hola como estas? Yo estoy muy bien!

Reproduciendo parte 1:
Texto: Hola como estas? Yo estoy muy bien!



Opciones:
1. Introducir un texto
2. Cargar un archivo de texto
3. Salir
Selecciona una opción (1/2/3): 2

Selecciona el idioma:
1. Español
2. Inglés
3. Francés
4. Alemán
5. Portugués
Introduce el número del idioma (1-5): 2
Usando Inglés para la voz.
¿Velocidad lenta? (s/n): n
Introduce la ruta del archivo de texto (ejemplo: texto.txt): https://drive.google.com/file/d/1ftKgbYCpZg-4Es4mmR_iZBNdE6TkgDRn/view?usp=sharing
Error: El archivo https://drive.google.com/file/d/1ftKgbYCpZg-4Es4mmR_iZBNdE6TkgDRn/view?usp=sharing no se encuentra.

Opciones:
1. Introducir un texto
2. Cargar un archivo de texto
3. Salir
Selecciona una opción (1/2/3): 2

Selecciona el idioma:
1. Español
2. Inglés
3. Francés
4. Alemán
5. Portugués
Introduce el número del idioma (1-5): 1
Usando Español para la voz.
¿Velocidad lenta? (s/n): n
Introduce la ruta del archivo de texto (ejemplo: texto.txt): https://drive.google.com/file/d/1ftKgbYCpZg-4Es4mmR_iZBNdE6TkgDRn/view?usp=sharing
Error: El archivo https://drive.googl

# Coqui TTS (VITS)

Este código crea un sistema interactivo en Google Colab para convertir texto en audio hablado en español. El usuario escribe un texto en un campo, hace clic en un botón y el programa genera un audio que se puede escuchar al instante. Los audios se guardan con nombres únicos y se muestran en una lista, permitiendo crear varios sin que se borren. El programa sigue funcionando hasta que el usuario escribe "salir" para terminar.
Usa la biblioteca Coqui TTS con el modelo tts_models/es/css10/vits, que es una red neuronal entrenada para producir voces naturales en español. Este modelo, basado en la arquitectura VITS, fue entrenado con datos del CSS10 y funciona tanto en GPU como en CPU, adaptándose al entorno de Colab. La interfaz es simple y fácil de usar, hecha con widgets de IPython.

In [None]:
# Paso 1: Reiniciar el runtime para limpiar el entorno
#import os
#os._exit(00)

# Después de reiniciar, ejecuta el siguiente código en una nueva celda

# Paso 2: Instalar dependencias con versiones compatibles
!pip install TTS==0.22.0 numpy==1.24.3 pandas==1.5.3 networkx==2.8.8 matplotlib==3.10.1

# Configurar matplotlib para mostrar gráficos en Colab
%matplotlib inline
import os
os.environ['MPLBACKEND'] = 'inline'  # Asegurar que el backend sea compatible con Colab

# Importar bibliotecas
from TTS.api import TTS
from IPython.display import Audio, display, Image
import torch
import ipywidgets as widgets
import glob
import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

# Verificar GPU
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Usando dispositivo: {device}")

# Inicializar el modelo TTS (español, VITS)
tts = TTS(model_name="tts_models/es/css10/vits", progress_bar=True).to(device)

# Crear widgets: campo de texto, botón y salida
text_input = widgets.Text(
    value='',
    placeholder='Ingresa el texto aquí',
    description='Texto:',
    disabled=False
)

button = widgets.Button(description="Generar Audio")

output = widgets.Output()

# Lista para almacenar los audios generados
audios_generados = []

# Función para generar audio y mostrarlo
def on_button_clicked(b):
    with output:
        texto = text_input.value
        if texto.lower() == "salir":
            print("¡Programa terminado! Gracias por usar el sistema.")
            return
        if not texto.strip():
            print("Por favor, ingresa un texto válido.")
            return
        # Generar nombre único para el archivo de audio
        num_audios = len(glob.glob("audio_*.wav")) + 1
        archivo_audio = f"audio_{num_audios}.wav"
        # Generar audio
        tts.tts_to_file(text=texto, file_path=archivo_audio)
        # Cargar el audio para obtener duración y muestras
        y, sr = librosa.load(archivo_audio)
        duration = librosa.get_duration(y=y, sr=sr)
        num_samples = len(y)
        print(f"Reproduciendo audio para: '{texto}'")
        print(f"Duración del audio: {duration:.2f} segundos")
        print(f"Número de muestras: {num_samples} (frecuencia de muestreo: {sr} Hz)")
        # Mostrar el audio generado
        display(Audio(archivo_audio, autoplay=True))
        # Generar y mostrar el espectrograma
        plt.figure(figsize=(10, 4))
        S = librosa.feature.melspectrogram(y=y, sr=sr)
        S_dB = librosa.power_to_db(S, ref=np.max)
        librosa.display.specshow(S_dB, sr=sr, x_axis='time', y_axis='mel')
        plt.colorbar(format='%+2.0f dB')
        plt.title(f'Espectrograma de: {texto}')
        # Guardar el espectrograma como imagen temporal
        plt.savefig('spectrogram.png')
        plt.close()
        # Mostrar la imagen en la salida
        display(Image('spectrogram.png'))
        # Añadir a la lista de audios generados
        audios_generados.append((texto, archivo_audio))
        # Mostrar todos los audios generados hasta ahora
        print("\nAudios generados hasta ahora:")
        for i, (t, a) in enumerate(audios_generados, 1):
            print(f"{i}. Texto: '{t}' - Archivo: {a}")
        print("\nIngresa otro texto o escribe 'salir' para terminar.")

# Vincular la función al botón
button.on_click(on_button_clicked)

# Mostrar los widgets
display(text_input, button, output)

# Instrucción inicial
with output:
    print("Ingresa un texto y haz clic en 'Generar Audio'. Escribe 'salir' para terminar.")

Collecting matplotlib==3.10.1
  Downloading matplotlib-3.10.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Downloading matplotlib-3.10.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (8.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.6/8.6 MB[0m [31m33.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: matplotlib
  Attempting uninstall: matplotlib
    Found existing installation: matplotlib 3.7.1
    Uninstalling matplotlib-3.7.1:
      Successfully uninstalled matplotlib-3.7.1
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
plotnine 0.14.5 requires pandas>=2.2.0, but you have pandas 1.5.3 which is incompatible.
pymc 5.21.2 requires numpy>=1.25.0, but you have numpy 1.24.3 which is incompatible.[0m[31m
[0mSuccessfully installed matplotlib-3.10.1
Usando dispositivo: cpu

Text(value='', description='Texto:', placeholder='Ingresa el texto aquí')

Button(description='Generar Audio', style=ButtonStyle())

Output()

Es la misma idea pero en este caso se añaden tonos.

In [None]:
# Paso 1: Reiniciar el runtime para limpiar el entorno
#import os
#os._exit(00)

# Después de reiniciar, ejecuta el siguiente código en una nueva celda

# Paso 2: Instalar dependencias con versiones compatibles
!pip install TTS==0.22.0 numpy==1.24.3 pandas==1.5.3 networkx==2.8.8 matplotlib==3.10.1

# Configurar matplotlib para mostrar gráficos en Colab
%matplotlib inline
import os
os.environ['MPLBACKEND'] = 'inline'  # Asegurar que el backend sea compatible con Colab

# Importar bibliotecas
from TTS.api import TTS
from IPython.display import Audio, display, Image
import torch
import ipywidgets as widgets
import glob
import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np
import soundfile as sf  # Para guardar el audio modificado

# Verificar GPU
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Usando dispositivo: {device}")

# Inicializar el modelo TTS (español, VITS)
tts = TTS(model_name="tts_models/es/css10/vits", progress_bar=True).to(device)

# Crear widgets: campo de texto, slider de tono, botón y salida
text_input = widgets.Text(
    value='',
    placeholder='Ingresa el texto aquí',
    description='Texto:',
    disabled=False
)

pitch_slider = widgets.IntSlider(
    value=0,
    min=-5,
    max=5,
    step=1,
    description='Tono (semitonos):',
    disabled=False
)

button = widgets.Button(description="Generar Audio")

output = widgets.Output()

# Lista para almacenar los audios generados
audios_generados = []

# Función para generar audio y mostrarlo
def on_button_clicked(b):
    with output:
        texto = text_input.value
        if texto.lower() == "salir":
            print("¡Programa terminado! Gracias por usar el sistema.")
            return
        if not texto.strip():
            print("Por favor, ingresa un texto válido.")
            return
        # Generar nombre único para el archivo de audio
        num_audios = len(glob.glob("audio_*.wav")) + 1
        archivo_audio = f"audio_{num_audios}.wav"
        # Generar audio
        tts.tts_to_file(text=texto, file_path=archivo_audio)
        # Cargar el audio para modificarlo y obtener duración/muestras
        y, sr = librosa.load(archivo_audio)
        # Ajustar el tono
        pitch_shift = pitch_slider.value
        if pitch_shift != 0:
            y = librosa.effects.pitch_shift(y, sr=sr, n_steps=pitch_shift)
            # Guardar el audio modificado
            sf.write(archivo_audio, y, sr)
        # Calcular duración y muestras
        duration = librosa.get_duration(y=y, sr=sr)
        num_samples = len(y)
        print(f"Reproduciendo audio para: '{texto}'")
        print(f"Tono ajustado: {pitch_shift} semitonos")
        print(f"Duración del audio: {duration:.2f} segundos")
        print(f"Número de muestras: {num_samples} (frecuencia de muestreo: {sr} Hz)")
        # Mostrar el audio generado
        display(Audio(archivo_audio, autoplay=True))
        # Generar y mostrar el espectrograma
        plt.figure(figsize=(10, 4))
        S = librosa.feature.melspectrogram(y=y, sr=sr)
        S_dB = librosa.power_to_db(S, ref=np.max)
        librosa.display.specshow(S_dB, sr=sr, x_axis='time', y_axis='mel')
        plt.colorbar(format='%+2.0f dB')
        plt.title(f'Espectrograma de: {texto}')
        # Guardar el espectrograma como imagen temporal
        plt.savefig('spectrogram.png')
        plt.close()
        # Mostrar la imagen en la salida
        display(Image('spectrogram.png'))
        # Añadir a la lista de audios generados
        audios_generados.append((texto, archivo_audio))
        # Mostrar todos los audios generados hasta ahora
        print("\nAudios generados hasta ahora:")
        for i, (t, a) in enumerate(audios_generados, 1):
            print(f"{i}. Texto: '{t}' - Archivo: {a}")
        print("\nIngresa otro texto o escribe 'salir' para terminar.")

# Vincular la función al botón
button.on_click(on_button_clicked)

# Mostrar los widgets
display(text_input, pitch_slider, button, output)

# Instrucción inicial
with output:
    print("Ingresa un texto, ajusta el tono si deseas, y haz clic en 'Generar Audio'. Escribe 'salir' para terminar.")

Usando dispositivo: cpu
 > tts_models/es/css10/vits is already downloaded.
 > Using model: vits
 > Setting up Audio Processor...
 | > sample_rate:22050
 | > resample:False
 | > num_mels:80
 | > log_func:np.log10
 | > min_level_db:0
 | > frame_shift_ms:None
 | > frame_length_ms:None
 | > ref_level_db:None
 | > fft_size:1024
 | > power:None
 | > preemphasis:0.0
 | > griffin_lim_iters:None
 | > signal_norm:None
 | > symmetric_norm:None
 | > mel_fmin:0
 | > mel_fmax:None
 | > pitch_fmin:None
 | > pitch_fmax:None
 | > spec_gain:20.0
 | > stft_pad_mode:reflect
 | > max_norm:1.0
 | > clip_norm:True
 | > do_trim_silence:False
 | > trim_db:60
 | > do_sound_norm:False
 | > do_amp_to_db_linear:True
 | > do_amp_to_db_mel:True
 | > do_rms_norm:False
 | > db_level:None
 | > stats_path:None
 | > base:10
 | > hop_length:256
 | > win_length:1024
 > initialization of speaker-embedding layers.
 > initialization of language-embedding layers.


Text(value='', description='Texto:', placeholder='Ingresa el texto aquí')

IntSlider(value=0, description='Tono (semitonos):', max=5, min=-5)

Button(description='Generar Audio', style=ButtonStyle())

Output()

Mismo caso pero expresando emociones.

In [None]:
# Paso 1: Reiniciar el runtime para limpiar el entorno
#import os
#os._exit(00)

# Después de reiniciar, ejecuta el siguiente código en una nueva celda

# Paso 2: Instalar dependencias con versiones compatibles
!pip install TTS==0.22.0 numpy==1.24.3 pandas==1.5.3 networkx==2.8.8 matplotlib==3.10.1

# Configurar matplotlib para mostrar gráficos en Colab
%matplotlib inline
import os
os.environ['MPLBACKEND'] = 'inline'  # Asegurar que el backend sea compatible con Colab

# Importar bibliotecas
from TTS.api import TTS
from IPython.display import Audio, display, Image
import torch
import ipywidgets as widgets
import glob
import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np
import soundfile as sf  # Para guardar el audio modificado

# Verificar GPU
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Usando dispositivo: {device}")

# Inicializar el modelo TTS (español, VITS)
tts = TTS(model_name="tts_models/es/css10/vits", progress_bar=True).to(device)

# Crear widgets: campo de texto, slider de tono, dropdown de emoción, botón y salida
text_input = widgets.Text(
    value='',
    placeholder='Ingresa el texto aquí',
    description='Texto:',
    disabled=False
)

pitch_slider = widgets.IntSlider(
    value=0,
    min=-5,
    max=5,
    step=1,
    description='Tono (semitonos):',
    disabled=False
)

emotion_dropdown = widgets.Dropdown(
    options=["Neutral", "Feliz", "Triste", "Enfadado"],
    value="Neutral",
    description='Emoción:'
)

button = widgets.Button(description="Generar Audio")

output = widgets.Output()

# Lista para almacenar los audios generados
audios_generados = []

# Función para generar audio y mostrarlo
def on_button_clicked(b):
    with output:
        texto = text_input.value
        if texto.lower() == "salir":
            print("¡Programa terminado! Gracias por usar el sistema.")
            return
        if not texto.strip():
            print("Por favor, ingresa un texto válido.")
            return
        # Generar nombre único para el archivo de audio
        num_audios = len(glob.glob("audio_*.wav")) + 1
        archivo_audio = f"audio_{num_audios}.wav"
        # Generar audio
        tts.tts_to_file(text=texto, file_path=archivo_audio)
        # Cargar el audio para modificarlo y obtener duración/muestras
        y, sr = librosa.load(archivo_audio)
        # Ajustar tono y velocidad según la emoción seleccionada
        emotion = emotion_dropdown.value
        pitch_shift = pitch_slider.value
        speed = 1.0  # Velocidad por defecto
        if emotion != "Neutral":
            if emotion == "Feliz":
                pitch_shift = 3
                speed = 1.2
                print(f"Emoción: {emotion} (Tono: +{pitch_shift} semitonos, Velocidad: {speed}x)")
            elif emotion == "Triste":
                pitch_shift = -3
                speed = 0.8
                print(f"Emoción: {emotion} (Tono: {pitch_shift} semitonos, Velocidad: {speed}x)")
            elif emotion == "Enfadado":
                pitch_shift = 2
                speed = 1.3
                print(f"Emoción: {emotion} (Tono: +{pitch_shift} semitonos, Velocidad: {speed}x)")
        else:
            print(f"Tono ajustado: {pitch_shift} semitonos")
        # Aplicar ajustes de tono y velocidad
        if pitch_shift != 0:
            y = librosa.effects.pitch_shift(y, sr=sr, n_steps=pitch_shift)
        if speed != 1.0:
            y = librosa.effects.time_stretch(y, rate=speed)
        # Guardar el audio modificado
        sf.write(archivo_audio, y, sr)
        # Calcular duración y muestras (después de los ajustes)
        duration = librosa.get_duration(y=y, sr=sr)
        num_samples = len(y)
        print(f"Reproduciendo audio para: '{texto}'")
        print(f"Duración del audio: {duration:.2f} segundos")
        print(f"Número de muestras: {num_samples} (frecuencia de muestreo: {sr} Hz)")
        # Mostrar el audio generado
        display(Audio(archivo_audio, autoplay=True))
        # Generar y mostrar el espectrograma
        plt.figure(figsize=(10, 4))
        S = librosa.feature.melspectrogram(y=y, sr=sr)
        S_dB = librosa.power_to_db(S, ref=np.max)
        librosa.display.specshow(S_dB, sr=sr, x_axis='time', y_axis='mel')
        plt.colorbar(format='%+2.0f dB')
        plt.title(f'Espectrograma de: {texto}')
        # Guardar el espectrograma como imagen temporal
        plt.savefig('spectrogram.png')
        plt.close()
        # Mostrar la imagen en la salida
        display(Image('spectrogram.png'))
        # Añadir a la lista de audios generados
        audios_generados.append((texto, archivo_audio))
        # Mostrar todos los audios generados hasta ahora
        print("\nAudios generados hasta ahora:")
        for i, (t, a) in enumerate(audios_generados, 1):
            print(f"{i}. Texto: '{t}' - Archivo: {a}")
        print("\nIngresa otro texto o escribe 'salir' para terminar.")

# Vincular la función al botón
button.on_click(on_button_clicked)

# Mostrar los widgets
display(text_input, pitch_slider, emotion_dropdown, button, output)

# Instrucción inicial
with output:
    print("Ingresa un texto, ajusta el tono o selecciona una emoción, y haz clic en 'Generar Audio'. Escribe 'salir' para terminar.")

Usando dispositivo: cpu
 > tts_models/es/css10/vits is already downloaded.
 > Using model: vits
 > Setting up Audio Processor...
 | > sample_rate:22050
 | > resample:False
 | > num_mels:80
 | > log_func:np.log10
 | > min_level_db:0
 | > frame_shift_ms:None
 | > frame_length_ms:None
 | > ref_level_db:None
 | > fft_size:1024
 | > power:None
 | > preemphasis:0.0
 | > griffin_lim_iters:None
 | > signal_norm:None
 | > symmetric_norm:None
 | > mel_fmin:0
 | > mel_fmax:None
 | > pitch_fmin:None
 | > pitch_fmax:None
 | > spec_gain:20.0
 | > stft_pad_mode:reflect
 | > max_norm:1.0
 | > clip_norm:True
 | > do_trim_silence:False
 | > trim_db:60
 | > do_sound_norm:False
 | > do_amp_to_db_linear:True
 | > do_amp_to_db_mel:True
 | > do_rms_norm:False
 | > db_level:None
 | > stats_path:None
 | > base:10
 | > hop_length:256
 | > win_length:1024
 > initialization of speaker-embedding layers.
 > initialization of language-embedding layers.


Text(value='', description='Texto:', placeholder='Ingresa el texto aquí')

IntSlider(value=0, description='Tono (semitonos):', max=5, min=-5)

Dropdown(description='Emoción:', options=('Neutral', 'Feliz', 'Triste', 'Enfadado'), value='Neutral')

Button(description='Generar Audio', style=ButtonStyle())

Output()

# Coqui TTS (xtts_V2)

Este código utiliza el modelo XTTS v2 de la biblioteca TTS para generar audios a partir de texto, clonando una voz de referencia. Permite grabar o subir un audio de referencia de 3 a 10 segundos para clonar la voz, ingresar un texto, seleccionar el idioma entre inglés, español, francés o alemán, y elegir una emoción como neutral, feliz, triste o enojado. A continuación, genera un audio con la voz clonada y lo reproduce, mostrando los reproductores de todos los audios generados junto con su texto, idioma, emoción y nombre del archivo. También lista todos los audios generados hasta el momento y permite terminar el programa escribiendo "salir". Está optimizado para Google Colab, utilizando GPU para acelerar el procesamiento y manejando dependencias específicas para evitar conflictos.

In [None]:
# Reiniciar el runtime automáticamente después de instalar las dependencias
#import os
#os._exit(00)

# Paso 1: Limpiar el entorno y reinstalar dependencias
!pip uninstall -y TTS numpy numba scipy transformers pandas
!pip install TTS==0.22.0 numpy==1.24.3 numba==0.60.0 scipy==1.14.1 transformers==4.44.2 pandas==1.5.3

# Importar bibliotecas
from TTS.api import TTS
from TTS.tts.configs.xtts_config import XttsConfig  # Importar XttsConfig
from TTS.tts.models.xtts import XttsAudioConfig, XttsArgs  # Importar XttsAudioConfig y XttsArgs
from TTS.config.shared_configs import BaseDatasetConfig  # Importar BaseDatasetConfig
from IPython.display import Audio, display
import torch
import torch.serialization  # Para añadir globals permitidos
import ipywidgets as widgets
import glob
from IPython.display import Javascript
from google.colab import output
from base64 import b64decode
import os
import numpy as np

# Verificar la versión de numpy después del reinicio
print(f"Versión de numpy instalada: {np.__version__}")

# Añadir XttsConfig, XttsAudioConfig, BaseDatasetConfig y XttsArgs a los globals permitidos para evitar el UnpicklingError
torch.serialization.add_safe_globals([XttsConfig, XttsAudioConfig, BaseDatasetConfig, XttsArgs])

# Verificar GPU
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Usando dispositivo: {device}")

# Inicializar el modelo TTS (XTTS v2)
tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", progress_bar=True).to(device)

# Crear widgets para grabar o subir archivo de referencia
record_button = widgets.Button(description="Grabar Audio de Referencia")
upload_button = widgets.Button(description="Subir Audio de Referencia")
text_input = widgets.Text(value='', placeholder='Ingresa el texto aquí', description='Texto:')
language_dropdown = widgets.Dropdown(options=["en", "es", "fr", "de"], value="en", description='Idioma:')
emotion_dropdown = widgets.Dropdown(options=["neutral", "happy", "sad", "angry"], value="neutral", description='Emoción:')
generate_button = widgets.Button(description="Generar Audio")
output = widgets.Output()

# Lista para almacenar los audios generados
audios_generados = []
reference_audio_path = "/content/reference.wav"

# JavaScript para grabar audio en Colab
RECORD = """
const sleep  = time => new Promise(resolve => setTimeout(resolve, time))
const b2text = blob => new Promise(resolve => {
  const reader = new FileReader();
  reader.onloadend = e => resolve(e.srcElement.result);
  reader.readAsDataURL(blob);
})
var record = time => new Promise(async resolve => {
  stream = await navigator.mediaDevices.getUserMedia({ audio: true });
  recorder = new MediaRecorder(stream);
  chunks = [];
  recorder.ondataavailable = e => chunks.push(e.data);
  recorder.start();
  await sleep(time);
  recorder.onstop = async () => {
    blob = new Blob(chunks);
    text = await b2text(blob);
    resolve(text);
  };
  recorder.stop();
});
"""

def record_audio(b):
    with output:
        print("\n--- Grabando Audio de Referencia ---")
        print("Grabando audio de referencia (5 segundos)...")
        display(Javascript(RECORD))
        s = output.eval_js('record(5000)')
        b = b64decode(s.split(',')[1])
        with open(reference_audio_path, 'wb') as f:
            f.write(b)
        print(f"Archivo de referencia guardado en: {reference_audio_path}")
        print("Ahora ingresa el texto, selecciona idioma y emoción, y haz clic en 'Generar Audio'.")
        print("--- Fin Grabación ---")

def upload_audio(b):
    with output:
        print("\n--- Subiendo Audio de Referencia ---")
        uploader = widgets.FileUpload(accept='.wav', multiple=False)
        display(uploader)
        print("Sube un archivo .wav y espera a que se procese...")

        def on_upload_change(change):
            with output:
                # Verifica si uploader.value es un diccionario (formato antiguo) o una tupla/lista (formato nuevo)
                if isinstance(uploader.value, dict):
                    # Formato antiguo: uploader.value es un diccionario
                    for filename, file_info in uploader.value.items():
                        with open(reference_audio_path, 'wb') as f:
                            f.write(file_info['content'])
                        print(f"Archivo de referencia subido y guardado en: {reference_audio_path}")
                        print("Ahora ingresa el texto, selecciona idioma y emoción, y haz clic en 'Generar Audio'.")
                else:
                    # Formato nuevo: uploader.value es una tupla o lista de objetos
                    for file_info in uploader.value:
                        with open(reference_audio_path, 'wb') as f:
                            f.write(file_info['content'])
                        print(f"Archivo de referencia subido y guardado en: {reference_audio_path}")
                        print("Ahora ingresa el texto, selecciona idioma y emoción, y haz clic en 'Generar Audio'.")
                print("--- Fin Subida ---")

        uploader.observe(on_upload_change, names='value')

def on_generate_clicked(b):
    with output:
        print("\n--- Generando Audio ---")
        texto = text_input.value
        if texto.lower() == "salir":
            print("¡Programa terminado! Gracias por usar el sistema.")
            print("--- Fin Programa ---")
            return
        if not texto.strip():
            print("Por favor, ingresa un texto válido.")
            print("--- Fin Generación ---")
            return
        if not os.path.exists(reference_audio_path):
            print("Por favor, graba o sube un audio de referencia primero.")
            print("--- Fin Generación ---")
            return
        # Generar nombre único para el archivo de audio
        num_audios = len(glob.glob("audio_*.wav")) + 1
        archivo_audio = f"audio_{num_audios}.wav"
        # Generar audio con XTTS v2
        language = language_dropdown.value
        emotion = emotion_dropdown.value
        print(f"Generando audio para: '{texto}'")
        print(f"Idioma: {language}, Emoción: {emotion}")
        tts.tts_to_file(
            text=texto,
            file_path=archivo_audio,
            speaker_wav=reference_audio_path,
            language=language,
            emotion=emotion
        )
        # Añadir a la lista de audios generados, incluyendo idioma y emoción
        audios_generados.append((texto, archivo_audio, language, emotion))
        # Mostrar los reproductores de todos los audios generados
        print("Reproduciendo todos los audios generados...")
        for i, (t, a, lang, emo) in enumerate(audios_generados, 1):
            print(f"Audio {i}: Texto: '{t}' - Idioma: {lang} - Emoción: {emo} - Archivo: {a}")
            display(Audio(a, autoplay=False))  # Autoplay=False para evitar que todos se reproduzcan a la vez
        # Mostrar lista de audios generados (sin reproductores, solo texto)
        print("\nAudios generados hasta ahora:")
        for i, (t, a, lang, emo) in enumerate(audios_generados, 1):
            print(f"{i}. Texto: '{t}' - Idioma: {lang} - Emoción: {emo} - Archivo: {a}")
        print("\nIngresa otro texto o escribe 'salir' para terminar.")
        print("--- Fin Generación ---")

# Vincular funciones a los botones
record_button.on_click(record_audio)
upload_button.on_click(upload_audio)
generate_button.on_click(on_generate_clicked)

# Mostrar los widgets
display(record_button, upload_button, text_input, language_dropdown, emotion_dropdown, generate_button, output)

# Instrucción inicial
with output:
    print("Paso 1: Graba o sube un audio de referencia (3-10 segundos).")
    print("Paso 2: Ingresa un texto, selecciona idioma y emoción, y haz clic en 'Generar Audio'.")
    print("Escribe 'salir' para terminar.")

Found existing installation: TTS 0.22.0
Uninstalling TTS-0.22.0:
  Successfully uninstalled TTS-0.22.0
Found existing installation: numpy 1.24.3
Uninstalling numpy-1.24.3:
  Successfully uninstalled numpy-1.24.3
Found existing installation: numba 0.60.0
Uninstalling numba-0.60.0:
  Successfully uninstalled numba-0.60.0
Found existing installation: scipy 1.14.1
Uninstalling scipy-1.14.1:
  Successfully uninstalled scipy-1.14.1
Found existing installation: transformers 4.44.2
Uninstalling transformers-4.44.2:
  Successfully uninstalled transformers-4.44.2
Found existing installation: pandas 1.5.3
Uninstalling pandas-1.5.3:
  Successfully uninstalled pandas-1.5.3
Collecting TTS==0.22.0
  Using cached TTS-0.22.0-cp311-cp311-manylinux1_x86_64.whl.metadata (21 kB)
Collecting numpy==1.24.3
  Using cached numpy-1.24.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.6 kB)
Collecting numba==0.60.0
  Using cached numba-0.60.0-cp311-cp311-manylinux2014_x86_64.manylinux_2_17_

Versión de numpy instalada: 1.24.3
Usando dispositivo: cuda
 > tts_models/multilingual/multi-dataset/xtts_v2 is already downloaded.
 > Using model: xtts


Button(description='Grabar Audio de Referencia', style=ButtonStyle())

Button(description='Subir Audio de Referencia', style=ButtonStyle())

Text(value='', description='Texto:', placeholder='Ingresa el texto aquí')

Dropdown(description='Idioma:', options=('en', 'es', 'fr', 'de'), value='en')

Dropdown(description='Emoción:', options=('neutral', 'happy', 'sad', 'angry'), value='neutral')

Button(description='Generar Audio', style=ButtonStyle())

Output()