<a href="https://colab.research.google.com/github/jrleonett/Texto-a-audio-con-Bark-Model/blob/main/Text_to_Audio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üé§ Generador de Texto a Audio con Bark üéß

¬°Bienvenido al generador de texto a audio utilizando **Bark**, un modelo de conversi√≥n de texto a audio basado en transformadores! Este cuaderno creado por **Jos√© R. Leonett** te permite convertir cualquier texto en espa√±ol (u otros idiomas) en audio de alta calidad con un tono de voz realista.

---

## **¬øQu√© es Bark?**
Bark es un modelo de texto a audio desarrollado por **Suno**. Puede generar:
- Voz multiling√ºe altamente realista.
- Efectos de sonido, m√∫sica y ruido de fondo.
- Comunicaciones no verbales como risas, suspiros y llantos.

---

## **Instrucciones paso a paso**

1. **Ejecuta el M√≥dulo de Inicializaci√≥n**: Carga los modelos de Bark.
2. **Ejecuta el M√≥dulo de Generaci√≥n de Audio**: Abre la interfaz para ingresar texto.
3. **Escribe tu texto**: Ingresa el texto que deseas convertir a audio en el cuadro de texto.
4. **Genera el audio**: Haz clic en "Generar Audio" para crear el archivo de audio.
5. **Escucha y descarga**: El audio se reproduce autom√°ticamente y se guarda como `audio_generado.wav`.

---

## **Ejemplos de texto**
- "Hola, mi nombre es Suno. Me encanta la tecnolog√≠a y crear cosas nuevas. [risas]"
- "El aprendizaje autom√°tico es fascinante y est√° cambiando el mundo."
- "‚ô™ En la selva, la poderosa selva, el le√≥n ruge esta noche ‚ô™"

**1. Texto con emociones y expresiones no verbales**
- "Hola, mi nombre es Suno. Me encanta la tecnolog√≠a y crear cosas nuevas. [risas] ¬øY a ti qu√© te gusta hacer?"

- "Estoy muy emocionado por este proyecto. [suspiro] Espero que todo salga bien."

- "¬°Oh no! Olvid√© mi paraguas. [llanto] Ahora me voy a mojar."

**2. Texto con efectos de sonido**
- "El viento sopla fuerte [efecto de viento] y las hojas crujen bajo mis pies [efecto de pasos]."

- "En la cocina, el agua hierve [efecto de agua hirviendo] y las sartenes chisporrotean [efecto de sart√©n]."

**3. Texto con cambio de idioma o acento**
- Bonjour! Je m'appelle Suno. [franc√©s] ¬øSab√≠as que tambi√©n hablo espa√±ol?"
- Guten Tag! Ich bin Suno. [alem√°n] Hoy te contar√© sobre la historia de Europa."

**4. Texto con √©nfasis y may√∫sculas**
- "¬°ESTO es MUY importante! Por favor, presta atenci√≥n."
- "No puedo creer que hayas hecho ESO. [suspira]"

**5. Texto narrativo o hist√≥rico**
- "El 20 de julio de 1969, el hombre lleg√≥ a la luna. Fue un peque√±o paso para el hombre, pero un gran salto para la humanidad."
- "En el a√±o 1492, Crist√≥bal Col√≥n descubri√≥ Am√©rica. Este evento cambi√≥ el curso de la historia."

**6. Texto con humor**
- "¬øSabes por qu√© los p√°jaros no usan Facebook? ¬°Porque ya tienen Twitter! [risas]"
- "¬øQu√© hace una abeja en el gimnasio? ¬°Zum-ba! [risas]"

**7. Texto con instrucciones o gu√≠as**
- "Para hacer una taza de caf√©, primero calienta el agua. Luego, a√±ade una cucharada de caf√© molido y deja reposar durante 5 minutos."
- "Si deseas aprender a programar, comienza con Python. Es un lenguaje sencillo y poderoso."

# **C√≥mo usar estos ejemplos**
- Copia y pega: Copia cualquiera de estos ejemplos en el cuadro de texto del generador de audio.
- **Personaliza:** Modifica el texto seg√∫n tus necesidades.
- **Genera el audio:** Haz clic en "Generar Audio" para escuchar el resultado.

# **Combina idiomas:**
Bark puede manejar cambios de idioma en un mismo texto, lo que permite crear audios multiling√ºes.
- Hola, mi nombre es Suno. I love technology and creating new things. [risas]
- El Drei√üigj√§hrige Krieg (Guerra de los Treinta A√±os) fue un conflicto devastador. [m√∫sica √©pica]
- Hola, my name is forense. Je suis passionn√© par la technologie. [risas]

**Usa may√∫sculas para enfatizar:**
- Las palabras en may√∫sculas se pronuncian con m√°s √©nfasis.

---

## **Notas importantes**
- Bark es un modelo generativo, por lo que los resultados pueden variar ligeramente de las indicaciones.
- El audio generado se guarda en formato `.wav` y puede descargarse para su uso posterior.

---

¬°Espero te sirva este modelo gratuito para tus proyectos de audios! üé∂

In [1]:
#@title MODULO 01: Este m√≥dulo carga los modelos de Bark necesarios para la generaci√≥n de audio. **Solo debe ejecutarse una vez.**

%%capture
!nvidia-smi

# M√≥dulo 1: Inicializaci√≥n (Cargar modelos)
!pip install git+https://github.com/suno-ai/bark.git
!pip install googletrans==4.0.0-rc1  # Instalar la librer√≠a de traducci√≥n

from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio, display
import ipywidgets as widgets
from googletrans import Translator

# Cargar los modelos de Bark
print("Cargando modelos de Bark...")
preload_models()
print("¬°Modelos cargados con √©xito!")

# Inicializar el traductor
translator = Translator()



In [21]:
#@title MODULO 02: Generaci√≥n de audio con traducci√≥n y audio largo

# Importar las bibliotecas necesarias
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio, display
import ipywidgets as widgets
import numpy as np
import warnings  # Importar el m√≥dulo warnings

# Suprimir la advertencia espec√≠fica de torch.cuda.amp.autocast
warnings.filterwarnings("ignore", category=FutureWarning, message="`torch.cuda.amp.autocast.*` is deprecated")

def generar_audio():
    # Lista de voces disponibles
    voces = [
        ("Speaker 0 (ES) - Masculino", "v2/es_speaker_0", "es"),
        ("Speaker 1 (ES) - Masculino", "v2/es_speaker_1", "es"),
        ("Speaker 2 (ES) - Masculino", "v2/es_speaker_2", "es"),
        ("Speaker 3 (ES) - Masculino", "v2/es_speaker_3", "es"),
        ("Speaker 4 (ES) - Masculino", "v2/es_speaker_4", "es"),
        ("Speaker 5 (ES) - Masculino", "v2/es_speaker_5", "es"),
        ("Speaker 6 (ES) - Masculino", "v2/es_speaker_6", "es"),
        ("Speaker 7 (ES) - Masculino", "v2/es_speaker_7", "es"),
        ("Speaker 8 (ES) - Femenino", "v2/es_speaker_8", "es"),
        ("Speaker 9 (ES) - Femenino", "v2/es_speaker_9", "es"),
        ("Alem√°n - Masculino", "v2/de_speaker_4", "de"),
        ("Alem√°n - Femenino", "v2/de_speaker_3", "de"),
        ("Chino - Masculino", "v2/en_speaker_3", "zh-cn"),
        ("Chino - Femenino", "v2/en_speaker_4", "zh-cn"),
        ("Franc√©s - Masculino", "v2/fr_speaker_7", "fr"),
        ("Franc√©s - Femenino", "v2/fr_speaker_5", "fr"),
        ("Hind√∫ - Masculino", "v2/hi_speaker_2", "hi"),
        ("Hind√∫ - Femenino", "v2/hi_speaker_0", "hi"),
        ("Ingl√©s - Masculino", "v2/en_speaker_6", "en"),
        ("Ingl√©s - Femenino", "v2/en_speaker_9", "en"),
        ("Italiano - Masculino", "v2/it_speaker_4", "it"),
        ("Italiano - Femenino", "v2/it_speaker_7", "it"),
        ("Japon√©s - Masculino", "v2/ja_speaker_2", "ja"),
        ("Japon√©s - Femenino", "v2/ja_speaker_3", "ja"),
        ("Portugu√©s - Masculino", "v2/pt_speaker_1", "pt"),
        ("Portugu√©s - Masculino", "v2/en_speaker_5", "pt"),
        ("Ruso - Masculino", "v2/ru_speaker_4", "ru"),
        ("Ruso - Femenino", "v2/ru_speaker_6", "ru"),
        ("Turco - Masculino", "v2/tr_speaker_1", "tr"),
        ("Turco - Femenino", "v2/tr_speaker_5", "tr"),
    ]

    # Crear un men√∫ desplegable para seleccionar la voz
    menu_voces = widgets.Dropdown(
        options=voces,
        value=("Speaker 6 (ES) - Masculino", "v2/es_speaker_6", "es"),  # Valor por defecto
        description="Selecciona la voz:",
        layout=widgets.Layout(width="80%")
    )

    # Crear un cuadro de texto para que el usuario ingrese el prompt
    text_prompt = widgets.Textarea(
        value="",
        placeholder="Escribe aqu√≠ el texto que deseas convertir a audio...",
        description="Texto:",
        layout=widgets.Layout(width="80%", height="100px")
    )

    # Bot√≥n para generar el audio
    boton_generar = widgets.Button(description="Generar Audio")

    # Funci√≥n para dividir el texto en fragmentos
    def dividir_texto(texto, max_caracteres=200):
        """
        Divide el texto en fragmentos de un m√°ximo de caracteres.
        """
        fragmentos = []
        while len(texto) > max_caracteres:
            # Encuentra el √∫ltimo espacio dentro del l√≠mite de caracteres
            indice = texto.rfind(" ", 0, max_caracteres)
            if indice == -1:
                indice = max_caracteres
            fragmentos.append(texto[:indice])
            texto = texto[indice:].strip()
        fragmentos.append(texto)
        return fragmentos

    # Funci√≥n que se ejecuta al hacer clic en el bot√≥n
    def on_boton_click(b):
        # Obtener el texto ingresado por el usuario
        texto = text_prompt.value.strip()
        if not texto:
            print("Por favor, ingresa un texto v√°lido.")
            return

        print("")
        # Obtener la voz y el idioma seleccionados
        nombre_voz, voz_seleccionada, idioma = menu_voces.value
        print(f"Generando audio con la voz: {nombre_voz}...")

        try:
            # Traducir el texto al idioma seleccionado
            if idioma != "es":  # Si el idioma no es espa√±ol, traducir
                texto_traducido = translator.translate(texto, dest=idioma).text
                print(f"Texto traducido al {idioma}: {texto_traducido}")
            else:
                texto_traducido = texto  # Si es espa√±ol, no traducir

            # Dividir el texto en fragmentos
            fragmentos = dividir_texto(texto_traducido)

            # Generar audio para cada fragmento
            audios = []
            for fragmento in fragmentos:
                print(f"Generando audio para: {fragmento}")
                audio_array = generate_audio(fragmento, history_prompt=voz_seleccionada)
                audios.append(audio_array)

            # Combinar los audios
            audio_completo = np.concatenate(audios)

            # Guardar el audio combinado
            output_filename = "audio_largo.wav"
            write_wav(output_filename, SAMPLE_RATE, audio_completo)
            print(f"Audio largo generado y guardado como '{output_filename}'.")

            # Reproducir el audio directamente en Google Colab
            display(Audio(audio_completo, rate=SAMPLE_RATE))
        except Exception as e:
            print(f"Error al generar el audio: {e}")

    print("")
    # Asignar la funci√≥n al bot√≥n
    boton_generar.on_click(on_boton_click)

    # Mostrar el men√∫ de voces, el cuadro de texto y el bot√≥n
    display(menu_voces, text_prompt, boton_generar)

print("")
# Llamar a la funci√≥n para iniciar la interfaz
generar_audio()





Dropdown(description='Selecciona la voz:', index=6, layout=Layout(width='80%'), options=(('Speaker 0 (ES) - Ma‚Ä¶

Textarea(value='', description='Texto:', layout=Layout(height='100px', width='80%'), placeholder='Escribe aqu√≠‚Ä¶

Button(description='Generar Audio', style=ButtonStyle())


Generando audio con la voz: Alem√°n - Femenino...
Texto traducido al de: Dieses Programm ist ein forensisches Computing -Tool, mit dem Bilder auf der Suche nach Beweisen f√ºr Manipulation oder Bearbeitung analysiert werden.Verwenden Sie die Level -Analyse -Fehlertechnik (ELA), um Bereiche einer .jpg- oder .png -Formate zu erkennen, die modifiziert oder ge√§ndert wurden.Dar√ºber hinaus f√ºhrt es eine umfassende Analyse der Metadaten des Bildes durch, einschlie√ülich des Erstellungsdatums, der letzten √Ñnderung und der Software, die zum Bearbeiten verwendet wird.

Dieses Programm wurde von Jos√© R. Leonett f√ºr digitale forensische Experten, forensische Analysten oder jegliche Person entwickelt, die die Echtheit digitaler Bilder √ºberpr√ºfen m√∂chten.
Generando audio para: Dieses Programm ist ein forensisches Computing -Tool, mit dem Bilder auf der Suche nach Beweisen f√ºr Manipulation oder Bearbeitung analysiert werden.Verwenden Sie die Level -Analyse -Fehlertechnik


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 668/668 [00:12<00:00, 53.52it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 34/34 [00:42<00:00,  1.26s/it]


Generando audio para: (ELA), um Bereiche einer .jpg- oder .png -Formate zu erkennen, die modifiziert oder ge√§ndert wurden.Dar√ºber hinaus f√ºhrt es eine umfassende Analyse der Metadaten des Bildes durch, einschlie√ülich des


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 704/704 [00:12<00:00, 54.19it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 36/36 [00:45<00:00,  1.27s/it]


Generando audio para: Erstellungsdatums, der letzten √Ñnderung und der Software, die zum Bearbeiten verwendet wird.

Dieses Programm wurde von Jos√© R. Leonett f√ºr digitale forensische Experten, forensische Analysten oder


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 691/691 [00:12<00:00, 53.55it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 35/35 [00:44<00:00,  1.29s/it]


Generando audio para: jegliche Person entwickelt, die die Echtheit digitaler Bilder √ºberpr√ºfen m√∂chten.


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 330/330 [00:06<00:00, 54.21it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 17/17 [00:21<00:00,  1.25s/it]


Audio largo generado y guardado como 'audio_largo.wav'.


---
# Lista ampliada de expresiones no verbales y efectos de sonido

**1. Expresiones no verbales**

**Risas:**
- [risas]: Una risa gen√©rica.
- [carcajadas]: Una risa fuerte y prolongada.
- [risita]: Una risa suave o t√≠mida.

**Suspiros:**
- [suspiro]: Un suspiro de alivio o cansancio.
- [suspiro profundo]: Un suspiro m√°s intenso.

**Llanto:**
- [llanto]: Un llanto suave.
- [llanto fuerte]: Un llanto m√°s intenso.

**Otros sonidos humanos:**
- [toser]: Una tos.
- [estornudo]: Un estornudo.
- [respiraci√≥n profunda]: Una respiraci√≥n audible.
- [bostezo]: Un bostezo.
- [silbido]: Silbar una melod√≠a.

**2. Efectos de sonido ambientales
Naturaleza:**
- [sonido de viento]: Viento soplando.
- [sonido de lluvia]: Lluvia cayendo.
- [sonido de trueno]: Truenos en una tormenta.
- [sonido de p√°jaros]: P√°jaros cantando.
- [sonido de olas]: Olas del mar.

**Ciudad:**
- [sonido de tr√°fico]: Tr√°fico en una calle concurrida.
- [sonido de claxon]: Claxon de un coche.
- [sonido de pasos]: Pasos caminando.
- [sonido de gente hablando]: Murmullo de una multitud.

**M√∫sica:**
- [m√∫sica suave]: M√∫sica de fondo relajante.
- [m√∫sica √©pica]: M√∫sica dram√°tica o emocionante.
- [m√∫sica de piano]: Melod√≠a de piano.

**Otros efectos:**
- [sonido de puerta cerr√°ndose]: Una puerta cerr√°ndose.
- [sonido de campana]: Una campana sonando.
- [sonido de reloj]: Tic-tac de un reloj.
- [sonido de explosi√≥n]: Una explosi√≥n.