<a href="https://colab.research.google.com/github/FernandoBRdgz/inteligencia_artificial/blob/main/s%C3%ADntesis_de_habla/texto_a_voz_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Introducción

En términos generales, la síntesis de voz implica la conversión de texto en habla mediante un software especializado que utiliza técnicas de procesamiento de lenguaje natural y procesamiento de señales de audio. El proceso de síntesis de voz puede ser dividido en los siguientes pasos:

Análisis del texto: en esta etapa, el texto a ser sintetizado es analizado para determinar su estructura lingüística y sintáctica. Este análisis puede incluir la identificación de las palabras, la sintaxis, la entonación, la prosodia y otras características del lenguaje.

Generación de la representación fonética: se crea una representación fonética del texto, que consiste en una secuencia de símbolos fonéticos que representan los sonidos del habla. Esta representación es utilizada para generar la forma de onda de la voz.

Síntesis de la voz: se utiliza un motor de síntesis de voz para generar una forma de onda de audio que representa el habla sintética. El motor de síntesis de voz puede utilizar diferentes técnicas, como la síntesis por concatenación, la síntesis por formantes o la síntesis estadística.

Post-procesamiento: se aplican técnicas de post-procesamiento para mejorar la calidad de la síntesis de voz, como la reducción del ruido, la normalización del volumen y la eliminación de artefactos.

---

Primeramente, se instalan las dependencias de Linux

In [1]:
!pip install gTTS pydub

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


La librería gTTS (*Google Text-to-Speech*) es una herramienta de síntesis de voz para Python que permite generar archivos de audio a partir de texto utilizando la tecnología de síntesis de voz de Google (misma que en el servicio de Traductor de Google).

Internamente, la librería funciona de la siguiente manera:

Conversión de texto a URL: cuando se proporciona un texto como entrada, la librería gTTS lo convierte en una URL de solicitud HTTP para enviarlo a los servidores de Google.

Solicitud HTTP: la URL generada es utilizada para enviar una solicitud HTTP a los servidores de Google, que responden con una pista de audio codificada en MP3.

Decodificación de audio: una vez que se recibe la respuesta de los servidores de Google, la librería gTTS decodifica la pista de audio MP3 utilizando una librería Python llamada "pydub".

Almacenamiento del audio: finalmente, la librería gTTS almacena el audio decodificado en un archivo de audio en formato WAV, que puede ser reproducido o utilizado como se desee.

In [2]:
from gtts import gTTS
from io import BytesIO
from pydub import AudioSegment

In [3]:
def texto_a_audio(texto, lang='es'):
    # Generar el audio
    audio_bytes = BytesIO()
    tts = gTTS(text=texto, lang=lang)
    tts.write_to_fp(audio_bytes)

    # Guardar el audio temporalmente en mp3
    with open('audio.mp3', 'wb') as f:
        f.write(audio_bytes.getbuffer())

    # Cargar el audio desde el archivo temporal con pydub
    audio = AudioSegment.from_file('audio.mp3', format='mp3')

    # Devolver el audio cargado
    return audio

In [4]:
texto_a_audio('Hola, esto es un ejemplo de texto convertido a audio')

In [5]:
texto_a_audio('Hello, this is an example of text converted to audio', lang='en')

In [6]:
texto_a_audio('Hallo, dies ist ein Beispiel für Text, der in Audio umgewandelt wurde', lang='de')

**Referencias**

* https://github.com/pndurette/gTTS
* https://gtts.readthedocs.io/en/latest/
* https://github.com/pndurette/gTTS/blob/main/gtts/langs.py
* https://towardsdatascience.com/how-to-get-started-with-google-text-to-speech-using-python-485e43d1d544