# 🎤 **Proyecto de Síntesis de Texto a Voz usando Google Cloud Text-to-Speech**
Este proyecto utiliza la API de Google Cloud Text-to-Speech para convertir texto a voz. La API convierte entradas de texto en archivos de audio, que luego se reproducen directamente en el entorno donde se ejecuta el código. A través de este proyecto, se configuran las credenciales de Google Cloud, se elige una voz, se sintetiza el texto y finalmente se reproduce el archivo de audio generado.

🎯 Objetivo
El objetivo de este proyecto es integrar la tecnología de síntesis de texto a voz de Google Cloud para desarrollar una solución eficiente y accesible que convierta cualquier texto escrito en una salida de voz natural. A través de la implementación de esta API, se busca explorar y aplicar herramientas avanzadas de IA, ofreciendo una experiencia de interacción más humana con las máquinas. Este proyecto sienta las bases para futuras aplicaciones en áreas como la accesibilidad, asistentes virtuales, y otros sistemas inteligentes que necesiten generar comunicación auditiva a partir de texto. Además, facilita la automatización de procesos y la creación de interfaces interactivas que mejoren la interacción del usuario con sistemas automatizados.
 _________

## Requisitos

Este proyecto necesita las siguientes bibliotecas:

- `google-cloud-texttospeech`: Para interactuar con la API de Google Cloud Text-to-Speech.
- `playsound`: Para reproducir el archivo de audio generado.

Para instalarlas, ejecuta el siguiente comando:

```bash
pip install google-cloud-texttospeech playsound


## Configuración de la Autenticación

Para utilizar la API de Google Cloud, se necesita configurar la autenticación. se Debe crear un proyecto en Google Cloud y habilitar la API de Text-to-Speech. Luego, descargar la credencial en formato JSON y configurarla como una variable de entorno.

- **Paso 1**: Ve a [Google Cloud Console](https://console.cloud.google.com/).
- **Paso 2**: Crea un nuevo proyecto y habilita la API de Text-to-Speech.
- **Paso 3**: Crea una clave de servicio en formato JSON y descarga el archivo.
- **Paso 4**: Establece la variable de entorno `GOOGLE_APPLICATION_CREDENTIALS` con la ruta de tu archivo de la credencial:

In [24]:
import os
# Configura la variable de entorno para autenticarte con Google Cloud
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = r"E:\proyecto\TTS-GCP\CREDENCIAL.json"

## Listar las Voces Disponibles
Esta sección permite obtener una lista de todas las voces ofrecidas por la API de Google Cloud Text-to-Speech. Para mayor relevancia, se filtran únicamente las voces disponibles en idioma español. Esto facilita la selección de una voz adecuada para la síntesis de texto a voz en este idioma.

In [25]:
from google.cloud import texttospeech

def listar_voces():
    client = texttospeech.TextToSpeechClient()

    # Obtiene todas las voces disponibles
    voices = client.list_voices()

    # Filtra las voces que corresponden al idioma español
    for voice in voices.voices:
        if 'es' in voice.language_codes[0]:
            print(f"Voz: {voice.name}, Idioma: {voice.language_codes[0]}")

# Llama a la función para listar las voces
listar_voces()

Voz: es-ES-Journey-D, Idioma: es-ES
Voz: es-ES-Journey-F, Idioma: es-ES
Voz: es-ES-Journey-O, Idioma: es-ES
Voz: es-ES-Neural2-A, Idioma: es-ES
Voz: es-ES-Neural2-B, Idioma: es-ES
Voz: es-ES-Neural2-C, Idioma: es-ES
Voz: es-ES-Neural2-D, Idioma: es-ES
Voz: es-ES-Neural2-E, Idioma: es-ES
Voz: es-ES-Neural2-F, Idioma: es-ES
Voz: es-ES-Neural2-G, Idioma: es-ES
Voz: es-ES-Neural2-H, Idioma: es-ES
Voz: es-ES-Polyglot-1, Idioma: es-ES
Voz: es-ES-Standard-A, Idioma: es-ES
Voz: es-ES-Standard-B, Idioma: es-ES
Voz: es-ES-Standard-C, Idioma: es-ES
Voz: es-ES-Standard-D, Idioma: es-ES
Voz: es-ES-Standard-E, Idioma: es-ES
Voz: es-ES-Standard-F, Idioma: es-ES
Voz: es-ES-Standard-G, Idioma: es-ES
Voz: es-ES-Standard-H, Idioma: es-ES
Voz: es-ES-Studio-C, Idioma: es-ES
Voz: es-ES-Studio-F, Idioma: es-ES
Voz: es-ES-Wavenet-B, Idioma: es-ES
Voz: es-ES-Wavenet-C, Idioma: es-ES
Voz: es-ES-Wavenet-D, Idioma: es-ES
Voz: es-ES-Wavenet-E, Idioma: es-ES
Voz: es-ES-Wavenet-F, Idioma: es-ES
Voz: es-ES-Wavenet-G,

## Importación de Bibliotecas

importación de las bibliotecas necesarias para interactuar con la API de Google Cloud y para reproducir el archivo de audio generado.

- **google.cloud.texttospeech:** Biblioteca para interactuar con la API de Google Cloud Text-to-Speech.
- **playsound:** Reproduce el archivo de audio generado.
- **os:** Para manejar la ruta de archivo y verificar la existencia del archivo de audio.

In [26]:
from google.cloud import texttospeech
from playsound import playsound # type: ignore
import os

## Crear Cliente de la API de Text-to-Speech
Creamos un cliente de la API de Text-to-Speech para poder realizar las solicitudes de conversión de texto a voz.

In [27]:
# Crear el cliente de la API de Text-to-Speech
client = texttospeech.TextToSpeechClient()

## Definir la Función de Síntesis y Reproducción
La función `sintetizar_y_reproducir` toma un texto como entrada, lo convierte a voz usando la API de Google y luego reproduce el audio generado. Los parámetros de la función son:

- **texto**: El texto que se convertirá a voz.
- **nombre_voz**: El nombre de la voz a utilizar. Se puede elegir entre varias voces disponibles (por ejemplo, "es-ES-Neural2-H").
- **output_file**: El nombre del archivo de salida donde se guardará el audio generado.


- **synthesis_input:** El texto que se convertirá a voz.
- **voice:** Parámetros de la voz, como el idioma, el nombre de la voz y el género.
- **audio_config:** Configuración del audio, donde se define la velocidad de habla (speaking_rate) y el tono de la voz (pitch).
- **synthesize_speech():** Método que convierte el texto en audio.
- **playsound():** Reproduce el archivo de audio generado.


In [34]:
# Función para sintetizar y reproducir el texto
def sintetizar_y_reproducir(texto, nombre_voz="es-ES-Neural2-H", output_file="output00.mp3"):
    # Configuración de la entrada de texto y voz
    synthesis_input = texttospeech.SynthesisInput(text=texto)
    voice = texttospeech.VoiceSelectionParams(
        language_code="es-ES", 
        name=nombre_voz, 
        ssml_gender=texttospeech.SsmlVoiceGender.MALE
    )
    
    # Configuración de velocidad y tono (pitch)
    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3,
        speaking_rate=0.89,  # Velocidad de la voz
        pitch=2.90           # Tono de la voz
    )

    # Sintetizar el texto a voz y guardar el audio
    response = client.synthesize_speech(
        request={"input": synthesis_input, "voice": voice, "audio_config": audio_config}
    )
    
    # Guardar el archivo de audio
    with open(output_file, "wb") as out:
        out.write(response.audio_content)

    print(f"¡Audio generado y guardado como {output_file}!")

    # Reproducir el archivo de audio
    if os.path.exists(output_file):
        playsound(output_file)
        print("Reproducción completada.")


# Texto a sintetizar
texto = "Hola, buenos días Mundo!!!"

# Sintetizar y reproducir
sintetizar_y_reproducir(texto, "es-ES-Neural2-H")

¡Audio generado y guardado como output00.mp3!
Reproducción completada.
