# 1 - TTS (Text-to-Speech)

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/openai_tts.webp" style="width:400px;"/>


<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---El-modelo-TTS" data-toc-modified-id="1---El-modelo-TTS-1">1 - El modelo TTS</a></span></li><li><span><a href="#2---Uso-del-modelo-TTS" data-toc-modified-id="2---Uso-del-modelo-TTS-2">2 - Uso del modelo TTS</a></span></li><li><span><a href="#3---Distintas-voces" data-toc-modified-id="3---Distintas-voces-3">3 - Distintas voces</a></span></li></ul></div>

## 1 - El modelo TTS

El modelo TTS (Text-to-Speech) de OpenAI es una tecnología que convierte texto escrito en habla sintetizada. Este tipo de tecnología es esencial para una variedad de aplicaciones, desde asistentes virtuales hasta herramientas de accesibilidad. 

**Características del modelo TTS de OpenAI**

1. **Naturalidad y fluidez**: El modelo TTS de OpenAI está diseñado para generar una voz que suena natural y fluida, similar a la voz humana. Esto se logra mediante el uso de avanzadas técnicas de aprendizaje profundo y grandes cantidades de datos de entrenamiento.


2. **Personalización de voz**: Es posible personalizar la voz generada, ajustando parámetros como el tono, la velocidad y el estilo de habla. Esto permite adaptar la salida de voz a diferentes contextos y audiencias.


3. **Soporte multilingüe**: El modelo TTS de OpenAI puede soportar múltiples idiomas, lo que lo hace útil para aplicaciones globales. Además, puede ajustar acentos y pronunciaciones según el idioma y la región.


4. **Adaptación de contenido**: El modelo es capaz de adaptar la entonación y el énfasis en función del contenido del texto. Por ejemplo, puede reconocer preguntas y ajustar la entonación al final de la oración para reflejar esto.


5. **Accesibilidad**: Esta tecnología es crucial para las personas con discapacidades visuales o dificultades de lectura, ya que les permite escuchar el contenido en lugar de leerlo.


<br>

**Aplicaciones del modelo TTS de OpenAI**


1. **Asistentes virtuales**: Los asistentes virtuales como Alexa, Siri o Google Assistant pueden usar TTS para proporcionar respuestas verbales a las consultas de los usuarios.


2. **Lectores de pantalla**: Herramientas de accesibilidad que leen el texto en pantalla para personas con discapacidades visuales.


3. **E-Learning y educación**: Plataformas educativas pueden utilizar TTS para ofrecer contenido de aprendizaje en formato de audio, facilitando el acceso a la educación.


4. **Audiolibros**: La conversión automática de libros en formato de texto a audiolibros.


5. **Sistemas de navegación**: Sistemas GPS que dan indicaciones verbales a los conductores.

<br>

**Ventajas del Modelo TTS de OpenAI**


+ Alta calidad de voz: Produce voces naturales y expresivas, reduciendo la sensación de que se está escuchando a una máquina.
+ Flexibilidad: Puede ajustarse a diferentes necesidades y contextos, desde voces formales para noticias hasta tonos más casuales para aplicaciones sociales.
+ Eficiencia: Permite la conversión rápida y precisa de grandes volúmenes de texto a voz.

<br>

**Desafíos y consideraciones**

+ Pronunciación de nombres propios: A veces, la pronunciación de nombres propios y términos técnicos puede ser un desafío.
+ Entonación y contexto: Aunque avanzado, el modelo todavía puede tener dificultades con la entonación correcta en contextos muy complejos o ambiguos.
+ Privacidad y seguridad: Al igual que con todas las tecnologías de IA, es importante considerar la privacidad y la seguridad de los datos utilizados.

<br>

**Modelos disponibles**

<table border="1">
    <tr>
        <th>Modelo</th>
        <th>Descripción</th>
    </tr>
    <tr>
        <td>tts-1</td>
        <td>El último modelo de texto a voz, optimizado para la velocidad.</td>
    </tr>
    <tr>
        <td>tts-1-hd</td>
        <td>El último modelo de texto a voz, optimizado para la calidad.</td>
    </tr>
</table>


## 2 - Uso del modelo TTS

In [1]:
# importamos librerías, API KEY e iniciamos cliente

import os                           
from dotenv import load_dotenv 
import openai as ai
from IPython.display import Audio
import librosa


load_dotenv()

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

cliente = ai.OpenAI()

In [2]:
# llamada a la API

respuesta = cliente.audio.speech.create(model='tts-1',
                                        voice='alloy',
                                        input='Hoy estamos aprendiendo como usar el modelo TTS.')


In [3]:
# guardado del archivo

ruta = '../../files/salida.mp3'

respuesta.write_to_file(ruta)

In [4]:
# escuchar el audio

data, freq = librosa.load(ruta)

Audio(data=data, rate=freq)

## 3 - Distintas voces

TTS tiene varias voces para el audio. Estas son: alloy, echo, fable, onyx, nova y shimmer.

In [5]:
# ejemplo echo

respuesta = cliente.audio.speech.create(model='tts-1',
                                        voice='echo',
                                        input='Hoy estamos aprendiendo como usar el modelo TTS.')


respuesta.write_to_file(ruta)

data, freq = librosa.load(ruta)

Audio(data=data, rate=freq)

In [6]:
# ejemplo fable

respuesta = cliente.audio.speech.create(model='tts-1',
                                        voice='fable',
                                        input='Hoy estamos aprendiendo como usar el modelo TTS.')


respuesta.write_to_file(ruta)

data, freq = librosa.load(ruta)

Audio(data=data, rate=freq)

In [7]:
# ejemplo onyx

respuesta = cliente.audio.speech.create(model='tts-1',
                                        voice='onyx',
                                        input='Hoy estamos aprendiendo como usar el modelo TTS.')


respuesta.write_to_file(ruta)

data, freq = librosa.load(ruta)

Audio(data=data, rate=freq)

In [8]:
# ejemplo nova

respuesta = cliente.audio.speech.create(model='tts-1',
                                        voice='nova',
                                        input='Hoy estamos aprendiendo como usar el modelo TTS.')


respuesta.write_to_file(ruta)

data, freq = librosa.load(ruta)

Audio(data=data, rate=freq)

In [10]:
# ejemplo shimmer

respuesta = cliente.audio.speech.create(model='tts-1',
                                        voice='shimmer',
                                        input='Hoy estamos aprendiendo como usar el modelo TTS.')


respuesta.write_to_file(ruta)

data, freq = librosa.load(ruta)

Audio(data=data, rate=freq)