# Tutorial 01: Text-to-Speech (TTS)

**Objetivos de Aprendizagem:**
- Aprender a converter texto em áudio usando a API de Text-to-Speech da OpenAI
- Explorar diferentes vozes disponíveis
- Controlar qualidade e velocidade da fala
- Entender casos de uso práticos

**Pré-requisitos:**
- Python 3.9+
- Biblioteca `openai` instalada
- Arquivo `.env` com `OPENAI_API_KEY` configurada

---

## Introdução

A API de Text-to-Speech (TTS) da OpenAI converte texto em áudio de alta qualidade usando modelos de síntese de voz neural. É ideal para criar narrações, assistentes de voz, e-learning e muito mais.

### Modelos Disponíveis

- **tts-1**: Modelo padrão, mais rápido e econômico
- **tts-1-hd**: Modelo de alta definição, melhor qualidade, mais lento e caro

### Vozes Disponíveis

- **alloy**: Voz neutra e clara
- **echo**: Voz masculina
- **fable**: Voz masculina com tom mais profundo
- **onyx**: Voz masculina
- **nova**: Voz feminina
- **shimmer**: Voz feminina suave

### Formatos de Áudio

- **mp3**: Formato mais comum, boa compressão
- **opus**: Formato moderno, boa qualidade
- **aac**: Formato Apple, boa qualidade
- **flac**: Formato sem perdas, arquivo maior


In [None]:
# Configuração inicial
import os
from dotenv import load_dotenv
from openai import OpenAI

load_dotenv()
client = OpenAI(api_key=os.getenv('OPENAI_API_KEY'))

print("✅ Cliente OpenAI configurado!")


## Exemplo 1: Geração Básica de Áudio

O exemplo mais simples: converter texto em áudio usando a voz padrão.


In [None]:
# Exemplo básico: Gerar áudio a partir de texto
response = client.audio.speech.create(
    model='tts-1',
    voice='alloy',  # Voz neutra e clara
    input='Olá! Este é um exemplo de síntese de voz usando a API da OpenAI.'
)

# Salvar o áudio em um arquivo
with open('audio_alloy.mp3', 'wb') as f:
    f.write(response.content)

print("✅ Áudio gerado e salvo em 'audio_alloy.mp3'")


## Exemplo 2: Testando Todas as Vozes Disponíveis

Vamos gerar áudios com todas as vozes para comparar.


In [None]:
# Lista de vozes disponíveis
vozes = ['alloy', 'echo', 'fable', 'onyx', 'nova', 'shimmer']

texto = "Esta é uma demonstração das diferentes vozes disponíveis na API de Text-to-Speech."

for voz in vozes:
    response = client.audio.speech.create(
        model='tts-1',
        voice=voz,
        input=texto
    )
    
    # Salvar cada voz em um arquivo separado
    with open(f'audio_{voz}.mp3', 'wb') as f:
        f.write(response.content)
    
    print(f"✅ Áudio gerado com voz '{voz}' salvo em 'audio_{voz}.mp3'")


## Exemplo 3: Usando Modelo HD (Alta Qualidade)

O modelo `tts-1-hd` oferece melhor qualidade, mas é mais lento e caro.


In [None]:
# Usando modelo HD (maior qualidade, mas mais lento e caro)
response = client.audio.speech.create(
    model='tts-1-hd',  # Modelo de alta definição
    voice='nova',  # Voz feminina
    input='Este é um exemplo usando o modelo TTS-1-HD, que oferece maior qualidade de áudio.',
    response_format='mp3'  # Formato MP3
)

with open('audio_hd.mp3', 'wb') as f:
    f.write(response.content)

print("✅ Áudio HD gerado e salvo em 'audio_hd.mp3'")


## Exemplo 4: Controlando a Velocidade da Fala

O parâmetro `speed` permite controlar a velocidade da fala (0.25 a 4.0).


In [None]:
# Velocidade lenta (0.5x)
response_lenta = client.audio.speech.create(
    model='tts-1',
    voice='alloy',
    input='Esta é uma demonstração de fala em velocidade lenta.',
    speed=0.5  # Metade da velocidade normal
)

with open('audio_lento.mp3', 'wb') as f:
    f.write(response_lenta.content)

print("✅ Áudio lento gerado")

# Velocidade rápida (1.5x)
response_rapida = client.audio.speech.create(
    model='tts-1',
    voice='alloy',
    input='Esta é uma demonstração de fala em velocidade rápida.',
    speed=1.5  # Uma vez e meia a velocidade normal
)

with open('audio_rapido.mp3', 'wb') as f:
    f.write(response_rapida.content)

print("✅ Áudio rápido gerado")


## Parâmetros Principais

### `model`
- **tts-1**: Padrão, rápido e econômico ($15/milhão de caracteres)
- **tts-1-hd**: Alta qualidade, mais lento ($30/milhão de caracteres)

### `voice`
Escolha da voz:
- `alloy`, `echo`, `fable`, `onyx`, `nova`, `shimmer`

### `input`
Texto a ser convertido em áudio (máximo 4096 caracteres por requisição)

### `response_format`
Formato do áudio:
- `mp3` (padrão)
- `opus`
- `aac`
- `flac`

### `speed`
Velocidade da fala:
- **0.25 a 4.0**
- **1.0** = velocidade normal (padrão)
- Valores menores = mais lento
- Valores maiores = mais rápido

---

## Limitações e Boas Práticas

### Limitações
- Texto máximo: 4096 caracteres por requisição
- Para textos longos, divida em múltiplas requisições

### Boas Práticas
- Use `tts-1` para testes e protótipos
- Use `tts-1-hd` para produção quando qualidade é crítica
- Teste diferentes vozes para encontrar a mais adequada
- Ajuste velocidade conforme o contexto (mais lento para e-learning)

---

## Casos de Uso

- **Narração de conteúdo**: Artigos, posts, documentação
- **Assistente de voz**: Chatbots com voz
- **Acessibilidade**: Texto para fala
- **Podcasts automatizados**: Geração de conteúdo em áudio
- **E-learning**: Narração de cursos

---

## Exercícios Práticos

### Exercício 1: Criar Narração de Artigo
Converta um artigo de 500 palavras em áudio usando voz `nova` e modelo HD.

### Exercício 2: Comparar Vozes
Gere o mesmo texto com todas as vozes e compare a qualidade.

### Exercício 3: Ajustar Velocidade
Teste diferentes velocidades (0.5x, 1.0x, 1.5x, 2.0x) e encontre a ideal.

---

## Referências

- [Documentação - Text-to-Speech](https://platform.openai.com/docs/guides/text-to-speech)
- [API Reference - Audio Speech](https://platform.openai.com/docs/api-reference/audio/createSpeech)

---

## Próximos Tutoriais

- **Tutorial 02**: Speech-to-Text (Whisper) - Transcrever áudios
- **Tutorial 03**: Tradução de Áudio - Transcrever e traduzir
