# **O que é *Text Generation*?**

*Text generation* (geração de texto) é quando uma IA aprende a escrever sozinha, **prevendo a próxima palavra ou letra** com base no que já foi escrito antes.
O Keras usa redes neurais, principalmente **LSTM** ou **GRU**, que são modelos bons pra lidar com **sequências**, como frases ou músicas.

### Como funciona o processo:

1. **Treinamento**: Você mostra muitos textos pra rede (livros, tweets, etc.).
2. A rede aprende a **prever o que vem depois** em uma frase.
3. Depois do treino, ela consegue **gerar frases novas**, letra por letra ou palavra por palavra.

### Como a IA decide a próxima palavra?

A rede gera uma **lista de probabilidades** para as próximas palavras possíveis.

#### Exemplo:

Se a frase for:

> "Hoje o céu está"

O modelo pode achar que:

* “azul” tem 60% de chance
* “nublado” tem 30%
* “verde” tem 10%

A pergunta é: **como escolher uma palavra a partir dessas chances?**
Você pode:

* Escolher a mais provável (mais certinha, mas repetitiva)
* Escolher com sorte, usando uma **temperatura** (mais criativo e inesperado)

### O que é temperatura?

Temperatura controla o **nível de criatividade** da IA:

* **Temperatura baixa (ex: 0.2)** → textos seguros e previsíveis
* **Temperatura alta (ex: 1.5)** → textos criativos e até doidos



### Estratégias de amostragem (sampling strategies)

#### 1. **Greedy sampling** (escolha gananciosa)

* Sempre escolhe **a palavra mais provável**.
* Resultado: frases **repetitivas, chatas** e previsíveis.

> "Hoje o céu está azul. O céu está azul. O céu está azul..."


#### 2. **Stochastic sampling** (escolha aleatória com probabilidade)

* Escolhe uma palavra **com base nas probabilidades**, mas com um toque de sorte.
* Se “azul” tem 60%, “nublado” 30%, “verde” 10%... pode acabar saindo “nublado” ou até “verde” às vezes!
* Resultado: frases **mais variadas e criativas**.




# **1. Neural Style Transfer (NST)**

**O que é?**
É uma técnica onde você pega **o conteúdo de uma imagem** (tipo uma foto pessoal) e **o estilo de outra imagem** (tipo uma pintura do Van Gogh) e **mistura os dois**. O resultado é sua foto como se tivesse sido pintada pelo Van Gogh.

### **Como funciona:**

* A gente usa uma **rede neural treinada**, geralmente a **VGG19**, que já entende bem o que é textura, bordas, formas, etc.

* A imagem final é uma que:

  * **Parece com a imagem de conteúdo**
  * **Tem o estilo da imagem de estilo**

### **As Loss (funções de perda)**:

1. **Content Loss (Perda de conteúdo):**

   * Mede **o quanto a imagem final se parece com a imagem original (de conteúdo)**.
   * Ela compara as ativações de camadas mais profundas (que capturam **formas** e **estruturas** da imagem).

2. **Style Loss (Perda de estilo):**

   * Mede **o quanto a imagem final tem o mesmo estilo (textura, cores, padrões)** da imagem de estilo.
   * Isso é feito usando uma matriz chamada **Gram Matrix**, que mostra **quais padrões aparecem juntos nas camadas da rede** (tipo padrões de pinceladas).

3. **Total Variation Loss (opcional):**

   * Serve pra deixar a imagem mais **suave**, menos cheia de "ruído" ou pontinhos esquisitos.


### **O que a rede faz?**

Ela começa com uma imagem **aleatória** (ou a própria imagem de conteúdo) e **vai ajustando os pixels** dessa imagem pra **minimizar as perdas (losses)** acima, até a mistura ficar boa.


# **2. Deep Dream**

**O que é?**
É uma técnica que pega uma imagem e "força" a rede neural a **ver padrões que ela aprendeu**, tipo transformar uma nuvem numa cachorrinha psicodélica.

### **Como funciona:**

* Usa uma rede neural treinada (tipo a Inception) e **pega uma imagem qualquer**.
* Escolhe uma camada da rede e fala: "**faz essa imagem ativar mais os neurônios dessa camada**".
* A imagem é **modificada pra realçar os padrões que essa camada gosta** — e aí aparecem aqueles efeitos meio "alucinógenos".


### **Loss aqui:**

* Ao contrário do NST, a loss aqui é **maximizar a ativação de certos neurônios da rede**.
* Em vez de aprender, a rede está **“sonhando”**: reforçando o que ela já viu muito nos dados de treino.


### **Resumo prático:**

| Técnica               | Objetivo                   | Loss principal                               |
| --------------------- | -------------------------- | -------------------------------------------- |
| Neural Style Transfer | Misturar conteúdo + estilo | Content Loss + Style Loss (Gram Matrix)      |
| Deep Dream            | Amplificar padrões da rede | Maximizar ativações de neurônios específicos |


# **O que é um Latent Space (espaço latente)?**

Imagina que você quer guardar uma imagem (tipo a foto de um gato) **de forma bem resumida**.
Ao invés de guardar todos os pixels da imagem, você transforma ela em **um vetor com alguns números**, tipo:

```
[0.4, -1.2, 3.7, 0.8, -0.5]
```

Esse vetor **representa as características principais da imagem**, tipo:

* tem orelha pontuda?
* tem pelo claro ou escuro?
* o bicho tá de frente ou de lado?

Chamamos esse **resumo em forma de vetor** de **representação latente**.

O **Latent Space** é o **"mapa" de todos esses vetores possíveis**, que representam imagens diferentes.
Se andar um pouco nesse mapa, pode sair de um "gato" pra um "leão", depois pra um "cachorro", por exemplo.

# GAN = **Gerador + Discriminador**

* O **Gerador** não vê imagens reais. Ele **pega um vetor aleatório** do **latent space** e tenta **gerar uma imagem realista** com base nele.
* O **Discriminador** vê imagens reais e imagens falsas (do gerador) e tenta dizer quais são verdadeiras e quais são inventadas.

**O jogo:**

* O **gerador tenta enganar o discriminador** com imagens cada vez mais realistas.
* O **discriminador tenta não ser enganado**.

Com o tempo, o **gerador aprende a transformar vetores do latent space em imagens super realistas**.


## **Diferença GAN vs VAE (Variação Importante)**

* **VAE (Autoencoder Variacional)**: aprende um espaço latente **mais organizado**. É bom pra **editar imagens** mudando esses vetores com controle (tipo deixar a pessoa mais sorridente).
* **GAN**: foca em realismo. Faz imagens lindas, mas o espaço latente pode ser **bagunçado**, então é **mais difícil de controlar** (tipo editar uma imagem específica).


## **E por que GAN é difícil de treinar?**

* Porque não tem uma única função de erro simples.
* É uma briga entre duas redes: **o gerador quer enganar**, e o **discriminador quer descobrir**.
* Isso torna o treinamento instável e cheio de ajustes manuais (os tais "heuristic tricks").
