**Instituto Tecnológico de Aeronáutica – ITA**

**Visão Computacional - CM-203**

**Professores:** 

Elcio Hideiti Shiguemori

Gabriel Adriano de Melo

Marcos Ricardo Omena de Albuquerque Maximo

**Orientações padrão:**

Antes de você entregar o Lab, tenha certeza de que tudo está rodando corretamente (sequencialmente): Primeiro, **reinicie o kernel** (`Runtime->Restart Runtime` no Colab ou `Kernel->Restart` no Jupyter), depois rode todas as células (`Runtime->Run All` no Colab ou `Cell->Run All` no Jupyter) e verifique que as células rodem sem erros, principalmente as de correção automática que apresentem os `assert`s.

É muito importante que vocês não apaguem as células de resposta para preenchimento, isto é, as que contenham o `ESCREVA SEU CÓDIGO AQUI` ou o "ESCREVA SUA RESPOSTA AQUI", além das células dos `assert`, pois elas contém metadados com o id da célula para os sistemas de correção automatizada e manual. O sistema de correção automatizada executa todo o código do notebook, adicionando testes extras nas células de teste. Não tem problema vocês criarem mais células, mas não apaguem as células de correção. Mantenham a solução dentro do espaço determinado, por organização. Se por acidente acontecer de apagarem alguma célula que deveria ter a resposta, recomendo iniciar de outro notebook (ou dar um `Undo` se possível), pois não adianta recriar a célula porque perdeu o ID.

Os Notebooks foram programados para serem compatíveis com o Google Colab, instalando as dependências necessárias automaticamente a baixando os datasets necessários a cada Lab. Os comandos que se inicial por ! (ponto de exclamação) são de bash e também podem ser executados no terminal linux, que justamente instalam as dependências.

---

# Laboratório de Atenção Visual

Este é um laboratório bem resumido para realizar uma implementação e verificação simples de uma camada de modelo de atenção convolucional, uma cabeça do modelo Transformer e uma inferência por difusão de um modelo generativo. Assim, os principais conceitos da aula serão colocados em prática.

É necessário uma GPU com capacidade de computação CUDA para poder executar o modelo do Stable Diffusion. Para o Colab é necessário selecionar a instância de GPU: `Edit > Notebook settings` ou `Runtime>Change runtime type` e selecionar `GPU` como o acelerador de hardware. Para a correção, serão executados apenas os asserts, então não precisa se preocupar se não estiver conseguindo se conectar a uma GPU no Colab, é só comentar o código abaixo do assert do Stable Diffusion.

In [None]:
!pip install -Uq diffusers==0.7.2 transformers==4.24.0 fastcore==1.5.27 # opencv-contrib-python==4.6.0.66 torch==1.12.1
# O Google Drive bloqueou o download do arquivo grande, mas pode baixar manualmente e mover para a pasta se quiser
# Basta depois habilitar local_files_only=True no model.from_pretrained
#! [ ! -d ~/.cache/huggingface ] && mkdir -p ~/.cache/huggingface && gdown -O ~/.cache/models.tar 1S2cvcS-XlNZFam5kLSwfyWFcViA-on80 && tar -xf ~/.cache/models.tar -C ~/.cache/ && rm ~/.cache/models.tar

import cv2
import numpy as np
from PIL import Image
from tqdm import tqdm
from collections import OrderedDict
from matplotlib import pyplot as plt

import torch
import torch.nn as nn
from transformers import CLIPTextModel, CLIPTokenizer
from diffusers import AutoencoderKL, UNet2DConditionModel, LMSDiscreteScheduler, DDPMScheduler
import logging
hf_token = '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' # Token para baixar do Hugging Face, se quiser pode mudar
executar_transformer = True
logging.disable(logging.WARNING)

## Atenção Convolucional

Um dos principais elementos de atenção em imagens, além da realizada por camadas, é a atenção espacial. Ela é utilizada em diversos modelos convolucionais estado-da-arte.

$\textbf{M}_{s}\left(F\right) = \sigma\left(f^{7x7}\left(\left[\text{AvgPool}\left(F\right);\text{MaxPool}\left(F\right)\right]\right)\right)$

$\textbf{M}_{s}\left(F\right) = \sigma\left(f^{7x7}\left(\left[\mathbf{F}^{s}_{avg};\mathbf{F}^{s}_{max} \right]\right)\right)$

![Módulo de Atenção Espacial](https://production-media.paperswithcode.com/methods/Screen_Shot_2020-06-25_at_1.27.27_PM_CjrAZaI.png)

Implemente a função abaixo relativa ao módulo de atenção espacial (SAM, Spatial Attention Module) do modelo CBAM de [Woo et. al (2018)](https://arxiv.org/abs/1807.06521). (3 pontos)

Utilize as operações `torch.cat` para concatenar dois ou mais tensores, `torch.max` para calcular o valor máximo ao longo de uma dimensão especificada, `torch.mean` para calcular o valor médio ao longo de uma dimensão, `torch.sigmoid` para aplicar a função sigmóide a cada elemento do tensor, e `.unsqueeze`/`.view`/`.reshape`/`tensor[:, None, :, :]` para modificar o shape do tensor. Multiplicação elemento a elemento (com broadcasting) é realizado pelo `*` ou `torch.multiply`.

Para invocar a operação, basta realizar uma chamada de função `operacao(entrada)`. 
<details><summary><b>---Dica---</b></summary>
<p>
A média e o valor máximo é calculado sobre os canais, em um tensor no formato (N, C, H, W) isso corresponde à dimensão 1 (C), resultando em um tensor de (N, H, W). Para poder fazer o broadcasting depois é necessário que haja o casamento das dimensões, e que o vetor tenha o formato de (N, 1, H, W). Assim basta fazer um reshape adequado.
</p>
</details>

In [None]:
def atencao_espacial(operacao_convolucional, features):
    """
    Implementa o módulo de atenção espacial (SAM) aplicando o mapa de atenção sobre 
    as features de forma multiplicativa. OBS: concatena o Avg antes do Max, nessa ordem.
    
    Args:
        operacao_convolucional (nn.Module): Operação de convolução (filtro 𝑓) que recebe dois canais de entrada
            e retorna apenas um canal de saída, mantendo a largura e a altura do tensor.
        features (torch.tensor): Tensor de tamanho (N, C, H, W), onde N é o número de batches, C é o número de 
            canais das features, H é a altura do tensor de features e W, sua largura.
    
    Returns:
        torch.tensor: Tensor de tamanho (N, C, H, W) resultado final da operação de atenção sobre as features
    """
    # ESCREVA SEU CÓDIGO AQUI (pode apagar este comentário, mas não apague esta célula para não perder o ID)
    raise NotImplementedError()
    return resultado

In [None]:
conv_teste = nn.Conv2d(in_channels=2, out_channels=1, kernel_size=3, stride=1, padding=1)
conv_teste.load_state_dict(OrderedDict([('weight', torch.tensor([[[ [-0.0165, -0.0119, -0.1987],
                                                                    [ 0.1247, -0.0875,  0.0907],
                                                                    [-0.1658,  0.2204,  0.1959]],

                                                                   [[-0.0925, -0.1122, -0.2284],
                                                                    [ 0.0141,  0.0105, -0.0061],
                                                                    [ 0.0526,  0.1581, -0.1757]] ]])),
                                        ('bias', torch.tensor([0.0675]))]))
features_testa = torch.tensor([[[[-0.0165, -0.0119, -0.1987, 1, 1, 1, 1],
                                 [ 0.1247, -0.0875,  0.0907, 1, 1, 1, 1],
                                 [ 0.1247, -0.0875,  0.0907, 1, 1, 1, 1],
                                 [ 0.1247, -0.0875,  0.0907, 1, 1, 1, 1],
                                 [-0.1658,  0.2204,  0.1959, 1, 1, 1, 1]],
                                [[-0.0165, -0.0119, -0.1987, 1, 1, 1, 1],
                                 [ 0.1247, -0.0875,  0.0907, 1, 1, 1, 1],
                                 [ 0.1247, -0.0875,  0.0907, 1, 1, 1, 1],
                                 [ 0.1247, -0.0875,  0.0907, 1, 1, 1, 1],
                                 [-0.1658,  0.2204,  0.1959, 1, 1, 1, 1]],
                                [[-0.0165, -0.0119, -0.1987, 1, 1, 1, 1],
                                 [ 0.1247, -0.0875,  0.0907, 1, 1, 1, 1],
                                 [ 0.1247, -0.0875,  0.0907, 1, 1, 1, 1],
                                 [ 0.1247, -0.0875,  0.0907, 1, 1, 1, 1],
                                 [-0.1658,  0.2204,  0.1959, 1, 1, 1, 1]]
                              ]])
resultado_testa = atencao_espacial(conv_teste, features_testa)
assert resultado_testa.requires_grad
assert torch.norm(resultado_testa - torch.tensor(
       [[[[-0.0087, -0.0060, -0.1107,  0.6073,  0.6223,  0.6223,  0.5974],
          [ 0.0656, -0.0469,  0.0407,  0.4866,  0.4599,  0.4599,  0.5403],
          [ 0.0660, -0.0440,  0.0401,  0.4788,  0.4599,  0.4599,  0.5403],
          [ 0.0628, -0.0473,  0.0402,  0.4758,  0.4599,  0.4599,  0.5403],
          [-0.0879,  0.1103,  0.0852,  0.3873,  0.3902,  0.3902,  0.4741]],

         [[-0.0087, -0.0060, -0.1107,  0.6073,  0.6223,  0.6223,  0.5974],
          [ 0.0656, -0.0469,  0.0407,  0.4866,  0.4599,  0.4599,  0.5403],
          [ 0.0660, -0.0440,  0.0401,  0.4788,  0.4599,  0.4599,  0.5403],
          [ 0.0628, -0.0473,  0.0402,  0.4758,  0.4599,  0.4599,  0.5403],
          [-0.0879,  0.1103,  0.0852,  0.3873,  0.3902,  0.3902,  0.4741]],

         [[-0.0087, -0.0060, -0.1107,  0.6073,  0.6223,  0.6223,  0.5974],
          [ 0.0656, -0.0469,  0.0407,  0.4866,  0.4599,  0.4599,  0.5403],
          [ 0.0660, -0.0440,  0.0401,  0.4788,  0.4599,  0.4599,  0.5403],
          [ 0.0628, -0.0473,  0.0402,  0.4758,  0.4599,  0.4599,  0.5403],
          [-0.0879,  0.1103,  0.0852,  0.3873,  0.3902,  0.3902,  0.4741]]]])).item() < 1e-3

## Transformers

Um modelo de atenção inicialmente proposto para Processamento de Linguagem Natural (NLP) a fim de permitir operações altamente paralelizáveis e com maior facilidade de treinar sequências mais longas. Também já foi adaptado para Visão Computacional através do ViT (Vision Transformers), que essencialmente tratam a imagem como uma sequência de pixels.

![Arquitetura Transformer](https://lilianweng.github.io/posts/2018-06-24-attention/transformer.png)

Foram propostos inicialmente por [Vaswani et. al (2017)](https://arxiv.org/abs/1706.03762v5), segundo as equações abaixo:

$\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{n}})\mathbf{V}$

$\begin{aligned}
\text{MultiHead}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) &= [\text{head}_1; \dots; \text{head}_h]\mathbf{W}^O \\
\text{where head}_i &= \text{Attention}(\mathbf{Q}\mathbf{W}^Q_i, \mathbf{K}\mathbf{W}^K_i, \mathbf{V}\mathbf{W}^V_i)
\end{aligned}$

Implemente a cabeça de atenção do transformer. (4 pontos)

Use a função `.transpose(dim_1, dim_2)` para transpor as dimesões dim_1 e dim_2 de um tensor. Para a multiplicação matricial sobre as últimas duas dimensões de um tensor use o operador`@` ou a função `torch.matmul`. Para obter as dimensões de um tensor use o atributo `.shape` ou a função `.size()`.

<details><summary><b>Dica</b></summary>
<p>
Utilize tensor.transpose(-1, -2) para transpor as duas últimas dimensões de um tensor
</p>
</details>

In [None]:
def cabeca_transformer(q, k, v, proj_q, proj_k, proj_v, reproj, softmax):
    """
    Implementa a cabeça da arquitetura Transformer dada pela equação 
    (softmax((q' @ k'.T) / sqrt(D_k)) @ v')' onde ' é a operação de projeção linear para cada uma dos 
    tensores no seu espaço vetorial adequado. Novamente, as operações, conforme exercício anterior, 
    podem ser utilizadas a partir de uma chamada de função.
    
    Args:
        q (torch.tensor): Tensor de query de tamanho (N, L, D)
        k (torch.tensor): Tensor de key de tamanho (N, L, D)
        v (torch.tensor): Tensor de value de tamanho (N, L, D)
        proj_q (nn.Module): Operação que realiza a projeção linear de um tensor (N, L, D) em 
            H espaços vetoriais de dimensão D_k, resultando em um tensor (N, H, L, D_k)
        proj_k (nn.Module): Operação que realiza a projeção linear de um tensor (N, L, D) em
             H espaços vetoriais de dimensão D_k, resultando em um tensor (N, H, L, D_k)
        proj_v (nn.Module): Operação que realiza a projeção linear de um tensor (N, L, D) em
             H espaços vetoriais de dimensão D_v, resultando em um tensor (N, H, L, D_v)
        reproj (nn.Module): Operação que realiza a concatenação e projeção linear de um tensor 
             (N, H, L, D_v) de dimensão E2, resultando em um tensor (N, L, D)
        softmax (nn.Module): Operação de softmax sobre a última dimensão do tensor.
    
    Returns:
        torch.tensor: Tensor de tamanho (N, L, D) resultado final da operação do transformer sobre q, k, v
    """
    # ESCREVA SEU CÓDIGO AQUI (pode apagar este comentário, mas não apague esta célula para não perder o ID)
    raise NotImplementedError()
    return resultado

class Projeta(nn.Linear):
    def __init__(self, dim_in, quant_projs, dim_out, **kwargs):
        super().__init__(dim_in, quant_projs * dim_out, **kwargs)
        self.quant_projs = quant_projs
        
    def forward(self, x):
        x_flat = super().forward(x)
        return x_flat.reshape(*x_flat.shape[:2], self.quant_projs, -1).transpose(1, 2)

class ReProjeta(nn.Linear):
    def __init__(self, dim_in, quant_projs, dim_out, **kwargs):
        super().__init__(dim_in * quant_projs, dim_out, **kwargs)
        self.quant_projs = quant_projs
    
    def forward(self, x):
        x_flat = x.transpose(1, 2).contiguous()
        return super().forward(x_flat.reshape(*x_flat.shape[:2], -1))

In [None]:
softmax = nn.Softmax(dim=-1)
proj_q = Projeta(4, 2, 3)
proj_k = Projeta(4, 2, 3)
proj_v = Projeta(4, 2, 5)
reproj = ReProjeta(5, 2, 4)
proj_q.load_state_dict(OrderedDict([('weight', torch.tensor([[-0.2903,  0.1144, -0.2388,  0.3808],
                      [ 0.4571, -0.1722, -0.3059,  0.0529],
                      [-0.0764,  0.4670, -0.2218, -0.3888],
                      [ 0.4820, -0.0895,  0.0496, -0.4707],
                      [ 0.0030, -0.0348,  0.4132,  0.3539],
                      [-0.2953,  0.2528,  0.2744, -0.0833]])),
    ('bias', torch.tensor([-0.2345, -0.0744,  0.1075, -0.1458, -0.4157, -0.3114]))]))
proj_k.load_state_dict(OrderedDict([('weight', torch.tensor([[ 0.2761, -0.4321,  0.3839,  0.1454],
                      [-0.3980,  0.1969, -0.4166, -0.2317],
                      [-0.1690, -0.1395,  0.3167, -0.3027],
                      [-0.1422, -0.2583, -0.4430, -0.0448],
                      [ 0.4761,  0.1354,  0.1436,  0.3219],
                      [ 0.3956,  0.0885,  0.2519,  0.1227]])),
    ('bias', torch.tensor([0.4507, 0.3675, 0.3032, 0.3873, 0.4495, 0.1289]))]))
proj_v.load_state_dict(OrderedDict([('weight', torch.tensor([[ 0.2719, -0.0664,  0.3742,  0.3409],
                      [ 0.1177,  0.4588, -0.3498, -0.4507],
                      [-0.4851, -0.3594,  0.2124, -0.1817],
                      [-0.3162, -0.1503, -0.1955,  0.3816],
                      [ 0.0005, -0.0776, -0.4964, -0.1608],
                      [ 0.0581, -0.1783, -0.2951,  0.0964],
                      [-0.3771,  0.1194, -0.4692,  0.1051],
                      [-0.4773, -0.0826,  0.4722, -0.2247],
                      [-0.1419,  0.0064,  0.3859,  0.1678],
                      [ 0.2845, -0.4944,  0.4023, -0.2722]])),
('bias', torch.tensor([ 0.1750,  0.1422, -0.3162,  0.2938,  0.0050, -0.0249,  0.2706, -0.2545, 0.0081, -0.2179]))]))
reproj.load_state_dict(OrderedDict([('weight',
    torch.tensor([[ 0.2090, -0.1364,  0.2534,  0.0466, -0.1310,  0.1216,  0.0299, -0.2586, 0.3095, -0.2708],
            [-0.2939,  0.2829, -0.0410,  0.2643,  0.0008, -0.3008,  0.2150,  0.0737, -0.0611, -0.0701],
            [ 0.2135, -0.1298, -0.3017,  0.2684, -0.0917, -0.1428,  0.1363, -0.1012, 0.2472,  0.2877],
            [ 0.1128,  0.0359, -0.1215,  0.2214,  0.2173, -0.1789,  0.1038,  0.0059, 0.2911, -0.0398]])),
             ('bias', torch.tensor([ 0.2898,  0.0237, -0.2518, -0.2610]))]))
sequencia = torch.tensor([[
                   [ 0.1177,  0.4588, -0.3498, -0.4507],
                   [-0.0764,  0.4670, -0.2218, -0.3888],
                   [-0.3771,  0.1194, -0.4692,  0.1051],
                   [-0.1419,  0.0064,  0.3859,  0.1678],
                   [-0.3162, -0.1503, -0.1955,  0.3816],
                   ]])
assert torch.norm(cabeca_transformer(sequencia, sequencia, sequencia, proj_q, proj_k, proj_v, reproj, softmax) -\
    torch.tensor([[[ 0.3581,  0.3061, -0.1407, -0.0638],
                   [ 0.3595,  0.3037, -0.1386, -0.0639],
                   [ 0.3618,  0.3005, -0.1352, -0.0635],
                   [ 0.3583,  0.3030, -0.1361, -0.0625],
                   [ 0.3604,  0.3014, -0.1349, -0.0626]]])).item() < 1e-3

## Modelo de Difusão

![Exemplos Gerados](https://techcrunch.com/wp-content/uploads/2022/08/53118410-9cce-468a-8bf6-1b8ce4dd1390_1600x925.webp?resize=1200,694)

Os modelos já baixados no drive foram distribuídos pelo [HuggingFace](https://huggingface.co/) e o exemplo abaixo pelo [FastAI](https://github.com/fastai/diffusion-nbs/).


In [None]:
def tokeniza_codifica_string(lista_strings, tokenizer, text_encoder):
    ml = tokenizer.model_max_length
    inp = tokenizer(lista_strings, padding="max_length", max_length=ml, truncation=True, return_tensors="pt")
    codificado = text_encoder(inp.input_ids.to("cuda"))[0].half()
    vaz = tokenizer([""] * len(lista_strings), padding="max_length", max_length=ml, truncation=True, return_tensors="pt")
    vazio = text_encoder(vaz.input_ids.to("cuda"))[0].half()
    return torch.cat([vazio, codificado])

def mostra_imagem(espaco_latente, vae, indice=0):
    with torch.no_grad():
        imagem_normalizada = vae.decode(1 / 0.18215 * espaco_latente).sample[indice]
    image = (imagem_normalizada/2+0.5).clamp(0,1).detach().cpu().permute(1, 2, 0).numpy()
    return Image.fromarray((image*255).round().astype("uint8"))

def loop_difusao(texto_codificado, unet, escalonador, steps=70, g=7.5, width=512, height=512, seed=42):
    torch.manual_seed(seed)
    escalonador.set_timesteps(steps)
    espaco_latente = torch.randn((texto_codificado.shape[0]//2, unet.in_channels, height//8, width//8))
    espaco_latente = espaco_latente.to("cuda").half() * escalonador.init_noise_sigma
    for step in tqdm(escalonador.timesteps):
        inp = escalonador.scale_model_input(torch.cat([espaco_latente] * 2), step)
        with torch.no_grad():
            u, t = unet(inp, step, encoder_hidden_states=texto_codificado).sample.chunk(2)
        ruido_estimado = u + g*(t-u)
        espaco_latente = escalonador.step(ruido_estimado, step, espaco_latente).prev_sample
    return espaco_latente

Observe a implementação das funções acima, que realizam a tokenização e a codificação das entradas textuais, a conversão do espaço latente para uma imagem em pixels RGB e, principalmente, o loop de difusão, no qual o espaço latente é iterativamente atualizado, diminuindo-se o ruído, que é estimado pelo modelo a cada iteração.

Investigue o modelo do Stable Diffusion gerando a sua própria string para guiar a difusão. Sugiro fortemente que seja em inglês, que é a principal linguagem que o codificador de texto (CLIP) foi treinado. (1 ponto)

In [None]:
def gerar_entrada_textual():
    """
    Retorna uma string de entrada parar o modelo de Difusão
    
    Args:
    
    Returns:
        str: String para guiar a difusão
    """
    # ESCREVA SEU CÓDIGO AQUI (pode apagar este comentário, mas não apague esta célula para não perder o ID)
    raise NotImplementedError()
    return string_entrada

In [None]:
string_entrada = gerar_entrada_textual()
assert string_entrada

E agora veja a execução do Stable Diffusion com a sua entrada:

In [None]:
assert executar_transformer # Esse assert não será corrigido
tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14", use_auth_token=hf_token, torch_dtype=torch.float16)
text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14", use_auth_token=hf_token, torch_dtype=torch.float16).to("cuda")
vae = AutoencoderKL.from_pretrained("stabilityai/sd-vae-ft-ema", use_auth_token=hf_token, torch_dtype=torch.float16).to("cuda")
unet = UNet2DConditionModel.from_pretrained("CompVis/stable-diffusion-v1-4", use_auth_token=hf_token, subfolder="unet", torch_dtype=torch.float16).to("cuda")


In [None]:
assert executar_transformer # Esse assert não será corrigido
escalonador = LMSDiscreteScheduler(beta_start=0.00085,beta_end=0.012,beta_schedule="scaled_linear",num_train_timesteps=1000)
texto_codificado = tokeniza_codifica_string([string_entrada], tokenizer, text_encoder)
imagens_geradas = loop_difusao(texto_codificado, unet, escalonador, steps=70, seed=42)
mostra_imagem(imagens_geradas, vae)

Implemente o loop abaixo de difusão com os coeficientes de atualização simples, no qual a imagem original é recuperada pela subtração do seu respectivo ruído, ambos ponderados por fatores. (2 pontos)

Por ser um modelo mais simples de escalonamento, o DDPM (Denoising diffusion probabilistic models) precisa de mais passos de difusão, cada um com menor amplitude.

In [None]:
def atualizacao_simples(ruido_estimado, imagem_latente, fator_ruido, fator_imagem):
    """
    Implementa uma simples atualização do escalonador de forma a remover o ruído presente na imagem latente.
    O ruído é multiplicado pelo fator beta e a imagem pelo fator alfa, que dependem do passo de difusão.
    
    Args:
        ruido_estimado (torch.tensor): Tensor de ruído no espaço latente de tamanho (N, C, H, W)
        imagem_latente (torch.tensor): Tensor de imagem no espaço latente de tamanho (N, C, H, W)
        fator_ruido (float): Fator que deve multiplicar o ruído
        fator_imagem (float): Fator que deve multiplicar a imagem latente
    
    Returns:
        torch.tensor: Tensor de tamanho (N, C, H, W) estimado a partir da remoção do ruído da imagem, poderados
            por seus respectivos fatores.
    """
    # ESCREVA SEU CÓDIGO AQUI (pode apagar este comentário, mas não apague esta célula para não perder o ID)
    raise NotImplementedError()
    return imagem_latente_reconstruida

def loop_difusao_simples(texto_codificado, unet, steps=70, g=7.5, width=512, height=512, seed=42, train_steps=1000, beta_start=0.00085, beta_end=0.012):
    torch.manual_seed(seed)
    betas = np.linspace(beta_start, beta_end, train_steps)
    alfas = 1.0 - betas
    alfa_prod = np.pad(np.cumprod(alfas, axis=0), (0, 1), constant_values=1)
    beta_prod = 1 - alfa_prod
    espaco_latente = torch.randn((texto_codificado.shape[0]//2, unet.in_channels, height//8, width//8)).to("cuda").half()
    for t in tqdm(np.arange(0, train_steps, train_steps // steps)[::-1]):
        inp = torch.cat([espaco_latente] * 2)
        with torch.no_grad():
            uncond, text = unet(inp, t, encoder_hidden_states=texto_codificado).sample.chunk(2)
        ruido_estimado = uncond + g*(text-uncond)
        espaco_latente_original = torch.clamp(atualizacao_simples(ruido_estimado, espaco_latente, 
                                beta_prod[t]**0.5/alfa_prod[t]**0.5, 1/alfa_prod[t]**0.5), -1, 1)
        coeff_original = alfa_prod[t-1]**0.5 * betas[t]/beta_prod[t]
        coeff_atual = alfas[t]**0.5 * beta_prod[t-1]/beta_prod[t]
        espaco_latente = coeff_original*espaco_latente_original + coeff_atual*espaco_latente
        variancia = np.clip(beta_prod[t-1]/beta_prod[t] * betas[t], 1e-20, None)
        ruido = torch.randn(ruido_estimado.shape, device=ruido_estimado.device, dtype=ruido_estimado.dtype)
        espaco_latente = espaco_latente + variancia**0.5 * ruido
    return espaco_latente

In [None]:
assert torch.norm(atualizacao_simples(torch.tensor([[[[0.1, -0.1], [0.2,-0.2]]]]), 
                                      torch.tensor([[[[2, 3], [4,3]]]]), 0.4, 0.9) - \
                  torch.tensor([[[[1.76, 2.74],[3.52, 2.78]]]])) < 1e-6


Apesar do nome de simples, e de ser a mais simples que realmente é empregada durante o treino do modelo, a DDPM requer uma quantidade de iterações que justamente de aproxima do treino, no caso, mil passos, para que tenha uma convergência adequada. Por isso o outro método acaba sendo mais de uma ordem de grandeza mais rápido para inferência.

In [None]:
assert executar_transformer # Esse assert não será corrigido
imagens_geradas = loop_difusao_simples(texto_codificado, unet, steps=1000, seed=42)
mostra_imagem(imagens_geradas, vae)

Sinta-se a vontade para explorar o modelo e outros tipos de entradas textuais.