In [None]:
# Instala√ß√£o das bibliotecas necess√°rias
# Execute esta c√©lula apenas uma vez
%pip install -q diffusers torch torchvision matplotlib pillow transformers accelerate


In [None]:
# Importa√ß√£o das bibliotecas necess√°rias
import torch
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
import torchvision
from diffusers import DDPMScheduler, UNet2DModel, DDPMPipeline
from torchvision import transforms

# Configura√ß√£o do dispositivo (GPU se dispon√≠vel, sen√£o CPU)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Usando dispositivo: {device}")

# Fun√ß√£o para visualizar imagens
def mostrar_imagens(imagens, titulo="Imagens"):
    """
    Fun√ß√£o para mostrar uma grade de imagens de forma bonita
    """
    # Converte de (-1, 1) para (0, 1) para visualiza√ß√£o
    imagens = imagens * 0.5 + 0.5
    
    # Cria uma grade de imagens
    grade = torchvision.utils.make_grid(imagens, nrow=4, padding=2)
    
    # Converte para formato PIL para visualiza√ß√£o
    grade_im = grade.detach().cpu().permute(1, 2, 0).clip(0, 1)
    
    # Mostra a imagem
    plt.figure(figsize=(12, 8))
    plt.imshow(grade_im)
    plt.title(titulo)
    plt.axis('off')
    plt.show()

print("‚úÖ Bibliotecas importadas com sucesso!")


In [None]:
# Vamos criar algumas imagens de exemplo para demonstrar o processo
# Criaremos imagens simples com formas geom√©tricas

def criar_imagem_exemplo(tamanho=64, tipo="circulo"):
    """
    Cria uma imagem de exemplo com formas simples
    """
    # Cria uma imagem em branco
    imagem = torch.zeros(3, tamanho, tamanho)
    
    if tipo == "circulo":
        # Cria um c√≠rculo no centro
        centro = tamanho // 2
        raio = tamanho // 4
        y, x = torch.meshgrid(torch.arange(tamanho), torch.arange(tamanho), indexing='ij')
        distancia = torch.sqrt((x - centro)**2 + (y - centro)**2)
        mascara = distancia <= raio
        imagem[:, mascara] = 1.0  # C√≠rculo branco
        
    elif tipo == "quadrado":
        # Cria um quadrado no centro
        inicio = tamanho // 4
        fim = 3 * tamanho // 4
        imagem[:, inicio:fim, inicio:fim] = 1.0  # Quadrado branco
        
    elif tipo == "triangulo":
        # Cria um tri√¢ngulo
        centro = tamanho // 2
        for i in range(tamanho // 4, 3 * tamanho // 4):
            largura = (i - tamanho // 4) * 2
            inicio = centro - largura // 2
            fim = centro + largura // 2
            if inicio >= 0 and fim < tamanho:
                imagem[:, i, inicio:fim] = 1.0
    
    return imagem

# Cria algumas imagens de exemplo
imagens_exemplo = []
tipos = ["circulo", "quadrado", "triangulo"]

for tipo in tipos:
    img = criar_imagem_exemplo(64, tipo)
    imagens_exemplo.append(img)

# Converte para tensor e mostra
imagens_tensor = torch.stack(imagens_exemplo)
mostrar_imagens(imagens_tensor, "Imagens de Exemplo - Formas Geom√©tricas")


In [None]:
# Vamos demonstrar o processo de adi√ß√£o de ru√≠do
# Pegamos uma imagem limpa e adicionamos ru√≠do gradualmente

def adicionar_ruido_simples(imagem, intensidade_ruido):
    """
    Adiciona ru√≠do a uma imagem com intensidade controlada
    intensidade_ruido: 0 = sem ru√≠do, 1 = ru√≠do total
    """
    # Gera ru√≠do aleat√≥rio
    ruido = torch.randn_like(imagem)
    
    # Mistura a imagem original com o ru√≠do
    # F√≥rmula: imagem_ruidosa = (1 - intensidade) * imagem_original + intensidade * ruido
    imagem_ruidosa = (1 - intensidade_ruido) * imagem + intensidade_ruido * ruido
    
    return imagem_ruidosa

# Vamos pegar uma das nossas imagens de exemplo
imagem_original = imagens_exemplo[0]  # C√≠rculo

# Criar diferentes n√≠veis de ru√≠do
intensidades = [0.0, 0.2, 0.4, 0.6, 0.8, 1.0]
imagens_com_ruido = []

print("Demonstra√ß√£o do processo de adi√ß√£o de ru√≠do:")
print("0.0 = Imagem original, 1.0 = Ru√≠do puro")

for intensidade in intensidades:
    img_ruidosa = adicionar_ruido_simples(imagem_original, intensidade)
    imagens_com_ruido.append(img_ruidosa)

# Mostra todas as imagens em uma grade
imagens_ruido_tensor = torch.stack(imagens_com_ruido)
mostrar_imagens(imagens_ruido_tensor, "Processo de Adi√ß√£o de Ru√≠do (0.0 ‚Üí 1.0)")

# Mostra tamb√©m os valores de intensidade
for i, intensidade in enumerate(intensidades):
    print(f"Imagem {i+1}: Intensidade = {intensidade}")


In [None]:
# Criando um agendador DDPM (Denoising Diffusion Probabilistic Models)
# Este √© um dos tipos mais comuns de agendadores

agendador = DDPMScheduler(
    num_train_timesteps=1000,  # N√∫mero de passos de ru√≠do (mais passos = mais qualidade)
    beta_schedule="squaredcos_cap_v2"  # Tipo de cronograma de ru√≠do
)

print("‚úÖ Agendador criado com sucesso!")
print(f"N√∫mero de passos de treinamento: {agendador.num_train_timesteps}")

# Vamos visualizar como o ru√≠do √© adicionado ao longo do tempo
# O agendador tem par√¢metros que controlam a intensidade do ru√≠do em cada passo

# Plotando a curva de ru√≠do
plt.figure(figsize=(10, 6))

# alphas_cumprod controla quanto da imagem original permanece
plt.plot(agendador.alphas_cumprod.cpu() ** 0.5, label="Sinal da imagem original", linewidth=2)
plt.plot((1 - agendador.alphas_cumprod.cpu()) ** 0.5, label="Intensidade do ru√≠do", linewidth=2)

plt.xlabel("Passos de Ru√≠do")
plt.ylabel("Intensidade")
plt.title("Como o Ru√≠do √© Adicionado Gradualmente")
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("\nüìä Explica√ß√£o do Gr√°fico:")
print("- Linha azul: Quanto da imagem original permanece")
print("- Linha laranja: Quanto de ru√≠do foi adicionado")
print("- No in√≠cio (passo 0): 100% imagem, 0% ru√≠do")
print("- No final (passo 1000): 0% imagem, 100% ru√≠do")


In [None]:
# Agora vamos usar o agendador para adicionar ru√≠do de forma mais sofisticada
# Vamos pegar uma de nossas imagens e adicionar ru√≠do em diferentes passos

imagem_teste = imagens_exemplo[0].unsqueeze(0)  # Adiciona dimens√£o do batch
imagem_teste = imagem_teste.to(device)

# Vamos adicionar ru√≠do em diferentes passos
passos_teste = [0, 200, 400, 600, 800, 999]  # Diferentes n√≠veis de ru√≠do
imagens_ruido_agendador = []

print("Demonstra√ß√£o usando o agendador DDPM:")
print("Passos diferentes = n√≠veis diferentes de ru√≠do")

for passo in passos_teste:
    # Cria ru√≠do aleat√≥rio
    ruido = torch.randn_like(imagem_teste)
    
    # Cria tensor com o passo atual
    timesteps = torch.tensor([passo], device=device)
    
    # Usa o agendador para adicionar ru√≠do
    imagem_ruidosa = agendador.add_noise(imagem_teste, ruido, timesteps)
    
    imagens_ruido_agendador.append(imagem_ruidosa.squeeze(0))

# Mostra as imagens
imagens_agendador_tensor = torch.stack(imagens_ruido_agendador)
mostrar_imagens(imagens_agendador_tensor, "Ru√≠do Adicionado pelo Agendador DDPM")

# Mostra os passos
for i, passo in enumerate(passos_teste):
    print(f"Imagem {i+1}: Passo {passo} (ru√≠do: {((1 - agendador.alphas_cumprod[passo]) ** 0.5):.3f})")


In [None]:
# Criando um modelo UNet2D para nosso exemplo
# Vamos usar um modelo pequeno para demonstra√ß√£o

tamanho_imagem = 64  # Tamanho das imagens que vamos processar

modelo = UNet2DModel(
    sample_size=tamanho_imagem,        # Tamanho da imagem de entrada
    in_channels=3,                     # 3 canais (RGB)
    out_channels=3,                    # 3 canais de sa√≠da (RGB)
    layers_per_block=2,                # Camadas por bloco (mais = mais complexo)
    block_out_channels=(64, 64, 128, 128),  # Canais em cada bloco (mais = mais capacidade)
    down_block_types=(
        "DownBlock2D",                 # Blocos de redu√ß√£o (encolhem a imagem)
        "DownBlock2D", 
        "DownBlock2D",
        "DownBlock2D",
    ),
    up_block_types=(
        "UpBlock2D",                   # Blocos de expans√£o (aumentam a imagem)
        "UpBlock2D",
        "UpBlock2D", 
        "UpBlock2D"
    ),
)

# Move o modelo para o dispositivo (GPU se dispon√≠vel)
modelo = modelo.to(device)

print("‚úÖ Modelo UNet criado com sucesso!")
print(f"Par√¢metros do modelo: {sum(p.numel() for p in modelo.parameters()):,}")

# Vamos testar se o modelo funciona corretamente
# Criamos uma imagem de teste com ru√≠do
imagem_teste = torch.randn(1, 3, tamanho_imagem, tamanho_imagem).to(device)
timestep_teste = torch.tensor([500], device=device)  # Passo intermedi√°rio

# Testa o modelo
with torch.no_grad():
    predicao = modelo(imagem_teste, timestep_teste).sample

print(f"‚úÖ Teste do modelo bem-sucedido!")
print(f"Entrada: {imagem_teste.shape}")
print(f"Sa√≠da: {predicao.shape}")
print("O modelo est√° pronto para ser treinado!")


In [None]:
# Preparando os dados para treinamento
# Vamos usar nossas imagens de exemplo como dataset

# Converte nossas imagens para o formato correto
dataset_treino = torch.stack(imagens_exemplo).to(device)
print(f"Dataset de treino: {dataset_treino.shape}")

# Configura√ß√£o do treinamento
otimizador = torch.optim.AdamW(modelo.parameters(), lr=1e-4)  # Taxa de aprendizado
num_epocas = 50  # N√∫mero de √©pocas (passadas completas pelos dados)
perdas = []  # Para acompanhar o progresso

print("üöÄ Iniciando treinamento...")
print("Isso pode levar alguns minutos...")

# Loop de treinamento
for epoca in range(num_epocas):
    perda_epoca = 0
    num_batches = 0
    
    # Para cada imagem no nosso dataset
    for i in range(len(dataset_treino)):
        # Pega uma imagem limpa
        imagem_limpa = dataset_treino[i:i+1]  # Mant√©m dimens√£o do batch
        
        # Gera ru√≠do aleat√≥rio
        ruido = torch.randn_like(imagem_limpa)
        
        # Escolhe um passo aleat√≥rio de ru√≠do
        timesteps = torch.randint(
            0, agendador.num_train_timesteps, (1,), device=device
        ).long()
        
        # Adiciona ru√≠do √† imagem usando o agendador
        imagem_ruidosa = agendador.add_noise(imagem_limpa, ruido, timesteps)
        
        # Pergunta ao modelo: "Que ru√≠do foi adicionado?"
        predicao_ruido = modelo(imagem_ruidosa, timesteps).sample
        
        # Calcula o erro (diferen√ßa entre ru√≠do real e predi√ß√£o)
        perda = F.mse_loss(predicao_ruido, ruido)
        
        # Atualiza o modelo
        perda.backward()
        otimizador.step()
        otimizador.zero_grad()
        
        perda_epoca += perda.item()
        num_batches += 1
    
    # Calcula perda m√©dia da √©poca
    perda_media = perda_epoca / num_batches
    perdas.append(perda_media)
    
    # Mostra progresso a cada 10 √©pocas
    if (epoca + 1) % 10 == 0:
        print(f"√âpoca {epoca+1}/{num_epocas}, Perda: {perda_media:.6f}")

print("‚úÖ Treinamento conclu√≠do!")


In [None]:
# Vamos visualizar como o modelo aprendeu
# Plotando a curva de perda

plt.figure(figsize=(12, 5))

# Gr√°fico da perda
plt.subplot(1, 2, 1)
plt.plot(perdas, linewidth=2)
plt.title("Curva de Aprendizado")
plt.xlabel("√âpoca")
plt.ylabel("Perda")
plt.grid(True, alpha=0.3)

# Gr√°fico da perda em escala logar√≠tmica (para ver melhor a melhoria)
plt.subplot(1, 2, 2)
plt.plot(np.log(perdas), linewidth=2, color='orange')
plt.title("Curva de Aprendizado (Escala Log)")
plt.xlabel("√âpoca")
plt.ylabel("Log da Perda")
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üìä An√°lise da Curva de Aprendizado:")
print(f"Perda inicial: {perdas[0]:.6f}")
print(f"Perda final: {perdas[-1]:.6f}")
print(f"Melhoria: {((perdas[0] - perdas[-1]) / perdas[0] * 100):.1f}%")

if perdas[-1] < perdas[0] * 0.5:
    print("üéâ O modelo aprendeu bem! A perda diminuiu significativamente.")
else:
    print("‚ö†Ô∏è O modelo pode precisar de mais treinamento ou ajustes.")


In [None]:
# M√©todo 1: Usando o Pipeline (mais f√°cil)
# O pipeline combina o modelo e o agendador automaticamente

pipeline = DDPMPipeline(unet=modelo, scheduler=agendador)
pipeline = pipeline.to(device)

print("üé® Gerando imagens com o pipeline...")

# Gera uma imagem
resultado = pipeline()
imagem_gerada = resultado.images[0]

# Mostra a imagem gerada
plt.figure(figsize=(8, 8))
plt.imshow(imagem_gerada)
plt.title("Imagem Gerada pelo Nosso Modelo!")
plt.axis('off')
plt.show()

print("üéâ Sucesso! Nossa primeira imagem gerada!")


In [None]:
# M√©todo 2: Loop de Gera√ß√£o Manual (para entender o processo)
# Vamos ver passo a passo como a imagem √© gerada

print("üîç Demonstra√ß√£o do processo de gera√ß√£o passo a passo...")

# Come√ßa com ru√≠do puro
amostra = torch.randn(1, 3, tamanho_imagem, tamanho_imagem).to(device)

# Lista para armazenar os passos intermedi√°rios
passos_intermediarios = []
passos_para_mostrar = [0, 200, 400, 600, 800, 999]  # Passos que queremos ver

# Loop de gera√ß√£o
for i, t in enumerate(agendador.timesteps):
    # Obt√©m a predi√ß√£o do modelo
    with torch.no_grad():
        predicao_ruido = modelo(amostra, t).sample
    
    # Atualiza a amostra removendo um pouco de ru√≠do
    amostra = agendador.step(predicao_ruido, t, amostra).prev_sample
    
    # Salva alguns passos para visualiza√ß√£o
    if i in passos_para_mostrar:
        passos_intermediarios.append(amostra.squeeze(0).cpu())

# Mostra o processo de gera√ß√£o
print("Processo de gera√ß√£o do ru√≠do para imagem:")
imagens_processo = torch.stack(passos_intermediarios)
mostrar_imagens(imagens_processo, "Processo de Gera√ß√£o: Ru√≠do ‚Üí Imagem")

print("üéØ Explica√ß√£o:")
print("- Imagem 1: Ru√≠do puro (passo 0)")
print("- Imagem 2-5: Processo gradual de remo√ß√£o de ru√≠do")
print("- Imagem 6: Resultado final")


In [None]:
# Vamos gerar v√°rias imagens para ver a diversidade
print("üé≤ Gerando m√∫ltiplas imagens para ver a diversidade...")

imagens_geradas = []
num_imagens = 8

for i in range(num_imagens):
    # Gera uma nova imagem
    resultado = pipeline()
    imagem = resultado.images[0]
    
    # Converte para tensor para visualiza√ß√£o
    imagem_tensor = torch.tensor(np.array(imagem)).permute(2, 0, 1).float() / 255.0
    imagem_tensor = imagem_tensor * 2.0 - 1.0  # Normaliza para (-1, 1)
    imagens_geradas.append(imagem_tensor)

# Mostra todas as imagens geradas
imagens_tensor = torch.stack(imagens_geradas)
mostrar_imagens(imagens_tensor, "Diversidade de Imagens Geradas")

print("üé® Cada imagem √© √∫nica! O modelo gera varia√ß√µes diferentes a cada vez.")
print("Isso acontece porque come√ßamos com ru√≠do aleat√≥rio diferente a cada gera√ß√£o.")
