## Artificial Neural Networks (ANNs) Project 3

Made by: João Pedro Santos, Matheus Castellucci, Rodrigo Medeiros 

In [2]:
import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
from diffusers import StableDiffusionImg2ImgPipeline
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from typing import List, Optional
import warnings
warnings.filterwarnings('ignore')

# Verificar se CUDA está disponível
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Usando dispositivo: {device}")
print(f"GPU disponível?: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'CPU'}")

Usando dispositivo: cpu
GPU disponível?: CPU


First, we import the necessary libraries and load the dataset. For this project, we will run the code on Google Colab, but it is possible to run locally as well.

In [None]:
# Carregando o modelo Stable Diffusion
# Usando o modelo v1.5 que é gratuito e open-source
model_id = "runwayml/stable-diffusion-v1-5"

# Configurações para otimizar memória
pipe = StableDiffusionPipeline.from_pretrained(
    model_id,
    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
    safety_checker=None,  # Desabilitar para economizar memória
    requires_safety_checker=False
)

# Mover para GPU se disponível
pipe = pipe.to(device)

# Habilitar otimizações de memória
if torch.cuda.is_available():
    pipe.enable_attention_slicing()
    # pipe.enable_xformers_memory_efficient_attention()  # Descomente se xformers estiver instalado

print("Modelo carregado com sucesso!")

Fetching 14 files:   0%|          | 0/14 [00:00<?, ?it/s]Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Fetching 14 files:   7%|▋         | 1/14 [00:00<00:10,  1.26it/s]Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


In [None]:
# Visualização dos componentes do pipeline
def explain_pipeline_architecture():
    """
    Explica a arquitetura do Stable Diffusion Pipeline
    """
    print("="*80)
    print("ARQUITETURA DO STABLE DIFFUSION PIPELINE")
    print("="*80)
    
    components = {
        "1. Text Encoder (CLIP)": {
            "Modelo": pipe.text_encoder.__class__.__name__,
            "Função": "Converte texto em embeddings de 768 dimensões",
            "Parâmetros": sum(p.numel() for p in pipe.text_encoder.parameters())
        },
        "2. Tokenizer": {
            "Modelo": pipe.tokenizer.__class__.__name__,
            "Função": "Tokeniza o texto de entrada (máx 77 tokens)",
            "Vocab Size": pipe.tokenizer.vocab_size
        },
        "3. U-Net": {
            "Modelo": pipe.unet.__class__.__name__,
            "Função": "Modelo de difusão que remove ruído iterativamente",
            "Parâmetros": sum(p.numel() for p in pipe.unet.parameters()),
            "Input Channels": pipe.unet.config.in_channels,
            "Output Channels": pipe.unet.config.out_channels
        },
        "4. VAE (Variational Autoencoder)": {
            "Modelo": pipe.vae.__class__.__name__,
            "Função": "Codifica/decodifica entre espaço latente e imagem",
            "Latent Channels": pipe.vae.config.latent_channels,
            "Parâmetros": sum(p.numel() for p in pipe.vae.parameters())
        },
        "5. Scheduler": {
            "Modelo": pipe.scheduler.__class__.__name__,
            "Função": "Controla o processo de denoising",
            "Num Steps": pipe.scheduler.config.num_train_timesteps
        }
    }
    
    for component, details in components.items():
        print(f"\n{component}")
        print("-" * 40)
        for key, value in details.items():
            print(f"  {key}: {value:,}" if isinstance(value, int) else f"  {key}: {value}")
    
    print("\n" + "="*80)
    print("FLUXO DO PROCESSO:")
    print("="*80)
    print("1. Texto → Tokenizer → Tokens")
    print("2. Tokens → Text Encoder (CLIP) → Text Embeddings")
    print("3. Random Noise + Text Embeddings → U-Net (iterativo)")
    print("4. U-Net realiza denoising em múltiplos steps")
    print("5. Latent Image → VAE Decoder → Imagem Final (512x512)")
    
explain_pipeline_architecture()

In [None]:
def generate_images(
    prompt: str,
    negative_prompt: Optional[str] = None,
    num_inference_steps: int = 50,
    guidance_scale: float = 7.5,
    height: int = 512,
    width: int = 512,
    seed: Optional[int] = None,
    num_images: int = 1
) -> List[Image.Image]:
    """
    Gera imagens usando Stable Diffusion
    
    Parâmetros:
    -----------
    prompt: Descrição textual da imagem desejada
    negative_prompt: O que evitar na geração
    num_inference_steps: Número de passos de denoising (20-100)
    guidance_scale: Força de aderência ao prompt (1-20)
    height/width: Dimensões da imagem (múltiplos de 8)
    seed: Semente para reprodutibilidade
    num_images: Número de imagens a gerar
    """
    
    # Configurar seed se fornecido
    if seed is not None:
        generator = torch.Generator(device=device).manual_seed(seed)
    else:
        generator = None
    
    # Gerar imagens
    images = pipe(
        prompt=prompt,
        negative_prompt=negative_prompt,
        num_inference_steps=num_inference_steps,
        guidance_scale=guidance_scale,
        height=height,
        width=width,
        generator=generator,
        num_images_per_prompt=num_images
    ).images
    
    return images

# Função auxiliar para visualizar resultados
def plot_images(images: List[Image.Image], prompt: str, params: dict = None):
    """Visualiza as imagens geradas com seus parâmetros"""
    n_images = len(images)
    fig, axes = plt.subplots(1, n_images, figsize=(6*n_images, 6))
    
    if n_images == 1:
        axes = [axes]
    
    for idx, (ax, img) in enumerate(zip(axes, images)):
        ax.imshow(img)
        ax.axis('off')
        if idx == 0 and params:
            title = f"Prompt: {prompt[:50]}...\n"
            title += f"Steps: {params.get('steps', 'N/A')}, "
            title += f"Guidance: {params.get('guidance', 'N/A')}, "
            title += f"Seed: {params.get('seed', 'Random')}"
            ax.set_title(title, fontsize=10, pad=10)
    
    plt.tight_layout()
    plt.show()

In [None]:
# Exemplo 1: Variando Guidance Scale
print("EXEMPLO 1: Efeito do Guidance Scale na Geração")
print("-" * 50)

prompt = "A majestic lion wearing a crown, digital art, highly detailed"
negative_prompt = "blurry, low quality, distorted"

guidance_scales = [2.0, 5.0, 7.5, 10.0, 15.0]
images_guidance = []

for guidance in guidance_scales:
    print(f"Gerando com guidance_scale={guidance}...")
    img = generate_images(
        prompt=prompt,
        negative_prompt=negative_prompt,
        guidance_scale=guidance,
        num_inference_steps=30,
        seed=42  # Mesma seed para comparação
    )[0]
    images_guidance.append(img)

# Plotar resultados
fig, axes = plt.subplots(1, 5, figsize=(20, 4))
for idx, (img, guidance) in enumerate(zip(images_guidance, guidance_scales)):
    axes[idx].imshow(img)
    axes[idx].set_title(f"Guidance: {guidance}")
    axes[idx].axis('off')
plt.suptitle("Impacto do Guidance Scale (maior = mais fiel ao prompt)", fontsize=14)
plt.tight_layout()
plt.show()

In [None]:
# Exemplo 2: Variando número de inference steps
print("EXEMPLO 2: Efeito do Número de Steps de Denoising")
print("-" * 50)

prompt = "A cyberpunk city at night with neon lights, rainy weather, reflections"
steps_list = [10, 20, 30, 50, 75]
images_steps = []

for steps in steps_list:
    print(f"Gerando com {steps} steps...")
    img = generate_images(
        prompt=prompt,
        num_inference_steps=steps,
        guidance_scale=7.5,
        seed=123  # Mesma seed
    )[0]
    images_steps.append(img)

# Plotar
fig, axes = plt.subplots(1, 5, figsize=(20, 4))
for idx, (img, steps) in enumerate(zip(images_steps, steps_list)):
    axes[idx].imshow(img)
    axes[idx].set_title(f"Steps: {steps}")
    axes[idx].axis('off')
plt.suptitle("Impacto do Número de Steps (mais steps = mais refinamento)", fontsize=14)
plt.tight_layout()
plt.show()

In [None]:
# Exemplo 3: Diferentes estilos artísticos
print("EXEMPLO 3: Gerando Diferentes Estilos Artísticos")
print("-" * 50)

base_subject = "a beautiful mountain landscape with a lake"
styles = [
    "photorealistic, 8k photography",
    "oil painting in the style of Van Gogh",
    "japanese anime style, studio ghibli",
    "pencil sketch, detailed drawing",
    "watercolor painting, soft colors"
]

images_styles = []
for style in styles:
    full_prompt = f"{base_subject}, {style}"
    print(f"Gerando: {style[:30]}...")
    img = generate_images(
        prompt=full_prompt,
        num_inference_steps=40,
        guidance_scale=8.0
    )[0]
    images_styles.append(img)

# Plotar
fig, axes = plt.subplots(1, 5, figsize=(20, 4))
for idx, (img, style) in enumerate(zip(images_styles, styles)):
    axes[idx].imshow(img)
    axes[idx].set_title(style[:30] + "...", fontsize=10)
    axes[idx].axis('off')
plt.suptitle("Mesmo Tema em Diferentes Estilos Artísticos", fontsize=14)
plt.tight_layout()
plt.show()

In [None]:
# Exemplo 4: Impacto do Negative Prompt
print("EXEMPLO 4: Importância do Negative Prompt")
print("-" * 50)

prompt = "A portrait of a wizard casting a spell, fantasy art"

negative_prompts = [
    "",  # Sem negative prompt
    "ugly, distorted",
    "ugly, distorted, blurry, low quality",
    "ugly, distorted, blurry, low quality, extra limbs, bad anatomy",
    "ugly, distorted, blurry, low quality, extra limbs, bad anatomy, cartoon, anime"
]

images_negative = []
for neg_prompt in negative_prompts:
    print(f"Negative prompt: {neg_prompt[:30] if neg_prompt else 'None'}...")
    img = generate_images(
        prompt=prompt,
        negative_prompt=neg_prompt if neg_prompt else None,
        num_inference_steps=40,
        guidance_scale=7.5,
        seed=999
    )[0]
    images_negative.append(img)

# Plotar
fig, axes = plt.subplots(1, 5, figsize=(20, 4))
for idx, (img, neg) in enumerate(zip(images_negative, negative_prompts)):
    axes[idx].imshow(img)
    title = neg[:20] + "..." if neg else "Sem negative"
    axes[idx].set_title(title, fontsize=9)
    axes[idx].axis('off')
plt.suptitle("Efeito do Negative Prompt na Qualidade", fontsize=14)
plt.tight_layout()
plt.show()

In [None]:
# Exemplo 5: Variação com diferentes seeds
print("EXEMPLO 5: Variação com Diferentes Seeds")
print("-" * 50)

prompt = "A futuristic robot in a garden, detailed, artistic"
seeds = [42, 123, 456, 789, 2024]
images_seeds = []

for seed in seeds:
    print(f"Gerando com seed={seed}...")
    img = generate_images(
        prompt=prompt,
        num_inference_steps=35,
        guidance_scale=7.5,
        seed=seed
    )[0]
    images_seeds.append(img)

# Plotar
fig, axes = plt.subplots(1, 5, figsize=(20, 4))
for idx, (img, seed) in enumerate(zip(images_seeds, seeds)):
    axes[idx].imshow(img)
    axes[idx].set_title(f"Seed: {seed}")
    axes[idx].axis('off')
plt.suptitle("Variações do Mesmo Prompt com Seeds Diferentes", fontsize=14)
plt.tight_layout()
plt.show()

In [None]:
import time

def benchmark_generation(steps_list=[20, 30, 50]):
    """Analisa tempo de geração vs qualidade"""
    print("ANÁLISE DE PERFORMANCE")
    print("-" * 50)
    
    prompt = "A detailed portrait of a astronaut, professional photography"
    results = []
    
    for steps in steps_list:
        start_time = time.time()
        
        img = generate_images(
            prompt=prompt,
            num_inference_steps=steps,
            seed=42
        )[0]
        
        gen_time = time.time() - start_time
        
        results.append({
            'steps': steps,
            'time': gen_time,
            'time_per_step': gen_time / steps,
            'image': img
        })
        
        print(f"Steps: {steps:3d} | Tempo: {gen_time:.2f}s | Por step: {gen_time/steps:.3f}s")
    
    # Plotar resultados
    fig, axes = plt.subplots(1, len(results), figsize=(15, 5))
    for idx, res in enumerate(results):
        axes[idx].imshow(res['image'])
        axes[idx].set_title(
            f"Steps: {res['steps']}\n"
            f"Tempo: {res['time']:.1f}s\n"
            f"ms/step: {res['time_per_step']*1000:.1f}",
            fontsize=10
        )
        axes[idx].axis('off')
    
    plt.suptitle("Trade-off: Qualidade vs Tempo de Geração", fontsize=14)
    plt.tight_layout()
    plt.show()
    
    return results

# Executar benchmark
results = benchmark_generation()

In [None]:
import os
from datetime import datetime

def save_generation_batch(prompts_dict, output_dir="generated_images"):
    """
    Salva um batch de gerações com metadados
    """
    os.makedirs(output_dir, exist_ok=True)
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    
    metadata = []
    
    for name, config in prompts_dict.items():
        print(f"Gerando: {name}...")
        
        img = generate_images(**config)[0]
        
        filename = f"{timestamp}_{name}.png"
        filepath = os.path.join(output_dir, filename)
        img.save(filepath)
        
        metadata.append({
            'name': name,
            'file': filename,
            'config': config
        })
        
        print(f"  Salvo em: {filepath}")
    
    # Salvar metadados
    import json
    metadata_file = os.path.join(output_dir, f"{timestamp}_metadata.json")
    with open(metadata_file, 'w') as f:
        json.dump(metadata, f, indent=2)
    
    print(f"\nMetadados salvos em: {metadata_file}")
    return metadata

# Exemplo de uso
prompts_para_salvar = {
    "landscape": {
        "prompt": "Beautiful mountain landscape at sunset, photorealistic",
        "num_inference_steps": 40,
        "guidance_scale": 7.5,
        "seed": 42
    },
    "portrait": {
        "prompt": "Professional portrait of a scientist in laboratory",
        "num_inference_steps": 50,
        "guidance_scale": 8.0,
        "seed": 123
    },
    "abstract": {
        "prompt": "Abstract colorful geometric patterns, modern art",
        "num_inference_steps": 35,
        "guidance_scale": 6.0,
        "seed": 456
    }
}

# Descomente para salvar
# metadata = save_generation_batch(prompts_para_salvar)

In [None]:
print("="*80)
print("RESUMO DO PROJETO - STABLE DIFFUSION COM DIFFUSERS")
print("="*80)

summary = """
IMPLEMENTAÇÕES REALIZADAS:
--------------------------
1. TEXT-TO-IMAGE: Pipeline principal com Stable Diffusion v1.5
2. IMAGE-TO-IMAGE: Transformação de imagens existentes com prompts

ARQUITETURA EXPLORADA:
----------------------
- Text Encoder (CLIP): Converte prompts em embeddings semânticos
- U-Net: Realiza o processo de difusão/denoising iterativo
- VAE: Codifica/decodifica entre espaço latente e pixels
- Scheduler: Controla o processo de remoção de ruído

PARÂMETROS ANALISADOS:
----------------------
- Guidance Scale: Controla fidelidade ao prompt (2-15)
- Inference Steps: Número de iterações de denoising (20-100)
- Strength (img2img): Intensidade da transformação (0-1)
- Seed: Controle de reprodutibilidade
- Negative Prompt: Elementos a evitar na geração

EXEMPLOS DEMONSTRADOS:
----------------------
✓ 5+ variações de guidance scale
✓ 5+ variações de inference steps
✓ 5+ estilos artísticos diferentes
✓ 5+ exemplos de negative prompts
✓ 5+ seeds diferentes
✓ 5+ transformações image-to-image

OTIMIZAÇÕES APLICADAS:
----------------------
- Float16 para economia de memória
- Attention slicing para GPUs com menos VRAM
- Cache de modelos para reutilização
"""

print(summary)

# Estatísticas finais
total_params = sum(p.numel() for p in pipe.unet.parameters())
total_params += sum(p.numel() for p in pipe.vae.parameters())
total_params += sum(p.numel() for p in pipe.text_encoder.parameters())

print(f"\nTOTAL DE PARÂMETROS NO MODELO: {total_params:,} ({total_params/1e9:.2f}B)")
print(f"MEMÓRIA GPU UTILIZADA: ~4-6 GB em float16")
print(f"TEMPO MÉDIO POR IMAGEM (50 steps): ~10-30 segundos (varia com GPU)")