# Projeto 3: Modelos Generativos - Stable Diffusion + ControlNet

**Autores:** Caio Boa, Gabriel Hermida e Pedro Civita  
**Técnicas:** Stable Diffusion 1.5 + ControlNet Canny

---

## Introdução

Este projeto utiliza Stable Diffusion como modelo base e ControlNet como técnica de controle espacial para geração de designs de produtos. A combinação dessas técnicas permite criar imagens a partir de descrições textuais enquanto mantém controle sobre a estrutura espacial através de condições visuais.

### Objetivos

1. Implementar pipeline text-to-image com Stable Diffusion 1.5
2. Integrar ControlNet Canny para controle via detecção de bordas
3. Gerar exemplos de designs variando parâmetros
4. Documentar arquitetura com diagramas
5. Analisar impacto de hiperparâmetros

### Tecnologias

- **Diffusers**: Framework para modelos de difusão
- **Stable Diffusion 1.5**: Modelo text-to-image (runwayml/stable-diffusion-v1-5)
- **ControlNet Canny**: Controle espacial (lllyasviel/sd-controlnet-canny)
- **PyTorch**: Backend com aceleração CUDA

## 1. Arquitetura dos Modelos

Stable Diffusion é um modelo de difusão latente que opera no espaço comprimido de um autoencoder. Seus três componentes principais são: um VAE que comprime imagens 512×512 para latentes 64×64×4, reduzindo o custo computacional; um encoder CLIP que transforma prompts textuais em embeddings de 768 dimensões; e um U-Net que prediz e remove ruído iterativamente, condicionado pelo texto via cross-attention.

ControlNet estende o Stable Diffusion adicionando controle espacial através de condições visuais como bordas Canny, mapas de profundidade ou poses. A arquitetura utiliza uma cópia treinável do U-Net que processa a condição em paralelo, conectada ao modelo original por Zero Convolutions—camadas inicializadas com zeros que permitem treinamento estável. Neste projeto, o ControlNet Canny controla as bordas dos designs gerados.

### Diagramas da Arquitetura

In [None]:
# Função para renderizar diagramas Mermaid no Jupyter/MkDocs
from IPython.display import Image as IPImage, display
import base64

def render_mermaid(mermaid_code, width=800):
    """
    Renderiza diagrama Mermaid usando mermaid.ink API
    """
    mermaid_clean = mermaid_code.strip()
    graphbytes = mermaid_clean.encode("utf8")
    base64_bytes = base64.b64encode(graphbytes)
    base64_string = base64_bytes.decode("ascii")
    url = f"https://mermaid.ink/img/{base64_string}"
    
    try:
        display(IPImage(url=url, width=width))
    except Exception as e:
        print(f"Erro ao renderizar diagrama: {e}")
        print(f"\nCódigo Mermaid:\n{mermaid_code}")

In [None]:
mermaid_sd = """
graph LR
    A[Text Prompt] --> B[CLIP Text Encoder]
    B --> C[Text Embeddings]
    D[Random Noise] --> E[U-Net]
    C --> E
    E --> F[Denoised Latent]
    F --> G[VAE Decoder]
    G --> H[Generated Image]
    
    style A fill:#e1f5ff
    style H fill:#c8e6c9
    style E fill:#fff9c4
"""
render_mermaid(mermaid_sd, width=700)

In [None]:
mermaid_controlnet = """
graph TB
    A[Input Image] --> B[Condition Extractor]
    B --> C[Canny Edges / Depth Map]
    C --> D[ControlNet Encoder]
    E[Text + Noise] --> F[U-Net Original]
    D --> G[Zero Convolution]
    G --> F
    F --> H[Output Latent]
    
    style C fill:#ffccbc
    style D fill:#b3e5fc
    style F fill:#fff9c4
"""
render_mermaid(mermaid_controlnet, width=600)

In [None]:
mermaid_pipeline = """
graph TB
    subgraph Input
        A[Text Prompt]
        B[Control Image]
    end
    
    subgraph Text_Processing
        C[CLIP Encoder]
        D[Text Embeddings]
    end
    
    subgraph Control_Processing
        E[Canny/Depth Extractor]
        F[ControlNet Encoder]
    end
    
    subgraph Diffusion_Process
        G[Random Noise z_T]
        H[U-Net + Cross-Attention]
        I[Denoised Latent z_0]
    end
    
    subgraph Image_Decoding
        J[VAE Decoder]
        K[Generated Image]
    end
    
    A --> C --> D --> H
    B --> E --> F --> H
    G --> H --> I --> J --> K
    
    style A fill:#e1f5ff
    style B fill:#ffe1e1
    style K fill:#c8e6c9
    style H fill:#fff9c4
"""
render_mermaid(mermaid_pipeline, width=800)

## 2. Setup e Instalação

In [None]:
!pip install -q "pandas>=2.2.0" "scikit-learn>=1.5.0" --upgrade
!pip install -q diffusers[torch] transformers accelerate controlnet_aux opencv-python matplotlib pillow

In [None]:
import warnings
warnings.filterwarnings('ignore', category=FutureWarning, module='timm')
warnings.filterwarnings('ignore', category=UserWarning, module='controlnet_aux')
warnings.filterwarnings('ignore', message='IProgress not found')
warnings.filterwarnings('ignore', message='mediapipe')

import numpy as np
import pandas as pd
import sklearn
import torch
import cv2
from PIL import Image
import matplotlib.pyplot as plt
from diffusers import (
    StableDiffusionPipeline,
    StableDiffusionControlNetPipeline,
    ControlNetModel,
    UniPCMultistepScheduler
)
from controlnet_aux import CannyDetector

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Device: {device}")
if device == "cuda":
    torch.backends.cudnn.benchmark = True
    print(f"GPU Memory: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")

## 3. Stable Diffusion Text-to-Image

O modelo é carregado com otimizações de memória: FP16 reduz o uso pela metade, o carregamento direto na GPU evita cópias intermediárias, e técnicas de slicing processam atenção e VAE em chunks menores. Essas configurações permitem execução em GPUs com memória limitada.

In [None]:
import os
import gc
os.environ['HF_HOME'] = '/home/gabrielmmh/.cache/huggingface'

model_id = "runwayml/stable-diffusion-v1-5"

pipe_sd = StableDiffusionPipeline.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
    variant="fp16",
    safety_checker=None
)
pipe_sd = pipe_sd.to(device)
pipe_sd.enable_attention_slicing(1)
pipe_sd.enable_vae_slicing()

torch.cuda.empty_cache()
gc.collect()
print(f"SD 1.5 loaded | GPU: {torch.cuda.memory_allocated(0) / 1024**2:.0f}MB")

### 3.1 Função de Geração Básica

In [None]:
def generate_basic_image(prompt, negative_prompt="", num_inference_steps=25, guidance_scale=7.5, seed=None):
    """
    Gera imagem usando Stable Diffusion básico (otimizado para memória)
    
    Args:
        prompt: Descrição do que gerar
        negative_prompt: O que evitar
        num_inference_steps: Passos de denoising (reduzido para 25 para economizar memória)
        guidance_scale: Força do condicionamento textual (7-15 recomendado)
        seed: Seed para reprodutibilidade
    """
    generator = torch.Generator(device=device).manual_seed(seed) if seed else None
    
    image = pipe_sd(
        prompt=prompt,
        negative_prompt=negative_prompt,
        num_inference_steps=num_inference_steps,
        guidance_scale=guidance_scale,
        generator=generator
    ).images[0]
    
    # Limpar memória após geração
    torch.cuda.empty_cache()
    
    return image

### 3.2 Cadeira

Geração com Stable Diffusion básico, sem controle espacial, servindo como baseline para comparação com ControlNet. O modelo executa 25 steps de inferência com guidance scale 7.5, valor padrão que equilibra fidelidade ao prompt e liberdade criativa.

In [None]:
prompt_1 = "modern minimalist chair design, sleek wooden legs, ergonomic seat, product photography, white background, studio lighting, high quality, 4k"
negative_1 = "blurry, low quality, distorted, ugly, bad anatomy"

image_1 = generate_basic_image(prompt_1, negative_1, num_inference_steps=25, guidance_scale=7.5, seed=42)

plt.figure(figsize=(8, 8))
plt.imshow(image_1)
plt.axis('off')
plt.title("Cadeira Moderna (SD Básico)\nSteps=25, Guidance=7.5")
plt.tight_layout()
plt.show()

### 3.3 Smartwatch

Geração de produto tecnológico para demonstrar aplicação em categorias distintas. Mantém os mesmos 25 steps e guidance 7.5 do exemplo anterior para permitir comparação direta entre diferentes tipos de produtos.

In [None]:
prompt_2 = "futuristic smartwatch design, OLED display, titanium band, premium materials, product render, professional lighting"
negative_2 = "blurry, low quality, cartoon, sketch"

image_2 = generate_basic_image(prompt_2, negative_2, num_inference_steps=25, guidance_scale=7.5, seed=123)

plt.figure(figsize=(8, 8))
plt.imshow(image_2)
plt.axis('off')
plt.title("Smartwatch Futurista\nSteps=25, Guidance=7.5")
plt.tight_layout()
plt.show()

## 4. ControlNet para Controle Espacial

O ControlNet Canny utiliza detecção de bordas para guiar a geração, permitindo manter controle sobre a composição enquanto varia estilos e materiais.

In [None]:
torch.cuda.empty_cache()
gc.collect()

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-canny",
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True
)

pipe_controlnet = StableDiffusionControlNetPipeline.from_pretrained(
    model_id,
    controlnet=controlnet,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
    variant="fp16",
    safety_checker=None
)
pipe_controlnet = pipe_controlnet.to(device)
pipe_controlnet.enable_attention_slicing(1)
pipe_controlnet.enable_vae_slicing()
pipe_controlnet.scheduler = UniPCMultistepScheduler.from_config(pipe_controlnet.scheduler.config)

canny_detector = CannyDetector()

torch.cuda.empty_cache()
gc.collect()
print(f"ControlNet loaded | GPU: {torch.cuda.memory_allocated(0) / 1024**2:.0f}MB")

### 4.1 Funções Auxiliares

In [None]:
def create_canny_condition(image, low_threshold=100, high_threshold=200):
    """Cria condição Canny a partir de uma imagem"""
    if isinstance(image, Image.Image):
        image = np.array(image)
    
    if len(image.shape) == 3:
        gray = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)
    else:
        gray = image
    
    edges = cv2.Canny(gray, low_threshold, high_threshold)
    edges = edges[:, :, None]
    edges = np.concatenate([edges, edges, edges], axis=2)
    
    return Image.fromarray(edges)


def create_simple_sketch(shape=(512, 512), sketch_type="chair"):
    """Cria sketch para usar como condição do ControlNet"""
    img = np.ones((*shape, 3), dtype=np.uint8) * 255
    
    if sketch_type == "chair":
        # Cadeira moderna de escritório com base giratória
        cx, cy = 256, 256  # Centro do canvas
        
        # Base com rodízios (estrela 5 pontas)
        base_y = 420
        for i in range(5):
            angle = np.radians(i * 72 - 90)
            x_end = int(cx + 80 * np.cos(angle))
            y_end = int(base_y + 25 * np.sin(angle))
            cv2.line(img, (cx, base_y), (x_end, y_end), (0, 0, 0), 2)
            cv2.circle(img, (x_end, y_end + 8), 6, (0, 0, 0), 2)  # Rodízios
        
        # Coluna central
        cv2.line(img, (cx, base_y), (cx, 340), (0, 0, 0), 3)
        
        # Assento com estofado (elipse para volume)
        cv2.ellipse(img, (cx, 320), (70, 25), 0, 0, 360, (0, 0, 0), 2)
        cv2.ellipse(img, (cx, 315), (65, 20), 0, 180, 360, (0, 0, 0), 1)  # Linha de estofado
        
        # Encosto ergonômico curvo
        pts_back = np.array([
            [cx - 55, 310], [cx - 60, 250], [cx - 55, 180], 
            [cx - 40, 140], [cx, 130], [cx + 40, 140],
            [cx + 55, 180], [cx + 60, 250], [cx + 55, 310]
        ], np.int32)
        cv2.polylines(img, [pts_back], False, (0, 0, 0), 2)
        
        # Detalhes do estofado no encosto
        cv2.ellipse(img, (cx, 220), (45, 60), 0, 0, 360, (0, 0, 0), 1)
        
        # Braços
        # Braço esquerdo
        cv2.line(img, (cx - 70, 280), (cx - 100, 270), (0, 0, 0), 2)
        cv2.line(img, (cx - 100, 270), (cx - 100, 260), (0, 0, 0), 2)
        cv2.line(img, (cx - 100, 260), (cx - 75, 255), (0, 0, 0), 2)
        # Braço direito
        cv2.line(img, (cx + 70, 280), (cx + 100, 270), (0, 0, 0), 2)
        cv2.line(img, (cx + 100, 270), (cx + 100, 260), (0, 0, 0), 2)
        cv2.line(img, (cx + 100, 260), (cx + 75, 255), (0, 0, 0), 2)
        
        # Suportes dos braços
        cv2.line(img, (cx - 70, 320), (cx - 70, 280), (0, 0, 0), 2)
        cv2.line(img, (cx + 70, 320), (cx + 70, 280), (0, 0, 0), 2)
        
    elif sketch_type == "watch":
        cv2.circle(img, (256, 256), 100, (0, 0, 0), 2)
        cv2.rectangle(img, (240, 100), (272, 156), (0, 0, 0), 2)
        cv2.rectangle(img, (240, 356), (272, 412), (0, 0, 0), 2)
        
    elif sketch_type == "bottle":
        cv2.rectangle(img, (220, 100), (292, 150), (0, 0, 0), 2)
        cv2.rectangle(img, (200, 150), (312, 450), (0, 0, 0), 2)
        
    return Image.fromarray(img)


def generate_controlnet_image(prompt, canny_image, negative_prompt="", 
                             num_inference_steps=20, guidance_scale=7.5, 
                             controlnet_conditioning_scale=1.0, seed=None):
    """Gera imagem usando ControlNet + Stable Diffusion"""
    generator = torch.Generator(device=device).manual_seed(seed) if seed else None
    
    image = pipe_controlnet(
        prompt=prompt,
        image=canny_image,
        negative_prompt=negative_prompt,
        num_inference_steps=num_inference_steps,
        guidance_scale=guidance_scale,
        controlnet_conditioning_scale=controlnet_conditioning_scale,
        generator=generator
    ).images[0]
    
    torch.cuda.empty_cache()
    return image

### 4.2 Cadeira com ControlNet

Com um sketch em perspectiva 3/4 como condição, o ControlNet preserva a estrutura geométrica enquanto preenche materiais e texturas. A geração usa 20 steps com guidance 8.0 e control scale 1.2, valores que priorizam a aderência à condição estrutural.

In [None]:
# Criar sketch de cadeira
sketch_chair = create_simple_sketch(sketch_type="chair")
canny_chair = create_canny_condition(sketch_chair, low_threshold=50, high_threshold=150)

prompt_3 = "luxury leather office chair, ergonomic design, chrome base, professional product photography, 4k, high detail"
negative_3 = "blurry, low quality, cartoon, distorted"

image_3 = generate_controlnet_image(
    prompt_3, 
    canny_chair, 
    negative_3,
    num_inference_steps=20,
    guidance_scale=8.0,
    controlnet_conditioning_scale=1.2,
    seed=456
)

fig, axes = plt.subplots(1, 3, figsize=(18, 6))
axes[0].imshow(sketch_chair)
axes[0].set_title("Sketch Original")
axes[0].axis('off')

axes[1].imshow(canny_chair)
axes[1].set_title("Canny Edges (Condição)")
axes[1].axis('off')

axes[2].imshow(image_3)
axes[2].set_title("Resultado Final (ControlNet)")
axes[2].axis('off')

plt.suptitle("Cadeira Controlada - ControlNet (Steps=20)", fontsize=14)
plt.tight_layout()
plt.show()

### 4.3 Relógio com ControlNet

Teste de controle estrutural em formato circular para avaliar precisão em proporções. O control scale retorna ao valor padrão 1.0, pois a forma simples do sketch não requer aderência tão forte quanto o exemplo anterior.

In [None]:
sketch_watch = create_simple_sketch(sketch_type="watch")
canny_watch = create_canny_condition(sketch_watch)

prompt_watch = "luxury swiss watch, gold case, leather strap, mechanical movement, classic elegant design, professional photography"
negative_watch = "blurry, low quality, distorted, toy, digital"

image_watch = generate_controlnet_image(
    prompt_watch,
    canny_watch,
    negative_watch,
    num_inference_steps=20,
    guidance_scale=7.5,
    controlnet_conditioning_scale=1.0,
    seed=1000
)

fig, axes = plt.subplots(1, 3, figsize=(18, 6))
axes[0].imshow(sketch_watch)
axes[0].set_title("Sketch Base")
axes[0].axis('off')

axes[1].imshow(canny_watch)
axes[1].set_title("Canny Edges")
axes[1].axis('off')

axes[2].imshow(image_watch)
axes[2].set_title("Relógio Clássico Suíço")
axes[2].axis('off')

plt.suptitle("Design de Relógio - Controle Estrutural com ControlNet", fontsize=14)
plt.tight_layout()
plt.show()

### 4.4 Garrafa com ControlNet

Design com forma vertical alongada para testar consistência de proporções em geometrias diferentes. O control scale 1.1 oferece aderência moderada à estrutura retangular do sketch.

In [None]:
sketch_bottle = create_simple_sketch(sketch_type="bottle")
canny_bottle = create_canny_condition(sketch_bottle)

prompt_bottle = "modern stainless steel water bottle, sleek minimalist design, matte black finish, sport cap, premium product photography, white background"
negative_bottle = "blurry, low quality, distorted, plastic, cheap"

image_bottle = generate_controlnet_image(
    prompt_bottle,
    canny_bottle,
    negative_bottle,
    num_inference_steps=20,
    guidance_scale=7.5,
    controlnet_conditioning_scale=1.1,
    seed=2000
)

fig, axes = plt.subplots(1, 3, figsize=(18, 6))
axes[0].imshow(sketch_bottle)
axes[0].set_title("Sketch Base")
axes[0].axis('off')

axes[1].imshow(canny_bottle)
axes[1].set_title("Canny Edges")
axes[1].axis('off')

axes[2].imshow(image_bottle)
axes[2].set_title("Garrafa de Água Premium")
axes[2].axis('off')

plt.suptitle("Design de Garrafa - ControlNet com Formas Verticais", fontsize=14)
plt.tight_layout()
plt.show()

## 5. Análise de Resultados

O pipeline de Stable Diffusion + ControlNet foi aplicado em cinco exemplos de diferentes categorias de produtos. Os experimentos indicam que guidance scale entre 7-8 equilibra criatividade e fidelidade ao prompt, enquanto 20-25 steps de inferência produzem qualidade adequada. Para o ControlNet, conditioning scale de 1.0-1.2 oferece controle sem suprimir detalhes.

As aplicações práticas incluem prototipagem de variações de design e exploração de estilos mantendo estrutura fixa. As limitações observadas são a precisão variável em dimensões exatas, inconsistência entre gerações da mesma prompt e viés do dataset de treinamento.

Extensões possíveis incluem combinação de múltiplos ControlNets para controle multi-modal, fine-tuning com LoRA para especialização, integração com modelos text-to-3D e inpainting para edição localizada. Do ponto de vista ético, é necessário verificar designs por plágio, reconhecer vieses do dataset, usar como ferramenta de auxílio ao designer e indicar o uso de IA em materiais comerciais.

In [None]:
comparison_data = {
    "Exemplo": ["1. Cadeira Moderna", "2. Smartwatch", "3. Cadeira ControlNet", "4. Relógio", "5. Garrafa"],
    "Técnica": ["SD Básico", "SD Básico", "SD + ControlNet", "SD + ControlNet", "SD + ControlNet"],
    "Steps": [25, 25, 20, 20, 20],
    "Guidance": [7.5, 7.5, 8.0, 7.5, 7.5],
    "Control Scale": ["-", "-", 1.2, 1.0, 1.1]
}
pd.DataFrame(comparison_data)

### 5.1 Insights Técnicos

O guidance scale ideal situa-se entre 7-8, pois valores abaixo de 5 geram imagens desconectadas do prompt e acima de 12 causam saturação excessiva. Os 20-25 inference steps são suficientes, com ganhos marginais acima de 30. O conditioning scale do ControlNet entre 1.0-1.2 mantém controle sem restringir a criatividade do modelo.

As otimizações de memória aplicadas reduziram o consumo de 8-10GB para 3.5-4GB. O FP16 corta o uso pela metade, o low_cpu_mem_usage evita cópias intermediárias, o attention_slicing reduz picos em cerca de 30%, o VAE_slicing processa em tiles, e a limpeza de cache entre gerações libera memória não utilizada.

O ControlNet mantém estrutura consistente através de variações de estilo, separa a definição de composição do preenchimento de detalhes, facilita iteração sobre a mesma estrutura e acelera o workflow de design ao permitir múltiplas variações sobre uma base fixa.