# Detecção de Landmarks

Este notebook introduz o conceito de **Detecção de Landmarks (Landmark Detection)**, uma tarefa fundamental em Visão Computacional. O objetivo é identificar e localizar pontos-chave de interesse (landmarks) em um objeto dentro de uma imagem. Esta técnica é a base para muitas aplicações, como rastreamento facial, análise de pose, e reconhecimento de gestos. Inicialmente, construiremos um modelo convolucional simples para encontrar landmarks em um dataset sintético. Em seguida, exploraremos como utilizar bibliotecas de ponta, como o **MediaPipe**, para realizar detecções de landmarks complexas de forma eficiente.

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import numpy as np
import matplotlib.pyplot as plt
import cv2
import math

In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

## Criação do Dataset Sintético

Para treinar nosso modelo, precisamos de dados. Criaremos um dataset sintético de imagens simples e definiremos os landmarks.

A classe `SyntheticArmDataset` gerará um braço articulado. O processo para gerar cada amostra é:

1.  Definir um ponto de origem (ombro) em uma posição aleatória.
2.  Definir um comprimento (len1) e um ângulo (theta1) aleatórios para o segmento do braço.
3.  Calcular a posição do cotovelo usando trigonometria.
4.  Definir um comprimento (len2) e um ângulo *relativo* (theta2) aleatórios para o antebraço.
5.  Calcular a posição do pulso com base na posição do cotovelo e nos novos parâmetros.
6.  Desenhar os dois segmentos na imagem usando `cv2.line` com espessura para simular cilindros.
7.  Armazenar os 3 landmarks (6 coordenadas) e normalizá-los para o intervalo `[-1, 1]`.

In [None]:
class SyntheticArmDataset(Dataset):
    def __init__(self, num_samples=1000, img_size=(96, 96), num_landmarks=3):
        self.num_samples = num_samples
        self.img_size = img_size
        self.num_landmarks = num_landmarks
        self.img_height, self.img_width = img_size

    def __len__(self):
        return self.num_samples

    def __getitem__(self, idx):
        # Criar uma imagem preta
        image = np.zeros((self.img_height, self.img_width), dtype=np.float32)
        h, w = self.img_size
        
        # Parâmetros do braço
        segment_thickness = 4
        len1 = np.random.uniform(h * 0.2, h * 0.4) # Comprimento braço
        len2 = np.random.uniform(h * 0.2, h * 0.4) # Comprimento antebraço
        
        # Ângulos
        theta1 = np.random.uniform(0, 2 * math.pi) # Ângulo do braço
        theta2 = np.random.uniform(-math.pi / 1.5, math.pi / 1.5) # Ângulo relativo do cotovelo
        
        # Ponto 1: Ombro (Shoulder)
        # Manter o ombro um pouco longe das bordas
        x_s = np.random.randint(w * 0.2, w * 0.8)
        y_s = np.random.randint(h * 0.2, h * 0.8)
        
        # Ponto 2: Cotovelo (Elbow)
        x_e = x_s + len1 * math.cos(theta1)
        y_e = y_s + len1 * math.sin(theta1)
        
        # Ponto 3: Pulso (Wrist)
        # O ângulo do antebraço é a soma do ângulo do braço + ângulo relativo do cotovelo
        x_w = x_e + len2 * math.cos(theta1 + theta2)
        y_w = y_e + len2 * math.sin(theta1 + theta2)
        
        # Garantir que os pontos estão dentro dos limites da imagem
        points = np.array([x_s, y_s, x_e, y_e, x_w, y_w])
        points = np.clip(points, 0, max(h, w) - 1).astype(int)
        
        (x_s, y_s, x_e, y_e, x_w, y_w) = points
        
        # Desenhar os "cilindros" (linhas grossas)
        cv2.line(image, (x_s, y_s), (x_e, y_e), (255), segment_thickness)
        cv2.line(image, (x_e, y_e), (x_w, y_w), (255), segment_thickness)
        
        # Normalizar imagem
        image = image / 255.0
        image_tensor = torch.from_numpy(image).unsqueeze(0).float() # (1, H, W)
        
        # Preparar landmarks (x1, y1, x2, y2, x3, y3)
        # Usamos os valores *antes* do clip para a regressão,
        # mas convertemos os 'points' (pós-clip) para float32 para normalização.
        landmarks = points.astype(np.float32)
        
        # Normalizar landmarks para [-1, 1]
        landmarks[0::2] = (landmarks[0::2] - w / 2) / (w / 2) # Coordenadas X
        landmarks[1::2] = (landmarks[1::2] - h / 2) / (h / 2) # Coordenadas Y
        
        landmarks_tensor = torch.from_numpy(landmarks)
        
        return image_tensor, landmarks_tensor

In [None]:
IMG_SIZE = (128, 128)
NUM_LANDMARKS = 3
NUM_OUTPUTS = NUM_LANDMARKS * 2

# Criar datasets e dataloaders
train_dataset = SyntheticArmDataset(num_samples=10000, img_size=IMG_SIZE, num_landmarks=NUM_LANDMARKS)
val_dataset = SyntheticArmDataset(num_samples=500, img_size=IMG_SIZE, num_landmarks=NUM_LANDMARKS)

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False)

In [None]:
# Visualizar um exemplo
sample_image, sample_landmarks = train_dataset[0]

# Desnormalizar landmarks para visualização
lm_unnormalized = sample_landmarks.numpy().copy()
lm_unnormalized[0::2] = (lm_unnormalized[0::2] * (IMG_SIZE[1] / 2)) + (IMG_SIZE[1] / 2)
lm_unnormalized[1::2] = (lm_unnormalized[1::2] * (IMG_SIZE[0] / 2)) + (IMG_SIZE[0] / 2)

xs = lm_unnormalized[0::2] # [x_s, x_e, x_w]
ys = lm_unnormalized[1::2] # [y_s, y_e, y_w]

plt.imshow(sample_image.squeeze(), cmap='gray')
plt.scatter(xs, ys, c='red', s=40)
plt.title("Exemplo de Braço Sintético e 3 Landmarks")
plt.show()

## Definição do Modelo CNN

Definimos uma arquitetura de CNN simples. A rede consiste em blocos convolucionais para extração de características, seguidos por camadas totalmente conectadas (Lineares) para regredir as coordenadas dos landmarks.

A camada de saída final deve ter `NUM_OUTPUTS` neurônios, correspondendo às `NUM_LANDMARKS * 2` coordenadas (x, y).

In [None]:
class LandmarkCNN(nn.Module):
    def __init__(self, img_channels, num_outputs):
        super(LandmarkCNN, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(img_channels, 32, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
            
            nn.Conv2d(32, 64, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
            
            nn.Conv2d(64, 128, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
            
            nn.AdaptiveAvgPool2d((8, 8)) # (N, 128, 8, 8)
        )
        
        self.flatten_features = 128 * 8 * 8
        
        self.regressor = nn.Sequential(
            nn.Linear(self.flatten_features, 512),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(512, num_outputs)
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), -1)
        x = self.regressor(x)
        return x

model = LandmarkCNN(img_channels=1, num_outputs=NUM_OUTPUTS).to(device)
print(f"Modelo criado com {NUM_OUTPUTS} saídas.")
print(model)

## Treinamento do Modelo

Para treinar o modelo, precisamos definir uma função de perda (Loss Function) e um otimizador.

### Função de Perda

Como esta é uma tarefa de regressão (prever coordenadas), a função de perda apropriada é o **Erro Quadrático Médio (Mean Squared Error - MSE)**. O MSE calcula a média das diferenças quadráticas entre as coordenadas previstas e as coordenadas reais (ground truth).

$$
\text{MSE} = \frac{1}{N} \sum_{i=1}^{N} \frac{1}{k} \sum_{j=1}^{k} (y_{ij} - \hat{y}_{ij})^2
$$

Onde:
$N$ é o número de amostras no batch.
$k$ é o número de valores de saída (nossos `NUM_OUTPUTS`).
$y_{ij}$ é a j-ésima coordenada real para a i-ésima amostra.
$\hat{y}_{ij}$ é a j-ésima coordenada prevista para a i-ésima amostra.

In [None]:
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

In [None]:
num_epochs = 20

for epoch in range(num_epochs):
    model.train()
    running_loss = 0.0
    
    for images, landmarks in train_loader:
        images = images.to(device)
        landmarks = landmarks.to(device)
        
        # Zerar gradientes
        optimizer.zero_grad()
        
        # Forward pass
        outputs = model(images)
        loss = criterion(outputs, landmarks)
        
        # Backward pass e otimização
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item() * images.size(0)
        
    epoch_loss = running_loss / len(train_dataset)
    
    # Validação
    model.eval()
    val_loss = 0.0
    with torch.no_grad():
        for images, landmarks in val_loader:
            images = images.to(device)
            landmarks = landmarks.to(device)
            outputs = model(images)
            loss = criterion(outputs, landmarks)
            val_loss += loss.item() * images.size(0)
            
    val_loss = val_loss / len(val_dataset)
    
    print(f'Epoch {epoch+1}/{num_epochs}, Train Loss: {epoch_loss:.6f}, Val Loss: {val_loss:.6f}')

## Visualização dos Resultados

Vamos agora pegar algumas amostras do conjunto de validação, passar pelo modelo treinado e visualizar as previsões de landmarks em comparação com o ground truth.

In [None]:
def visualize_predictions(model, dataset, num_samples=5):
    model.eval()
    fig, axes = plt.subplots(1, num_samples, figsize=(15, 5))
    
    for i in range(num_samples):
        # Pegar amostra
        image_tensor, gt_landmarks = dataset[i]
        image_tensor_batch = image_tensor.unsqueeze(0).to(device) # Adicionar dimensão do batch
        
        # Fazer previsão
        with torch.no_grad():
            pred_landmarks = model(image_tensor_batch).cpu().squeeze()
            
        # Preparar imagem para plotagem
        image = image_tensor.squeeze().numpy()
        
        # Desnormalizar Ground Truth (shape [6])
        gt_coords = gt_landmarks.numpy().copy()
        gt_xs = (gt_coords[0::2] * (IMG_SIZE[1] / 2)) + (IMG_SIZE[1] / 2)
        gt_ys = (gt_coords[1::2] * (IMG_SIZE[0] / 2)) + (IMG_SIZE[0] / 2)
        
        # Desnormalizar Previsões (shape [6])
        pred_coords = pred_landmarks.detach().numpy().copy()
        pred_xs = (pred_coords[0::2] * (IMG_SIZE[1] / 2)) + (IMG_SIZE[1] / 2)
        pred_ys = (pred_coords[1::2] * (IMG_SIZE[0] / 2)) + (IMG_SIZE[0] / 2)

        # Plotar
        ax = axes[i]
        ax.imshow(image, cmap='gray', interpolation=None)
        ax.scatter(gt_xs, gt_ys, c='red', s=50, label='Ground Truth', marker='x')
        ax.scatter(pred_xs, pred_ys, c='blue', s=50, label='Prediction', marker='+')
        ax.set_title(f"Amostra {i}")
        ax.set_xticks([])
        ax.set_yticks([])

    handles, labels = ax.get_legend_handles_labels()
    fig.legend(handles, labels, loc='lower center', ncol=2)
    plt.tight_layout(rect=[0, 0.03, 1, 0.95]) # Ajustar para a legenda
    plt.show()

# Visualizar nos dados de validação
visualize_predictions(model, val_dataset)

# Detecção de Landmarks com MediaPipe

Construir e treinar modelos de landmarks do zero é instrutivo, mas para aplicações do mundo real, muitas vezes utilizamos soluções pré-treinadas que são altamente otimizadas e precisas. O **MediaPipe** do Google é uma biblioteca de código aberto fantástica para pipelines de ML multimodais (vídeo, áudio, texto).

Ele oferece modelos robustos e em tempo real para tarefas como detecção de face (Face Mesh), mãos (Hand Tracking) e pose (Pose Estimation).

## Instalação

Inicialmente, instalamos as dependências necessárias (`opencv-python`, `mediapipe`) e baixamos as imagens de exemplo (`person-full-body.jpg`, `hand.jpg`) que serão utilizadas.

In [None]:
# !pip install opencv-python
# !pip install mediapipe
# !wget https://raw.githubusercontent.com/spmallick/learnopencv/blob/master/Introduction-to-MediaPipe/person-full-body.jpg
# !wget https://raw.githubusercontent.com/spmallick/learnopencv/master/Introduction-to-MediaPipe/hand.jpg

### Importações Principais

Agora, importamos as bibliotecas que serão usadas:
* `cv2`: OpenCV, para manipulação de imagens (leitura, conversão de cores).
* `mediapipe`: A biblioteca principal para acessar os modelos de detecção.
* `matplotlib.pyplot`: Para visualização das imagens no notebook.

In [None]:
import cv2
import mediapipe as mp
import matplotlib.pyplot as plt

## Detecção de Pose (Corpo Inteiro)

Começamos com a solução `mp.solutions.pose`.

### Carregar e Visualizar Imagem de Teste

Carregamos a imagem `person-full-body.jpg` usando o OpenCV. Note que o OpenCV carrega imagens no formato BGR (Blue-Green-Red). Para exibição correta com o Matplotlib (que espera RGB), usamos a sintaxe `[...,::-1]` para inverter a ordem dos canais de cor.

In [None]:
img = cv2.imread('person-full-body.jpg')

plt.figure(figsize=(15,10))
plt.imshow(img[...,::-1]);

### Inicialização do Modelo de Pose

Instanciamos o modelo `mp_pose.Pose`. Os parâmetros de configuração são:

* `static_image_mode=True`: Otimiza o pipeline para imagens estáticas (vídeos seriam `False`).
* `model_complexity=2`: Define a complexidade do modelo (0, 1 ou 2). Modelos mais complexos são mais precisos, mas mais lentos.
* `enable_segmentation=True`: Habilita o modelo a gerar também uma máscara de segmentação da pessoa (além dos landmarks).
* `min_detection_confidence=0.5`: A confiança mínima (50%) para que uma detecção de pessoa seja considerada válida.

In [None]:
# Inicializa a solução de pose do MediaPipe
mp_pose = mp.solutions.pose

pose = mp_pose.Pose(static_image_mode=True,
                    model_complexity=2,
                    enable_segmentation=True,
                    min_detection_confidence=0.5)

### Processamento da Imagem

Os modelos MediaPipe esperam imagens no formato RGB. Portanto, convertemos a imagem `img` (BGR) para `rgb_img` (RGB) usando `cv2.cvtColor` antes de passá-la para o método `pose.process()`. O objeto `results` conterá todos os dados de saída do modelo.

In [None]:
# Converte a imagem BGR para RGB
rgb_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

# Processa a imagem e obtém os resultados
results = pose.process(rgb_img)

### Desenho dos Landmarks

Para visualizar o resultado, criamos uma cópia da imagem original. Em seguida, usamos a utilidade `mp_drawing.draw_landmarks` para desenhar:

1.  Os landmarks (pontos) detectados, acessados via `results.pose_landmarks`.
2.  As conexões entre os landmarks, definidas em `mp_pose.POSE_CONNECTIONS`.

Personalizamos a aparência dos pontos e conexões usando `mp_drawing.DrawingSpec`.

In [None]:
# Importa as utilidades de desenho
mp_drawing = mp.solutions.drawing_utils

annotated_img = img.copy()

# Desenha os landmarks da pose na imagem
mp_drawing.draw_landmarks(annotated_img,
                          results.pose_landmarks,
                          mp_pose.POSE_CONNECTIONS,
                          # Especifica o estilo dos pontos
                          landmark_drawing_spec=mp_drawing.DrawingSpec(color=(0, 0, 255), thickness=3, circle_radius=3),
                          # Especifica o estilo das conexões
                          connection_drawing_spec=mp_drawing.DrawingSpec(color=(255, 200, 0), thickness=5, circle_radius=5))

In [None]:
# Exibe a imagem anotada
plt.figure(figsize=(20,15))
plt.imshow(annotated_img[...,::-1])
plt.title('Pose');

## Detecção de Landmarks de Mão

A seguir, utilizamos a solução `mp.solutions.hands` para detectar os 21 landmarks de cada mão.

### Inicialização do Modelo de Mãos

Inicializamos `mp_hands.Hands`, especificando:
* `static_image_mode=True`: Para imagens estáticas.
* `max_num_hands=2`: O número máximo de mãos a detectar.
* `min_detection_confidence=0.5`: Confiança mínima de 50%.

In [None]:
# Inicializa a solução de mãos do MediaPipe
mp_hands = mp.solutions.hands

hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5)

In [None]:
# Carrega a imagem da mão
hand_img = cv2.imread('hand.jpg')

# Redimensiona a imagem para processamento mais rápido
hand_img = cv2.resize(hand_img, None, fx=0.1, fy=0.1)

# Converte BGR para RGB
rgb_img = cv2.cvtColor(hand_img, cv2.COLOR_BGR2RGB)

# Processa a imagem
results = hands.process(rgb_img)

In [None]:
# Importa os estilos de desenho padrão
mp_drawing_styles = mp.solutions.drawing_styles

annotated_img = hand_img.copy()

# Itera sobre cada mão detectada
if results.multi_hand_landmarks:
  for hand_landmarks in results.multi_hand_landmarks:
    mp_drawing.draw_landmarks(annotated_img,
                              hand_landmarks,
                              mp_hands.HAND_CONNECTIONS,
                              mp_drawing_styles.get_default_hand_landmarks_style(),
                              mp_drawing_styles.get_default_hand_connections_style())

In [None]:
plt.figure(figsize=(20,15))
plt.subplot(121)
plt.imshow(hand_img[...,::-1])
plt.title('Hand Image')
plt.subplot(122)
plt.imshow(annotated_img[...,::-1])
plt.title('Hand Detection');

## Detecção de Malha Facial (Face Mesh)

Finalmente, exploramos o `mp.solutions.face_mesh`, que detecta 468 landmarks no rosto, permitindo aplicações detalhadas como rastreamento de íris e contornos faciais.

### Inicialização do Modelo Face Mesh

Inicializamos `mp_face_mesh.FaceMesh`. O parâmetro de destaque é:
* `refine_landmarks=True`: Isso habilita o modelo a refinar as coordenadas ao redor dos olhos e lábios ativa a detecção dos landmarks da **íris**.

In [None]:
# Inicializa a solução de malha facial
mp_face_mesh = mp.solutions.face_mesh

drawing_spec = mp_drawing.DrawingSpec(thickness=1, circle_radius=1)

face_mesh = mp_face_mesh.FaceMesh(static_image_mode=True, 
                                  max_num_faces=1, 
                                  refine_landmarks=True, 
                                  min_detection_confidence=0.5)

In [None]:
# Converte BGR para RGB
rgb_img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

# Processa a imagem
results = face_mesh.process(rgb_img)

### Desenho das Variações da Malha Facial

O MediaPipe Face Mesh fornece diferentes conjuntos de conexões para visualização. Para demonstrar, criamos três cópias da imagem.

Iteramos sobre os rostos detectados (`results.multi_face_landmarks`) e desenhamos:
1.  `FACEMESH_TESSELATION`: A malha facial completa (Tesselation).
2.  `FACEMESH_CONTOURS`: Apenas os contornos do rosto, olhos, nariz e boca.
3.  `FACEMESH_IRISES`: Os landmarks específicos da íris (só funciona se `refine_landmarks=True`).

In [None]:
# Cria cópias da imagem para diferentes visualizações
img_mesh = img.copy()
img_contours = img.copy()
img_iris = img.copy()

if results.multi_face_landmarks:
  for face_landmarks in results.multi_face_landmarks:
    # 1. Desenha a malha (Tesselation)
    mp_drawing.draw_landmarks(img_mesh,
                              face_landmarks,
                              mp_face_mesh.FACEMESH_TESSELATION,
                              landmark_drawing_spec=None,
                              connection_drawing_spec=mp_drawing.DrawingSpec(color=(0, 200, 0), thickness=1, circle_radius=1))
    
    # 2. Desenha os contornos
    mp_drawing.draw_landmarks(img_contours,
                              face_landmarks,
                              mp_face_mesh.FACEMESH_CONTOURS,
                              landmark_drawing_spec=None,
                              connection_drawing_spec=mp_drawing_styles.get_default_face_mesh_contours_style())
    
    # 3. Desenha as íris (requer refine_landmarks=True)
    mp_drawing.draw_landmarks(img_iris,
                              face_landmarks,
                              mp_face_mesh.FACEMESH_IRISES,
                              landmark_drawing_spec=None,
                              connection_drawing_spec=mp_drawing_styles.get_default_face_mesh_iris_connections_style())

In [None]:
# Exibe as três variações de malha facial, com zoom na região do rosto
plt.figure(figsize=(20,20))

# Fatiamento da imagem [Y_start:Y_end, X_start:X_end]
face_region = (slice(0, 500), slice(700, 1350))

plt.subplot(131)
plt.imshow(img_mesh[...,::-1][face_region])
plt.title('Face Mesh');

plt.subplot(132)
plt.imshow(img_contours[...,::-1][face_region])
plt.title('Face Contours');

plt.subplot(133)
plt.imshow(img_iris[...,::-1][face_region])
plt.title('Iris');