# Projeto Completo: Treinamento e Avalia√ß√£o de Modelo de Detec√ß√£o

Este notebook cont√©m o fluxo completo para treinar e avaliar um modelo de detec√ß√£o de objetos (Faster R-CNN). 

**Fluxo do Notebook:**
1.  **Instala√ß√£o de Depend√™ncias:** Instala bibliotecas necess√°rias.
2.  **Imports Globais:** Carrega todos os pacotes Python.
3.  **Configura√ß√£o:** Define todos os par√¢metros, caminhos e hiperpar√¢metros.
4.  **Fun√ß√µes Utilit√°rias:** Cont√©m a classe `Dataset`, as fun√ß√µes de transforma√ß√£o e a fun√ß√£o de cria√ß√£o do modelo.
5.  **Engine de Treinamento:** Cont√©m as fun√ß√µes para treinar e validar uma √©poca.
6.  **Script Principal de Treinamento:** Executa o fluxo de treinamento completo.
7.  **Avalia√ß√£o Quantitativa (mAP):** Script para calcular as m√©tricas no modelo salvo.
8.  **Teste Pr√°tico:** Script para visualizar a previs√£o do modelo em uma imagem de teste.

In [None]:
# Instala√ß√£o de Depend√™ncias

!pip install -q tqdm torchmetrics opencv-python
!pip install -U albumentations

print("Depend√™ncias prontas.")

In [None]:
# Imports Globais

# --- PyTorch e Torchvision ---
import torch
import torchvision
from torchvision.models.detection.faster_rcnn import FastRCNNPredictor
from torch.utils.data import Dataset, DataLoader

# --- Manipula√ß√£o de Imagens e Dados ---
from PIL import Image  	# Biblioteca para abrir e manipular imagens (Pillow).
import numpy as np
import albumentations as A	# Biblioteca para data augmentation.
from pycocotools.coco import COCO	# Utilit√°rio para manusear anota√ß√µes COCO.
from albumentations.pytorch import ToTensorV2	# Converte imagens (numpy/pil) para tensores PyTorch.

# --- Utilit√°rios de Treinamento e Avalia√ß√£o ---
from tqdm.auto import tqdm	# Cria barras de progresso que funcionam bem em notebooks.
from torchmetrics.detection.mean_ap import MeanAveragePrecision  # M√©trica padr√£o para detec√ß√£o de objetos.
from torchvision.models.detection import fasterrcnn_resnet50_fpn
from torchvision.models.detection.rpn import AnchorGenerator
from torchvision.models.detection import FasterRCNN
from torchvision.transforms import functional as F # torchvision para usar a fun√ß√£o to_tensor.

# --- Bibliotecas Padr√£o do Python ---
import os 		# Para manipula√ß√£o de caminhos e arquivos.
import glob  	# Para encontrar arquivos
import re  		# Para usar express√µes regulares
import random	# Para opera√ß√µes de aleatoriedade
import cv2  	# OpenCV, para desenhar caixas e texto nas imagens de teste.
import matplotlib.pyplot as plt # Para exibir imagens no notebook.

In [None]:
# C√©lula 4: Configura√ß√£o

# Define uma classe para centralizar todas as configura√ß√µes do projeto.
class Config:
    
    # --- CAMINHO PARA O DATASET ---
    DATA_ROOT_PATH = '/kaggle/input/coco-dataset/my_data'
    
    # --- CONFIGURA√á√ïES GERAIS ---
    # Define o dispositivo de computa√ß√£o: 'cuda' (GPU) se dispon√≠vel, sen√£o 'cpu'.
    DEVICE = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
    
    # Diret√≥rio onde os checkpoints do modelo ser√£o salvos durante o treinamento.
    CHECKPOINT_DIR = '/kaggle/working/checkpoints/'
    
    # Define o n√∫mero total de classes. Como o modelo precisa de uma classe para o fundo (background),
    # o n√∫mero √© (quantidade de classes reais + 1).
    NUM_CLASSES = 4  # 3 classes (person, car, dog) + 1 background
    
    # Lista com os nomes das categorias que queremos extrair do dataset COCO.
    CATEGORIAS_DESEJADAS = ['person', 'car', 'dog']
    
    # --- CONFIGURA√á√ïES DO DATASET ---
    # Limita o n√∫mero de imagens para acelerar o treinamento e a valida√ß√£o.
    IMAGE_LIMIT = 3000  	# Limite para o conjunto de treino.
    VAL_IMAGE_LIMIT = 300 	# Limite para o conjunto de valida√ß√£o.

    # Caminhos espec√≠ficos para os dados de treino e valida√ß√£o e seus arquivos de anota√ß√£o JSON.
    TRAIN_DATA_DIR = os.path.join(DATA_ROOT_PATH, 'train/')
    TRAIN_COCO = os.path.join(DATA_ROOT_PATH, 'annotations/instances_train2017.json')
    VAL_DATA_DIR = os.path.join(DATA_ROOT_PATH, 'val/')
    VAL_COCO = os.path.join(DATA_ROOT_PATH, 'annotations/instances_val2017.json')

    # --- HIPERPAR√ÇMETROS DE TREINAMENTO ---
    NUM_EPOCHS = 20  		# N√∫mero total de √©pocas para treinar o modelo.
    TRAIN_BATCH_SIZE = 1 	# Quantidade de imagens por lote de treinamento.
    TRAIN_SHUFFLE_DL = True	# Embaralhar o dataset de treino a cada √©poca.
    NUM_WORKERS_DL = 0  	# N√∫mero de processos para carregar dados. 0 significa que ser√° na thread principal.

    # Par√¢metros do otimizador SGD (Gradiente Descendente Estoc√°stico).
    LR = 0.001  	# Taxa de aprendizado (learning rate).
    MOMENTUM = 0.9  # Momento, ajuda a acelerar o SGD na dire√ß√£o certa.
    WEIGHT_DECAY = 0.0005  # Termo de regulariza√ß√£o L2 para evitar overfitting.

# Cria uma inst√¢ncia da classe de configura√ß√£o para ser usada no restante do c√≥digo.
config = Config()
print("Configura√ß√µes definidas.")

In [None]:
# ==============================================================================
# C√âLULA 5: FUN√á√ïES UTILIT√ÅRIAS (VERS√ÉO FINAL E CORRIGIDA)
# Esta vers√£o cont√©m a corre√ß√£o definitiva para o problema de tipo de dado.
# ==============================================================================

# Classe customizada de Dataset para o formato COCO, com filtros.
class FilteredCOCODataset(Dataset):
    
    def __init__(self, root, annotation, transforms=None, cats=None, limit=None):
        
        self.root = root  	# Diret√≥rio das imagens.
        self.transforms = transforms  # Transforma√ß√µes de data augmentation.
        self.coco = COCO(annotation)  # Carrega o arquivo de anota√ß√µes COCO.
        
        # Pega os IDs num√©ricos das categorias desejadas (ex: 'person', 'car').
        self.desired_cat_ids = set(self.coco.getCatIds(catNms=cats if cats else []))
        
        # Mapeia os IDs originais do COCO para os IDs do nosso modelo (1, 2, 3...).
        self.coco_to_model_map = {coco_id: i + 1 for i, coco_id in enumerate(sorted(list(self.desired_cat_ids)))}
        
        # L√≥gica para limitar e balancear o dataset.
        if limit and limit > 0 and len(self.desired_cat_ids) > 0:
            
            # Obt√©m uma lista de imagens para cada categoria desejada.
            imgs_per_cat = {cat_id: self.coco.getImgIds(catIds=[cat_id]) for cat_id in self.desired_cat_ids}
            
            # Calcula quantas imagens pegar por categoria para atingir o limite.
            limit_per_cat = int(limit / len(self.desired_cat_ids))
            balanced_img_ids = set() 	# Usa um conjunto para evitar duplicatas.
            
            for cat_id in self.desired_cat_ids:
                
                image_list = imgs_per_cat[cat_id]
                random.shuffle(image_list)  # Embaralha para pegar uma amostra aleat√≥ria.
                balanced_img_ids.update(image_list[:limit_per_cat])
                
            final_ids = list(balanced_img_ids)
            random.shuffle(final_ids) # Embaralha a lista final de IDs.
            
            # Garante que n√£o passamos do limite e ordena os IDs.
            self.ids = sorted(final_ids[:limit])
            
        else:
            
            # Se n√£o houver limite, pega todas as imagens que cont√™m as categorias desejadas.
            all_image_ids = set()
            
            for cat_id in self.desired_cat_ids:
                all_image_ids.update(self.coco.getImgIds(catIds=[cat_id]))
                
            self.ids = list(sorted(list(all_image_ids)))

    # M√©todo que carrega e retorna um √∫nico item (imagem e anota√ß√µes) do dataset.
    def __getitem__(self, idx):
        
        img_id = self.ids[idx] # Pega o ID da imagem pelo √≠ndice.
        
        try:
            
            # Carrega informa√ß√µes da imagem e suas anota√ß√µes do COCO.
            ann_ids = self.coco.getAnnIds(imgIds=img_id)
            coco_annotations = self.coco.loadAnns(ann_ids)
            path = self.coco.loadImgs(img_id)[0]['file_name']
            img = Image.open(os.path.join(self.root, path)).convert('RGB')
            
            boxes, labels = [], []
            
            for obj in coco_annotations:
                
                # Filtra apenas os objetos das categorias desejadas e com √°rea v√°lida.
                if obj['category_id'] in self.desired_cat_ids and obj['bbox'][2] > 0 and obj['bbox'][3] > 0:
                    
                    boxes.append(obj['bbox']) # Bbox no formato [x, y, width, height].
                    labels.append(self.coco_to_model_map[obj['category_id']]) # Usa o label mapeado.
            
            if not boxes: return None # Pula a imagem se n√£o tiver objetos de interesse.

            # Converte as bboxes para o formato [xmin, ymin, xmax, ymax] exigido pelo PyTorch.
            boxes_tensor = torch.as_tensor(boxes, dtype=torch.float32).reshape(-1, 4)
            boxes_tensor[:, 2:] += boxes_tensor[:, :2]
            
            # Cria o dicion√°rio 'target' com as anota√ß√µes formatadas.
            target = {'boxes': boxes_tensor, 'labels': torch.as_tensor(labels, dtype=torch.int64)}

            # Aplica as transforma√ß√µes (data augmentation).
            if self.transforms:
                
                transformed = self.transforms(image=np.array(img), bboxes=target['boxes'].numpy(), labels=target['labels'].numpy())
                img = transformed['image']
                if len(transformed['bboxes']) == 0: return None 	# Pula se a augmenta√ß√£o removeu todas as bboxes.
                target['boxes'] = torch.as_tensor(transformed['bboxes'], dtype=torch.float32).reshape(-1, 4)
                target['labels'] = torch.as_tensor(transformed['labels'], dtype=torch.int64)
            
            # --- SOLU√á√ÉO DEFINITIVA ---
            # Garante que a imagem seja um tensor de ponto flutuante (float) e normalizada para o intervalo [0, 1].
            # ToTensorV2 deveria fazer isso, mas essa convers√£o manual garante a consist√™ncia.
            if not img.is_floating_point():
                img = img.to(torch.float32) / 255.0

            return img, target
        
        except Exception:
            
            # Retorna None se houver qualquer erro ao processar a imagem (ex: arquivo corrompido).
            return None

    # M√©todo que retorna o n√∫mero total de amostras no dataset.
    def __len__(self):
        
        return len(self.ids)

# Fun√ß√£o que define a sequ√™ncia de transforma√ß√µes de imagem.
def get_transform(train):
    
    transforms_list = []
    bbox_params = None
    
    if train:
        
        # Se for para treinamento, aplica data augmentation.
        transforms_list.append(A.HorizontalFlip(p=0.5)) # Espelhamento horizontal com 50% de chance.
        transforms_list.append(A.RandomBrightnessContrast(p=0.2)) # Muda brilho e contraste.
        
        # Define os par√¢metros para as bounding boxes, para que elas se ajustem com as augmenta√ß√µes.
        bbox_params = A.BboxParams(format='pascal_voc', label_fields=['labels'], min_area=1, min_visibility=0.1)
    
    # Sempre converte a imagem para um tensor PyTorch.
    transforms_list.append(ToTensorV2())
    
    # Comp√µe (agrupa) as transforma√ß√µes em um √∫nico pipeline.
    if bbox_params:
        return A.Compose(transforms_list, bbox_params=bbox_params)
    
    else:
        return A.Compose(transforms_list)

# Fun√ß√£o de agrupamento para o DataLoader.
def collate_fn(batch):
    
    # Filtra amostras que retornaram 'None' do __getitem__.
    batch = [b for b in batch if b is not None]
    
    if not batch:
        return None, None
    
    # Separa as imagens e os alvos em duas tuplas separadas.
    return tuple(zip(*batch))

# Fun√ß√£o para criar o modelo de detec√ß√£o.
def get_detection_model(num_classes):
    
    # Carrega um modelo Faster R-CNN com backbone ResNet50, pr√©-treinado no COCO.
    model = torchvision.models.detection.fasterrcnn_resnet50_fpn_v2(weights="DEFAULT")
    
    # Obt√©m o n√∫mero de caracter√≠sticas de entrada do classificador.
    in_features = model.roi_heads.box_predictor.cls_score.in_features
    
    # Substitui a "cabe√ßa" do classificador por uma nova, com o n√∫mero correto de classes para nosso problema.
    model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes)
    return model

print("C√©lula 5: Fun√ß√µes Utilit√°rias definidas (VERS√ÉO FINAL E CORRIGIDA).")

In [None]:
# ==============================================================================
# C√âLULA 6: ENGINE DE TREINAMENTO (VERS√ÉO CORRIGIDA)
# ==============================================================================

# Fun√ß√£o para treinar o modelo por uma √©poca.
def train_one_epoch(model, optimizer, data_loader, device, epoch):
    """
    Executa uma √∫nica √©poca de treinamento. (Esta fun√ß√£o j√° estava correta)
    """
    
    model.train()  # Coloca o modelo em modo de treinamento.
    prog_bar = tqdm(data_loader, total=len(data_loader), desc=f"√âpoca {epoch+1} [Treino]")
    train_epoch_loss = 0
    
    # Itera sobre os lotes de dados do data_loader de treinamento.
    for i, data in enumerate(prog_bar):
        
        if data is None or data[0] is None:
            continue  # Pula o lote se for inv√°lido.
            
        imgs, annotations = data
        
        # Move as imagens e anota√ß√µes para o dispositivo (GPU/CPU).
        imgs = list(img.to(device) for img in imgs)
        annotations = [{k: v.to(device) for k, v in t.items()} for t in annotations]
        
        # O modelo retorna um dicion√°rio de perdas (losses) quando est√° em modo de treino.
        loss_dict = model(imgs, annotations)
        
        # Soma todas as perdas (ex: perda de classifica√ß√£o, perda de regress√£o da caixa).
        losses = sum(loss for loss in loss_dict.values())
        
        # Verifica√ß√£o de seguran√ßa: se a perda for infinita ou NaN, pula a atualiza√ß√£o.
        if not torch.isfinite(losses):
            print(f"ALERTA: Loss infinita na itera√ß√£o {i}, pulando batch.")
            continue

        optimizer.zero_grad()   # Zera os gradientes acumulados.
        losses.backward()  		# Calcula os gradientes (backpropagation).
        
        # Limita a norma dos gradientes para evitar "exploding gradients".
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        optimizer.step()	# Atualiza os pesos do modelo.
        
        train_epoch_loss += losses.item()  		 	# Acumula a perda da √©poca.
        prog_bar.set_postfix(loss=losses.item())	# Atualiza a barra de progresso com a loss atual.

    # Retorna a m√©dia da perda de treinamento da √©poca.
    return train_epoch_loss / len(data_loader) if len(data_loader) > 0 else 0.0


# --- FUN√á√ÉO 'evaluate' ---
# Decorador que desativa o c√°lculo de gradientes, economizando mem√≥ria e acelerando a execu√ß√£o.
@torch.no_grad()
def evaluate(model, data_loader, device):
    """
    Executa la evaluaci√≥n del modelo en el conjunto de datos de validaci√≥n.
    """
    model.eval()	# Coloca o modelo em modo de avalia√ß√£o.
    
    prog_bar = tqdm(data_loader, total=len(data_loader), desc="[Valida√ß√£o]")
    validation_loss = 0
    
    # Itera sobre os lotes de dados do data_loader de valida√ß√£o.
    for i, data in enumerate(prog_bar):
        if data is None or data[0] is None:
            continue

        imgs, annotations = data
        imgs = list(img.to(device) for img in imgs)
        annotations = [{k: v.to(device) for k, v in t.items()} for t in annotations]
        
        was_training = model.training	# Guarda o estado atual (que √© 'eval').
        model.train()	# Muda para modo 'train' para obter o dict de loss.
        loss_dict = model(imgs, annotations)
        model.train(was_training)		# Restaura o estado original ('eval').

        losses = sum(loss for loss in loss_dict.values())
        
        if torch.isfinite(losses): 
            validation_loss += losses.item()
        
        prog_bar.set_postfix(loss=losses.item())
        
    # Retorna a m√©dia da perda de valida√ß√£o.
    return validation_loss / len(data_loader) if len(data_loader) > 0 else 0.0

print("C√©lula 6: Fun√ß√µes de Engine definidas (com 'evaluate' corrigido).")

In [None]:
# (As fun√ß√µes auxiliares como collate_fn, get_transform, etc., j√° foram definidas nas c√©lulas anteriores)

# --- Fun√ß√£o para criar o modelo (vers√£o espec√≠fica para ResNet-50) ---
def get_model_fasterrcnn_resnet50(num_classes):
    """
    Carrega um modelo Faster R-CNN pr√©-treinado (backbone ResNet-50)
    e o adapta para o n√∫mero de classes desejado.
    """
    
    # Carrega o modelo com pesos pr√©-treinados.
    model = fasterrcnn_resnet50_fpn(weights='FasterRCNN_ResNet50_FPN_Weights.DEFAULT')
    
    # Obt√©m o n√∫mero de features da camada de predi√ß√£o.
    in_features = model.roi_heads.box_predictor.cls_score.in_features
    
    # Substitui a camada de predi√ß√£o por uma nova, adequada ao nosso n√∫mero de classes.
    model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes)
    return model

# --- 1. CONFIGURA√á√ÉO INICIAL ---
print("--- SCRIPT DE TREINAMENTO: Faster R-CNN com ResNet-50 ---")
print(f"Dispositivo selecionado: {config.DEVICE}")

# Define um diret√≥rio espec√≠fico para os checkpoints deste modelo.
config.CHECKPOINT_DIR = './checkpoints/fasterrcnn_resnet50'
os.makedirs(config.CHECKPOINT_DIR, exist_ok=True)
print(f"Checkpoints ser√£o salvos em: {config.CHECKPOINT_DIR}")

# --- 2. DATASETS E DATALOADERS ---
print("\nConfigurando Datasets...")
# Cria o dataset de treinamento usando a classe customizada.
dataset_train = FilteredCOCODataset(
    root=config.TRAIN_DATA_DIR, 
    annotation=config.TRAIN_COCO, 
    transforms=get_transform(train=True), 
    cats=config.CATEGORIAS_DESEJADAS,
    limit=config.IMAGE_LIMIT
)
data_loader_train = DataLoader(dataset_train, batch_size=config.TRAIN_BATCH_SIZE, shuffle=config.TRAIN_SHUFFLE_DL, num_workers=config.NUM_WORKERS_DL, collate_fn=collate_fn)

# Cria o dataset de valida√ß√£o.
dataset_val = FilteredCOCODataset(
    root=config.VAL_DATA_DIR, 
    annotation=config.VAL_COCO, 
    transforms=get_transform(train=False), 
    cats=config.CATEGORIAS_DESEJADAS,
    limit=config.VAL_IMAGE_LIMIT
)
data_loader_val = DataLoader(dataset_val, batch_size=1, shuffle=False, num_workers=config.NUM_WORKERS_DL, collate_fn=collate_fn)

print(f"Dataset de Treinamento: {len(dataset_train)} imagens.")
print(f"Dataset de Valida√ß√£o: {len(dataset_val)} imagens.")

# --- 3. MODELO E OTIMIZADOR ---
print("\nCarregando modelo...")
model = get_model_fasterrcnn_resnet50(config.NUM_CLASSES)
model.to(config.DEVICE) # Move o modelo para a GPU/CPU.

# Seleciona os par√¢metros que precisam de gradientes para o otimizador.
params = [p for p in model.parameters() if p.requires_grad]
optimizer = torch.optim.SGD(params, lr=config.LR, momentum=config.MOMENTUM, weight_decay=config.WEIGHT_DECAY)


### MODIFICA√á√ÉO 1: L√ìGICA DE RETOMADA SIMPLIFICADA ###
# --- 4. L√ìGICA DE CHECKPOINT (RETOMADA) ---
print("\nProcurando pelo melhor checkpoint para retomar...")
best_val_loss = float('inf') # Inicializa a melhor perda com infinito.
start_epoch = 0 # √âpoca inicial √© 0.

# Procura por um √∫nico arquivo de checkpoint, que representa o melhor modelo at√© agora.
best_model_path = os.path.join(config.CHECKPOINT_DIR, "best_model_checkpoint.pth")

if os.path.exists(best_model_path):
    
    print(f"Retomando do melhor checkpoint encontrado: {best_model_path}")
    checkpoint = torch.load(best_model_path) 	# Carrega o checkpoint.
    
    # Restaura o estado do modelo, do otimizador e outros dados do treinamento.
    model.load_state_dict(checkpoint['model_state_dict'])
    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
    start_epoch = checkpoint['epoch'] 	# Define a √©poca de in√≠cio para a pr√≥xima.
    best_val_loss = checkpoint.get('best_val_loss', float('inf')) 
    
    print(f"Retomado da √©poca {start_epoch}. Melhor loss de valida√ß√£o at√© agora: {best_val_loss:.4f}")
    
else:
    print("Nenhum checkpoint encontrado. Iniciando do zero.")


### MODIFICA√á√ÉO 2: LOOP DE TREINAMENTO SIMPLIFICADO ###
# --- 5. LOOP DE TREINAMENTO PRINCIPAL ---
print("\n--- Iniciando Treinamento ---")
for epoch in range(start_epoch, config.NUM_EPOCHS):
    
    # Executa uma √©poca de treino e uma de valida√ß√£o.
    avg_train_loss = train_one_epoch(model, optimizer, data_loader_train, config.DEVICE, epoch)
    avg_val_loss = evaluate(model, data_loader_val, config.DEVICE)
    print(f"--- Fim da √âpoca {epoch+1}/{config.NUM_EPOCHS} | Loss Treino: {avg_train_loss:.4f} | Loss Valida√ß√£o: {avg_val_loss:.4f} ---")

    # L√≥gica para salvar o melhor modelo.
    if avg_val_loss < best_val_loss:
        
        best_val_loss = avg_val_loss
        
        # O nome do arquivo √© fixo, ent√£o ele ser√° sempre sobrescrito com um modelo melhor.
        best_checkpoint_path = os.path.join(config.CHECKPOINT_DIR, "best_model_checkpoint.pth")
        
        print(f"üéâ Nova melhor loss de VALIDA√á√ÉO! Salvando checkpoint em: {best_checkpoint_path}")

        # Salva um dicion√°rio completo para permitir a retomada do treinamento.
        checkpoint_data = {
            'epoch': epoch + 1,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'best_val_loss': best_val_loss
        }
        torch.save(checkpoint_data, best_checkpoint_path)

    print("-" * 50) # Separador visual entre as √©pocas.

print("--- Treinamento Conclu√≠do ---")
print(f"O melhor modelo (com loss de valida√ß√£o {best_val_loss:.4f}) est√° salvo em '{best_model_path}'")

In [None]:
# train_mobilenet.py

# --- Fun√ß√£o para criar o modelo ---
def get_model_fasterrcnn_mobilenet(num_classes):
    
    """
    Cria um modelo Faster R-CNN usando um backbone MobileNetV2.
    Este √© um modelo mais leve que o ResNet-50.
    """
    
    # Carrega o extrator de features (backbone) do MobileNetV2 pr√©-treinado no ImageNet.
    backbone = torchvision.models.mobilenet_v2(weights='MobileNet_V2_Weights.DEFAULT').features
    
    # O n√∫mero de canais de sa√≠da do backbone √© necess√°rio para a pr√≥xima camada.
    backbone.out_channels = 1280
    
    # Define o gerador de √¢ncoras para a Region Proposal Network (RPN).
    anchor_generator = AnchorGenerator(sizes=((32, 64, 128, 256, 512),), aspect_ratios=((0.5, 1.0, 2.0),))
    
    # Define a camada de RoI pooling.
    roi_pooler = torchvision.ops.MultiScaleRoIAlign(featmap_names=['0'], output_size=7, sampling_ratio=2)
    
    # Constr√≥i o modelo Faster R-CNN com os componentes definidos.
    model = FasterRCNN(backbone, num_classes=num_classes, rpn_anchor_generator=anchor_generator, box_roi_pool=roi_pooler)
    return model

# --- 1. CONFIGURA√á√ÉO INICIAL ---
print("--- SCRIPT DE TREINAMENTO: Faster R-CNN com MobileNetV2 ---")
print(f"Dispositivo selecionado: {config.DEVICE}")

# Diret√≥rio de checkpoint espec√≠fico para este modelo.
config.CHECKPOINT_DIR = './checkpoints/fasterrcnn_mobilenetv2'
os.makedirs(config.CHECKPOINT_DIR, exist_ok=True)

print(f"Checkpoints ser√£o salvos em: {config.CHECKPOINT_DIR}")

# --- 2. DATASETS E DATALOADERS ---
# (Esta se√ß√£o √© id√™ntica √† do script ResNet-50)
print("\nConfigurando Datasets...")

dataset_train = FilteredCOCODataset(root=config.TRAIN_DATA_DIR, annotation=config.TRAIN_COCO, transforms=get_transform(train=True), cats=config.CATEGORIAS_DESEJADAS, limit=config.IMAGE_LIMIT)
data_loader_train = DataLoader(dataset_train, batch_size=config.TRAIN_BATCH_SIZE, shuffle=config.TRAIN_SHUFFLE_DL, num_workers=config.NUM_WORKERS_DL, collate_fn=collate_fn)

dataset_val = FilteredCOCODataset(root=config.VAL_DATA_DIR, annotation=config.VAL_COCO, transforms=get_transform(train=False), cats=config.CATEGORIAS_DESEJADAS, limit=config.VAL_IMAGE_LIMIT)
data_loader_val = DataLoader(dataset_val, batch_size=1, shuffle=False, num_workers=config.NUM_WORKERS_DL, collate_fn=collate_fn)

print(f"Dataset de Treinamento: {len(dataset_train)} imagens.")
print(f"Dataset de Valida√ß√£o: {len(dataset_val)} imagens.")

# --- 3. MODELO E OTIMIZADOR ---
print("\nCarregando modelo...")

model = get_model_fasterrcnn_mobilenet(config.NUM_CLASSES)
model.to(config.DEVICE)
params = [p for p in model.parameters() if p.requires_grad]
optimizer = torch.optim.SGD(params, lr=config.LR, momentum=config.MOMENTUM, weight_decay=config.WEIGHT_DECAY)

# --- 4. L√ìGICA DE CHECKPOINT (RETOMADA) ---
best_val_loss = float('inf')
start_epoch = 0
# Procura por todos os checkpoints salvos anteriormente.
checkpoint_files = glob.glob(os.path.join(config.CHECKPOINT_DIR, 'checkpoint_epoch_*.pth'))

if checkpoint_files:
    
    # Extrai o n√∫mero da √©poca do nome de cada arquivo.
    epochs = [int(re.search(r'(\d+)', os.path.basename(f)).group(1)) for f in checkpoint_files]
    latest_epoch = max(epochs) # Encontra a √©poca mais recente.
    latest_checkpoint_path = os.path.join(config.CHECKPOINT_DIR, f'checkpoint_epoch_{latest_epoch}.pth')
    
    print(f"\nRetomando do checkpoint: {latest_checkpoint_path}")
    
    checkpoint = torch.load(latest_checkpoint_path)
    
    # Restaura o estado do modelo, otimizador e outros dados.
    model.load_state_dict(checkpoint['model_state_dict'])
    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
    start_epoch = checkpoint['epoch']
    best_val_loss = checkpoint.get('best_val_loss', float('inf')) 
    
    print(f"Retomado da √©poca {start_epoch}. Melhor loss de valida√ß√£o: {best_val_loss:.4f}")
    
else:
    print("\nNenhum checkpoint encontrado. Iniciando do zero.")

# --- 5. LOOP DE TREINAMENTO PRINCIPAL ---
print("\n--- Iniciando Treinamento ---")
for epoch in range(start_epoch, config.NUM_EPOCHS):
    
    avg_train_loss = train_one_epoch(model, optimizer, data_loader_train, config.DEVICE, epoch)
    avg_val_loss = evaluate(model, data_loader_val, config.DEVICE)
    
    print(f"--- Fim da √âpoca {epoch+1}/{config.NUM_EPOCHS} | Loss Treino: {avg_train_loss:.4f} | Loss Valida√ß√£o: {avg_val_loss:.4f} ---")

    # Se a loss de valida√ß√£o atual for a melhor at√© agora...
    if avg_val_loss < best_val_loss:
        
        best_val_loss = avg_val_loss
        best_model_path = os.path.join(config.CHECKPOINT_DIR, "best_model.pth")
        # ...salva apenas os pesos do modelo (state_dict) no arquivo 'best_model.pth'.
        torch.save(model.state_dict(), best_model_path)
        
        print(f"üéâ Nova melhor loss de VALIDA√á√ÉO! Modelo salvo em: {best_model_path}")

    # Salva um checkpoint completo ao final de CADA √©poca.
    checkpoint_path = os.path.join(config.CHECKPOINT_DIR, f"checkpoint_epoch_{epoch+1}.pth")
    checkpoint = {'epoch': epoch + 1, 'model_state_dict': model.state_dict(), 'optimizer_state_dict': optimizer.state_dict(), 'train_loss': avg_train_loss, 'val_loss': avg_val_loss, 'best_val_loss': best_val_loss}
    torch.save(checkpoint, checkpoint_path)
    
    print(f"Checkpoint da √©poca {epoch+1} salvo.\n")

print("--- Treinamento Conclu√≠do ---")

In [None]:
# train_efficientnet.py (Vers√£o que salva apenas o melhor modelo)

# --- Fun√ß√£o para criar o modelo ---
def get_model_fasterrcnn_efficientnet(num_classes):
    """
    Cria um modelo Faster R-CNN usando um backbone EfficientNet-B0.
    """
    
    # Carrega o extrator de features (backbone) do EfficientNet-B0 pr√©-treinado.
    backbone = torchvision.models.efficientnet_b0(weights='EfficientNet_B0_Weights.DEFAULT').features
    
    # Define manualmente o n√∫mero de canais de sa√≠da do backbone.
    backbone.out_channels = 1280
    
    # Define o gerador de √¢ncoras e o RoI Pooler, similar ao MobileNet.
    anchor_generator = AnchorGenerator(sizes=((32, 64, 128, 256, 512),), aspect_ratios=((0.5, 1.0, 2.0),))
    roi_pooler = torchvision.ops.MultiScaleRoIAlign(featmap_names=['0'], output_size=7, sampling_ratio=2)
    
    # Constr√≥i o modelo Faster R-CNN final.
    model = FasterRCNN(backbone, num_classes=num_classes, rpn_anchor_generator=anchor_generator, box_roi_pool=roi_pooler)
    
    return model

# --- 1. CONFIGURA√á√ÉO INICIAL ---
print("--- SCRIPT DE TREINAMENTO: Faster R-CNN com EfficientNet-B0 ---")
print(f"Dispositivo selecionado: {config.DEVICE}")

# Diret√≥rio de checkpoint espec√≠fico para este modelo.
config.CHECKPOINT_DIR = './checkpoints/fasterrcnn_efficientnetb0'
os.makedirs(config.CHECKPOINT_DIR, exist_ok=True)

print(f"Checkpoints ser√£o salvos em: {config.CHECKPOINT_DIR}")

# --- 2. DATASETS E DATALOADERS ---
# (Esta se√ß√£o √© id√™ntica √† dos outros scripts)
print("\nConfigurando Datasets...")
dataset_train = FilteredCOCODataset(root=config.TRAIN_DATA_DIR, annotation=config.TRAIN_COCO, transforms=get_transform(train=True), cats=config.CATEGORIAS_DESEJADAS, limit=config.IMAGE_LIMIT)
data_loader_train = DataLoader(dataset_train, batch_size=config.TRAIN_BATCH_SIZE, shuffle=config.TRAIN_SHUFFLE_DL, num_workers=config.NUM_WORKERS_DL, collate_fn=collate_fn)

dataset_val = FilteredCOCODataset(root=config.VAL_DATA_DIR, annotation=config.VAL_COCO, transforms=get_transform(train=False), cats=config.CATEGORIAS_DESEJADAS, limit=config.VAL_IMAGE_LIMIT)
data_loader_val = DataLoader(dataset_val, batch_size=1, shuffle=False, num_workers=config.NUM_WORKERS_DL, collate_fn=collate_fn)

print(f"Dataset de Treinamento: {len(dataset_train)} imagens.")
print(f"Dataset de Valida√ß√£o: {len(dataset_val)} imagens.")

# --- 3. MODELO E OTIMIZADOR ---
print("\nCarregando modelo...")
model = get_model_fasterrcnn_efficientnet(config.NUM_CLASSES)
model.to(config.DEVICE)
params = [p for p in model.parameters() if p.requires_grad]
optimizer = torch.optim.SGD(params, lr=config.LR, momentum=config.MOMENTUM, weight_decay=config.WEIGHT_DECAY)


### MODIFICA√á√ÉO 1: L√ìGICA DE RETOMADA SIMPLIFICADA ###
# --- 4. L√ìGICA DE CHECKPOINT (RETOMADA) ---
# (Esta se√ß√£o √© id√™ntica √† do script ResNet-50)
print("\nProcurando pelo melhor checkpoint para retomar...")
best_val_loss = float('inf')
start_epoch = 0

# Procura pelo arquivo √∫nico do melhor modelo.
best_model_path = os.path.join(config.CHECKPOINT_DIR, "best_model_checkpoint.pth")

if os.path.exists(best_model_path):
    
    print(f"Retomando do melhor checkpoint encontrado: {best_model_path}")
    checkpoint = torch.load(best_model_path)
    
    # Restaura o estado completo do treinamento.
    model.load_state_dict(checkpoint['model_state_dict'])
    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
    start_epoch = checkpoint['epoch']
    best_val_loss = checkpoint.get('best_val_loss', float('inf')) 
    
    print(f"Retomado da √©poca {start_epoch}. Melhor loss de valida√ß√£o at√© agora: {best_val_loss:.4f}")
    
else:
    print("Nenhum checkpoint encontrado. Iniciando do zero.")


### MODIFICA√á√ÉO 2: LOOP DE TREINAMENTO SIMPLIFICADO ###
# --- 5. LOOP DE TREINAMENTO PRINCIPAL ---
# (Esta se√ß√£o √© id√™ntica √† do script ResNet-50)
print("\n--- Iniciando Treinamento ---")
for epoch in range(start_epoch, config.NUM_EPOCHS):
    
    avg_train_loss = train_one_epoch(model, optimizer, data_loader_train, config.DEVICE, epoch)
    avg_val_loss = evaluate(model, data_loader_val, config.DEVICE)
    print(f"--- Fim da √âpoca {epoch+1}/{config.NUM_EPOCHS} | Loss Treino: {avg_train_loss:.4f} | Loss Valida√ß√£o: {avg_val_loss:.4f} ---")

    # Se a loss de valida√ß√£o for a melhor, salva um checkpoint completo e sobrescreve o anterior.
    if avg_val_loss < best_val_loss:
        
        best_val_loss = avg_val_loss
        best_checkpoint_path = os.path.join(config.CHECKPOINT_DIR, "best_model_checkpoint.pth")
        print(f"üéâ Nova melhor loss de VALIDA√á√ÉO! Salvando checkpoint em: {best_checkpoint_path}")

        checkpoint_data = {
            'epoch': epoch + 1,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'best_val_loss': best_val_loss
        }
        torch.save(checkpoint_data, best_checkpoint_path)

    print("-" * 50)

print("--- Treinamento Conclu√≠do ---")
print(f"O melhor modelo (com loss de valida√ß√£o {best_val_loss:.4f}) est√° salvo em '{best_model_path}'")

In [None]:
# C√©lula 10: Avalia√ß√£o Quantitativa (mAP)

# Fun√ß√£o para rodar a avalia√ß√£o de mAP (Mean Average Precision).
def run_map_evaluation(weights_path):
    
    print("\n--- Iniciando Avalia√ß√£o de M√©tricas mAP ---")
    
    # Verifica se o data_loader de valida√ß√£o existe.
    if 'data_loader_val' not in locals():
        
        print("DataLoader de valida√ß√£o n√£o encontrado. Execute a c√©lula de treinamento primeiro.")
        return

    # Cria uma nova inst√¢ncia do modelo para avalia√ß√£o.
    eval_model = get_detection_model(config.NUM_CLASSES)
    
    # Carrega os pesos do melhor modelo treinado.
    eval_model.load_state_dict(torch.load(weights_path, map_location=config.DEVICE))
    eval_model.to(config.DEVICE)
    eval_model.eval() # Coloca o modelo em modo de avalia√ß√£o.
    
    # Inicializa o objeto de m√©trica da torchmetrics para calcular o mAP.
    # box_format='xyxy' corresponde ao formato [xmin, ymin, xmax, ymax].
    metric = MeanAveragePrecision(box_format='xyxy', iou_type="bbox")
    prog_bar = tqdm(data_loader_val, total=len(data_loader_val), desc="Calculando M√©tricas mAP...")
    
    # Itera sobre o dataset de valida√ß√£o.
    for images, targets in prog_bar:
        
        images = list(img.to(config.DEVICE) for img in images)
        
        # O modelo em modo 'eval' retorna uma lista de predi√ß√µes.
        predictions = eval_model(images)
        
        # Formata os alvos (ground truth) para o formato esperado pela m√©trica.
        formatted_targets = [{"boxes": t["boxes"], "labels": t["labels"]} for t in targets]
        
        # Atualiza a m√©trica com as predi√ß√µes e os alvos do lote atual.
        metric.update(predictions, formatted_targets)
        
    # Calcula os resultados finais da m√©trica acumulada.
    results = metric.compute()
    print("\n--- Resultados da Avalia√ß√£o (mAP para Bounding Box) ---")
    
    # Imprime os resultados de forma organizada.
    for key, value in results.items():
        
        if isinstance(value, torch.Tensor):
            print(f"{key:<25}: {value.item():.4f}")
    print("-------------------------------------------------------")

# Executa a avalia√ß√£o no melhor modelo salvo pelo script de treinamento.
# Nota: Este caminho pode precisar de ajuste dependendo de qual script de treino foi executado.
best_model_file = os.path.join(config.CHECKPOINT_DIR, 'best_model.pth')
if os.path.exists(best_model_file):
    run_map_evaluation(best_model_file)
    
else:
    print(f"Arquivo '{best_model_file}' n√£o encontrado. Execute o treinamento primeiro.")

In [None]:
# C√©lula 11: Teste Pr√°tico em uma Imagem

# Fun√ß√£o para testar o modelo em uma √∫nica imagem e visualizar as detec√ß√µes.
def test_single_image(weights_path, image_path, threshold=0.5):
    if not os.path.exists(image_path):
        print(f"ERRO: Arquivo de imagem n√£o encontrado em: {image_path}")
        return

    print("\n--- Iniciando Teste Pr√°tico ---")
    
    # Cria uma inst√¢ncia do modelo e carrega os pesos treinados.
    test_model = get_detection_model(config.NUM_CLASSES)
    test_model.load_state_dict(torch.load(weights_path, map_location=config.DEVICE))
    test_model.to(config.DEVICE)
    test_model.eval() # Modo de avalia√ß√£o.

    # Carrega a imagem de teste usando PIL e converte para RGB.
    image_pil = Image.open(image_path).convert('RGB')
    # Converte a imagem PIL para um tensor PyTorch.
    image_tensor = F.to_tensor(image_pil)
    
    # Realiza a predi√ß√£o sem calcular gradientes.
    with torch.no_grad():
        # O modelo espera uma lista de imagens, por isso [image_tensor].
        prediction = test_model([image_tensor.to(config.DEVICE)])[0]

    # Converte a imagem PIL para o formato OpenCV (BGR) para desenhar nela.
    image_cv = cv2.cvtColor(np.array(image_pil), cv2.COLOR_RGB2BGR)
    
    # Define os nomes das classes para exibi√ß√£o.
    CLASS_NAMES = ['background'] + config.CATEGORIAS_DESEJADAS
    # Gera cores aleat√≥rias para cada classe.
    colors = [[random.randint(0, 255) for _ in range(3)] for _ in CLASS_NAMES]

    # Filtra as predi√ß√µes com base no limiar de confian√ßa (score).
    scores = prediction['scores'].cpu().numpy()
    high_confidence_indices = scores > threshold
    boxes = prediction['boxes'][high_confidence_indices].cpu().numpy().astype(int)
    labels = prediction['labels'][high_confidence_indices].cpu().numpy()

    print(f"Encontrados {len(boxes)} objetos com confian√ßa > {threshold}")

    # Itera sobre os objetos detectados para desenhar na imagem.
    for i in range(len(boxes)):
        box = boxes[i]
        label_id = labels[i]
        class_name = CLASS_NAMES[label_id]
        color = colors[label_id]
        score = scores[i]
        text = f"{class_name}: {score:.2f}" # Texto com nome da classe e score.
        
        # Desenha o ret√¢ngulo (bounding box).
        cv2.rectangle(image_cv, (box[0], box[1]), (box[2], box[3]), color, 2)
        # Calcula o tamanho do texto para criar um fundo.
        (text_width, text_height), baseline = cv2.getTextSize(text, cv2.FONT_HERSHEY_SIMPLEX, 0.5, 2)
        # Desenha um ret√¢ngulo de fundo para o texto.
        cv2.rectangle(image_cv, (box[0], box[1] - text_height - 5), (box[0] + text_width, box[1] - 5), color, -1)
        # Escreve o texto.
        cv2.putText(image_cv, text, (box[0], box[1] - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0,0,0), 1)

    # Exibe a imagem final com as detec√ß√µes usando Matplotlib.
    plt.figure(figsize=(12, 8))
    # Converte a imagem de volta para RGB para exibi√ß√£o correta no Matplotlib.
    plt.imshow(cv2.cvtColor(image_cv, cv2.COLOR_BGR2RGB))
    plt.axis('off') # Remove os eixos.
    plt.show()

# --- PARA USAR ESTA C√âLULA ---
# 1. Fa√ßa upload de uma imagem de teste para o seu notebook.
# 2. Atualize os caminhos abaixo.
# Caminho para o melhor modelo salvo. Verifique se o nome/caminho est√° correto.
best_model_file = os.path.join(config.CHECKPOINT_DIR, 'best_model.pth')
# Caminho para a sua imagem de teste.
test_image_path = "/kaggle/input/coco-dataset/my_data/val/000000000785.jpg" # <--- MUDE AQUI PARA SUA IMAGEM

# Verifica se os arquivos existem antes de tentar rodar o teste.
if os.path.exists(best_model_file) and os.path.exists(test_image_path):
    test_single_image(best_model_file, test_image_path, threshold=0.5)
else:
    print("Arquivo 'best_model.pth' ou imagem de teste n√£o encontrados. Execute o treinamento primeiro e verifique o caminho da imagem.")