# 0.5 Prepara√ß√£o do Dataset (Google Drive)

Nesta vers√£o, o dataset fica armazenado no **Google Drive** do usu√°rio, na mesma pasta
onde est√° o notebook. Assim, evitamos depend√™ncia de token/credenciais do Kaggle
e reduzimos pontos de falha (como upload e autentica√ß√£o).

## Como organizar no Drive (obrigat√≥rio)
Coloque o dataset **extra√≠do** (n√£o zip) em uma pasta, por exemplo:

MyDrive/Ligia_compviz

E dentro da pasta Ligia_compviz estaria:
*   competicao.ipynb
* ligia-compviz <- (DATA_DIR)

‚ö†Ô∏è Observa√ß√£o:
- Cada usu√°rio precisa ter o dataset local no pr√≥prio Drive.


In [None]:
# 0.5.1 Montar Google Drive

from google.colab import drive
drive.mount("/content/drive")

## 0.5.2 Definir o caminho do dataset (DATA_DIR)

Defina abaixo a pasta no Drive onde voc√™ colocou o dataset extra√≠do.
Recomenda√ß√£o: manter o notebook e a pasta do dataset no mesmo diret√≥rio (organiza√ß√£o do projeto).


In [None]:
# 0.5.2 Defina o caminho base do seu projeto no Drive (ajuste s√≥ essa linha)

PROJECT_DIR = "/content/drive/MyDrive/Ligia_compviz"  # <- ajuste para sua pasta
DATA_DIR = f"{PROJECT_DIR}/ligia-compviz"            # <- pasta do dataset extra√≠do

print("PROJECT_DIR:", PROJECT_DIR)
print("DATA_DIR:", DATA_DIR)


## 0.5.3 Sanity Check (estrutura do dataset)

Validamos se os arquivos/pastas essenciais existem antes de seguir.
Isso evita erros comuns como:
- dataset na pasta errada
- dataset ainda zipado
- estrutura diferente do esperado

In [None]:
# 0.5.3 Sanity check enxuto

import os

expected = {
    "train.csv": os.path.join(DATA_DIR, "train.csv"),
    "test.csv": os.path.join(DATA_DIR, "test.csv"),
    "NORMAL dir": os.path.join(DATA_DIR, "train", "train", "NORMAL"),
    "PNEUMONIA dir": os.path.join(DATA_DIR, "train", "train", "PNEUMONIA"),
    "test_images dir": os.path.join(DATA_DIR, "test_images", "test_images"),
}

for name, path in expected.items():
    assert os.path.exists(path), f"‚ùå N√£o encontrado: {name} -> {path}"
print("‚úÖ Estrutura m√≠nima OK.")

# Contagens r√°pidas
n_norm = len(os.listdir(expected["NORMAL dir"]))
n_pne  = len(os.listdir(expected["PNEUMONIA dir"]))
n_test = len(os.listdir(expected["test_images dir"]))

print(f"üìä Contagens: NORMAL={n_norm} | PNEUMONIA={n_pne} | TEST={n_test}")
print("‚úÖ DATA_DIR pronto:", DATA_DIR)


# 1. Setup Experimental

Nesta se√ß√£o realizamos a configura√ß√£o inicial do ambiente experimental.

O objetivo √©:

- Garantir **reprodutibilidade cient√≠fica**
- Importar bibliotecas necess√°rias
- Definir o dispositivo de execu√ß√£o (CPU/GPU)
- Estruturar os caminhos do dataset

Seguindo as diretrizes do edital, fixamos a semente aleat√≥ria (seed = 42) para assegurar consist√™ncia nos resultados ao longo das execu√ß√µes.

Essa etapa √© essencial para garantir:
- Controle experimental
- Robustez metodol√≥gica
- Integridade cient√≠fica


In [None]:
# Bibliotecas Fundamentais
import os
import random
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from PIL import Image

# Deep Learning
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms, models

# M√©tricas
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import roc_auc_score


## 1.1 Reprodutibilidade

Para garantir a consist√™ncia dos experimentos, fixamos a semente aleat√≥ria em todas as bibliotecas relevantes.

Isso evita varia√ß√µes causadas por:

- Inicializa√ß√£o aleat√≥ria dos pesos
- Embaralhamento de dados
- Opera√ß√µes internas do backend CUDA

Essa pr√°tica √© essencial em experimentos cient√≠ficos e ser√° mantida ao longo de todo o projeto.


In [None]:
# Reprodutibilidade
SEED = 42

def seed_everything(seed=SEED):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)

    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

seed_everything(SEED)


## 1.2 Configura√ß√£o do Dispositivo

O treinamento ser√° realizado utilizando GPU quando dispon√≠vel,
de forma a acelerar o processo de otimiza√ß√£o do modelo.

Caso GPU n√£o esteja dispon√≠vel, o c√≥digo executar√° automaticamente em CPU.


In [None]:
# Device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Executando em: {device}")


## 1.3 Estrutura do Dataset

O dataset est√° organizado da seguinte forma:

- `test_images/test_images/` ‚Üí imagens do conjunto de teste (sem r√≥tulos)
- `train/train/NORMAL/` ‚Üí imagens normais
- `train/train/PNEUMONIA/` ‚Üí imagens com pneumonia
- `train/train.csv` ‚Üí arquivo auxiliar
- `train/test.csv` ‚Üí template de submiss√£o

As imagens de treino est√£o separadas por classe em pastas distintas,
permitindo a constru√ß√£o manual de um DataFrame estruturado.


In [None]:
# Paths do Dataset

TEST_IMG_DIR  = os.path.join(DATA_DIR, "test_images/test_images")
TRAIN_ROOT    = os.path.join(DATA_DIR, "train")
TRAIN_IMG_DIR = os.path.join(TRAIN_ROOT, "train")

TRAIN_CSV = os.path.join(DATA_DIR, "train.csv")
TEST_CSV  = os.path.join(DATA_DIR, "test.csv")

print("Test images:", TEST_IMG_DIR)
print("Train images:", TRAIN_IMG_DIR)


## 1.4 Verifica√ß√£o dos Caminhos (Sanity Check)

Antes de iniciar qualquer an√°lise ou treinamento, validamos se os diret√≥rios esperados realmente existem e se cont√™m arquivos.

Essa etapa evita erros comuns, como:
- caminho incorreto no `/kaggle/input/`
- pastas vazias por configura√ß√£o errada do dataset
- diverg√™ncias na estrutura de diret√≥rios


In [None]:
print("TEST_IMG_DIR existe?", os.path.exists(TEST_IMG_DIR))
print("TRAIN_IMG_DIR existe?", os.path.exists(TRAIN_IMG_DIR))

print("\nAmostra de arquivos em test_images:", os.listdir(TEST_IMG_DIR)[:5])
print("Subpastas dentro de train/train:", os.listdir(TRAIN_IMG_DIR))

# contagem r√°pida
print("\nQtd test_images:", len(os.listdir(TEST_IMG_DIR)))
print("Qtd pneumonia:", len(os.listdir(os.path.join(TRAIN_IMG_DIR, "PNEUMONIA"))))
print("Qtd normal:", len(os.listdir(os.path.join(TRAIN_IMG_DIR, "NORMAL"))))


# 2. Entendimento do Problema

A presente competi√ß√£o consiste na classifica√ß√£o de imagens m√©dicas
(Raio-X tor√°cico) quanto √† presen√ßa ou aus√™ncia de pneumonia.

Trata-se de um problema de:

- Classifica√ß√£o bin√°ria
- Dom√≠nio m√©dico
- Potencial impacto cl√≠nico relevante

As classes s√£o:

- 0 ‚Üí Normal
- 1 ‚Üí Pneumonia

---

## 2.1 M√©trica de Avalia√ß√£o

A m√©trica oficial √© a **ROC-AUC (Receiver Operating Characteristic - Area Under the Curve)**.

Isso implica que:

- O modelo deve retornar **probabilidades** da classe positiva (pneumonia).
- N√£o devemos enviar r√≥tulos bin√°rios (0 ou 1).
- A qualidade do ranking das probabilidades √© mais importante do que um threshold fixo.

A ROC-AUC mede a capacidade do modelo de:

> Discriminar corretamente entre imagens normais e imagens com pneumonia ao longo de diferentes limiares de decis√£o.

---

## 2.2 Implica√ß√µes Cl√≠nicas

No contexto m√©dico:

- Falso Negativo ‚Üí paciente com pneumonia classificado como normal (erro grave).
- Falso Positivo ‚Üí paciente saud√°vel classificado como doente (impacto menor, mas relevante).

Portanto, al√©m da ROC-AUC, analisaremos:

- Recall
- Matriz de Confus√£o
- Distribui√ß√£o de erros

Essas an√°lises ser√£o discutidas posteriormente na se√ß√£o de avalia√ß√£o e interpretabilidade.


# 3. An√°lise Explorat√≥ria dos Dados (EDA Visual)

Antes de iniciar o treinamento do modelo, realizamos uma an√°lise explorat√≥ria
visual das imagens dispon√≠veis.

O objetivo desta etapa √©:

- Verificar o balanceamento entre as classes
- Inspecionar padr√µes visuais caracter√≠sticos
- Identificar poss√≠veis varia√ß√µes de resolu√ß√£o
- Observar diferen√ßas estruturais entre casos normais e pneumonia

Essa etapa √© fundamental para fundamentar decis√µes de:
- Pr√©-processamento
- Escolha de arquitetura
- Estrat√©gias de data augmentation


## 3.1 Estrutura do Conjunto de Treino

O conjunto de treino est√° organizado em subpastas por classe, o que facilita a inspe√ß√£o e a cria√ß√£o de um DataFrame para treinamento posteriormente.

- `PNEUMONIA/` ‚Üí classe positiva (1)
- `NORMAL/` ‚Üí classe negativa (0)

Nesta etapa, definimos os caminhos dessas pastas para facilitar a an√°lise explorat√≥ria e garantir consist√™ncia ao longo do notebook.


In [None]:
PNE_DIR = os.path.join(TRAIN_IMG_DIR, "PNEUMONIA")
NOR_DIR = os.path.join(TRAIN_IMG_DIR, "NORMAL")

assert os.path.exists(PNE_DIR), "Pasta PNEUMONIA n√£o encontrada."
assert os.path.exists(NOR_DIR), "Pasta NORMAL n√£o encontrada."

print("PNE_DIR:", PNE_DIR)
print("NOR_DIR:", NOR_DIR)


## 3.2 Distribui√ß√£o das Classes

Nesta etapa, verificamos a quantidade de imagens dispon√≠veis em cada classe.

Essa an√°lise √© importante porque:

- Desbalanceamento pode enviesar o treinamento (modelo ‚Äúaprende‚Äù mais a classe majorit√°ria).
- M√©tricas como ROC-AUC s√£o mais adequadas do que acur√°cia em cen√°rios desbalanceados.
- Pode ser necess√°rio ajustar a fun√ß√£o de perda (ex.: `pos_weight`) ou usar estrat√©gias de valida√ß√£o estratificada.

A seguir, calculamos a contagem e a propor√ß√£o de cada classe e exibimos um gr√°fico para facilitar a interpreta√ß√£o.


In [None]:

# Contagem de imagens por classe a partir das pastas
n_pne = len(os.listdir(PNE_DIR))    # classe positiva (pneumonia)
n_norm = len(os.listdir(NOR_DIR))  # classe negativa (normal)
total = n_pne + n_norm

# Exibi√ß√£o das quantidades brutas
print("Pneumonia:", n_pne)
print("Normal:", n_norm)
print("Total:", total)

# C√°lculo das propor√ß√µes (√∫til para entender desbalanceamento)
p_pne = n_pne / total
p_norm = n_norm / total

print(f"Propor√ß√£o Pneumonia: {p_pne:.3f}")
print(f"Propor√ß√£o Normal: {p_norm:.3f}")

# Plot simples para visualizar rapidamente o desbalanceamento
plt.figure(figsize=(6,4))
plt.bar(["PNEUMONIA (1)", "NORMAL (0)"], [n_pne, n_norm])
plt.title("Distribui√ß√£o das Classes no Treino")
plt.ylabel("Quantidade de Imagens")
plt.show()


## 3.3 Visualiza√ß√£o de Amostras

Nesta etapa, visualizamos algumas imagens aleat√≥rias de cada classe para:

- Identificar padr√µes visuais iniciais (ex.: opacidades, regi√µes esbranqui√ßadas)
- Entender a variabilidade das imagens (contraste, posi√ß√£o, ru√≠do)
- Verificar se existe alguma anomalia (ex.: imagens corrompidas, cortes estranhos)

Essa inspe√ß√£o tamb√©m orienta decis√µes futuras sobre pr√©-processamento e data augmentation.


In [None]:
def show_random_images(folder, title, n=6, seed=SEED):

    #Mostra 'n' imagens aleat√≥rias de uma pasta.
    #- folder: caminho da pasta
    #- title: t√≠tulo exibido no plot
    #- n: quantidade de imagens
    #- seed: para reprodutibilidade da amostra

    random.seed(seed)
    files = os.listdir(folder)
    samples = random.sample(files, k=min(n, len(files)))  # evita erro se n > total

    # Cria uma figura com n colunas
    plt.figure(figsize=(3*n, 3))
    for i, fname in enumerate(samples):
        path = os.path.join(folder, fname)

        # Abre a imagem (convertendo para RGB para evitar problemas de modo)
        img = Image.open(path).convert("RGB")

        # Plot
        plt.subplot(1, len(samples), i+1)
        plt.imshow(img)
        plt.title(title)
        plt.axis("off")

    plt.show()

# Mostra 6 imagens de pneumonia e 6 de normal
show_random_images(PNE_DIR, "PNEUMONIA", n=6)
show_random_images(NOR_DIR, "NORMAL", n=6)


### 3.3 Observa√ß√µes Iniciais (Inspe√ß√£o Visual)

A inspe√ß√£o visual de amostras aleat√≥rias sugere diferen√ßas consistentes entre as classes:

- **PNEUMONIA:** as imagens tendem a apresentar regi√µes mais **esbranqui√ßadas/opacas** no campo pulmonar, compat√≠veis com padr√µes de consolida√ß√£o/infiltra√ß√£o.
- **NORMAL:** em geral observa-se maior presen√ßa de √°reas **mais escuras** (maior ‚Äúpreto‚Äù associado ao ar nos pulm√µes), com melhor defini√ß√£o de estruturas internas.

Entretanto, foi poss√≠vel observar que **algumas imagens normais podem aparecer levemente mais esbranqui√ßadas**, o que pode ocorrer por fatores de aquisi√ß√£o do exame (ex.: incid√™ncia/posi√ß√£o do raio-X, contraste, exposi√ß√£o). Esse comportamento √© relevante pois pode gerar **falsos positivos**, que no contexto cl√≠nico tendem a ser menos graves do que falsos negativos (caso doente classificado como normal).

Al√©m disso, a descri√ß√£o do dataset indica que as imagens foram obtidas de **coortes retrospectivas de pacientes pedi√°tricos (1 a 5 anos) do Guangzhou Women and Children‚Äôs Medical Center**. Isso √© importante porque padr√µes anat√¥micos e a distribui√ß√£o de contraste (propor√ß√£o ‚Äúpreto/branco‚Äù) podem diferir significativamente de exames de adultos, afetando a generaliza√ß√£o do modelo para outras popula√ß√µes. :contentReference[oaicite:1]{index=1}

Por fim, tamb√©m notamos que em imagens normais costuma haver:
- **melhor visualiza√ß√£o do contorno card√≠aco**;
- **ossos mais brancos e n√≠tidos**, o que pode servir como pista visual adicional para o modelo (mas tamb√©m exige cuidado para evitar que o modelo aprenda ‚Äúatalhos‚Äù incorretos).


## 3.4 Resolu√ß√£o e Propor√ß√£o (Aspect Ratio)

Nesta etapa analisamos a resolu√ß√£o (largura x altura) e a propor√ß√£o (W/H) das imagens do treino.

Motiva√ß√µes:

- Definir um tamanho padr√£o de entrada (`IMG_SIZE`) para modelos pr√©-treinados.
- Identificar varia√ß√µes de resolu√ß√£o que podem afetar o pr√©-processamento.
- Avaliar se o `Resize` para um tamanho fixo pode introduzir distor√ß√µes relevantes.

Para tornar a an√°lise r√°pida, usamos uma **amostra** de imagens ao inv√©s de carregar todo o conjunto.


In [None]:
# Configura√ß√µes da amostragem
sample_size = 300
random.seed(SEED)

# Lista de caminhos das imagens (misturando as duas classes)
pne_files = [os.path.join(PNE_DIR, f) for f in os.listdir(PNE_DIR)]
nor_files = [os.path.join(NOR_DIR, f) for f in os.listdir(NOR_DIR)]
all_train_files = pne_files + nor_files

# Amostra aleat√≥ria para acelerar (sem precisar abrir todas as imagens)
sample_paths = random.sample(all_train_files, k=min(sample_size, len(all_train_files)))

# Coleta de dimens√µes
widths, heights, ratios = [], [], []

for path in sample_paths:
    # Abre imagem somente para ler tamanho (leve)
    with Image.open(path) as img:
        w, h = img.size
    widths.append(w)
    heights.append(h)
    ratios.append(w / h)

widths = np.array(widths)
heights = np.array(heights)
ratios = np.array(ratios)

# Estat√≠sticas descritivas
print("Amostra analisada:", len(sample_paths))
print(f"Largura  - min/mediana/m√°x: {widths.min()} / {int(np.median(widths))} / {widths.max()}")
print(f"Altura   - min/mediana/m√°x: {heights.min()} / {int(np.median(heights))} / {heights.max()}")
print(f"Aspect   - min/mediana/m√°x: {ratios.min():.3f} / {np.median(ratios):.3f} / {ratios.max():.3f}")


In [None]:
# Histograma de larguras
plt.figure(figsize=(6,4))
plt.hist(widths, bins=20)
plt.title("Distribui√ß√£o de Largura (amostra)")
plt.xlabel("Largura (pixels)")
plt.ylabel("Frequ√™ncia")
plt.show()

# Histograma de alturas
plt.figure(figsize=(6,4))
plt.hist(heights, bins=20)
plt.title("Distribui√ß√£o de Altura (amostra)")
plt.xlabel("Altura (pixels)")
plt.ylabel("Frequ√™ncia")
plt.show()

# Histograma do aspect ratio (W/H)
plt.figure(figsize=(6,4))
plt.hist(ratios, bins=20)
plt.title("Distribui√ß√£o do Aspect Ratio (W/H) - amostra")
plt.xlabel("W/H")
plt.ylabel("Frequ√™ncia")
plt.show()


### Interpreta√ß√£o

Observamos varia√ß√£o relevante na resolu√ß√£o das imagens (largura e altura), o que exige padroniza√ß√£o antes do treinamento.
A maioria das imagens apresenta aspect ratio entre ~1.25 e 1.75, com alguns outliers mais extremos (at√© ~2.7), indicando que muitas imagens s√£o mais largas do que altas.

Para utilizar modelos pr√©-treinados, √© necess√°rio definir um tamanho de entrada fixo. Inicialmente, adotaremos `Resize` para um tamanho padr√£o (ex.: 224√ó224) como baseline por simplicidade e reprodutibilidade. Em etapas posteriores, poderemos avaliar estrat√©gias que preservem melhor a propor√ß√£o geom√©trica, como padding (letterbox), caso a distor√ß√£o afete a performance.


# 4. Constru√ß√£o do Dataset e Estrat√©gia de Valida√ß√£o

Nesta se√ß√£o constru√≠mos os DataFrames de treino e teste de forma consistente com os arquivos oficiais da competi√ß√£o:

- `train.csv` cont√©m a refer√™ncia oficial (`id`, `label`) para treinamento.
- `test.csv` cont√©m os `id`s esperados no arquivo de submiss√£o.

Al√©m disso:
- validamos se os arquivos existentes nas pastas correspondem aos `id`s dos CSVs;
- montamos o caminho completo de cada imagem (`path`);
- definimos uma estrat√©gia de valida√ß√£o com **StratifiedKFold**, preservando o desbalanceamento de classes em cada fold.


## 4.1 Carregamento dos CSVs Oficiais

Os CSVs fornecidos pela competi√ß√£o s√£o a fonte oficial de:

- `id`: identificador do arquivo (inclui extens√£o `.jpeg`)
- `label`: r√≥tulo bin√°rio no conjunto de treino

Nesta etapa, carregamos os CSVs e inspecionamos seu formato.


In [None]:
# 4.1 Leitura dos CSVs

train_csv = pd.read_csv(TRAIN_CSV)
test_csv  = pd.read_csv(TEST_CSV)

display(train_csv.head())
display(test_csv.head())

print("Colunas train.csv:", train_csv.columns.tolist())
print("Colunas test.csv:", test_csv.columns.tolist())
print("Shapes:", train_csv.shape, test_csv.shape)


## 4.2 Constru√ß√£o do DataFrame de Treino (`df_train`)

Constru√≠mos `df_train` a partir do `train.csv`, garantindo que:

- cada `id` tenha um arquivo correspondente na pasta de imagens;
- o `label` utilizado √© o r√≥tulo oficial fornecido pela competi√ß√£o.

Tamb√©m criamos a coluna `path` com o caminho completo da imagem para uso no DataLoader.


In [None]:
# 4.2 df_train: CSV -> path

# Conjunto de arquivos existentes nas pastas (ids com extens√£o)
files_pne = set(os.listdir(PNE_DIR))
files_nor = set(os.listdir(NOR_DIR))
files_all = files_pne | files_nor

# Checagem: todo id do train.csv precisa existir nas pastas
missing_train_files = set(train_csv["id"]) - files_all
print("Arquivos do train.csv que N√ÉO est√£o nas pastas:", len(missing_train_files))
assert len(missing_train_files) == 0, "Existem ids no train.csv sem arquivo correspondente nas pastas."

# Fun√ß√£o para criar o path correto de cada id
def build_train_path(img_id: str) -> str:
    # Decide se o arquivo est√° em PNE_DIR ou NOR_DIR
    if img_id in files_pne:
        return os.path.join(PNE_DIR, img_id)
    elif img_id in files_nor:
        return os.path.join(NOR_DIR, img_id)
    else:
        # Isso n√£o deveria acontecer por causa do assert acima
        return None

df_train = train_csv.copy()
df_train["path"] = df_train["id"].apply(build_train_path)

# Checagem final: nenhum path pode ficar nulo
assert df_train["path"].isna().sum() == 0, "Alguns paths ficaram nulos. Verifique as pastas."

# Embaralha para n√£o ficar com blocos ordenados
df_train = df_train.sample(frac=1, random_state=SEED).reset_index(drop=True)

print("df_train shape:", df_train.shape)
df_train.head()


## 4.3 Constru√ß√£o do DataFrame de Teste (`df_test`)

No conjunto de teste, os r√≥tulos n√£o s√£o fornecidos. O objetivo √©:

- associar cada `id` do `test.csv` ao respectivo arquivo na pasta `test_images`;
- garantir que os `ids` utilizados na submiss√£o sigam exatamente o formato esperado (incluindo `.jpeg`).


In [None]:
# 4.3 df_test: test.csv -> path

# Arquivos dispon√≠veis na pasta de teste
test_files_in_dir = set(os.listdir(TEST_IMG_DIR))

# Checagem: todo id do test.csv precisa existir na pasta
missing_test_files = set(test_csv["id"]) - test_files_in_dir
print("Arquivos do test.csv que N√ÉO est√£o na pasta:", len(missing_test_files))
assert len(missing_test_files) == 0, "Existem ids no test.csv sem arquivo correspondente em test_images."

df_test = test_csv.copy()  # mant√©m o id oficial
df_test["path"] = df_test["id"].apply(lambda x: os.path.join(TEST_IMG_DIR, x))

print("df_test shape:", df_test.shape)
df_test.head()


## 4.4 Valida√ß√£o com StratifiedKFold

Como o dataset √© desbalanceado, utilizamos **StratifiedKFold** para que cada fold mantenha uma propor√ß√£o de classes semelhante ao conjunto original.

Isso melhora a confiabilidade da valida√ß√£o e reduz varia√ß√µes artificiais entre folds.


In [None]:
# 4.4 Cria√ß√£o dos folds

N_SPLITS = 5

skf = StratifiedKFold(n_splits=N_SPLITS, shuffle=True, random_state=SEED)

df_train["fold"] = -1  # coluna para guardar o fold de cada amostra

for fold, (_, val_idx) in enumerate(skf.split(df_train["path"], df_train["label"])):
    df_train.loc[val_idx, "fold"] = fold

# Checagem: distribui√ß√£o de classes por fold (deve ser semelhante)
for f in range(N_SPLITS):
    counts = df_train[df_train["fold"] == f]["label"].value_counts(normalize=True)
    print(f"Fold {f} propor√ß√µes:\n{counts}\n")

df_train.head()


# 5. Pr√©-processamento e DataLoaders

Nesta se√ß√£o definimos como as imagens ser√£o preparadas antes de entrarem no modelo.

Inclui:

- Defini√ß√£o do tamanho padr√£o da imagem (`IMG_SIZE`)
- Transforma√ß√µes para treino (com data augmentation controlado)
- Transforma√ß√µes para valida√ß√£o/teste (sem augmentation)
- Cria√ß√£o de um `Dataset` customizado e `DataLoader`

Como utilizaremos modelos pr√©-treinados, aplicamos normaliza√ß√£o compat√≠vel com ImageNet.
Al√©m disso, aplicamos augmentation apenas no treino para melhorar generaliza√ß√£o,
mantendo valida√ß√£o/teste determin√≠sticos.


## 5.1 Transforma√ß√µes (Transforms)

Como vimos no EDA, as imagens possuem resolu√ß√µes e aspect ratios variados.
Para alimentar redes neurais, padronizamos o tamanho.

- **Treino:** inclui augmentations leves (ex.: rota√ß√£o pequena e flip horizontal),
  visando robustez a varia√ß√µes de aquisi√ß√£o.
- **Valida√ß√£o/Teste:** apenas resize + normaliza√ß√£o, para medir desempenho de forma est√°vel.


In [None]:
IMG_SIZE = 224  # baseline comum em modelos pr√©-treinados (ResNet/EfficientNet)

# Transforma√ß√µes do treino (com augmentation leve)
train_tfms = transforms.Compose([
    transforms.Resize((IMG_SIZE, IMG_SIZE)),        # padroniza o tamanho
    transforms.RandomHorizontalFlip(p=0.5),          # varia√ß√£o leve (n√£o altera anatomia verticalmente)
    transforms.RandomRotation(degrees=10),           # rota√ß√£o pequena (simula varia√ß√£o de posicionamento)
    transforms.ToTensor(),                          # converte para tensor [0,1]
    transforms.Normalize([0.485, 0.456, 0.406],      # normaliza√ß√£o ImageNet
                         [0.229, 0.224, 0.225]),
])

# Transforma√ß√µes para valida√ß√£o e teste (sem augmentation)
valid_tfms = transforms.Compose([
    transforms.Resize((IMG_SIZE, IMG_SIZE)),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406],
                         [0.229, 0.224, 0.225]),
])


## 5.2 Dataset Customizado

Criamos um Dataset customizado para:

- Ler imagens a partir da coluna `path`
- Retornar `(imagem, label)` no treino/valida√ß√£o
- Retornar apenas `imagem` no teste

A convers√£o para `RGB` √© utilizada para compatibilidade direta com modelos pr√©-treinados em ImageNet.


In [None]:
class XRayDataset(Dataset):
    def __init__(self, df, transform=None, has_label=True):

        # df: DataFrame com colunas:
        # - path (obrigat√≥rio)
        # - label (se has_label=True)

        self.df = df.reset_index(drop=True)
        self.transform = transform
        self.has_label = has_label

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        row = self.df.iloc[idx]

        # Abre imagem e converte para RGB (compat√≠vel com modelos ImageNet)
        img = Image.open(row["path"]).convert("RGB")

        # Aplica transforma√ß√µes
        if self.transform:
            img = self.transform(img)

        # Se houver label (treino/valida√ß√£o), retorna (img, label)
        if self.has_label:
            y = torch.tensor(row["label"], dtype=torch.float32)
            return img, y

        # Caso teste, retorna apenas imagem
        return img


## 5.3 DataLoaders com Separa√ß√£o por Fold

Usaremos a coluna `fold` criada na Se√ß√£o 4 para separar treino e valida√ß√£o.

Isso garante que:
- treino e valida√ß√£o s√£o disjuntos
- a valida√ß√£o preserva a distribui√ß√£o de classes (stratified)


In [None]:
def make_loaders(df_train, fold=0, batch_size=32, num_workers=2):
    # Separa treino e valida√ß√£o
    df_tr = df_train[df_train["fold"] != fold].reset_index(drop=True)
    df_va = df_train[df_train["fold"] == fold].reset_index(drop=True)

    # Cria datasets
    ds_tr = XRayDataset(df_tr, transform=train_tfms, has_label=True)
    ds_va = XRayDataset(df_va, transform=valid_tfms, has_label=True)

    # DataLoaders
    dl_tr = DataLoader(ds_tr, batch_size=batch_size, shuffle=True,
                       num_workers=num_workers, pin_memory=True)
    dl_va = DataLoader(ds_va, batch_size=batch_size, shuffle=False,
                       num_workers=num_workers, pin_memory=True)

    return dl_tr, dl_va

# Exemplo: loaders do fold 0
train_loader, valid_loader = make_loaders(df_train, fold=0, batch_size=32)

# Test loader
test_dataset = XRayDataset(df_test, transform=valid_tfms, has_label=False)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False, num_workers=2, pin_memory=True)

print("Train batches:", len(train_loader))
print("Valid batches:", len(valid_loader))
print("Test batches :", len(test_loader))


# 6. Modelagem e Treinamento

Nesta se√ß√£o definimos e treinamos um modelo de Deep Learning para classificar
imagens de raio-X tor√°cico em:

- 0 ‚Üí Normal
- 1 ‚Üí Pneumonia

Como estrat√©gia principal, utilizamos **Transfer Learning** com uma rede pr√©-treinada em ImageNet.
Isso √© √∫til pois o dataset n√£o √© gigantesco e o modelo pr√©-treinado j√° possui filtros visuais
√∫teis (bordas, texturas, padr√µes), acelerando a converg√™ncia.

A sa√≠da do modelo ser√° um **score cont√≠nuo** (logit), que ser√° convertido em probabilidade via sigmoide.
A m√©trica de valida√ß√£o ser√° a **ROC-AUC**, compat√≠vel com a avalia√ß√£o da competi√ß√£o.


## 6.1 Arquitetura do Modelo

Usaremos a EfficientNet-B0 pr√©-treinada. Substitu√≠mos a camada final para produzir 1 logit:

- logit ‚Üí `sigmoid(logit)` = probabilidade de pneumonia

Essa configura√ß√£o √© adequada para classifica√ß√£o bin√°ria com `BCEWithLogitsLoss`,
que aplica internamente a sigmoide de forma numericamente est√°vel.


In [None]:
import torchvision.models as models
import torch.nn as nn

def build_model():
    # Carrega EfficientNet-B0 pr√©-treinada
    model = models.efficientnet_b0(weights=models.EfficientNet_B0_Weights.IMAGENET1K_V1)

    # Troca a camada final para sa√≠da bin√°ria (1 logit)
    in_features = model.classifier[1].in_features
    model.classifier[1] = nn.Linear(in_features, 1)

    return model


## 6.2 Fun√ß√£o de Perda e Otimizador

Como o dataset √© desbalanceado (maioria pneumonia), utilizamos `pos_weight` na loss
para penalizar mais erros na classe positiva (pneumonia).

A loss escolhida √©:

- `BCEWithLogitsLoss(pos_weight=...)`

Otimizador:
- `AdamW` (boa estabilidade e regulariza√ß√£o via weight decay)

Scheduler:
- `CosineAnnealingLR` (reduz a taxa de aprendizado suavemente ao longo das √©pocas)


In [None]:
import torch
from torch.optim import AdamW
from torch.optim.lr_scheduler import CosineAnnealingLR

def get_criterion(df):
    # Calcula pos_weight = (negativos / positivos)
    pos = (df["label"] == 1).sum()
    neg = (df["label"] == 0).sum()
    pos_weight = torch.tensor([neg / pos], device=device, dtype=torch.float32)

    print("pos_weight:", pos_weight.item())
    return nn.BCEWithLogitsLoss(pos_weight=pos_weight)

criterion = get_criterion(df_train)


## 6.3 Treino e Valida√ß√£o

Durante o treino, o modelo recebe imagens e retorna logits.
Na valida√ß√£o, convertemos logits em probabilidades usando `sigmoid` e calculamos ROC-AUC.

Importante:
- ROC-AUC usa **scores cont√≠nuos** (probabilidades), n√£o r√≥tulos 0/1.


In [None]:
from sklearn.metrics import roc_auc_score
import numpy as np

def train_one_epoch(model, loader, optimizer):
    model.train()
    running_loss = 0.0

    for x, y in loader:
        x = x.to(device)
        y = y.to(device).unsqueeze(1)  # shape (B,1)

        optimizer.zero_grad()

        logits = model(x)             # sa√≠da: logit
        loss = criterion(logits, y)   # BCEWithLogitsLoss

        loss.backward()
        optimizer.step()

        running_loss += loss.item() * x.size(0)

    return running_loss / len(loader.dataset)

@torch.no_grad()
def valid_one_epoch(model, loader):
    model.eval()
    probs = []
    ys = []

    for x, y in loader:
        x = x.to(device)

        logits = model(x)
        p = torch.sigmoid(logits).cpu().numpy().ravel()  # probabilidade de pneumonia

        probs.append(p)
        ys.append(y.numpy().ravel())

    probs = np.concatenate(probs)
    ys = np.concatenate(ys)

    auc = roc_auc_score(ys, probs)
    return auc

## 6.4 Treinamento Inicial (Fold √∫nico)

Primeiro treinamos em um √∫nico fold para validar o pipeline completo:

- DataLoader
- Modelo
- Loss
- AUC

Ap√≥s confirmar que est√° funcionando, expandiremos para 5 folds e ensemble.


In [None]:
# Configura√ß√£o inicial (Fold √∫nico) + salvar best_state

FOLD = 0
EPOCHS = 3
LR = 3e-4
BATCH_SIZE = 32

train_loader, valid_loader = make_loaders(df_train, fold=FOLD, batch_size=BATCH_SIZE)

model = build_model().to(device)
optimizer = AdamW(model.parameters(), lr=LR, weight_decay=1e-4)
scheduler = CosineAnnealingLR(optimizer, T_max=EPOCHS)

best_auc = -1
best_state = None  # garante que existe mesmo se algo der errado

for epoch in range(1, EPOCHS + 1):
    train_loss = train_one_epoch(model, train_loader, optimizer)
    val_auc = valid_one_epoch(model, valid_loader)
    scheduler.step()

    print(f"Epoch {epoch}/{EPOCHS} | loss={train_loss:.4f} | val_auc={val_auc:.4f}")

    # Salva o melhor checkpoint (na CPU para economizar VRAM e facilitar reutiliza√ß√£o)
    if val_auc > best_auc:
        best_auc = val_auc
        best_state = {k: v.detach().cpu().clone() for k, v in model.state_dict().items()}

print("Best AUC:", best_auc)

# Recarrega o melhor estado no modelo (para garantir que o 'model' final √© o melhor)
model.load_state_dict(best_state)
model = model.to(device)
print("‚úÖ Best model carregado no objeto 'model'.")

# (Opcional) Salvar em arquivo para usar depois (Se√ß√£o 7 / Grad-CAM) sem retreinar
torch.save(best_state, f"best_model_fold{FOLD}.pth")
print(f"‚úÖ Checkpoint salvo em: best_model_fold{FOLD}.pth")


## 6.5 Treinamento com Valida√ß√£o Cruzada (5-Fold) e Ensemble

Para aumentar robustez e reduzir vari√¢ncia do modelo, treinamos 1 modelo por fold.

Para o conjunto de teste, geramos probabilidades com cada modelo e tiramos a m√©dia (ensemble),
o que normalmente melhora a performance em competi√ß√µes Kaggle.

Nesta etapa registramos:
- AUC de cada fold
- AUC m√©dio
- Probabilidades finais no teste (m√©dia dos folds)


In [None]:
@torch.no_grad()
def predict_proba(model, loader):
    #Retorna probabilidades (sigmoid) para todos os itens do loader, na ordem.
    model.eval()
    all_probs = []
    for batch in loader:
        # batch pode ser (x,y) ou s√≥ x (teste)
        if isinstance(batch, (list, tuple)) and len(batch) == 2:
            x, _ = batch
        else:
            x = batch

        x = x.to(device)
        logits = model(x)
        probs = torch.sigmoid(logits).detach().cpu().numpy().ravel()
        all_probs.append(probs)

    return np.concatenate(all_probs)


In [None]:
N_SPLITS = 5
EPOCHS = 3
LR = 3e-4
BATCH_SIZE = 32
NUM_WORKERS = 2

fold_aucs = []
test_pred_folds = []

best_states = []        # guarda best_state em mem√≥ria (opcional, mas √∫til)
val_probs_folds = []    # (opcional) probs de valida√ß√£o por fold
val_true_folds = []     # (opcional) labels verdadeiros por fold

# dataset/loader de teste
test_dataset = XRayDataset(df_test, transform=valid_tfms, has_label=False)
test_loader = DataLoader(
    test_dataset,
    batch_size=BATCH_SIZE,
    shuffle=False,
    num_workers=NUM_WORKERS,
    pin_memory=(device.type == "cuda")
)

for fold in range(N_SPLITS):
    print(f"\n==================== FOLD {fold} ====================")

    # Loaders do fold atual
    train_loader, valid_loader = make_loaders(
        df_train, fold=fold, batch_size=BATCH_SIZE, num_workers=NUM_WORKERS
    )

    # Modelo + otimizador + scheduler
    model = build_model().to(device)
    optimizer = AdamW(model.parameters(), lr=LR, weight_decay=1e-4)
    scheduler = CosineAnnealingLR(optimizer, T_max=EPOCHS)

    best_auc = -1
    best_state = None

    for epoch in range(1, EPOCHS + 1):
        train_loss = train_one_epoch(model, train_loader, optimizer)
        val_auc = valid_one_epoch(model, valid_loader)
        scheduler.step()

        print(f"Epoch {epoch}/{EPOCHS} | loss={train_loss:.4f} | val_auc={val_auc:.4f}")

        if val_auc > best_auc:
            best_auc = val_auc
            best_state = {k: v.detach().cpu().clone() for k, v in model.state_dict().items()}

    # Guarda AUC do fold
    fold_aucs.append(best_auc)
    print(f"Best AUC (fold {fold}): {best_auc:.6f}")

    # Salva best_state em mem√≥ria (opcional)
    best_states.append(best_state)

    # Salva best_state em arquivo (recomendado)
    ckpt_path = f"best_model_fold{fold}.pth"
    torch.save(best_state, ckpt_path)
    print(f"‚úÖ Checkpoint salvo em: {ckpt_path}")

    # Carrega melhor estado e prediz no teste
    model.load_state_dict(best_state)
    model = model.to(device)

    test_probs = predict_proba(model, test_loader)
    test_pred_folds.append(test_probs)

    # (Opcional) salvar probs da valida√ß√£o (para Se√ß√£o 7 sem retrain)
    df_va = df_train[df_train["fold"] == fold].reset_index(drop=True)
    val_probs = predict_proba(model, valid_loader)  # valid_loader j√° est√° no fold certo e sem shuffle
    val_probs_folds.append(val_probs)
    val_true_folds.append(df_va["label"].values)

# Resultado final
print("\nAUCs por fold:", [round(float(a), 6) for a in fold_aucs])
print("AUC m√©dio:", float(np.mean(fold_aucs)))

# Ensemble (m√©dia das probabilidades dos folds)
test_pred_mean = np.mean(np.stack(test_pred_folds, axis=0), axis=0)
print("test_pred_mean shape:", test_pred_mean.shape)


# 7. Avalia√ß√£o e An√°lise de Erros (Fold 0)

A m√©trica principal da competi√ß√£o √© ROC-AUC, que mede a capacidade do modelo de ranquear corretamente
exemplos positivos acima de negativos, sem exigir um limiar (threshold) fixo.

Entretanto, para interpretar o comportamento do modelo em um cen√°rio de decis√£o bin√°ria
(e para o relat√≥rio), tamb√©m avaliamos m√©tricas dependentes de threshold:

- Matriz de confus√£o (TN, FP, FN, TP)
- Precision, Recall, F1-score
- An√°lise qualitativa de erros (FP e FN)

**Observa√ß√£o importante:** escolher um threshold √© uma decis√£o de "m√©trica de neg√≥cio".
Em aplica√ß√µes m√©dicas, geralmente buscamos **alto recall** (reduzir falsos negativos),
mesmo que isso aumente falsos positivos.


## 7.1 Probabilidades na valida√ß√£o (Fold 0)

Nesta etapa:
1. Selecionamos o conjunto de valida√ß√£o do fold 0 (definido pelo StratifiedKFold).
2. Carregamos o checkpoint salvo (`best_model_fold0.pth`).
3. Geramos probabilidades para cada imagem do fold 0:

- O modelo retorna **logits** (valores reais).
- Aplicamos `sigmoid(logit)` para obter **probabilidade** de pneumonia.

Essas probabilidades ser√£o usadas para ROC-AUC, matriz de confus√£o e an√°lise de erros.


In [None]:
# 7.1 Gerar probabilidades na valida√ß√£o (Fold 0)

FOLD_ANALYSIS = 0
BATCH_SIZE = 32
NUM_WORKERS = 2

# 1) Filtra os dados do fold 0 (valida√ß√£o)
df_va = df_train[df_train["fold"] == FOLD_ANALYSIS].reset_index(drop=True)

# 2) DataLoader da valida√ß√£o (sem shuffle para manter a ordem)
val_dataset = XRayDataset(df_va, transform=valid_tfms, has_label=True)
val_loader = DataLoader(
    val_dataset,
    batch_size=BATCH_SIZE,
    shuffle=False,
    num_workers=NUM_WORKERS,
    pin_memory=(device.type == "cuda")
)

# 3) Carrega checkpoint salvo do melhor modelo (fold 0)
state = torch.load("best_model_fold0.pth", map_location="cpu")

model = build_model().to(device)
model.load_state_dict(state)
model.eval()

# 4) Gera probabilidades p(y=1) usando sigmoid(logits)
val_probs = predict_proba(model, val_loader)  # shape (N,)
val_true  = df_va["label"].values             # shape (N,)

print("val_probs shape:", val_probs.shape)
print("ROC-AUC (fold 0):", roc_auc_score(val_true, val_probs))


## 7.2 M√©tricas com threshold (0.5)

Como baseline, usamos threshold = 0.5:

- Se `p >= 0.5`, o modelo prediz pneumonia (classe 1).
- Caso contr√°rio, prediz normal (classe 0).

A matriz de confus√£o segue o padr√£o:

[[TN, FP],
 [FN, TP]]

Onde:
- **FN** (falso negativo) √© o caso mais cr√≠tico: pneumonia predita como normal.
- **FP** (falso positivo) pode gerar alarme indevido, mas √© menos cr√≠tico em triagem.


In [None]:
# 7.2 Matriz de confus√£o + relat√≥rio (threshold=0.5)

from sklearn.metrics import confusion_matrix, classification_report

thr = 0.5

# Converte probabilidade em predi√ß√£o bin√°ria
val_pred = (val_probs >= thr).astype(int)

# Matriz de confus√£o
cm = confusion_matrix(val_true, val_pred)
print("Confusion Matrix [[TN, FP],[FN, TP]]:\n", cm)

# Relat√≥rio completo: precision/recall/f1 por classe
print("\nClassification Report:\n")
print(classification_report(val_true, val_pred, digits=4))


## 7.3 Ajuste de threshold focando recall (m√©trica de neg√≥cio)

Como ROC-AUC √© independente de threshold, a escolha de limiar √© uma decis√£o do sistema.

Aqui testamos v√°rios thresholds e escolhemos aquele que maximiza **recall** na valida√ß√£o.
Isso tende a reduzir FN (mais seguran√ßa), por√©m aumenta FP.


In [None]:
# 7.3 Buscar threshold que maximize recall

thresholds = np.linspace(0.05, 0.95, 19)

best_thr = 0.5
best_recall = -1
best_tuple = None  # (tn, fp, fn, tp)

for t in thresholds:
    pred = (val_probs >= t).astype(int)
    tn, fp, fn, tp = confusion_matrix(val_true, pred).ravel()

    # Recall = TP / (TP + FN)
    recall = tp / (tp + fn + 1e-9)

    if recall > best_recall:
        best_recall = recall
        best_thr = t
        best_tuple = (tn, fp, fn, tp)

tn, fp, fn, tp = best_tuple
print("Melhor threshold (max recall):", best_thr)
print(f"TN={tn} FP={fp} FN={fn} TP={tp}")
print("Recall nesse threshold:", best_recall)


## 7.4 Inspe√ß√£o visual de erros (FP e FN)

Para interpretar os erros, exibimos imagens classificadas incorretamente:

- **Falsos Positivos (FP):** normal predito como pneumonia
- **Falsos Negativos (FN):** pneumonia predito como normal (mais cr√≠tico)

Nos gr√°ficos, mostramos `p=...` acima de cada imagem:

- `p` √© a probabilidade prevista de pneumonia (`target`).
- Ex.: `p=0.62` significa que o modelo estimou 62% de chance de pneumonia.

A inspe√ß√£o visual ajuda a entender:
- padr√µes de erro associados a contraste/exposi√ß√£o do raio X
- casos amb√≠guos e ‚Äúdif√≠ceis‚Äù
- poss√≠veis atalhos (spurious correlations) que o modelo pode estar usando


In [None]:
# 7.4 Mostrar exemplos de FP/FN para an√°lise de erro

def show_examples(df_va, y_true, y_prob, kind="FN", thr=0.5, n=6):

    #Exibe exemplos de erros com a probabilidade prevista p(y=1) no t√≠tulo.

    #kind="FN": y=1 e pred=0
    #kind="FP": y=0 e pred=1

    y_pred = (y_prob >= thr).astype(int)

    if kind == "FN":
        idx = np.where((y_true == 1) & (y_pred == 0))[0]
        title = "Falsos Negativos (Pneumonia ‚Üí Normal)"
    else:
        idx = np.where((y_true == 0) & (y_pred == 1))[0]
        title = "Falsos Positivos (Normal ‚Üí Pneumonia)"

    if len(idx) == 0:
        print(f"Nenhum exemplo de {kind} encontrado nesse threshold.")
        return

    # Seleciona os exemplos mais pr√≥ximos do threshold (casos mais amb√≠guos)
    idx = sorted(idx, key=lambda i: abs(y_prob[i] - thr))[:n]

    plt.figure(figsize=(3*n, 3))
    for j, k in enumerate(idx):
        path = df_va.loc[k, "path"]
        img = Image.open(path).convert("RGB")

        plt.subplot(1, len(idx), j+1)
        plt.imshow(img)
        plt.title(f"p={y_prob[k]:.2f}")
        plt.axis("off")

    plt.suptitle(title)
    plt.show()

# Use thr=0.5 para a an√°lise padr√£o
show_examples(df_va, val_true, val_probs, kind="FP", thr=0.5, n=6)
show_examples(df_va, val_true, val_probs, kind="FN", thr=0.5, n=6)


# 8. Interpretabilidade (XAI) com Grad-CAM

Para entender melhor como o modelo toma decis√µes, aplicamos Grad-CAM (Gradient-weighted Class Activation Mapping).

O Grad-CAM produz um mapa de calor que indica as regi√µes da imagem que mais contribu√≠ram para a predi√ß√£o.
Isso √© √∫til para:

- validar se o modelo est√° focando em regi√µes clinicamente plaus√≠veis (ex.: √°reas pulmonares);
- investigar erros (FP e FN) e poss√≠veis "atalhos" (artefatos, bordas, textos, contraste);
- enriquecer o relat√≥rio com interpretabilidade, conectando m√©tricas com explica√ß√µes visuais.

Nesta se√ß√£o:
- carregamos o melhor modelo do fold 0 (checkpoint salvo);
- selecionamos exemplos (TP, FP, FN) do fold 0;
- geramos mapas Grad-CAM e sobrepomos na imagem original.


## 8.1 Carregar modelo (Fold 0)

Usaremos o mesmo checkpoint utilizado na Se√ß√£o 7 (`best_model_fold0.pth`) para garantir consist√™ncia:
as explica√ß√µes (Grad-CAM) refletem exatamente o modelo avaliado.


In [None]:
# Carrega o checkpoint do fold 0
state = torch.load("best_model_fold0.pth", map_location="cpu")

model = build_model().to(device)
model.load_state_dict(state)
model.eval();

print("‚úÖ Modelo do fold 0 carregado para Grad-CAM.")


## 8.2 Implementa√ß√£o do Grad-CAM

O Grad-CAM usa:
- as ativa√ß√µes de uma camada convolucional (feature maps)
- os gradientes da sa√≠da (classe positiva) em rela√ß√£o a essas ativa√ß√µes

Em seguida, calcula um mapa de calor 2D (H√óW) que indica a contribui√ß√£o de cada regi√£o.

Escolhemos como camada alvo a √∫ltima camada convolucional da EfficientNet (√∫ltimo bloco em `model.features`),
pois ela costuma capturar padr√µes de alto n√≠vel relevantes para a decis√£o.


In [None]:
class GradCAM:

    # Implementa√ß√£o simples de Grad-CAM para um modelo PyTorch.
    # Funciona bem para arquiteturas conv (como EfficientNet/ResNet).

    def __init__(self, model, target_layer):
        self.model = model
        self.target_layer = target_layer

        self.activations = None
        self.gradients = None

        # Hook: captura ativa√ß√µes no forward
        def forward_hook(module, inp, out):
            self.activations = out.detach()

        # Hook: captura gradientes no backward
        def backward_hook(module, grad_in, grad_out):
            # grad_out √© uma tupla; grad_out[0] √© o gradiente das ativa√ß√µes
            self.gradients = grad_out[0].detach()

        self.fwd_handle = self.target_layer.register_forward_hook(forward_hook)
        self.bwd_handle = self.target_layer.register_full_backward_hook(backward_hook)

    def remove_hooks(self):
        self.fwd_handle.remove()
        self.bwd_handle.remove()

    def __call__(self, x):

        # x: tensor (1, C, H, W) j√° transformado/normalizado.
        # Retorna:
        # - cam: heatmap 2D normalizado [0,1] (H, W)
        # - prob: probabilidade prevista p(y=1)

        self.model.zero_grad()

        # Forward: logits
        logits = self.model(x)                  # shape (1,1)
        prob = torch.sigmoid(logits).item()

        # Backward: gradiente do logit da classe positiva (pneumonia)
        logits.backward(torch.ones_like(logits))

        # Ativa√ß√µes e gradientes: (1, C, h, w)
        A = self.activations
        dA = self.gradients

        # Pesos = m√©dia global dos gradientes por canal: (C,)
        weights = dA.mean(dim=(2, 3), keepdim=True)  # (1, C, 1, 1)

        # Combina√ß√£o ponderada dos mapas: (1, 1, h, w)
        cam = (weights * A).sum(dim=1, keepdim=True)

        # ReLU (mant√©m apenas contribui√ß√µes positivas)
        cam = torch.relu(cam)

        # Normaliza para [0,1]
        cam = cam.squeeze().cpu().numpy()
        cam = (cam - cam.min()) / (cam.max() - cam.min() + 1e-9)

        return cam, prob


## 8.3 Visualiza√ß√£o

Para visualizar o Grad-CAM:
- carregamos a imagem original (para exibi√ß√£o)
- aplicamos as transforma√ß√µes de valida√ß√£o (`valid_tfms`) para alimentar o modelo
- geramos o mapa Grad-CAM em baixa resolu√ß√£o e fazemos resize para o tamanho da imagem exibida
- sobrepomos o heatmap na imagem original


In [None]:
import cv2

def load_image_rgb(path):
    # Carrega imagem como RGB (PIL).
    return Image.open(path).convert("RGB")

def tensor_from_path(path):
    # Aplica valid_tfms e retorna tensor (1,C,H,W).
    img = load_image_rgb(path)
    x = valid_tfms(img).unsqueeze(0).to(device)
    return x

def overlay_heatmap_on_image(img_pil, cam, alpha=0.4):

    # Sobrep√µe o heatmap (cam) em uma imagem PIL.
    # cam: array 2D em [0,1]

    img = np.array(img_pil)  # (H,W,3) RGB
    H, W = img.shape[:2]

    # Redimensiona CAM para o tamanho da imagem
    cam_resized = cv2.resize(cam, (W, H))

    # Converte cam em heatmap colorido (colormap)
    heatmap = cv2.applyColorMap(np.uint8(255 * cam_resized), cv2.COLORMAP_JET)
    heatmap = cv2.cvtColor(heatmap, cv2.COLOR_BGR2RGB)

    # Combina imagem + heatmap
    overlay = (1 - alpha) * img + alpha * heatmap
    overlay = np.clip(overlay, 0, 255).astype(np.uint8)

    return overlay

def show_gradcam(path, cam, prob, title=""):
    # Exibe imagem original e imagem com overlay do Grad-CAM.
    img = load_image_rgb(path)
    overlay = overlay_heatmap_on_image(img, cam, alpha=0.4)

    plt.figure(figsize=(10, 4))
    plt.subplot(1, 2, 1)
    plt.imshow(img)
    plt.title("Original")
    plt.axis("off")

    plt.subplot(1, 2, 2)
    plt.imshow(overlay)
    plt.title(f"{title}\n p(pneumonia)={prob:.3f}")
    plt.axis("off")
    plt.show()


## 8.4 Sele√ß√£o de exemplos para an√°lise (TP / FP / FN)

Usamos as probabilidades da valida√ß√£o (Se√ß√£o 7) para selecionar exemplos representativos:
- **TP**: pneumonia correta com alta confian√ßa
- **FP**: normal predito como pneumonia (erro)
- **FN**: pneumonia predito como normal (erro mais cr√≠tico)

Isso facilita escolher casos informativos sem sele√ß√£o manual.


In [None]:
# 8.4 Seleciona √≠ndices de TP/FP/FN com threshold 0.5

thr = 0.5
val_pred = (val_probs >= thr).astype(int)

# √≠ndices por tipo
tp_idx = np.where((val_true == 1) & (val_pred == 1))[0]
fp_idx = np.where((val_true == 0) & (val_pred == 1))[0]
fn_idx = np.where((val_true == 1) & (val_pred == 0))[0]

print("TP:", len(tp_idx), "FP:", len(fp_idx), "FN:", len(fn_idx))

# Escolhas "informativas":
# - TP mais confiante: maior prob
tp_best = tp_idx[np.argmax(val_probs[tp_idx])] if len(tp_idx) else None

# - FP mais confiante: maior prob (modelo muito certo e mesmo assim errou)
fp_best = fp_idx[np.argmax(val_probs[fp_idx])] if len(fp_idx) else None

# - FN mais "perigoso": menor prob (modelo muito certo que √© normal, mas era pneumonia)
fn_best = fn_idx[np.argmin(val_probs[fn_idx])] if len(fn_idx) else None

tp_best, fp_best, fn_best


## 8.5 Grad-CAM nos exemplos selecionados

Geramos o Grad-CAM para cada caso e verificamos se as regi√µes destacadas fazem sentido.

Idealmente:
- casos de pneumonia: o modelo deve destacar regi√µes pulmonares com opacidades/infiltrados;
- casos normais: o foco n√£o deveria estar em bordas, marcas ou regi√µes fora do t√≥rax.

Em erros (FP/FN), analisamos se o modelo foi "enganado" por contraste, exposi√ß√£o ou artefatos.


In [None]:
# 8.5 Executar Grad-CAM

# camada alvo: √∫ltimo bloco convolucional da EfficientNet
target_layer = model.features[-1]

gradcam = GradCAM(model, target_layer)

def run_one(idx, label_name):
    if idx is None:
        print(f"Sem exemplo dispon√≠vel para {label_name}.")
        return
    path = df_va.loc[idx, "path"]
    x = tensor_from_path(path)

    # Ativa gradiente (necess√°rio para Grad-CAM)
    model.zero_grad()
    cam, prob = gradcam(x)

    # t√≠tulo: tipo + classe verdadeira
    y_true = int(df_va.loc[idx, "label"])
    title = f"{label_name} | y_true={y_true}"
    show_gradcam(path, cam, prob, title=title)

run_one(tp_best, "TP (acerto pneumonia)")
run_one(fp_best, "FP (normal‚Üípneumonia)")
run_one(fn_best, "FN (pneumonia‚Üínormal)")


## 8.6 Interpreta√ß√£o dos mapas Grad-CAM (TP / FP / FN)

A an√°lise por Grad-CAM permite verificar se o modelo toma decis√µes baseadas em regi√µes
anatomicamente plaus√≠veis (ex.: campos pulmonares) ou se utiliza "atalhos" (artefatos e bordas).

### Caso TP (acerto ‚Äì pneumonia)
No exemplo verdadeiro positivo (TP), o mapa Grad-CAM se concentrou predominantemente nos pulm√µes.
Esse padr√£o √© consistente com a tarefa, j√° que altera√ß√µes compat√≠veis com pneumonia em radiografias
tendem a se manifestar como opacidades/infiltrados nos campos pulmonares.  
**Interpreta√ß√£o:** o modelo utiliza evid√™ncias visuais relevantes para a decis√£o, indicando boa plausibilidade cl√≠nica.

### Caso FP (erro ‚Äì normal ‚Üí pneumonia)
No falso positivo (FP), observou-se ativa√ß√£o forte na borda direita da imagem, em uma regi√£o escura
fora da √°rea de interesse (fora do t√≥rax).  
**Interpreta√ß√£o:** o modelo possivelmente foi influenciado por um artefato/estrutura de borda,
em vez de padr√µes internos do par√™nquima pulmonar. Esse comportamento √© t√≠pico quando o modelo aprende
pistas n√£o relacionadas √† patologia (ex.: moldura do exame, contraste, ru√≠do, cortes da imagem).

### Caso FN (erro mais cr√≠tico ‚Äì pneumonia ‚Üí normal)
No falso negativo (FN), o Grad-CAM focou em uma regi√£o perif√©rica pr√≥xima a estruturas √≥sseas (√°rea mais branca),
em vez de destacar de forma predominante os campos pulmonares.  
**Interpreta√ß√£o:** o modelo pode ter supervalorizado padr√µes de alto contraste (ossos/exposi√ß√£o) e subestimado sinais
pulmonares mais sutis, resultando na n√£o detec√ß√£o do caso positivo. Em um cen√°rio cl√≠nico, esse tipo de erro √© mais grave,
pois representa pneumonia n√£o sinalizada pelo sistema.

### Implica√ß√µes e poss√≠veis melhorias
Os casos FP/FN sugerem que, apesar do alto desempenho global, o modelo pode ocasionalmente se apoiar em regi√µes
fora do pulm√£o. Estrat√©gias que podem mitigar esse efeito incluem:
- pr√©-processamento para reduzir influ√™ncia de bordas (ex.: crop central ou remo√ß√£o de margens);
- augmentations mais robustas (varia√ß√£o de contraste/brightness) para reduzir depend√™ncia de exposi√ß√£o;
- (opcional) uso de segmenta√ß√£o/ROI dos pulm√µes para for√ßar o foco na √°rea de interesse.


In [None]:
os.makedirs("gradcam_outputs", exist_ok=True)

def save_gradcam_figure(path, cam, prob, title, out_name):
    img = load_image_rgb(path)
    overlay = overlay_heatmap_on_image(img, cam, alpha=0.4)

    plt.figure(figsize=(10, 4))
    plt.subplot(1, 2, 1)
    plt.imshow(img)
    plt.title("Original")
    plt.axis("off")

    plt.subplot(1, 2, 2)
    plt.imshow(overlay)
    plt.title(f"{title}\n p(pneumonia)={prob:.3f}")
    plt.axis("off")

    out_path = os.path.join("gradcam_outputs", out_name)
    plt.tight_layout()
    plt.savefig(out_path, dpi=200, bbox_inches="tight")
    plt.close()
    print("Salvo em:", out_path)


# 9. Gera√ß√£o do Arquivo de Submiss√£o

Nesta se√ß√£o geramos o arquivo `submission.csv` no formato exigido pela competi√ß√£o.

A predi√ß√£o final do conjunto de teste utiliza **ensemble dos 5 folds**, calculando a m√©dia das probabilidades:

- `id`: identificador do arquivo (exatamente como em `test.csv`)
- `target`: probabilidade prevista para pneumonia (classe positiva)

Ao final, salvamos `submission.csv` no diret√≥rio de trabalho para envio no Kaggle.


## 9.1 Constru√ß√£o do arquivo `submission.csv` (com sanity checks)

Antes de salvar, fazemos verifica√ß√µes r√°pidas para evitar erros comuns:

- O n√∫mero de linhas deve ser igual ao n√∫mero de amostras no teste.
- Os `id`s n√£o devem ter duplicatas.
- Os valores de `target` devem estar no intervalo [0, 1].


In [None]:
# 9.1 Gerar submission.csv e salvar tamb√©m no Drive

# Garante que temos predi√ß√µes para todo o teste
assert "test_pred_mean" in globals(), "test_pred_mean n√£o encontrado. Rode a etapa de ensemble (Se√ß√£o 6.5)."
assert "df_test" in globals(), "df_test n√£o encontrado. Rode a Se√ß√£o 4.3."
assert len(test_pred_mean) == len(df_test), "Quantidade de predi√ß√µes diferente do tamanho do df_test."

submission = pd.DataFrame({
    "id": df_test["id"],                      # ids oficiais do test.csv
    "target": test_pred_mean.astype(float)    # probabilidades (ensemble)
})

# Sanity checks
assert submission["id"].nunique() == len(submission), "IDs duplicados na submiss√£o."
assert submission["target"].between(0, 1).all(), "Existem valores de target fora de [0, 1]."

# 1) Salva no diret√≥rio atual do runtime (Colab: /content)
local_path = os.path.abspath("submission.csv")
submission.to_csv(local_path, index=False)

# 2) Salva tamb√©m no Drive (persistente)
assert "PROJECT_DIR" in globals(), "PROJECT_DIR n√£o definido. Defina-o na Se√ß√£o 0.5 (Drive)."
drive_path = os.path.join(PROJECT_DIR, "submission.csv")
submission.to_csv(drive_path, index=False)

print("‚úÖ submission.csv salvo com sucesso!")
print("Local:", local_path)
print("Drive:", drive_path)

display(submission.head())
print("Shape:", submission.shape)
print("Target min/mean/max:",
      submission["target"].min(),
      submission["target"].mean(),
      submission["target"].max())
