# EDA y Preparaci√≥n ‚Äî Dataset de 2 Clases (Natalie Portman vs Scarlett Johansson)

**Condici√≥n del curso:** Prohibido usar `scikit-learn`. Se utilizan **PyTorch, Torchvision, PIL, OpenCV, ImageHash, NumPy y Pandas**.

Este cuaderno realiza:
- Exploraci√≥n general del dataset (conteo por clase, resoluciones, formatos, im√°genes corruptas/vac√≠as, balance de clases).
- An√°lisis estad√≠stico de color por canal RGB (media, desviaci√≥n), rangos globales y detecci√≥n de im√°genes at√≠picas (muy oscuras, borrosas).
- Preprocesamiento b√°sico (redimensionado, normalizaci√≥n, conversi√≥n a tensores) con **Torchvision**.
- Definici√≥n de **data augmentation** para robustecer el modelo (rotaciones, flips, cambios de color, etc.).
- Detecci√≥n de **duplicados** mediante *perceptual hash*.
- Divisi√≥n **estratificada** en train/val sin usar sklearn.
- Exportaci√≥n de CSVs para control de calidad manual.

### Estructura esperada de carpetas

```
data/
  raw/
    Natalie_Portman/
    Scarlett_Johansson/
```

Si tus carpetas tienen otros nombres, ajusta el diccionario `CLASS_MAP` m√°s abajo.


In [None]:
# Instalaci√≥n de dependencias (solo se ejecuta autom√°ticamente en Colab)
import sys
if 'google.colab' in sys.modules:
    !pip -q install opencv-python imagehash tqdm matplotlib pillow pandas numpy torch torchvision --upgrade

import os
from pathlib import Path
import numpy as np
import pandas as pd
from PIL import Image
import imagehash
import cv2
from tqdm import tqdm
import matplotlib.pyplot as plt
import torch
from torchvision import transforms

print('‚úÖ Librer√≠as cargadas (sin scikit-learn)')

In [None]:
# Configuraci√≥n de rutas y clases
DATA_ROOT = Path('data/raw')  # ra√≠z donde viven las im√°genes crudas

# Clases esperadas (puedes ajustar los nombres si tus carpetas son diferentes)
CLASS_MAP = {
    'Natalie_Portman': 0,
    'Scarlett_Johansson': 1,
}

VALID_EXTS = {'.jpg', '.jpeg', '.png'}

assert DATA_ROOT.exists(), '‚ùå No se encontr√≥ data/raw. Crea la estructura indicada y coloca las im√°genes.'
print('üìÇ Ruta de datos:', DATA_ROOT.resolve())

In [None]:
# Descubrimiento de im√°genes por clase
records = []
for cname, label in CLASS_MAP.items():
    cdir = DATA_ROOT / cname
    if not cdir.exists():
        print(f'‚ö†Ô∏è Carpeta ausente: {cdir} ‚Äî se omitir√°')
        continue
    for p in cdir.rglob('*'):
        if p.suffix.lower() in VALID_EXTS:
            records.append({'path': str(p), 'class': cname, 'label': label})

df = pd.DataFrame(records)
print('Total de im√°genes encontradas:', len(df))
display(df.head())
assert len(df) > 0, '‚ùå No se encontraron im√°genes con extensiones v√°lidas (jpg/jpeg/png).'


## 1. Exploraci√≥n general: conteos, formatos, resoluciones, corruptas, balance


In [None]:
# Conteo de im√°genes por clase
conteo = df['class'].value_counts().rename_axis('clase').reset_index(name='imagenes')
print('üìä Conteo por clase:')
display(conteo)

# Lectura de metadatos de cada imagen
w_list, h_list, fmt_list, corrupt_flags = [], [], [], []
for p in tqdm(df['path'], desc='Leyendo metadatos de im√°genes'):
    try:
        with Image.open(p) as im:
            w, h = im.size
            w_list.append(w)
            h_list.append(h)
            fmt_list.append(im.format)
            corrupt_flags.append(False)
    except Exception:
        # Imagen da√±ada o ilegible
        w_list.append(np.nan)
        h_list.append(np.nan)
        fmt_list.append('CORRUPT')
        corrupt_flags.append(True)

df['width'] = w_list
df['height'] = h_list
df['format'] = fmt_list
df['is_corrupt'] = corrupt_flags

print('üß® Im√°genes corruptas detectadas:', df['is_corrupt'].sum())
print('\nüìÅ Formatos encontrados:')
display(df['format'].value_counts())

# Histograma de tama√±os
plt.figure()
plt.hist(df['width'].dropna(), bins=30)
plt.title('Distribuci√≥n de anchos de imagen')
plt.xlabel('width (px)'); plt.ylabel('Frecuencia')
plt.show()

plt.figure()
plt.hist(df['height'].dropna(), bins=30)
plt.title('Distribuci√≥n de altos de imagen')
plt.xlabel('height (px)'); plt.ylabel('Frecuencia')
plt.show()


## 2. Estad√≠stica de color (RGB), rango global y detecci√≥n de im√°genes oscuras / borrosas


In [None]:
def image_stats_rgb(path):
    """Regresa mean RGB, std RGB, valor m√≠nimo y m√°ximo global de la imagen."""
    with Image.open(path) as im:
        im = im.convert('RGB')
        arr = np.array(im)
        mean = arr.mean(axis=(0,1))      # [R,G,B]
        std = arr.std(axis=(0,1))       # [R,G,B]
        mn = arr.min()
        mx = arr.max()
    return mean, std, mn, mx

def variance_of_laplacian(image_bgr):
    """Varianza del Laplaciano: medida de nitidez (baja => borrosa)."""
    return cv2.Laplacian(image_bgr, cv2.CV_64F).var()

rgb_mean, rgb_std, min_vals, max_vals, brightness, blurriness = [], [], [], [], [], []

for p in tqdm(df['path'], desc='Calculando estad√≠sticas RGB / brillo / blur'):
    try:
        m, s, mn, mx = image_stats_rgb(p)
        rgb_mean.append(m)
        rgb_std.append(s)
        min_vals.append(mn)
        max_vals.append(mx)

        # Brillo medio en escala de grises
        with Image.open(p) as im:
            im_gray = im.convert('L')
            brightness.append(float(np.array(im_gray).mean()))

        # Blur usando varianza de Laplaciano
        img_bgr = cv2.imread(p)
        if img_bgr is not None:
            blurriness.append(float(variance_of_laplacian(img_bgr)))
        else:
            blurriness.append(np.nan)
    except Exception:
        rgb_mean.append([np.nan, np.nan, np.nan])
        rgb_std.append([np.nan, np.nan, np.nan])
        min_vals.append(np.nan)
        max_vals.append(np.nan)
        brightness.append(np.nan)
        blurriness.append(np.nan)

# A√±adimos columnas al dataframe
df[['mean_R', 'mean_G', 'mean_B']] = pd.DataFrame(rgb_mean, index=df.index)
df[['std_R', 'std_G', 'std_B']] = pd.DataFrame(rgb_std, index=df.index)
df['min_val'] = min_vals
df['max_val'] = max_vals
df['brightness'] = brightness
df['blurriness'] = blurriness

print('üéØ Estad√≠sticas promedio por clase (RGB):')
display(df[['class','mean_R','mean_G','mean_B','std_R','std_G','std_B']].groupby('class').mean())

print('üåà Rango global de valores de pixel [min, max]:', int(df['min_val'].min()), int(df['max_val'].max()))

# Definimos umbrales simples para marcar im√°genes oscuras y borrosas
DARK_THR = 35   # brillo medio bajo => muy oscura
BLUR_THR = 70   # varianza de Laplaciano baja => borrosa (ajustable)

df['flag_dark'] = df['brightness'] < DARK_THR
df['flag_blur'] = df['blurriness'] < BLUR_THR

print('\nüìå Proporci√≥n de im√°genes oscuras / borrosas por clase:')
display(df.groupby('class')[['flag_dark','flag_blur']].mean())
print('\nTotal marcadas como oscuras:', int(df['flag_dark'].sum()))
print('Total marcadas como borrosas:', int(df['flag_blur'].sum()))

## 3. Detecci√≥n de duplicados por *perceptual hash* (pHash)


In [None]:
hashes = []
for p in tqdm(df['path'], desc='Calculando perceptual hash'):
    try:
        with Image.open(p) as im:
            h = imagehash.phash(im.convert('RGB'))
            hashes.append(str(h))
    except Exception:
        hashes.append('CORRUPT')

df['phash'] = hashes

# Agrupamos por hash para ver posibles duplicados
dup_groups = df.groupby('phash').filter(lambda g: len(g) > 1).sort_values('phash')
print('üîÅ Posibles duplicados detectados:', dup_groups.shape[0])
display(dup_groups.head(10))

## 4. Preprocesamiento y Aumento de Datos (Torchvision)

Definimos dos pipelines de transformaciones:
- `basic_tf`: para validaci√≥n/inferencia (solo resize + normalizaci√≥n).
- `aug_tf`: para entrenamiento (incluye cambios de color, flips, rotaciones, recortes, etc.).


In [None]:
IMG_SIZE = (224, 224)  # tama√±o cl√°sico para modelos tipo ResNet, etc.

basic_tf = transforms.Compose([
    transforms.Resize(IMG_SIZE),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225])
])

aug_tf = transforms.Compose([
    transforms.Resize(IMG_SIZE),
    transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.05),
    transforms.RandomHorizontalFlip(p=0.5),
    transforms.RandomRotation(degrees=12),
    transforms.RandomResizedCrop(IMG_SIZE, scale=(0.85, 1.0), ratio=(0.95, 1.05)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225])
])

print('‚úÖ Transforms definidos (b√°sico y con data augmentation)')

## 5. Divisi√≥n estratificada train/val sin sklearn

Hacemos un split 80/20 manteniendo el balance entre clases usando solo NumPy y Pandas.


In [None]:
def stratified_split(df, label_col='label', test_size=0.2, seed=42):
    """Divisi√≥n estratificada simple usando NumPy (sin sklearn)."""
    rng = np.random.default_rng(seed)
    idx_train, idx_val = [], []
    for lbl, g in df.groupby(label_col):
        ids = g.index.to_numpy()
        rng.shuffle(ids)
        n_val = int(len(ids) * test_size)
        idx_val.extend(ids[:n_val])
        idx_train.extend(ids[n_val:])
    train_df = df.loc[idx_train].reset_index(drop=True)
    val_df = df.loc[idx_val].reset_index(drop=True)
    return train_df, val_df

train_df, val_df = stratified_split(df, label_col='label', test_size=0.2, seed=42)

print('Tama√±o TRAIN:', len(train_df))
print('Tama√±o VAL  :', len(val_df))

print('\nDistribuci√≥n por clase en TRAIN:')
display(train_df['class'].value_counts())
print('\nDistribuci√≥n por clase en VAL:')
display(val_df['class'].value_counts())

## 6. Exportaci√≥n de CSVs para control de calidad (QC)

Se generan varios archivos en `data/qc/`:
- `inventory_full.csv`: inventario completo con metadatos.
- `train_list.csv` / `val_list.csv`: listas para cada split.
- `to_review_flags.csv`: im√°genes oscuras, borrosas o corruptas.
- `possible_duplicates.csv`: candidatos duplicados seg√∫n pHash.


In [None]:
qc_path = Path('data/qc')
qc_path.mkdir(parents=True, exist_ok=True)

df.to_csv(qc_path / 'inventory_full.csv', index=False)
train_df.to_csv(qc_path / 'train_list.csv', index=False)
val_df.to_csv(qc_path / 'val_list.csv', index=False)

flags_df = df[df['is_corrupt'] | df['flag_dark'] | df['flag_blur']]
flags_df.to_csv(qc_path / 'to_review_flags.csv', index=False)

dup_groups.to_csv(qc_path / 'possible_duplicates.csv', index=False)

print('üíæ Archivos de control de calidad guardados en:', qc_path.resolve())

## 7. Dataset y DataLoaders de PyTorch (opcional para entrenamiento)

A partir de `train_df` y `val_df` definimos un `Dataset` y `DataLoader` est√°ndar, listo para entrenar un modelo (por ejemplo, una `ResNet18`).


In [None]:
class FaceDataset(torch.utils.data.Dataset):
    def __init__(self, df, transform):
        self.df = df.reset_index(drop=True)
        self.transform = transform

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        row = self.df.iloc[idx]
        img = Image.open(row['path']).convert('RGB')
        x = self.transform(img)
        y = int(row['label'])
        return x, y

train_ds = FaceDataset(train_df, aug_tf)
val_ds = FaceDataset(val_df, basic_tf)

train_loader = torch.utils.data.DataLoader(train_ds, batch_size=32, shuffle=True, num_workers=2, pin_memory=True)
val_loader = torch.utils.data.DataLoader(val_ds, batch_size=32, shuffle=False, num_workers=2, pin_memory=True)

print('‚úÖ DataLoaders listos. Puedes usar train_loader y val_loader para entrenar tu modelo.')

## 8. Checklist final de la tarea

- [x] No se utiliz√≥ `scikit-learn`.
- [x] Explorado el dataset: conteo, formatos, resoluciones, im√°genes corruptas.
- [x] An√°lisis de color por canal RGB y rangos globales.
- [x] Detecci√≥n de im√°genes oscuras y borrosas.
- [x] Detecci√≥n de posibles duplicados (pHash).
- [x] Definidas transformaciones b√°sicas y de aumento de datos.
- [x] Divisi√≥n estratificada train/val (80/20) hecha manualmente.
- [x] Exportados CSVs de control de calidad en `data/qc/`.
- [x] Definidos `Dataset` y `DataLoader` de PyTorch listos para entrenamiento.
