# üñºÔ∏è Estandarizaci√≥n y Preprocesamiento de Im√°genes

Este notebook realiza la **estandarizaci√≥n y preprocesamiento** de todas las im√°genes del dataset (OASIS + Kaggle) para garantizar un formato consistente antes del feature engineering.

**Este notebook utiliza los mismos m√©todos de preprocesamiento que el notebook 4** para garantizar consistencia en todo el pipeline.

## üéØ Objetivos

1. **Cargar todas las im√°genes** en m√∫ltiples formatos (PNG, JPG, JPEG)
2. **Normalizar las intensidades** usando z-score sobre voxeles no cero
3. **Recortar al brain bounding box** para eliminar el fondo
4. **Estandarizar el tama√±o** a 224√ó224 p√≠xeles
5. **Guardar las im√°genes estandarizadas** en formato PNG para uso posterior
6. **Mantener la estructura de directorios** (CN, MCI, AD)

## üìã Proceso

- **Entrada**: Im√°genes en `data/processed/OASIS_2D/` (formatos: PNG, JPG, JPEG)
- **Procesamiento** (mismo flujo que notebook 4):
  1. Conversi√≥n a escala de grises
  2. Normalizaci√≥n z-score sobre voxeles no cero (`zscore_normalize`)
  3. Recorte a brain bounding box (`crop_brain`)
  4. Redimensionamiento a 224√ó224 (`resize224`)
- **Salida**: Im√°genes estandarizadas guardadas en el mismo directorio (formato PNG, 224√ó224, normalizadas)


## 0. Imports y configuraci√≥n


In [None]:
import os
import numpy as np
from PIL import Image
from glob import glob
from pathlib import Path
from tqdm import tqdm
import warnings
warnings.filterwarnings('ignore')

BASE_DIR = Path(r"C:\Users\mmera\OneDrive\Escritorio\ProyectoMineria\proyectoMineria")
IMG_DIR = BASE_DIR / 'data' / 'processed' / 'OASIS_2D'
TARGET_SIZE = (224, 224)
CLASSES = ['CN', 'MCI', 'AD']

print(f"üìÅ Directorio de im√°genes: {IMG_DIR}")
print(f"üìê Tama√±o objetivo: {TARGET_SIZE}")
print(f"üìä Clases: {CLASSES}")


## 1. Funciones de preprocesamiento

### 1.1. Normalizaci√≥n z-score
Normaliza la imagen usando z-score sobre voxeles no cero (solo el cerebro, no el fondo).

**Nota:** Esta funci√≥n es equivalente a `zscore_nonzero` del notebook 4.


In [None]:
def zscore_normalize(img: np.ndarray) -> np.ndarray:
    """
    Normaliza la imagen usando z-score sobre voxeles no cero.
    Equivalente a `zscore_nonzero` del notebook 4.
    
    Args:
        img: Imagen en escala de grises (2D array)
    
    Returns:
        Imagen normalizada
    """
    mask = img > 0
    if not np.any(mask):
        return img.astype(np.float32)
    
    vals = img[mask]
    mu = vals.mean()
    sigma = vals.std() + 1e-6  # Evitar divisi√≥n por cero
    
    img_normalized = (img - mu) / sigma
    return img_normalized.astype(np.float32)

# Prueba r√°pida
test_img = np.array([[0, 0, 0], [0, 100, 150], [0, 120, 200]], dtype=np.float32)
test_normalized = zscore_normalize(test_img)
print("‚úì Funci√≥n de normalizaci√≥n z-score definida (equivalente a zscore_nonzero del notebook 4)")
print(f"  Ejemplo: media={test_normalized[test_img > 0].mean():.2f}, std={test_normalized[test_img > 0].std():.2f}")


### 1.2. Recorte a Brain Bounding Box
Recorta la imagen al bounding box del cerebro (voxeles > 0) para eliminar el fondo y enfocarse solo en el cerebro.

**Nota:** Esta funci√≥n es equivalente a `crop_brain` del notebook 4.


In [None]:
def crop_brain(img: np.ndarray) -> np.ndarray:
    """
    Recorta la imagen al bounding box de voxeles > 0 (solo el cerebro, sin fondo).
    Si no hay voxeles > 0, regresa la imagen original.
    Equivalente a `crop_brain` del notebook 4.
    
    Args:
        img: Imagen en escala de grises (2D array)
    
    Returns:
        Imagen recortada al bounding box del cerebro
    """
    mask = img > 0
    if not np.any(mask):
        return img
    ys, xs = np.where(mask)
    y_min, y_max = ys.min(), ys.max()
    x_min, x_max = xs.min(), xs.max()
    return img[y_min:y_max+1, x_min:x_max+1]

# Prueba r√°pida
test_cropped = crop_brain(test_normalized)
print("‚úì Funci√≥n de recorte (crop_brain) definida (equivalente a crop_brain del notebook 4)")
print(f"  Tama√±o original: {test_normalized.shape}")
print(f"  Tama√±o despu√©s de crop: {test_cropped.shape}")


### 1.3. Redimensionamiento
Redimensiona la imagen a 224√ó224 usando interpolaci√≥n bilineal.

**Nota:** Esta funci√≥n es equivalente a `resize224` del notebook 4.


In [None]:
def resize224(img: np.ndarray) -> np.ndarray:
    """
    Redimensiona la imagen a 224√ó224 usando interpolaci√≥n bilineal.
    Equivalente a `resize224` del notebook 4.
    
    Args:
        img: Imagen en escala de grises (2D array)
    
    Returns:
        Imagen redimensionada a 224√ó224
    """
    pil = Image.fromarray(img.astype(np.float32))
    pil_resized = pil.resize((224, 224), Image.BILINEAR)
    return np.array(pil_resized, dtype=np.float32)

# Prueba r√°pida
test_resized = resize224(test_cropped)
print("‚úì Funci√≥n de redimensionamiento (resize224) definida (equivalente a resize224 del notebook 4)")
print(f"  Tama√±o despu√©s de resize: {test_resized.shape}")


### 1.4. Funci√≥n completa de preprocesamiento
Combina todas las operaciones siguiendo el mismo flujo que el notebook 4:
1. Carga de imagen
2. Normalizaci√≥n z-score sobre voxeles no cero
3. Recorte a brain bounding box
4. Redimensionamiento a 224√ó224


In [None]:
def preprocess_image(image_path: Path, target_size: tuple = (224, 224)) -> np.ndarray:
    """
    Preprocesa una imagen completa siguiendo el mismo flujo que el notebook 4:
    1. Carga de imagen
    2. Normalizaci√≥n z-score sobre voxeles no cero (zscore_normalize)
    3. Recorte a brain bounding box (crop_brain)
    4. Redimensionamiento a 224√ó224 (resize224)
    
    Args:
        image_path: Ruta a la imagen
        target_size: Tama√±o objetivo (por defecto 224√ó224, se ignora si se usa resize224)
    
    Returns:
        Imagen preprocesada (224√ó224, normalizada)
    """
    try:
        # 1. Cargar imagen y convertir a escala de grises
        img = np.array(Image.open(image_path).convert('L'), dtype=np.float32)
        
        # 2. Normalizar usando z-score sobre voxeles no cero
        img_normalized = zscore_normalize(img)
        
        # 3. Recortar al bounding box del cerebro
        img_cropped = crop_brain(img_normalized)
        
        # 4. Redimensionar a 224√ó224
        img_resized = resize224(img_cropped)
        
        return img_resized
    except Exception as e:
        print(f"‚ö†Ô∏è  Error procesando {image_path}: {e}")
        return None

print("‚úì Funci√≥n completa de preprocesamiento definida")
print("  Flujo: carga ‚Üí zscore_normalize ‚Üí crop_brain ‚Üí resize224")
print("  (Mismo flujo que el notebook 4)")


In [None]:
# Buscar todas las im√°genes en m√∫ltiples formatos
image_paths = {}
for c in CLASSES:
    class_dir = IMG_DIR / c
    if not class_dir.exists():
        print(f"‚ö†Ô∏è  Directorio {class_dir} no existe")
        image_paths[c] = []
        continue
    
    all_images = []
    for ext in ['*.png', '*.jpg', '*.jpeg', '*.PNG', '*.JPG', '*.JPEG']:
        all_images.extend(list(class_dir.glob(ext)))
    
    image_paths[c] = sorted(all_images)
    print(f"üìä {c}: {len(image_paths[c])} im√°genes encontradas")

total_images = sum(len(paths) for paths in image_paths.values())
print(f"\nüìà Total de im√°genes: {total_images}")


## 3. Procesamiento y guardado de im√°genes estandarizadas

Procesamos todas las im√°genes y las guardamos en formato PNG estandarizado.


In [None]:
def save_preprocessed_image(img: np.ndarray, output_path: Path):
    """
    Guarda una imagen preprocesada en formato PNG.
    Convierte los valores normalizados a rango 0-255 para guardar.
    
    Args:
        img: Imagen preprocesada (normalizada, puede tener valores negativos)
        output_path: Ruta donde guardar la imagen
    """
    # Convertir de z-score a rango 0-255
    # Primero normalizar a rango [0, 1] usando min-max
    img_min = img.min()
    img_max = img.max()
    if img_max > img_min:
        img_scaled = (img - img_min) / (img_max - img_min)
    else:
        img_scaled = np.zeros_like(img)
    
    # Convertir a uint8
    img_uint8 = (img_scaled * 255).astype(np.uint8)
    
    # Guardar como PNG
    Image.fromarray(img_uint8).save(output_path, 'PNG')

print("‚úì Funci√≥n de guardado definida")


In [None]:
# Procesar todas las im√°genes
stats = {c: {'processed': 0, 'errors': 0, 'skipped': 0} for c in CLASSES}

for c in CLASSES:
    print(f"\nüîÑ Procesando clase: {c}")
    class_dir = IMG_DIR / c
    
    for img_path in tqdm(image_paths[c], desc=f"  {c}"):
        try:
            # Preprocesar imagen
            img_preprocessed = preprocess_image(img_path, TARGET_SIZE)
            
            if img_preprocessed is None:
                stats[c]['errors'] += 1
                continue
            
            # Determinar nombre de salida (siempre PNG)
            if img_path.suffix.lower() in ['.jpg', '.jpeg']:
                # Si es JPG, guardar como PNG con mismo nombre base
                output_path = img_path.with_suffix('.png')
                # Si ya existe un PNG con ese nombre, agregar sufijo
                if output_path.exists() and output_path != img_path:
                    output_path = img_path.parent / f"{img_path.stem}_std.png"
            else:
                # Si ya es PNG, sobrescribir o crear copia
                output_path = img_path.parent / f"{img_path.stem}_std.png"
            
            # Guardar imagen preprocesada
            save_preprocessed_image(img_preprocessed, output_path)
            stats[c]['processed'] += 1
            
        except Exception as e:
            print(f"  ‚ö†Ô∏è  Error en {img_path.name}: {e}")
            stats[c]['errors'] += 1

print("\n" + "="*50)
print("üìä Resumen de procesamiento:")
print("="*50)
for c in CLASSES:
    print(f"{c}:")
    print(f"  ‚úÖ Procesadas: {stats[c]['processed']}")
    print(f"  ‚ùå Errores: {stats[c]['errors']}")
    print(f"  ‚è≠Ô∏è  Omitidas: {stats[c]['skipped']}")


## 4. Verificaci√≥n: Visualizar im√°genes estandarizadas

Verificamos que las im√°genes se hayan procesado correctamente visualizando algunas muestras.


In [None]:
import matplotlib.pyplot as plt

# Buscar im√°genes estandarizadas (con sufijo _std.png)
fig, axes = plt.subplots(3, 3, figsize=(12, 12))
fig.suptitle('Im√°genes Estandarizadas (224√ó224, Normalizadas)', fontsize=16)

for idx, c in enumerate(CLASSES):
    class_dir = IMG_DIR / c
    std_images = list(class_dir.glob('*_std.png'))
    
    if not std_images:
        # Si no hay _std.png, buscar cualquier PNG
        std_images = list(class_dir.glob('*.png'))[:3]
    
    for j in range(3):
        ax = axes[idx, j]
        if j < len(std_images):
            img = np.array(Image.open(std_images[j]).convert('L'))
            ax.imshow(img, cmap='gray')
            ax.set_title(f'{c} - {std_images[j].name[:30]}', fontsize=8)
        else:
            ax.axis('off')
        ax.axis('off')

plt.tight_layout()
plt.show()

print("‚úì Visualizaci√≥n completada")


## 5. Estad√≠sticas finales

Verificamos el estado final del dataset estandarizado.


In [None]:
# Contar im√°genes estandarizadas finales
final_stats = {}
for c in CLASSES:
    class_dir = IMG_DIR / c
    if class_dir.exists():
        # Contar todas las im√°genes PNG (incluyendo _std.png)
        png_images = list(class_dir.glob('*.png'))
        final_stats[c] = len(png_images)
    else:
        final_stats[c] = 0

print("="*50)
print("üìä Estad√≠sticas finales del dataset estandarizado:")
print("="*50)
for c in CLASSES:
    print(f"{c}: {final_stats[c]} im√°genes PNG")

total_final = sum(final_stats.values())
print(f"\nüìà Total: {total_final} im√°genes estandarizadas")
print(f"üìê Tama√±o: {TARGET_SIZE[0]}√ó{TARGET_SIZE[1]} p√≠xeles")
print(f"üìÅ Formato: PNG (escala de grises, normalizadas)")
print("\n‚úÖ Proceso de estandarizaci√≥n completado")
