# Parte 1: An√°lisis Exploratorio y Preprocesamiento

**Taller 3 - Clasificaci√≥n de Im√°genes M√©dicas**

---

## Objetivos
1. Cargar y visualizar ejemplos de ambas clases (NORMAL vs PNEUMONIA)
2. Analizar distribuci√≥n de clases y tama√±o de im√°genes
3. Implementar pipeline de preprocesamiento:
   - Normalizaci√≥n de tama√±o
   - Ecualizaci√≥n de histograma (CLAHE)
   - Segmentaci√≥n de regi√≥n de inter√©s (opcional)


## 1. Configuraci√≥n e Imports


In [None]:
# Imports est√°ndar
import os
import sys
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import cv2

# Agregar src al path
sys.path.insert(0, os.path.abspath('..'))

# Imports de nuestros m√≥dulos
from src.data_loader import load_image_paths, split_by_set, get_class_distribution
from src.preprocessing import read_and_preprocess, get_image_sizes, apply_clahe, IMG_SIZE

# Configuraci√≥n de matplotlib
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 11

print("Imports completados correctamente ‚úì")


In [None]:
# Configuraci√≥n del dataset
DATA_DIR = "../data/chest_xray/chest_xray"  # Ajustar seg√∫n ubicaci√≥n del dataset

# Verificar que existe el directorio
if os.path.exists(DATA_DIR):
    print(f"‚úì Dataset encontrado en: {DATA_DIR}")
else:
    print(f"‚úó No se encontr√≥ el dataset en: {DATA_DIR}")
    print("  Por favor, descargue el dataset de Kaggle y ajuste la ruta.")


## 2. Carga de Datos

Cargamos las rutas de las im√°genes y sus etiquetas usando la estructura del dataset:
```
chest_xray/
‚îú‚îÄ‚îÄ train/
‚îÇ   ‚îú‚îÄ‚îÄ NORMAL/
‚îÇ   ‚îî‚îÄ‚îÄ PNEUMONIA/
‚îú‚îÄ‚îÄ val/
‚îÇ   ‚îú‚îÄ‚îÄ NORMAL/
‚îÇ   ‚îî‚îÄ‚îÄ PNEUMONIA/
‚îî‚îÄ‚îÄ test/
    ‚îú‚îÄ‚îÄ NORMAL/
    ‚îî‚îÄ‚îÄ PNEUMONIA/
```


In [None]:
# Cargar todas las rutas y etiquetas
paths, labels = load_image_paths(DATA_DIR)

print(f"Total de im√°genes cargadas: {len(paths)}")
print(f"\nEjemplo de rutas:")
for i in range(min(3, len(paths))):
    print(f"  {paths[i]}")
    print(f"    -> {labels[i]}")


In [None]:
# Separar por conjuntos (train, val, test)
(paths_train, labels_train), (paths_val, labels_val), (paths_test, labels_test) = split_by_set(paths, labels)

print("Distribuci√≥n por conjuntos:")
print(f"  Train: {len(paths_train)} im√°genes")
print(f"  Val:   {len(paths_val)} im√°genes")
print(f"  Test:  {len(paths_test)} im√°genes")
print(f"  Total: {len(paths_train) + len(paths_val) + len(paths_test)} im√°genes")


## 3. An√°lisis de Distribuci√≥n de Clases

Es importante analizar el desbalance de clases, ya que esto afecta el entrenamiento de los modelos.


In [None]:
# Crear DataFrame para an√°lisis
df = pd.DataFrame({
    'path': paths,
    'split': [l[0] for l in labels],
    'class': [l[1] for l in labels]
})

print("Distribuci√≥n general de clases:")
print(df['class'].value_counts())
print(f"\nRatio PNEUMONIA/NORMAL: {df['class'].value_counts()['PNEUMONIA'] / df['class'].value_counts()['NORMAL']:.2f}")


In [None]:
# Distribuci√≥n por split y clase
print("Distribuci√≥n detallada por conjunto y clase:")
distribution = df.groupby(['split', 'class']).size().unstack(fill_value=0)
print(distribution)

# Calcular porcentajes
print("\nPorcentajes por conjunto:")
for split in ['train', 'val', 'test']:
    split_data = df[df['split'] == split]
    total = len(split_data)
    normal = len(split_data[split_data['class'] == 'NORMAL'])
    pneumonia = len(split_data[split_data['class'] == 'PNEUMONIA'])
    print(f"  {split}: NORMAL={normal/total*100:.1f}%, PNEUMONIA={pneumonia/total*100:.1f}%")


In [None]:
# Visualizaci√≥n de la distribuci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico 1: Distribuci√≥n general
df['class'].value_counts().plot(kind='bar', ax=axes[0], color=['#2ecc71', '#e74c3c'])
axes[0].set_title('Distribuci√≥n General de Clases', fontsize=14)
axes[0].set_xlabel('Clase')
axes[0].set_ylabel('Cantidad de im√°genes')
axes[0].tick_params(axis='x', rotation=0)

# A√±adir valores sobre las barras
for i, v in enumerate(df['class'].value_counts()):
    axes[0].text(i, v + 50, str(v), ha='center', fontweight='bold')

# Gr√°fico 2: Distribuci√≥n por split
distribution.plot(kind='bar', ax=axes[1], color=['#2ecc71', '#e74c3c'])
axes[1].set_title('Distribuci√≥n por Conjunto', fontsize=14)
axes[1].set_xlabel('Conjunto')
axes[1].set_ylabel('Cantidad de im√°genes')
axes[1].tick_params(axis='x', rotation=0)
axes[1].legend(title='Clase')

plt.tight_layout()
plt.savefig('../results/01_class_distribution.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nüí° Observaci√≥n: El dataset est√° desbalanceado con m√°s casos de PNEUMONIA.")
print("   Esto debe considerarse en el entrenamiento de los modelos.")


## 4. An√°lisis de Tama√±os de Im√°genes

Analizamos la variabilidad en los tama√±os originales de las im√°genes para decidir el tama√±o de redimensionamiento.


In [None]:
# Obtener tama√±os de una muestra de im√°genes (para eficiencia)
sample_size = min(500, len(paths))
sample_indices = np.random.choice(len(paths), sample_size, replace=False)
sample_paths = [paths[i] for i in sample_indices]

print(f"Analizando tama√±os de {sample_size} im√°genes...")
sizes = get_image_sizes(sample_paths)

widths = [s[0] for s in sizes]
heights = [s[1] for s in sizes]

print(f"\nEstad√≠sticas de tama√±o:")
print(f"  Ancho  - Min: {min(widths)}, Max: {max(widths)}, Promedio: {np.mean(widths):.0f}, Mediana: {np.median(widths):.0f}")
print(f"  Alto   - Min: {min(heights)}, Max: {max(heights)}, Promedio: {np.mean(heights):.0f}, Mediana: {np.median(heights):.0f}")


In [None]:
# Visualizaci√≥n de distribuci√≥n de tama√±os
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# Histograma de anchos
axes[0].hist(widths, bins=30, color='steelblue', edgecolor='black', alpha=0.7)
axes[0].axvline(np.mean(widths), color='red', linestyle='--', label=f'Media: {np.mean(widths):.0f}')
axes[0].axvline(np.median(widths), color='orange', linestyle='--', label=f'Mediana: {np.median(widths):.0f}')
axes[0].set_title('Distribuci√≥n de Anchos')
axes[0].set_xlabel('Ancho (p√≠xeles)')
axes[0].set_ylabel('Frecuencia')
axes[0].legend()

# Histograma de altos
axes[1].hist(heights, bins=30, color='coral', edgecolor='black', alpha=0.7)
axes[1].axvline(np.mean(heights), color='red', linestyle='--', label=f'Media: {np.mean(heights):.0f}')
axes[1].axvline(np.median(heights), color='orange', linestyle='--', label=f'Mediana: {np.median(heights):.0f}')
axes[1].set_title('Distribuci√≥n de Altos')
axes[1].set_xlabel('Alto (p√≠xeles)')
axes[1].set_ylabel('Frecuencia')
axes[1].legend()

# Scatter plot de dimensiones
axes[2].scatter(widths, heights, alpha=0.5, c='purple')
axes[2].set_title('Relaci√≥n Ancho vs Alto')
axes[2].set_xlabel('Ancho (p√≠xeles)')
axes[2].set_ylabel('Alto (p√≠xeles)')
axes[2].axhline(256, color='red', linestyle='--', alpha=0.5)
axes[2].axvline(256, color='red', linestyle='--', alpha=0.5, label='Tama√±o objetivo: 256x256')
axes[2].legend()

plt.tight_layout()
plt.savefig('../results/01_image_sizes.png', dpi=150, bbox_inches='tight')
plt.show()

print(f"\nüí° Decisi√≥n: Redimensionar todas las im√°genes a {IMG_SIZE} para uniformidad.")


## 5. Visualizaci√≥n de Ejemplos por Clase

Visualizamos ejemplos representativos de ambas clases para entender las caracter√≠sticas visuales.


In [None]:
# Seleccionar ejemplos de cada clase del conjunto de entrenamiento
normal_indices = [i for i, l in enumerate(labels_train) if l == 'NORMAL']
pneumonia_indices = [i for i, l in enumerate(labels_train) if l == 'PNEUMONIA']

n_examples = 4

fig, axes = plt.subplots(2, n_examples, figsize=(16, 8))

# Ejemplos NORMAL
sample_normal = np.random.choice(normal_indices, n_examples, replace=False)
for i, idx in enumerate(sample_normal):
    img = cv2.imread(paths_train[idx], cv2.IMREAD_GRAYSCALE)
    axes[0, i].imshow(img, cmap='gray')
    axes[0, i].set_title(f'NORMAL\n{img.shape[1]}x{img.shape[0]}')
    axes[0, i].axis('off')

# Ejemplos PNEUMONIA
sample_pneumonia = np.random.choice(pneumonia_indices, n_examples, replace=False)
for i, idx in enumerate(sample_pneumonia):
    img = cv2.imread(paths_train[idx], cv2.IMREAD_GRAYSCALE)
    axes[1, i].imshow(img, cmap='gray')
    axes[1, i].set_title(f'PNEUMONIA\n{img.shape[1]}x{img.shape[0]}')
    axes[1, i].axis('off')

plt.suptitle('Ejemplos de Rayos X de T√≥rax - Im√°genes Originales', fontsize=14, y=1.02)
plt.tight_layout()
plt.savefig('../results/01_examples_original.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nüí° Observaciones:")
print("   - Las im√°genes tienen diferentes tama√±os y contrastes")
print("   - Los casos de neumon√≠a muestran opacidades en los pulmones")
print("   - Es necesario normalizar el contraste para mejor extracci√≥n de caracter√≠sticas")


## 6. Pipeline de Preprocesamiento

Implementamos un pipeline de preprocesamiento que incluye:
1. **Redimensionamiento**: A tama√±o uniforme (256x256)
2. **CLAHE** (Contrast Limited Adaptive Histogram Equalization): Mejora el contraste local
3. **Normalizaci√≥n**: Escalar valores al rango [0, 1]

### ¬øPor qu√© CLAHE?
- Las radiograf√≠as tienen bajo contraste natural
- CLAHE mejora el contraste de forma adaptativa sin sobre-amplificar el ruido
- Es especialmente √∫til para im√°genes m√©dicas


In [None]:
# Demostraci√≥n del pipeline de preprocesamiento
sample_path = paths_train[normal_indices[0]]

# Cargar imagen original
img_original = cv2.imread(sample_path, cv2.IMREAD_GRAYSCALE)
print(f"Imagen original: {img_original.shape}")

# Aplicar preprocesamiento completo
img_preprocessed = read_and_preprocess(sample_path, img_size=IMG_SIZE, apply_clahe=True)
print(f"Imagen preprocesada: {img_preprocessed.shape}")
print(f"Rango de valores: [{img_preprocessed.min():.3f}, {img_preprocessed.max():.3f}]")


In [None]:
# Comparaci√≥n visual: Original vs Preprocesada
fig, axes = plt.subplots(2, 4, figsize=(16, 8))

# Seleccionar 4 im√°genes aleatorias
sample_indices = np.random.choice(len(paths_train), 4, replace=False)

for i, idx in enumerate(sample_indices):
    # Original
    img_orig = cv2.imread(paths_train[idx], cv2.IMREAD_GRAYSCALE)
    axes[0, i].imshow(img_orig, cmap='gray')
    axes[0, i].set_title(f'Original\n{labels_train[idx]}')
    axes[0, i].axis('off')
    
    # Preprocesada
    img_prep = read_and_preprocess(paths_train[idx], apply_clahe=True)
    axes[1, i].imshow(img_prep, cmap='gray')
    axes[1, i].set_title(f'Preprocesada (CLAHE)\n{IMG_SIZE}')
    axes[1, i].axis('off')

plt.suptitle('Comparaci√≥n: Im√°genes Originales vs Preprocesadas', fontsize=14, y=1.02)
plt.tight_layout()
plt.savefig('../results/01_preprocessing_comparison.png', dpi=150, bbox_inches='tight')
plt.show()


### 6.1 An√°lisis del efecto de CLAHE en los histogramas


In [None]:
# Comparaci√≥n de histogramas antes y despu√©s de CLAHE
sample_path = paths_train[np.random.choice(len(paths_train))]

# Cargar y procesar
img_original = cv2.imread(sample_path, cv2.IMREAD_GRAYSCALE)
img_resized = cv2.resize(img_original, IMG_SIZE)
img_clahe = read_and_preprocess(sample_path, apply_clahe=True)
img_clahe_uint8 = (img_clahe * 255).astype(np.uint8)

fig, axes = plt.subplots(2, 3, figsize=(15, 8))

# Fila 1: Im√°genes
axes[0, 0].imshow(img_original, cmap='gray')
axes[0, 0].set_title('Original')
axes[0, 0].axis('off')

axes[0, 1].imshow(img_resized, cmap='gray')
axes[0, 1].set_title(f'Redimensionada ({IMG_SIZE})')
axes[0, 1].axis('off')

axes[0, 2].imshow(img_clahe, cmap='gray')
axes[0, 2].set_title('Con CLAHE')
axes[0, 2].axis('off')

# Fila 2: Histogramas
axes[1, 0].hist(img_original.flatten(), bins=256, color='steelblue', alpha=0.7)
axes[1, 0].set_title('Histograma Original')
axes[1, 0].set_xlabel('Intensidad')
axes[1, 0].set_ylabel('Frecuencia')

axes[1, 1].hist(img_resized.flatten(), bins=256, color='coral', alpha=0.7)
axes[1, 1].set_title('Histograma Redimensionada')
axes[1, 1].set_xlabel('Intensidad')
axes[1, 1].set_ylabel('Frecuencia')

axes[1, 2].hist(img_clahe_uint8.flatten(), bins=256, color='green', alpha=0.7)
axes[1, 2].set_title('Histograma con CLAHE')
axes[1, 2].set_xlabel('Intensidad')
axes[1, 2].set_ylabel('Frecuencia')

plt.suptitle('Efecto del Preprocesamiento en la Distribuci√≥n de Intensidades', fontsize=14, y=1.02)
plt.tight_layout()
plt.savefig('../results/01_histogram_comparison.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nüí° Observaci√≥n: CLAHE distribuye mejor los niveles de gris,")
print("   mejorando el contraste y haciendo m√°s visibles los detalles anat√≥micos.")


### 6.2 Exploraci√≥n de par√°metros de CLAHE


In [None]:
# Explorar diferentes par√°metros de CLAHE
sample_path = paths_train[np.random.choice(len(paths_train))]
img = cv2.imread(sample_path, cv2.IMREAD_GRAYSCALE)
img = cv2.resize(img, IMG_SIZE)

# Diferentes configuraciones de CLAHE
clip_limits = [1.0, 2.0, 4.0]
tile_sizes = [(4, 4), (8, 8), (16, 16)]

fig, axes = plt.subplots(3, 3, figsize=(12, 12))

for i, clip in enumerate(clip_limits):
    for j, tile in enumerate(tile_sizes):
        clahe = cv2.createCLAHE(clipLimit=clip, tileGridSize=tile)
        img_clahe = clahe.apply(img)
        
        axes[i, j].imshow(img_clahe, cmap='gray')
        axes[i, j].set_title(f'clipLimit={clip}, tile={tile}')
        axes[i, j].axis('off')

plt.suptitle('Exploraci√≥n de Par√°metros CLAHE', fontsize=14, y=1.02)
plt.tight_layout()
plt.savefig('../results/01_clahe_parameters.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nüí° Par√°metros seleccionados: clipLimit=2.0, tileGridSize=(8,8)")
print("   - Balance entre mejora de contraste y preservaci√≥n de detalles")
print("   - Evita artefactos de sobre-amplificaci√≥n")


## 7. Segmentaci√≥n de Regi√≥n de Inter√©s (Opcional)

Exploramos la segmentaci√≥n usando umbralizaci√≥n de Otsu para aislar la regi√≥n pulmonar.


In [None]:
from src.descriptors.shape import segmentar

# Demostraci√≥n de segmentaci√≥n
fig, axes = plt.subplots(2, 4, figsize=(16, 8))

sample_indices = np.random.choice(len(paths_train), 4, replace=False)

for i, idx in enumerate(sample_indices):
    img = read_and_preprocess(paths_train[idx], apply_clahe=True)
    mask = segmentar(img)
    
    axes[0, i].imshow(img, cmap='gray')
    axes[0, i].set_title(f'Imagen Preprocesada\n{labels_train[idx]}')
    axes[0, i].axis('off')
    
    axes[1, i].imshow(mask, cmap='gray')
    axes[1, i].set_title('M√°scara (Otsu)')
    axes[1, i].axis('off')

plt.suptitle('Segmentaci√≥n con Umbralizaci√≥n de Otsu', fontsize=14, y=1.02)
plt.tight_layout()
plt.savefig('../results/01_segmentation.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nüí° Nota: La segmentaci√≥n con Otsu es √∫til para:")
print("   - Calcular descriptores de contorno")
print("   - Descriptores de Fourier del borde")
print("   - M√©tricas geom√©tricas (√°rea, per√≠metro, etc.)")


## 8. Resumen del Pipeline de Preprocesamiento

### Decisiones tomadas:

| Par√°metro | Valor | Justificaci√≥n |
|-----------|-------|---------------|
| Tama√±o de imagen | 256√ó256 | Balance entre detalle y eficiencia computacional |
| CLAHE clipLimit | 2.0 | Mejora contraste sin artefactos |
| CLAHE tileGridSize | (8, 8) | Adaptaci√≥n local adecuada |
| Normalizaci√≥n | [0, 1] | Est√°ndar para procesamiento |


In [None]:
# Resumen del pipeline
print("="*60)
print("PIPELINE DE PREPROCESAMIENTO")
print("="*60)
print("""
1. CARGA DE IMAGEN
   ‚îî‚îÄ‚îÄ cv2.imread(path, IMREAD_GRAYSCALE)
   
2. REDIMENSIONAMIENTO
   ‚îî‚îÄ‚îÄ cv2.resize(img, (256, 256), interpolation=INTER_AREA)
   
3. MEJORA DE CONTRASTE (CLAHE)
   ‚îî‚îÄ‚îÄ cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8,8))
   
4. NORMALIZACI√ìN
   ‚îî‚îÄ‚îÄ img.astype(float32) / 255.0  ‚Üí  Rango [0, 1]
   
5. (OPCIONAL) SEGMENTACI√ìN
   ‚îî‚îÄ‚îÄ cv2.threshold(img, THRESH_BINARY + THRESH_OTSU)
""")
print("="*60)


## 9. Guardado de Resultados


In [None]:
# Crear directorio de resultados si no existe
os.makedirs('../results', exist_ok=True)

# Guardar estad√≠sticas del dataset
stats = {
    'total_images': len(paths),
    'train_images': len(paths_train),
    'val_images': len(paths_val),
    'test_images': len(paths_test),
    'class_distribution': df['class'].value_counts().to_dict(),
    'preprocessing': {
        'img_size': list(IMG_SIZE),
        'clahe_clip_limit': 2.0,
        'clahe_tile_size': [8, 8]
    }
}

import json
with open('../results/01_dataset_stats.json', 'w') as f:
    json.dump(stats, f, indent=2)

print("‚úì Resultados guardados en ../results/")
print("  - 01_class_distribution.png")
print("  - 01_image_sizes.png")
print("  - 01_examples_original.png")
print("  - 01_preprocessing_comparison.png")
print("  - 01_histogram_comparison.png")
print("  - 01_clahe_parameters.png")
print("  - 01_segmentation.png")
print("  - 01_dataset_stats.json")


## 10. Conclusiones

### Hallazgos principales:

1. **Desbalance de clases**: El dataset tiene significativamente m√°s casos de PNEUMONIA que NORMAL. Esto debe considerarse durante el entrenamiento (pesos de clase, oversampling, etc.).

2. **Variabilidad de tama√±os**: Las im√°genes originales tienen tama√±os muy diversos. La estandarizaci√≥n a 256√ó256 es necesaria.

3. **Mejora de contraste**: CLAHE mejora significativamente la visibilidad de estructuras anat√≥micas en las radiograf√≠as.

4. **Pipeline robusto**: El preprocesamiento implementado prepara las im√°genes de forma consistente para la extracci√≥n de caracter√≠sticas.

### Pr√≥ximos pasos:
- Notebook 02: Extracci√≥n de descriptores cl√°sicos (HOG, Hu, LBP, GLCM, Gabor, Fourier)
- Notebook 03: Clasificaci√≥n y comparaci√≥n de modelos
