# **Proyecto final Introducci√≥n a los Sistemas Inteligentes**

**Presentado por:**

*   Maria Camila Amaya Rodr√≠guez
*   Sergio Andr√©s Castro Vargas
*   Juan David Rodr√≠guez G√≥mez

**Presentado a:**

*   Fabio Augusto Gonzalez Osorio
    *   fagonzalezo@unal.edu.co

**Informaci√≥n del Curso:**

*   **Universidad:** Universidad Nacional de Colombia
*   **Asignatura:** Introducci√≥n a los Sistemas Inteligentes
*   **Semestre:** 2025-2
*   **Fecha:** 12 de diciembre de 2025

# A. Descripci√≥n del Problema

El objetivo de este proyecto es desarrollar un modelo de *machine learning* capaz de **cuantificar la celularidad tumoral** en im√°genes histol√≥gicas de c√°ncer de mama. La celularidad tumoral describe el porcentaje de √°rea ocupada por c√©lulas cancer√≠genas dentro de un tejido y es un par√°metro clave para evaluar la respuesta del tumor a tratamientos neoadyuvantes.

Este trabajo se desarrolla en el marco del **SPIE‚ÄìAAPM‚ÄìNCI BreastPathQ: Cancer Cellularity Challenge 2019**, un concurso internacional que busca comparar m√©todos automatizados para estimar la celularidad a partir de *whole slide images* (WSI) te√±idas con hematoxilina y eosina (H&E). Estas diapositivas son extremadamente grandes, por lo que el challenge proporciona **patches histol√≥gicos** extra√≠dos de dichas im√°genes para facilitar el an√°lisis.

La estimaci√≥n de la celularidad en el momento del contest era realizada manualmente por pat√≥logos expertos, un proceso que presenta varios problemas:

- Es **lento** y consume mucho tiempo.
- Es **subjetivo**, dependiendo del criterio del especialista.
- Presenta **variabilidad inter e intra-observador**.
- Es dif√≠cil de estandarizar en entornos cl√≠nicos.

Por ello, los modelos basados en aprendizaje profundo tienen el potencial de **mejorar la reproducibilidad**, **reducir la carga de trabajo**, y **aumentar la precisi√≥n diagn√≥stica**.

En este proyecto, nuestro sistema deber√°:
- Procesar parches histol√≥gicos en formato `.tif`
- Extraer caracter√≠sticas visuales relevantes
- Predecir un puntaje continuo de celularidad
- Evaluarse con m√©tricas definidas por el challenge (**PK**)
- Generar predicciones listas para enviar a la plataforma de evaluaci√≥n


## üß¨ ¬øQu√© es la Celularidad Tumoral y Qu√© Detecta el Modelo?

La **celularidad tumoral** se refiere al **porcentaje del √°rea de un tejido ocupado por c√©lulas cancerosas**, un par√°metro fundamental en patolog√≠a para evaluar el grado de infiltraci√≥n tumoral y la respuesta al tratamiento neoadyuvante. Esta m√©trica se obtiene a partir del an√°lisis de im√°genes histol√≥gicas te√±idas con hematoxilina y eosina (H&E), la coloraci√≥n est√°ndar en patolog√≠a diagn√≥stica.

En tinci√≥n H&E:  
- La **hematoxilina** ti√±e los n√∫cleos celulares en tonos azul oscuro o p√∫rpura.  
- La **eosina** ti√±e el citoplasma, col√°geno y matriz extracelular en tonos rosados.  

(**Fuente:** Kiernan JA. *Histological and Histochemical Methods*, 5th edition. 2015.)

###  ¬øC√≥mo eval√∫an los pat√≥logos la celularidad?

Los pat√≥logos estiman la celularidad observando:

1. **Densidad nuclear**  
   Las c√©lulas cancerosas presentan t√≠picamente:
   - N√∫cleos aumentados de tama√±o  
   - Hipercromasia (coloraci√≥n nuclear intensa)  
   - Irregularidades en la membrana nuclear  
   - Pleomorfismo (variabilidad en forma y tama√±o)  


2. **Relaci√≥n entre tejido tumoral y estroma sano**  
   El modelo debe diferenciar:
   - Tejido tumoral  
   - Estroma fibroso  
   - Grasa  
   - Zonas necr√≥ticas  
   - C√©lulas inflamatorias no malignas  


3. **Distribuci√≥n espacial del tumor**  
   La celularidad no s√≥lo depende del n√∫mero de c√©lulas malignas, sino tambi√©n de su **distribuci√≥n en el parche histol√≥gico**, lo cual complica la evaluaci√≥n manual.

4. **Puntaje de celularidad**  
   La m√©trica final suele representarse como un valor continuo:
   - **0.0** ‚Üí tejido sin tumor  
   - **1.0** ‚Üí √°rea completamente ocupada por tumor  

---

## Conexi√≥n con el Aprendizaje Autom√°tico

El problema se trata como una **regresi√≥n supervisada**, donde:

- **Entrada:** una imagen histol√≥gica en formato `.tif`
- **Salida:** un valor continuo de celularidad tumoral
- **Etiquetas:** generadas por pat√≥logos expertos mediante protocolos de evaluaci√≥n de respuesta terap√©utica

Modelos basados en **Convolutional Neural Networks (CNNs)** o **Vision Transformers (ViTs)** pueden aprender patrones visuales asociados a malignidad, como:

- textura nuclear  
- variaci√≥n morfol√≥gica  
- densidad celular  
- grado de diferenciaci√≥n  




##  Definici√≥n de t√©rminos t√©cnicos clave

En esta secci√≥n agrupamos los conceptos fundamentales que utilizaremos en el proyecto:

| T√©rmino                        | Descripci√≥n breve                                                                                           |
| ------------------------------ | ------------------------------------------------------------------------------------------------------------- |
| Hematoxilina y Eosina (H&E)    | Tinci√≥n est√°ndar en patolog√≠a: hematoxilina ti√±e n√∫cleos (azul/p√∫rpura) y eosina ti√±e citoplasma/estroma (rosa). |
| Celularidad tumoral            | Porcentaje del √°rea del tejido ocupada por c√©lulas cancerosas en una imagen histol√≥gica.                      |
| Pleomorfismo                   | Variabilidad en forma y tama√±o de los n√∫cleos tumorales; indicador de malignidad.                            |
| PK (Pairwise Ranking Kappa)    | M√©trica del challenge: mide si el modelo respeta el **orden relativo** entre parches seg√∫n su celularidad.   |
| Patch                          | Recorte peque√±o extra√≠do de una Whole Slide Image (WSI) para an√°lisis.                                        |
| WSI (Whole Slide Image)        | Imagen digital extremadamente grande generada al escanear una l√°mina histol√≥gica completa.                    |
| CNN (Convolutional Neural Net) | Arquitectura que aprende patrones visuales (textura, bordes, n√∫cleos) mediante convoluciones.                 |
| Vision Transformer (ViT)       | Modelo basado en mecanismos de atenci√≥n para capturar relaciones globales en la imagen.                       |
| Normalizaci√≥n                  | Escalamiento de valores de p√≠xeles para estabilizar el entrenamiento (p. ej., dividir por 255).               |
| Data augmentation              | Transformaciones aleatorias para mejorar generalizaci√≥n (rotaci√≥n, flip, crop).                              |
| Learning rate (LR)             | Tama√±o del paso que da el optimizador al actualizar los pesos en cada iteraci√≥n.                              |
| Epoch                          | Un recorrido completo sobre todo el conjunto de entrenamiento.                                                 |
| Batch size                     | N√∫mero de im√°genes procesadas antes de actualizar los pesos.                                                   |
| Overfitting                    | Cuando el modelo memoriza el entrenamiento y generaliza mal en validaci√≥n.                                    |
| Transfer learning              | M√©todo donde se aprovechan pesos preentrenados (ImageNet) para acelerar y mejorar el entrenamiento.           |
| Scheduler                      | Estrategia que ajusta din√°micamente el learning rate durante el entrenamiento.                                  |


# B. Importaci√≥n de datos

In [None]:
#Ac√° iran todas las librer√≠a a importar cuando se entrene el modelo
#Por el momento solo deje las de preprocesar las imagenes
import os
import pandas as pd
import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator
import matplotlib.pyplot as plt
from tensorflow.keras.preprocessing.image import load_img, img_to_array
import numpy as np

In [None]:
#De pronto toca modificarlo cuando se la enviemos al monitor
#from google.colab import drive
#drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
base_path = '/content/drive/MyDrive/Proyecto_ISI/breastpathq/datasets'

In [4]:
# Subcarpetas del dataset
cells_dir = os.path.join(base_path, 'cells')
train_dir = os.path.join(base_path, 'train')
val_dir   = os.path.join(base_path, 'validation')
labels_csv = os.path.join(base_path, 'train_labels.csv')


In [5]:
# Par√°metros de la imagen
img_size = (224, 224) # Tama√±o para modelo (ajustar al requerido por el modelo)
batch_size = 32 # Ajustar dependiendo de la memoria de la GPU

#Cargar el dataframe
train_df = pd.read_csv(labels_csv)

# Formatear el nombre de las imagenes de entrenamiento
train_df['filename'] = train_df['slide'].astype(str) + '_' + train_df['rid'].astype(str) + '.tif'

# Primeras filas para verificar
print("Training DataFrame head:")
display(train_df.head())

# Inicializar ImageDataGenerator para normalizar los datos
train_datagen = ImageDataGenerator(
    rescale=1./255,                 # Valores de los pixeles[0,1]
    rotation_range=20,              # Rotar las imagenes hasta 20 grados(revisable)
    width_shift_range=0.2,          # Girar horizontalmente al azar (revisable)
    height_shift_range=0.2,         # Girar verticalmente al azar (revisable)
    shear_range=0.2,                # Cortar la imagen (revisable)
    zoom_range=0.2,                 # Zoom al azar (revisable)
    horizontal_flip=True,
    vertical_flip=True,
    fill_mode='nearest'             # Llenar pixeles (revisable)
)

# Generador de datos de entrenamiento
train_generator = train_datagen.flow_from_dataframe(
    dataframe=train_df,
    directory=train_dir,              # Path a la carpeta
    x_col='filename',                 # Filename
    y_col='y',                        # labels
    target_size=img_size,
    batch_size=batch_size,
    class_mode='raw',
    shuffle=True
)

print(f"\nFound {train_generator.samples} training images.")

Training DataFrame head:


Unnamed: 0,slide,rid,y,filename
0,99861,1,0.4,99861_1.tif
1,99861,2,0.4,99861_2.tif
2,99861,3,0.15,99861_3.tif
3,99861,4,0.1,99861_4.tif
4,99861,5,0.07,99861_5.tif


Found 2394 validated image filenames.

Found 2394 training images.


# C. Exploraci√≥n de datos

In [None]:


# Obtener cada slide √∫nico
unique_slides = train_df['slide'].unique()

# Primeros 5 √∫nicos
slides_to_display = unique_slides[:5]

plt.figure(figsize=(15, 5))

print("Displaying the first normalized image for the first 5 unique slides:")

for i, slide_id in enumerate(slides_to_display):
    # Busca la primera entrada para este slide_id (suponiendo que 'rid' empieza en 1) y construye el path a las imagenes

    first_image_row = train_df[train_df['slide'] == slide_id].iloc[0]
    image_filename = first_image_row['filename']

    image_path = os.path.join(train_dir, image_filename)

    # Carga la imagen
    img = load_img(image_path, target_size=img_size)
    img_array = img_to_array(img)

    # Reescalamos la imagen
    normalized_img_array = img_array / 255.0

    # Mostrar la imagen
    plt.subplot(1, 5, i + 1) # 1 row, 5 columns, current image index
    plt.imshow(normalized_img_array)
    plt.title(f"Slide: {slide_id}\nRID: {first_image_row['rid']}\nY: {first_image_row['y']:.2f}")
    plt.axis('off')

plt.tight_layout()
plt.show()

## Revisar Estructura General del Dataset

Determinar la cantidad total de im√°genes, la cantidad de parches por slide y confirmar el patr√≥n de nombres de archivos. Se validar√° si hay im√°genes corruptas, aunque el ImageDataGenerator ya maneja esto.


In [None]:
print(f"Total de iamgenes: {len(train_df)}\n")

# Calcular parches por slide
patches_per_slide = train_df.groupby('slide')['rid'].count()
print("Estad√≠sticas por slide:")
print(patches_per_slide.describe())

print("\nPrimeras 5 filas:")
display(train_df.head())

## Visualizar Distribuci√≥n de la Variable Objetivo (Celularidad)

Generamos un histograma y un boxplot de la variable 'y' (celularidad tumoral) y calculamos sus percentiles (0, 25, 50, 75, 100) para entender su distribuci√≥n.


In [None]:
print("Percentiles de celularidad del tumor ('y'):")
print(train_df['y'].quantile([0.0, 0.25, 0.5, 0.75, 1.0]))

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.hist(train_df['y'], bins=20, edgecolor='black')
plt.title('Distribuci√≥n de celularidad del tumor')
plt.xlabel('Celularidad del tumor')
plt.ylabel('Frecuencia')

plt.subplot(1, 2, 2)
plt.boxplot(train_df['y'])
plt.title('Boxplot of Celularidad del tumor')
plt.ylabel('Celularidad del tumor')

plt.tight_layout()
plt.show()

## Mostrar Ejemplos de Im√°genes Normalizadas


A continuaci√≥n 4 im√°genes con alta celularidad, 4 im√°genes con baja celularidad y 4 im√°genes seleccionadas aleatoriamente para comprender visualmente el problema y justificar el enfoque de Deep Learning.


In [None]:
num_images_to_display = 4  # Mostrar 4 im√°genes por categor√≠a

# ----- Filtrar im√°genes con alta celularidad (y > 0.75) -----
high_cellularity_df = train_df[train_df['y'] > 0.75].sample(
    n=min(num_images_to_display, len(train_df[train_df['y'] > 0.75])),
    random_state=42
)

# ----- Filtrar im√°genes con baja celularidad (y < 0.25) -----
low_cellularity_df = train_df[train_df['y'] < 0.25].sample(
    n=min(num_images_to_display, len(train_df[train_df['y'] < 0.25])),
    random_state=42
)

# ----- Tomar muestras aleatorias del dataset completo -----
random_cellularity_df = train_df.sample(
    n=num_images_to_display,
    random_state=42
)

plt.figure(figsize=(15, 10))

# ----- Diccionario con las categor√≠as a mostrar -----
image_dfs = {
    "Alta Celularidad": high_cellularity_df,
    "Baja Celularidad": low_cellularity_df,
    "Muestras Aleatorias": random_cellularity_df
}

plot_index = 1

# ----- Graficar im√°genes -----
for categoria, df_subset in image_dfs.items():
    for i, row in df_subset.iterrows():
        image_filename = row['filename']
        image_path = os.path.join(train_dir, image_filename)
        cellularity_value = row['y']

        img = load_img(image_path, target_size=img_size)
        img_array = img_to_array(img)
        normalized_img_array = img_array / 255.0  # Normalizaci√≥n simple para visualizaci√≥n

        plt.subplot(len(image_dfs), num_images_to_display, plot_index)
        plt.imshow(normalized_img_array)
        plt.title(f"{categoria}\nCelularidad: {cellularity_value:.2f}")
        plt.axis('off')
        plot_index += 1

plt.tight_layout()
plt.show()


## Analizar Correlaciones y Tendencias por Slide

Exploramos si algunos slides tienen m√°s c√°ncer que otros (promedio de 'y' por slide) y si 'rid' tiene alguna correlaci√≥n con 'y' dentro de los slides.


In [None]:
# ----- Calcular la celularidad promedio por slide -----
average_cellularity_per_slide = train_df.groupby('slide')['y'].mean().sort_values(ascending=False)

print("Top 5 slides con mayor celularidad promedio:")
print(average_cellularity_per_slide.head())

print("\nTop 5 slides con menor celularidad promedio:")
print(average_cellularity_per_slide.tail())

# ----- Histograma de la distribuci√≥n de celularidad promedio por slide -----
plt.figure(figsize=(8, 5))
plt.hist(average_cellularity_per_slide, bins=20, edgecolor='black')
plt.title('Distribuci√≥n de la Celularidad Tumoral Promedio por Slide')
plt.xlabel('Celularidad Promedio')
plt.ylabel('N√∫mero de Slides')
plt.show()


## Confirmar Forma, Resoluci√≥n y Canales de Im√°genes

Inspeccionamos las dimensiones (forma, resoluci√≥n y canales) de algunas im√°genes despu√©s de haber sido cargadas y redimensionadas, para justificar los pasos de preprocesamiento como resize y normalize.


In [None]:
print("Inspeccionando dimensiones de las im√°genes despu√©s de cargarlas y redimensionarlas:")

# Seleccionar 2 im√°genes de ejemplo del train_df
example_images = train_df.head(2)

for index, row in example_images.iterrows():
    image_filename = row['filename']
    image_path = os.path.join(train_dir, image_filename)

    # Cargar la imagen aplicando target_size
    img = load_img(image_path, target_size=img_size)

    # Convertir a un arreglo NumPy
    img_array = img_to_array(img)

    # Imprimir la forma resultante
    print(f"\nImagen: {image_filename}")
    print(f"Dimensiones despu√©s de cargar y redimensionar (Alto, Ancho, Canales): {img_array.shape}")


In [None]:
x=3
x
print(x)