# **Segmentación y Tracking de células madre usando la librería DeepCell**

## Realizado por Elena Tomás Vela y Tadeo Cabrera Gómez

# Indice
- **1. Abstract**
- **2. Introduccion**
- **3. Seccion teórica**
  - 3.1 DeepCell
  - 3.2 Segmentación
    - *3.2.1. A*
    - *3.2.2. B*
    - *3.2.3. C*
  - 3.3. Tracking
- **4. Seccion practica**
  - 4.1. Introduccion
  - 4.2. Segmentacion
    - *4.2.1. A*
    - *4.2.2. B*
    - *4.2.3. C*
  - 4.3. Tracking
- Conclusiones
- Bibliografia
- Tabla de tiempos

# **1. Abstract**
En este trabajo usaremos la librería DeepCell, basada en TensorFlow, para poder realizar segmentación y tracking de células madre

# **2. Introducción**

La visión por ordenador, también llamada visión informática o artificial es una rama de la ingeniería informática que trata métodos para adquirir, procesar, analizar y comprender imágenes con el fin de reproducir información numérica o simbólica de dichas imágenes que puedan ser tratados por un ordenador.

Uno de los usos de la visión por ordenador, y el que se desarrollará en este trabajo, es la segmentación y seguimiento (o tracking) de células en imágenes biomédicas. La segmentación celular consiste en identificar y delimitar cada célula dentro de una imagen, separándola del fondo, mientras que en el tracking TOOOOOOOOOOOOOOOOOOOOOODOOOOOOOOOOOOOOOOOOOOOOOO


# **3. Sección Teórica**

## DeepCell

## Segmentación

Pasos:

### Paso 1. Cargar datos

La documentación de DeepCell cita [**una fuente para descargar datos**](https://datasets.deepcell.org/).

### Paso 2. Preprocesado de datos

Una vez hemos cargado los datos, el siguiente paso para entrenar un modelo de Machine Learning es realizar un **preprocesado**, donde TTTTTTTOOOOOOOOOODDDDDDDDDOOOOOOOOOO

- **Normalización del histograma**: La normalización del histograma ajusta los valores de intensidad de los píxeles en las imágenes para mejorar el contraste y la uniformidad. Esto es importante porque las imágenes pueden provenir de diferentes microscopios o condiciones experimentales.
- **Creación de generadores de datos**: Los generadores de datos permiten aplicar aumentaciones a las imágenes durante el entrenamiento, lo que mejora la generalización del modelo.
- **Aplicación de transformaciones especializadas**: Además de la aumentación estándar, se generan representaciones intermedias de las imágenes que ayudan a mejorar la segmentación.
- **Generación de datos con las transformaciones**: Por último, se crean los datos de entrenamiento y validación aplicando las transformaciones mencionadas, y se visualizan algunas imágenes de entrenamiento con sus transformaciones aplicadas.

### Paso 3. Creación del modelo

Una vez preprocesados los datos, el siguiente paso es la creación del modelo. Para crear el modelo, hay que configurar los hiperparámetros. La librería clasifica los hiperparámetros en estas distintas secciones

- **HIPERPARÁMETROS DE LA ARQUITECTURA DEL MODELO**
    - **backbone**: Define la red neuronal base para la extracción de características. La red usada es **EfficientNetV2-BL**, una variante optimizada de [**EfficientNet**](https://arxiv.org/abs/1905.11946) que ofrece mejor rendimiento con menos cómputo.
    - **location**: Activa el uso de información de ubicación espacial en la red. Esto puede mejorar la segmentación al permitir que la red aprenda patrones espaciales.
    - **pyramid_levels**: Especifica los niveles de la Feature Pyramid Network (FPN).


Antes de avanzar, vamos a aclarar el concepto de  Feature Pyramid Network. Esta es una arquitectura de red neuronal convolucional que ayuda a detectar y segmentar objetos a diferentes escalas en una imagen, usando lo que se llama piramides de características. La idea es construir representaciones jerárquicas de la imagen a través de diferentes niveles de resolución.

![Illustration-of-the-feature-pyramid-network-FPN-The-FPN-consists-of-a-bottom-up-3287581258.jpg](attachment:Illustration-of-the-feature-pyramid-network-FPN-The-FPN-consists-of-a-bottom-up-3287581258.jpg)

https://www.researchgate.net/figure/llustration-of-the-feature-pyramid-network-FPN-The-FPN-consists-of-a-bottom-up-pathway_fig1_339006612

- **HIPERPARÁMETROS DE AUMENTO DE DATOS Y TRANSFORMACIONES:** Estos parámetros definen cómo se manipulan las imágenes antes de ingresarlas a la red.
    - **seed**: Semilla aleatoria para asegurar la reproducibilidad en las transformaciones de datos.
    - **min_objects**: Establece el mínimo número de objetos (células) requeridos en una imagen para ser considerada válida.
    - **zoom_min**: Define el factor mínimo de zoom aleatorio aplicado a las imágenes. Por ejemplo, si una imagen tiene 256x256 píxeles, se puede escalar hasta un 75% de su tamaño original.
    - **crop_size**: Define el tamaño de recorte de las imágenes de entrada.
    - **outer_erosion_width**: Determina la cantidad de erosión aplicada a los bordes exteriores de los objetos segmentados.
    - **inner_distance_alpha**: Parámetro que ajusta automáticamente la distancia interna de los objetos en la segmentación.
    - **inner_distance_beta**: Controla la escala de la distancia interna entre objetos. Un valor mayor enfatiza la distancia entre células en la segmentación.
    - **inner_erosion_width**: Define cuánto se erosionan los bordes internos de los objetos segmentados. 0 significa que no se aplica erosión interna.
      
- **HIPERPARÁMETROS DE POST PROCESADO:** Estos parámetros afectan cómo se refinan los resultados después de que el modelo hace una predicción.
    - **maxima_threshold**: Define el umbral para identificar máximos locales en el mapa de predicción.
    - **interior_threshold**: Umbral para definir qué partes de una célula se consideran su interior en la segmentación. Valores bajos permiten detectar células más pequeñas.
    - **exclude_border**: Determina si se excluyen los objetos en los bordes de la imagen durante la segmentación.
    - **small_objects_threshold**: Tamaño mínimo para considerar un objeto segmentado como válido (0 significa que no se eliminan objetos pequeños).
    - **min_distance**: Define la distancia mínima entre objetos detectados para considerarlos como separados.

- **HIPERPARÁMETROS DE ENTRENAMIENTO:** Estos parámetros controlan cómo se entrena la red neuronal.
    - **epochs**: Número de veces que la red ve el conjunto de datos completos durante el entrenamiento.
    - **batch_size**: Número de imágenes procesadas simultáneamente en cada paso de entrenamiento.
    - **lr**: Tasa de aprendizaje del optimizador, es decir, cuánto ajusta los pesos en cada iteración.

### Paso 4. Entrenamiento del modelo


### Paso 5. Evaluación del modelo


Tabla de tiempos:
- Investigación de distintas propuestas de métodos de trabajo: 30 minutos
- Martes 25: 1 h 30 min
- Sección teórica

  - Abstract: 
  - Introducción: 
  - Segmentación: 

Bibliografia:
- [Cell Tracking Challenge](https://celltrackingchallenge.net/)

### Paso 1. Cargar datos

TODO

LUNES: 30 min

MARTES: 1h 30min

MIERCOLES: 12:30 ~ 17:30

A continuación, vamos a entrenar un modelo para segmentar las imágenes. Para ello, me he basado en la [librería de DeepCell](https://deepcell.readthedocs.io/en/master/notebooks/Training-Segmentation.html), por lo que los pasos se realizarán alterando un poco el orden que se han mostrado en la sección de teoría.

### Paso 0. Importar módulos y definir rutas

Vamos a comenzar importando todos los datos y definiendo las rutas donde cargaremos y guardaremos los archivos usados.

In [22]:
import os

import matplotlib.pyplot as plt
import numpy as np
from skimage.feature import peak_local_max
import tensorflow as tf

from deepcell.applications import NuclearSegmentation
from deepcell.image_generators import CroppingDataGenerator
from deepcell.losses import weighted_categorical_crossentropy
from deepcell.model_zoo.panopticnet import PanopticNet
from deepcell.utils.train_utils import count_gpus, rate_scheduler
from deepcell_toolbox.deep_watershed import deep_watershed
from deepcell_toolbox.metrics import Metrics
from deepcell_toolbox.processing import histogram_normalization

In [None]:
data_dir = '/data'                 # Ruta de datos usados para crear el modelo
model_path = 'NuclearSegmentation' # Ruta donde se guardara el modelo
metrics_path = 'metrics.yaml'      # Ruta donde se guardaran las metricas
train_log = 'train_log.csv'        # Ruta donde se guardara el log de entrenamiento

### PASO 1. Cargar datos

Para entrenar el modelo he usado la base de datos **DynamicNuclearNet Segmentation**. El dataset pesa más de 2GB, por lo que no ha sido adjuntado, pero he adjuntado el enlace donde obtuve el dataset [**aquí**](https://datasets.deepcell.org/data).

In [None]:
# Datos de entrenamiento
with np.load(os.path.join(data_dir, 'train.npz')) as data:
    X_train = data['X']
    y_train = data['y']

# Datos de validacion
with np.load(os.path.join(data_dir, 'val.npz')) as data:
    X_val = data['X']
    y_val = data['y']

# Datos de prueba
with np.load(os.path.join(data_dir, 'test.npz')) as data:
    X_test = data['X']
    y_test = data['y']

### PASO 2. Definición de variables

A continuación vamos a definir todas las variables usadas para el preprocesado y entrenamiento.

In [None]:
# Arquitecura del modelo
backbone = "efficientnetv2bl" # Backbone de la red neuronal
location = True               # Si se incluye la localizacion en la red neuronal
pyramid_levels = ["P1","P2","P3","P4","P5","P6","P7"] # Niveles de la piramide

# Augmentacion de datos y preprocesamiento
seed = 0                      # Semilla
min_objects = 1               # Numero minimo de objetos
zoom_min = 0.75
crop_size = 256
outer_erosion_width = 1
inner_distance_alpha = "auto" # Distancia interna
inner_distance_beta = 1
inner_erosion_width = 0

# Parametros de postprocesamiento
maxima_threshold = 0.1
interior_threshold = 0.01
exclude_border = False
small_objects_threshold = 0
min_distance = 10

# Parametros de entrenamiento
epochs = 16
batch_size = 16
lr = 1e-4

### PASO 3. Preprocesado de datos de prueba y validación

Ahora vamos a 

In [None]:
# Preprocesado de los datos

# Normalizacion del histograma
X_train = histogram_normalization(X_train)
X_val = histogram_normalization(X_val)


# Parametros de transformacion
zoom_max = 1 / zoom_min

# Generador de datos para entrenamiento
datagen = CroppingDataGenerator(
    rotation_range=180,                 # Rotacion aleatoria
    zoom_range=(zoom_min, zoom_max),    # Zoom aleatorio
    horizontal_flip=True,               # Flip horizontal
    vertical_flip=True,                 # Flip vertical
    crop_size=(crop_size, crop_size),   # Tamanyo del recorte
)

# Generador de datos para validacion
datagen_val = CroppingDataGenerator(
    crop_size=(crop_size, crop_size)    # Tamanyo del recorte
)

NameError: name 'X_train' is not defined

Además de la aumentación estándar, se generan representaciones intermedias de las imágenes que ayudan a mejorar la segmentación.

 - **Inner-distance**: Calcula la distancia de cada píxel al centro de la célula.
 - **Outer-distance**: Calcula la distancia de cada píxel al borde de la célula.
 - **Foreground/Background (fgbg)**: Crea una máscara binaria indicando si un píxel pertenece a una célula o al fondo.

In [None]:
# Transformaciones de las imagenes
transforms = ["inner-distance", "outer-distance", "fgbg"]

# Parametros de las transformaciones
transforms_kwargs = {

    # Transformacion outer-distance
    "outer-distance": {
        "erosion_width": outer_erosion_width, # Erosion de la distancia exterior
    },

    # Transformacion inner-distance
    "inner-distance": {
        "alpha": inner_distance_alpha,        # Alpha de la distancia interior
        "beta": inner_distance_beta,          # Beta de la distancia interior
        "erosion_width": inner_erosion_width, # Erosion de la distancia interior
    },
}


# Generador de datos para entrenamiento
train_data = datagen.flow(
    {'X': X_train, 'y': y_train},        # Datos
    seed=seed,                           # Semilla
    min_objects=min_objects,             # Numero minimo de objetos
    transforms=transforms,               # Lista de transformaciones
    transforms_kwargs=transforms_kwargs, # Parametros de las transformaciones
    batch_size=batch_size,               # Tamanyo del batch
)

print("Created training data generator.")

# Generador de datos para validacion
val_data = datagen_val.flow( 
    {'X': X_val, 'y': y_val},            # Datos
    seed=seed,                           # Semilla
    min_objects=min_objects,             # Numero minimo de objetos
    transforms=transforms,               # Lista de transformaciones
    transforms_kwargs=transforms_kwargs, # Parametros de las transformaciones
    batch_size=batch_size,               # Tamanyo del batch
)

print("Created validation data generator.")

Ahora vamos a visualizar algunos resultados del preprocesado realizado.

In [None]:
inputs, outputs = train_data.next() # Obtenemos los datos de entrenamiento

img = inputs[0]             # Imagen original
inner_distance = outputs[0] # Distancia interior
outer_distance = outputs[1] # Distancia exterior
fgbg = outputs[2]           # Fondo/Primer plano

# Creamos graficos
fig, axes = plt.subplots(1, 4, figsize=(15, 15))

axes[0].imshow(img[..., 0])
axes[0].set_title('Imagen original')

axes[1].imshow(inner_distance[0, ..., 0])
axes[1].set_title('Distancia interior')

axes[2].imshow(outer_distance[0, ..., 0])
axes[2].set_title('Distancia exterior')

axes[3].imshow(fgbg[0, ..., 0])
axes[3].set_title('Fondo/Primer plano')

plt.show() # Mostramos los graficos

### Paso 4. Construcción del modelo

In [None]:
input_shape = (crop_size, crop_size, 1) # Tamanyo de la entrada

# Creacion del modelo
model = PanopticNet(
    backbone=backbone,              # Backbone
    input_shape=input_shape,        # Tamanyo de la entrada
    norm_method=None,               # Metodo de normalizacion
    num_semantic_classes=[1, 1, 2], # Numero de clases semanticas
    location=location,              # Localizacion
    include_top=True,               # Incluir capa de salida
    backbone_levels=["C1", "C2", "C3", "C4", "C5"], # Niveles del backbone
    pyramid_levels=pyramid_levels,  # Niveles de la piramide
)

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/efficientnet_v2/efficientnetv2-l_notop.h5
 27000832/473176280 [>.............................] - ETA: 2:47

KeyboardInterrupt: 

In [None]:
def semantic_loss(n_classes):
    def _semantic_loss(y_pred, y_true):
        if n_classes > 1:
            return 0.01 * weighted_categorical_crossentropy(y_pred, y_true, n_classes=n_classes)
        return tf.keras.losses.MSE(y_pred, y_true)

    return _semantic_loss

loss = {}

# Give losses for all of the semantic heads
for layer in model.layers:
    if layer.name.startswith("semantic_"):
        n_classes = layer.output_shape[-1]
        loss[layer.name] = semantic_loss(n_classes)

optimizer = tf.keras.optimizers.Adam(lr=lr, clipnorm=0.001)

model.compile(loss=loss, optimizer=optimizer)

### Paso 5. Entrenamiento del modelo

In [None]:
# Clear clutter from previous TensorFlow graphs.
tf.keras.backend.clear_session()

monitor = "val_loss"

csv_logger = tf.keras.callbacks.CSVLogger(train_log)

# Create callbacks for early stopping and pruning.
callbacks = [
    tf.keras.callbacks.ModelCheckpoint(
        model_path,
        monitor=monitor,
        save_best_only=True,
        verbose=1,
        save_weights_only=False,
    ),
    tf.keras.callbacks.LearningRateScheduler(rate_scheduler(lr=lr, decay=0.99)),
    tf.keras.callbacks.ReduceLROnPlateau(
        monitor=monitor,
        factor=0.1,
        patience=5,
        verbose=1,
        mode="auto",
        min_delta=0.0001,
        cooldown=0,
        min_lr=0,
    ),
    tf.keras.callbacks.EarlyStopping(patience=10, restore_best_weights=True),
    csv_logger,
]

print(f"Training on {count_gpus()} GPUs.")

# Train model.
history = model.fit(
    train_data,
    steps_per_epoch=train_data.y.shape[0] // batch_size,
    epochs=epochs,
    validation_data=val_data,
    validation_steps=val_data.y.shape[0] // batch_size,
    callbacks=callbacks,
)

print("Final", monitor, ":", history.history[monitor][-1])

Una vez hemos entrenado el modelo, vamos a guardarlo.

In [None]:
with tempfile.TemporaryDirectory() as tmpdirname:
    weights_path = os.path.join(str(tmpdirname), "model_weights.h5")
    model.save_weights(weights_path, save_format="h5")
    prediction_model = PanopticNet(
        backbone=backbone,
        input_shape=input_shape,
        norm_method=None,
        num_semantic_heads=2,
        num_semantic_classes=[1, 1],  # inner distance, outer distance
        location=location,  # should always be true
        include_top=True,
        backbone_levels=["C1", "C2", "C3", "C4", "C5"],
        pyramid_levels=pyramid_levels,
    )
    prediction_model.load_weights(weights_path, by_name=True)

### Paso 6. Evaluación del modelo

In [None]:
X_test = histograph_normalization(X_test)

test_images = prediction_model.predict(X_test)

In [None]:
index = np.random.choice(X_test.shape[0])
print(index)

fig, axes = plt.subplots(1, 4, figsize=(20, 20))

masks = deep_watershed(
    test_images,
    radius=radius,
    maxima_threshold=maxima_threshold,
    interior_threshold=interior_threshold,
    exclude_border=exclude_border,
    small_objects_threshold=small_objects_threshold,
    min_distance=min_distance
)

# calculated in the postprocessing above, but useful for visualizing
inner_distance = test_images[0]
outer_distance = test_images[1]

coords = peak_local_max(
    inner_distance[index],
    min_distance=min_distance
)

# raw image with centroid
axes[0].imshow(X_test[index, ..., 0])
axes[0].scatter(coords[..., 1], coords[..., 0],
                color='r', marker='.', s=10)

axes[1].imshow(inner_distance[index, ..., 0], cmap='jet')
axes[2].imshow(outer_distance[index, ..., 0], cmap='jet')
axes[3].imshow(masks[index, ...], cmap='jet')

plt.show()

Evaluamos

In [None]:
outputs = model.predict(X_test)

y_pred = []

for i in range(outputs[0].shape[0]):

    mask = deep_watershed(
        [t[[i]] for t in outputs],
        radius=radius,
        maxima_threshold=maxima_threshold,
        interior_threshold=interior_threshold,
        exclude_border=exclude_border,
        small_objects_threshold=small_objects_threshold,
        min_distance=min_distance)

    y_pred.append(mask[0])

y_pred = np.stack(y_pred, axis=0)
y_pred = np.expand_dims(y_pred, axis=-1)
y_true = y_test.copy()

m = Metrics('DeepWatershed', seg=False)
m.calc_object_stats(y_true, y_pred)