# Obligatorio - Taller de Deep Learning

**Fecha de entrega:** 10/12/2024  
**Puntaje máximo:** 50 puntos  

## Obligatorio

El objetivo de este obligatorio es evaluar su conocimiento en Deep Learning mediante la implementación completa de un modelo de segmentación de imágenes basado en el paper [**"U-Net: Convolutional Networks for Biomedical Image Segmentation"**](https://arxiv.org/pdf/1505.04597). Toda la implementación debe realizarse desde cero utilizando PyTorch, y los estudiantes tendrán la libertad de ajustar ciertos hiperparámetros y configuraciones mientras mantengan la esencia del paper original.

### **Competencia en Kaggle**

Además, como parte de este obligatorio, participarán en una competencia privada en Kaggle donde se les proporcionará un dataset de test oculto (sin target). Deberán subir sus predicciones a Kaggle y se evaluarán en función de la métrica **Dice Coefficient (Coeficiente de Dice)**. Esta competencia les permitirá comparar sus resultados con los de sus compañeros en un entorno real de evaluación.

### **Qué es el Dice Coefficient?**
El **Dice Coefficient**, también conocido como F1-score para segmentación, es una métrica utilizada para evaluar la similitud entre la predicción y la verdad del terreno en tareas de segmentación. Se define de la siguiente manera:

$$
\text{Dice} = \frac{2 \cdot |A \cap B|}{|A| + |B|}
$$

Donde:
- \(A\) es el conjunto de píxeles predichos como pertenecientes a la clase positiva.
- \(B\) es el conjunto de píxeles verdaderos pertenecientes a la clase positiva.
- \(|A \cap B|\) es la intersección de \(A\) y \(B\), es decir, los píxeles correctamente predichos como positivos.

Un valor de Dice de **1** indica una predicción perfecta, mientras que un valor de **0** indica que no hay coincidencia entre la predicción y el valor verdadero. Durante la competencia de Kaggle, deberán obtener un puntaje de al menos **0.7** en la métrica Dice para considerarse aprobados.

### **Criterios a Evaluar**

1. **Implementación Correcta del Modelo U-Net (20 puntos):**
   - Construcción de la arquitectura U-Net siguiendo la estructura descrita en el paper, permitiendo ajustes como el número de filtros, funciones de activación y métodos de inicialización de pesos.
   - Se aceptan mejoras como el uso de técnicas adicionales como batch normalization, otras funciones de activación, etc.

2. **Entrenamiento del Modelo (10 puntos):**
   - Configuración adecuada del ciclo de entrenamiento, incluyendo la elección de la función de pérdida y del optimizador (Adam, SGD, etc.).
   - Uso de técnicas de regularización para mejorar la generalización del modelo, como el dropout, normalización de batch y data augmentation.
   - Gráficas y análisis de la evolución del entrenamiento, mostrando las curvas de pérdida y métricas relevantes tanto en el conjunto de entrenamiento como en el de validación.

3. **Evaluación de Resultados (10 puntos):**
   - Evaluación exhaustiva del modelo utilizando métricas de segmentación como **Dice Coefficient**.
   - Análisis detallado de los resultados, incluyendo un análisis de errores para identificar y discutir casos difíciles.
   - Visualización de ejemplos representativos de segmentaciones correctas e incorrectas, comparando con las etiquetas manuales proporcionadas en el dataset.

4. **Participación y Resultados en la Competencia Kaggle (5 puntos):**
   - Participación activa en la competencia de Kaggle, con al menos una (1) subida de predicción.
   - Puntaje obtenido en la tabla de posiciones de Kaggle, evaluado en base al **Dice Coefficient** en el conjunto de test oculto. Es necesario obtener al menos un valor de **0.7** para esta métrica.

   Nota: El **Dice Coefficient** es la métrica utilizada para evaluar la precisión de los modelos de segmentación de imágenes en esta competencia. Un valor de Dice superior a 0.7 es requerido para aprobar esta tarea.

### **Run-Length Encoding (RLE)**

Dado que no se suben las imágenes segmentadas directamente a Kaggle, se requiere usar **Run-Length Encoding (RLE)** para comprimir las máscaras de predicción en una cadena de texto que será evaluada. El **RLE** es una técnica de compresión donde se representan secuencias consecutivas de píxeles en formato `start length`, indicando la posición de inicio y la longitud de cada secuencia de píxeles positivos.

Para calcular el **RLE**, se sigue el siguiente proceso:

1. Se aplanan las máscaras predichas en un solo vector
2. Se identifican los píxeles con valor positivo (1) y se calculan las secuencias consecutivas.
3. Se registra la posición de inicio de cada secuencia y su longitud en formato `start length`.

Este formato comprimido se sube a Kaggle en lugar de las imágenes segmentadas.

#### **Ejemplo de RLE**

```python
import numpy as np

def rle_encode(mask):
    pixels = np.array(mask).flatten(order='F')  # Aplanar la máscara en orden Fortran
    pixels = np.concatenate([[0], pixels, [0]])  # Añadir ceros al principio y final
    runs = np.where(pixels[1:] != pixels[:-1])[0] + 1  # Encontrar transiciones
    runs[1::2] = runs[1::2] - runs[::2]  # Calcular longitudes
    return ' '.join(str(x) for x in runs)

mask = np.array([[0, 0, 1, 0, 0],
                 [0, 1, 1, 1, 0],
                 [1, 1, 1, 0, 0],
                 [0, 0, 0, 1, 1]])

print(rle_encode(mask))
```

> **Salida:** 3 1 6 2 9 3 14 1 16 1 20 1


### **Sobre el Dataset**

El dataset proporcionado para esta tarea incluirá imágenes y máscaras para la segmentación de un conjunto específico de clases. El conjunto de entrenamiento estará disponible para su uso durante todo el proceso de desarrollo y pruebas, mientras que el conjunto de validación se mantendrá oculto para la evaluación final en Kaggle.

### **Instrucciones de Entrega**

- Deberán entregar un Jupyter Notebook (.ipynb) que contenga todo el código y las explicaciones necesarias para ejecutar la implementación, el entrenamiento y la evaluación del modelo.
- El notebook debe incluir secciones bien documentadas explicando las decisiones de diseño del modelo, los experimentos realizados, y los resultados obtenidos.
- El código debe estar escrito de manera clara.
- La entrega debe realizarse a través de la plataforma de gestión de ORT (gestion.ort.edu.uy) antes de la fecha límite.

### **Materiales Adicionales**

Para facilitar su trabajo, pueden consultar los siguientes recursos:

- [U-Net: Convolutional Networks for Biomedical Image Segmentation (paper original)](https://arxiv.org/abs/1505.04597)
- [Documentación de PyTorch](https://pytorch.org/docs/stable/index.html)
- [Tutoriales y recursos adicionales en Kaggle](https://www.kaggle.com/)

### **Competencia Kaggle**

https://www.kaggle.com/t/9b4e546084034a59b182aac1ae892640

---


## Requisitos Universitarios

Fecha de entrega: 10/12/2024 hasta las 21:00 horas en gestion.ort.edu.uy (max. 40Mb en formato zip)

### Uso de material de apoyo y/o consulta

Inteligencia Artificial Generativa:

   - Seguir las pautas de los docentes: Se deben seguir las instrucciones específicas de los docentes sobre cómo utilizar la IA en cada curso.
   - Citar correctamente las fuentes y usos de IA: Siempre que se utilice una herramienta de IA para generar contenido, se debe citar adecuadamente la fuente y la forma en que se utilizó.
   - Verificar el contenido generado por la IA: No todo el contenido generado por la IA es correcto o preciso. Es esencial que los estudiantes verifiquen la información antes de usarla.
   - Ser responsables con el uso de la IA: Conocer los riesgos y desafíos, como la creación de “alucinaciones”, los peligros para la privacidad, las cuestiones de propiedad intelectual, los sesgos inherentes y la producción de contenido falso.
   - En caso de existir dudas sobre la autoría, plagio o uso no atribuido de IAG, el docente tendrá la opción de convocar al equipo de obligatorio a una defensa específica e individual sobre el tema.

### Defensa

Fecha de defensa: 11/12/2024

La defensa es obligatoria y eliminatoria. El docente es quien definirá y comunicará la modalidad, y mecánica de defensa. La no presentación a la misma implica la pérdida de la totalidad de los puntos del Obligatorio.

IMPORTANTE:

   1) Inscribirse
   2) Formar grupos de hasta 2 personas del mismo dictado
   3) Subir el trabajo a Gestión antes de la hora indicada (ver hoja al final del documento: “RECORDATORIO”)

Aquellos de ustedes que presenten alguna dificultad con su inscripción o tengan inconvenientes técnicos, por favor contactarse con el Coordinador de cursos o Coordinación adjunta antes de las 20:00h del día de la entrega, a través de los mails crosa@ort.edu.uy / posada_l@ort.edu.uy (matutino) / larrosa@ort.edu.uy (nocturno), o vía Ms Teams.

# Preparación entorno

In [1]:
!python --version

Python 3.10.12


In [2]:
!pip install torch torchinfo
!pip install scikit-learn
!pip install kaggle
!pip install matplotlib
!pip install pandas

Collecting torchinfo
  Downloading torchinfo-1.8.0-py3-none-any.whl.metadata (21 kB)
Downloading torchinfo-1.8.0-py3-none-any.whl (23 kB)
Installing collected packages: torchinfo
Successfully installed torchinfo-1.8.0


In [3]:
# Definimos el entorno para interactuar con Kaggle
# Debemos subir el archivo kaggle.json previamente
!mkdir -p /root/.config/kaggle
!mv kaggle.json /root/.config/kaggle/
!chmod 600 /root/.config/kaggle/kaggle.json

In [22]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset, random_split, ConcatDataset, Subset
from torchvision.utils import make_grid
import torchvision.datasets as datasets

from torchvision.transforms import v2 as T
from torchvision.io import read_image, ImageReadMode

from torchinfo import summary

import matplotlib.pyplot as plt

import os
from pathlib import Path

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    accuracy_score,
    classification_report,
)

import numpy as np

import sys
import platform

import PIL
from PIL import Image

import kaggle
from kaggle.api.kaggle_api_extended import KaggleApi

from tqdm.notebook import tqdm_notebook

from utils import (
    train,
    train_unet,
    model_calassification_report,
    show_tensor_image,
    show_tensor_images,
    print_log,
    print_log_unet,
)

In [23]:
# definimos el dispositivo que vamos a usar
DEVICE = "cpu"  # por defecto, usamos la CPU
if torch.cuda.is_available():
    DEVICE = "cuda"  # si hay GPU, usamos la GPU
elif torch.backends.mps.is_available():
    DEVICE = "mps"  # si no hay GPU, pero hay MPS, usamos MPS

#NUM_WORKERS = max(os.cpu_count() - 1, 1)
NUM_WORKERS = 0

# DEVICE = "cpu"
print(f"Device: {DEVICE}")
print(f"Num Workers: {NUM_WORKERS}")

Device: cuda
Num Workers: 0


In [16]:
# De acuerdo a la documentación de Colab, obtenemos información de la GPU
# en caso de contar con ella.
gpu_info = !nvidia-smi
gpu_info = '\n'.join(gpu_info)
if gpu_info.find('failed') >= 0:
  print('Not connected to a GPU')
else:
  print(gpu_info)

Mon Dec  9 15:12:34 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:00:04.0 Off |                    0 |
| N/A   33C    P0              44W / 400W |      5MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                    

In [7]:
# Constantes

SEED = 34
torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True
BATCH_SIZE = 32

# Dataset, dataloader y datos de entrenamiento

In [8]:
class PeopleDataset(Dataset):
    def __init__(self, data, masks=None, img_transforms=None, mask_transforms=None):
      self.train_data = data
      self.train_masks = masks
      self.img_transforms = img_transforms
      self.mask_transforms = mask_transforms

      # Es necesario ordenar la lista para que las imágenes
      # sean coherentes con las máscaras.
      self.images = sorted(os.listdir(self.train_data))
      self.masks = sorted(os.listdir(self.train_masks))


    def __len__(self):
      if self.train_masks is not None:
        assert len(self.images) == len(self.masks), 'incompatibilidad de imágenes y máscaras'
      return len(self.images)

    def __getitem__(self, idx):
      # Obtenemos los paths de las imágenes
      img_path = os.path.join(self.train_data, self.images[idx])

      if self.train_masks is not None:
        mask_path = os.path.join(self.train_masks, self.masks[idx])

      image = read_image(img_path)

      if self.train_masks is not None:
        mask = read_image(mask_path)

      # Verificamos si existen transformaciones, y en caso que sí
      # las aplicamos
      if self.img_transforms:
        image = self.img_transforms(image)
      if self.train_masks is not None:
        if self.mask_transforms is not None:
          mask = self.mask_transforms(mask)


      img = image.to(DEVICE)
      # Nos quedamos con un solo canal de la imagen, ya que todos son iguales
      if self.train_masks is not None:
        mask = mask[0:1, :, :]
        msk = mask.to(DEVICE)


      # if img.shape != (3, 224, 224):
      #   print(f"Imagen con shape incorrecto: {self.images[idx]}")
      # if self.train_masks is not None:
      #   if msk.shape != (1, 224, 224):
      #     print(msk.shape)
      #     print("Wrong mask shape!")

      return img, msk

In [24]:
# Descargamos el dataset
!kaggle competitions download -c tdl-segmentacion

Downloading tdl-segmentacion.zip to /content
 99% 2.12G/2.14G [00:16<00:00, 190MB/s]
100% 2.14G/2.14G [00:17<00:00, 134MB/s]


In [21]:
!rm -rf ./test
!rm -rf ./train
!rm -f tdl-segmentacion.zip

In [25]:
# Descomprimimos el dataset
!unzip -q tdl-segmentacion.zip
!mv ./tdl-segmentacion/test .
!mv ./tdl-segmentacion/train .
!rmdir ./tdl-segmentacion

mv: cannot stat './tdl-segmentacion/test': No such file or directory
mv: cannot stat './tdl-segmentacion/train': No such file or directory
rmdir: failed to remove './tdl-segmentacion': No such file or directory


In [26]:
# Eliminamos imágenes que no cumplen con el requerimiento
# de contar con 3 canales (RGB)
# Estas imágenes fueron detectadas durante las etapas
# de entrenamiento de pruebas.
!rm -f train/images/1775.png
!rm -f train/masks/1775.png
!rm -f train/images/1733.png
!rm -f train/masks/1733.png

In [27]:
TRAIN_PATH = 'train/images/'
TRAIN_MASK_PATH = 'train/masks/'
TEST_PATH = 'test/images/'

transform_image_data = T.Compose([
   T.Resize((224, 224))])

transform_mask_data = T.Compose([
    T.Resize((224, 224))])

full_dataset = PeopleDataset(data=TRAIN_PATH, masks=TRAIN_MASK_PATH, img_transforms=transform_image_data, mask_transforms=transform_mask_data)

TRAIN_SIZE = int(len(full_dataset)*0.8)
VAL_SIZE = len(full_dataset) - TRAIN_SIZE

train_dataset, val_dataset = random_split(full_dataset, [TRAIN_SIZE, VAL_SIZE])

test_dataset = PeopleDataset(data=TEST_PATH, masks=None, img_transforms=transform_image_data, mask_transforms=None)


def get_data_loaders(batch_size, train_dataset, val_dataset, test_dataset):

    train_loader = DataLoader(
        train_dataset, batch_size=batch_size, shuffle=True, num_workers=NUM_WORKERS
    )

    val_loader = DataLoader(
        val_dataset, batch_size=batch_size, shuffle=False, num_workers=NUM_WORKERS
    )

    test_loader = DataLoader(
        test_dataset, batch_size=batch_size, shuffle=False, num_workers=NUM_WORKERS
    )

    return train_loader, val_loader, test_loader

In [28]:
# Obtenemos los dataloaders
train_loader, val_loader, test_loader = get_data_loaders(BATCH_SIZE, train_dataset, val_dataset, test_dataset)

Vamos a explorar los datos, y asegurarnos de que todas las imágenes, posean
la cantidad correcta de canales.

In [None]:
def explore_datasets(dataloader):
  # Vamos a explorar los canales del dataset para asegurarnos que todos
  # tengan las dimensiones correctas
  for batch_idx, (data, target) in enumerate(train_loader):
    # print(f"Batch {batch_idx + 1}")
    for i in range(len(data)):
      # print(f"Channel {i + 1}")
      if data[i].shape != (3, 224, 224):
        print("Wrong shape!")
        print(data[i])

In [None]:
explore_datasets(train_loader)

Como puede observarse, existen imágenes que no poseen los canales correctos. Se
procede a eliminar dichas imágenes, y a volver a generar el dataset.

In [None]:
!rm -f train/images/1775.png
!rm -f train/masks/1775.png
!rm -f train/images/1733.png
!rm -f train/masks/1733.png

Volvemos a generar los datasets correctamente, sin las imágenes incorrectoas.

In [None]:
full_dataset = PeopleDataset(data=TRAIN_PATH, masks=TRAIN_MASK_PATH, img_transforms=transform_image_data, mask_transforms=transform_mask_data)
train_dataset, val_dataset = random_split(full_dataset, [TRAIN_SIZE, VAL_SIZE])
test_dataset = PeopleDataset(data=TEST_PATH, masks=None, img_transforms=transform_image_data, mask_transforms=None)
train_loader, val_loader, test_loader = get_data_loaders(BATCH_SIZE, train_dataset, val_dataset, test_dataset)

In [29]:
# Testeamos el dataloader obteniendo un minimatch y verificando las
# dimensiones y también los valores de las máscaras
imgs, masks = next(iter(train_loader))
for i in range(len(imgs)):
  print(imgs[i].shape, masks[i].shape)
  unique_values, counts = torch.unique(masks[i], return_counts=True)
  print(unique_values)  # Output: tensor([1, 2, 3, 4, 5, 6])
  print(counts)         # Output: tensor([4, 1, 1, 1, 1, 1])  (counts of each unique value)

print(imgs.shape, masks.shape)

torch.Size([3, 224, 224]) torch.Size([1, 224, 224])
tensor([0, 1], device='cuda:0', dtype=torch.uint8)
tensor([24748, 25428], device='cuda:0')
torch.Size([3, 224, 224]) torch.Size([1, 224, 224])
tensor([0, 1], device='cuda:0', dtype=torch.uint8)
tensor([39419, 10757], device='cuda:0')
torch.Size([3, 224, 224]) torch.Size([1, 224, 224])
tensor([0, 1], device='cuda:0', dtype=torch.uint8)
tensor([33873, 16303], device='cuda:0')
torch.Size([3, 224, 224]) torch.Size([1, 224, 224])
tensor([0, 1], device='cuda:0', dtype=torch.uint8)
tensor([45078,  5098], device='cuda:0')
torch.Size([3, 224, 224]) torch.Size([1, 224, 224])
tensor([0, 1], device='cuda:0', dtype=torch.uint8)
tensor([23403, 26773], device='cuda:0')
torch.Size([3, 224, 224]) torch.Size([1, 224, 224])
tensor([0, 1], device='cuda:0', dtype=torch.uint8)
tensor([44750,  5426], device='cuda:0')
torch.Size([3, 224, 224]) torch.Size([1, 224, 224])
tensor([0, 1], device='cuda:0', dtype=torch.uint8)
tensor([41220,  8956], device='cuda:0')

Como puede observarse, las imágenes y las máscaras poseen las dimensiones correctas. En particular, las imágenes poseen 3x224x224 y las máscaras poseen 1x224x224.

Vamos a continuación mostrar las imágenes, y sus respectivas máscaras del conjunto de entrenamiento. Validaremos que las máscaras son correctas, tomando una muestra de éstos datos.

In [30]:
def plot_mini_batch(imgs, masks, show_mask=True):
  '''
  Función para mostrar un mini batch de imágenes y máscaras
  '''
  plt.figure(figsize=(20,10))
  for i in range(BATCH_SIZE):
    plt.subplot(4, 8, i+1)
    # Permutamos ya que el tensor posee la siguiente información:
    #  - (canal, alto, ancho)
    # Y la función para mostrar la imgen espera:
    # - (alta, ancho, canal)
    # Por este motivo, se realiza la permutación
    img=imgs[i,...].permute(1,2,0).to(DEVICE).cpu().numpy()
    mask=masks[i,...].permute(1,2,0).to(DEVICE).cpu().numpy()
    plt.imshow(img)
    plt.axis('off')
    # Incluimos la máscara
    if show_mask:
      plt.imshow(mask, alpha=0.4, cmap='gray',vmin=0,vmax=1)
    plt.axis('off')
  plt.tight_layout()
  plt.show()

In [31]:
# Mostramos un mini batch de las imágenes
plot_mini_batch(imgs, masks, True)

Output hidden; open in https://colab.research.google.com to view.

Como puede observarse, las imágenes muestran sus máscaras de forma correcta, indicando la precisión de éstas máscaras con respecto a las imágenes.

# Modelo


Dada la estructura de la U-Net, y la repetición de los bloques de
convolución tanto en la sección de down-sampling como en la de
up-sampling, crearemos clases con la estructura de la
convolución. De esta forma, simplificaremos el
código parametrizando dichas convoluciones
de acuerdo a la etapa de la red en la
que nos encontremos.

In [16]:
class Conv_3_k(nn.Module):
  '''
  Bloque con una convluición de 3x3, que será la base para el desarrollo
  de todo el modelo.
  '''
  def __init__(self, channels_in, channels_out):
    super().__init__()
    # Utilizaremos padding para que las imágenes no se modifiquen
    self.conv1 = nn.Conv2d(channels_in, channels_out, kernel_size=3, stride=1, padding=1)
  def forward(self, x):
    return self.conv1(x)

class Double_Conv(nn.Module):
    '''
    Bloque con doble convolución, que será utilizado en el encoder y decoder.
    '''
    def __init__(self, channels_in, channels_out):
      super().__init__()
      self.double_conv = nn.Sequential(
                           Conv_3_k(channels_in, channels_out),
                           nn.BatchNorm2d(channels_out),
                           nn.ReLU(),
                           Conv_3_k(channels_out, channels_out),
                           nn.BatchNorm2d(channels_out),
                           nn.ReLU(),
                            )
    def forward(self, x):
      return self.double_conv(x)

class Down_Conv(nn.Module):
    '''
    Rama de la U-Net responsable del encoder (down sampling).
    '''
    def __init__(self, channels_in, channels_out):
        super().__init__()
        self.encoder = nn.Sequential(
                        nn.MaxPool2d(2,2),
                        Double_Conv(channels_in, channels_out)
                        )
    def forward(self, x):
        return self.encoder(x)

class Up_Conv(nn.Module):
    '''
    Sección de la U-Net responsable del up sampling.
    La capa Upsample es responsable de escalar la imagen -en este caso-
    por un factor de 2.
    Luego, en el forward, concatenamos esta imagen "upscaled"
    con la salida del encoder que se guardó en una variable
    previamente.
    '''
    def __init__(self,channels_in, channels_out):
        super().__init__()
        self.upsample_layer = nn.Sequential(
                        nn.Upsample(scale_factor=2, mode='bicubic'),
                        nn.Conv2d(channels_in, channels_in//2, kernel_size=1, stride=1)
                        )
        self.decoder = Double_Conv(channels_in, channels_out)

    def forward(self, x1, x2):
        '''
        x1 - salida escalada por un factor de 2
        x2 - salida que proviene del encoder
        '''
        x1 = self.upsample_layer(x1)
        x = torch.cat([x2, x1],dim=1)
        return self.decoder(x)

class UNET(nn.Module):
    '''
    Definición de la U-Net utilizando los bloques anteriormente definidos
    '''
    def __init__(self, channels_in, channels, num_classes):
        super().__init__()
        self.first_conv = Double_Conv(channels_in, channels) #64, 224, 224
        self.down_conv1 = Down_Conv(channels, 2*channels) # 128, 112, 112
        self.down_conv2 = Down_Conv(2*channels, 4*channels) # 256, 56, 56
        self.down_conv3 = Down_Conv(4*channels, 8*channels) # 512, 28, 28

        self.middle_conv = Down_Conv(8*channels, 16*channels) # 1024, 14, 14

        self.up_conv1 = Up_Conv(16*channels, 8*channels)
        self.up_conv2 = Up_Conv(8*channels, 4*channels)
        self.up_conv3 = Up_Conv(4*channels, 2*channels)
        self.up_conv4 = Up_Conv(2*channels, channels)

        self.last_conv = nn.Conv2d(channels, num_classes, kernel_size=1, stride=1)

    def forward(self, x):
        x1 = self.first_conv(x)
        x2 = self.down_conv1(x1)
        x3 = self.down_conv2(x2)
        x4 = self.down_conv3(x3)

        x5 = self.middle_conv(x4)

        u1 = self.up_conv1(x5, x4)
        u2 = self.up_conv2(u1, x3)
        u3 = self.up_conv3(u2, x2)
        u4 = self.up_conv4(u3, x1)

        return self.last_conv(u4)

In [17]:
# Mostramos a continuación un resumen del modelo definido, considerando
# imágenes de entrada de 224x224, 64 canales de procesamiento
# para la U-Net, y 3 canales para las imágenes considerando
# R, G y B.
summary(UNET(3, 64, 2), input_size=(BATCH_SIZE, 3, 224, 224))

Layer (type:depth-idx)                        Output Shape              Param #
UNET                                          [32, 2, 224, 224]         --
├─Double_Conv: 1-1                            [32, 64, 224, 224]        --
│    └─Sequential: 2-1                        [32, 64, 224, 224]        --
│    │    └─Conv_3_k: 3-1                     [32, 64, 224, 224]        1,792
│    │    └─BatchNorm2d: 3-2                  [32, 64, 224, 224]        128
│    │    └─ReLU: 3-3                         [32, 64, 224, 224]        --
│    │    └─Conv_3_k: 3-4                     [32, 64, 224, 224]        36,928
│    │    └─BatchNorm2d: 3-5                  [32, 64, 224, 224]        128
│    │    └─ReLU: 3-6                         [32, 64, 224, 224]        --
├─Down_Conv: 1-2                              [32, 128, 112, 112]       --
│    └─Sequential: 2-2                        [32, 128, 112, 112]       --
│    │    └─MaxPool2d: 3-7                    [32, 64, 112, 112]        --
│    │    └

Como puede observarse en el resumen, el modelo y su arquitectura hacen computacionalmente pesado el proceso. De lo anterior, puede observarse
que se requieren unos 14 GB de memoria RAM aproximadamente por cada
"forward" de un batch, contemplando imágenes de 224 x 224. Esto podría tener implicancias en el entrenamiento
ya que dados los recursos de hardware, es posible que se tengan que
variar tanto el BATCH_SIZE, como el tamaño de las imágenes a procesar.

In [18]:
# Definimos una función de test, y observamos el shape
# del modelo luego de la predicción
def test():
    x = torch.randn((32, 3, 224, 224))
    model = UNET(3, 64, 2)
    return model(x)

preds = test()
print(preds.shape)

torch.Size([32, 2, 224, 224])


# Entrenamiento

Probemos inicialmente un entrenamiento del modelo, sin realizar ninguna manipulación de las imágenes más allá de modificar su tamaño a 224x224 para mantener un tamaño reducido y no sobrecargar la memoria.

Se utilizará como función de cálculo de error "Cross Entropy" y "SGD" para el cálculo del descenso del gradiente (dada la complejidad del modelo, es altamente recomendable utilizar ésta forma de cálculo frente a otras).

In [38]:
def release_resources():
  # Definimos una función para liberar recursos cuando
  # nos encontramos realizando pruebas.
  # Assuming `model` and `optimizer` are your objects
  # del model2
  # del optimizer
  # Force garbage collection
  import gc
  gc.collect()
  # Clear CUDA memory
  torch.cuda.empty_cache()

  # Optional: Print current GPU memory usage
  torch.cuda.memory_summary(device=DEVICE, abbreviated=False)



In [39]:
release_resources()

In [19]:
model = UNET(3,64, 2).to(DEVICE)

train_unet(
    model=model,
    optimizer=optim.SGD(model.parameters(), lr=0.01),
    criterion=nn.CrossEntropyLoss().to(DEVICE),
    train_loader=train_loader,
    val_loader=val_loader,
    device=DEVICE,
    do_early_stopping=True,
    patience=5,
    epochs=20,
    log_fn=print_log_unet,
    log_every=1,
)

Epoch: 001 | Train Loss: 0.66240 | Val Loss: 0.68707 | Accuracy: 0.61804 | Dice: 0.49156
Epoch: 002 | Train Loss: 0.60299 | Val Loss: 0.68606 | Accuracy: 0.60048 | Dice: 0.54848
Epoch: 003 | Train Loss: 0.58616 | Val Loss: 0.68337 | Accuracy: 0.61818 | Dice: 0.59640
Epoch: 004 | Train Loss: 0.56860 | Val Loss: 0.66512 | Accuracy: 0.67636 | Dice: 0.67812
Epoch: 005 | Train Loss: 0.55794 | Val Loss: 0.65218 | Accuracy: 0.67442 | Dice: 0.69502
Epoch: 006 | Train Loss: 0.54123 | Val Loss: 0.64058 | Accuracy: 0.64629 | Dice: 0.51793
Epoch: 007 | Train Loss: 0.54090 | Val Loss: 0.60307 | Accuracy: 0.70965 | Dice: 0.66239
Epoch: 008 | Train Loss: 0.52693 | Val Loss: 0.59959 | Accuracy: 0.69945 | Dice: 0.63252
Epoch: 009 | Train Loss: 0.52616 | Val Loss: 0.61146 | Accuracy: 0.70169 | Dice: 0.63074
Epoch: 010 | Train Loss: 0.52689 | Val Loss: 0.58958 | Accuracy: 0.71001 | Dice: 0.65269
Epoch: 011 | Train Loss: 0.50126 | Val Loss: 0.59113 | Accuracy: 0.71454 | Dice: 0.69760
Epoch: 012 | Train Lo

([0.6623961806297303,
  0.6029936790466308,
  0.5861643195152283,
  0.5686008095741272,
  0.5579383969306946,
  0.5412316679954529,
  0.5409008026123047,
  0.5269254803657532,
  0.5261570990085602,
  0.5268876135349274,
  0.5012646794319153,
  0.49479838609695437,
  0.5088325679302216,
  0.4711315333843231,
  0.4607066512107849,
  0.4586978256702423,
  0.45997313857078553,
  0.4681236743927002,
  0.4371532559394836,
  0.4288052201271057],
 [0.6870650053024292,
  0.6860554218292236,
  0.6833656430244446,
  0.6651206314563751,
  0.6521838009357452,
  0.6405759751796722,
  0.6030705571174622,
  0.5995907485485077,
  0.6114628911018372,
  0.5895787477493286,
  0.5911286175251007,
  0.7068969011306763,
  0.6075293719768524,
  0.5750120133161545,
  0.6526180803775787,
  0.6998774111270905,
  0.5596853494644165,
  0.6752162277698517,
  0.5065233260393143,
  0.5214511752128601],
 [tensor(0.4916, device='cuda:0'),
  tensor(0.5485, device='cuda:0'),
  tensor(0.5964, device='cuda:0'),
  tensor(0.

In [32]:
def rle_encode(mask):
  pixels = np.array(mask).flatten(order='F')  # Aplanar la máscara en orden Fortran
  pixels = np.concatenate([[0], pixels, [0]])  # Añadir ceros al principio y final
  runs = np.where(pixels[1:] != pixels[:-1])[0] + 1  # Encontrar transiciones
  runs[1::2] = runs[1::2] - runs[::2]  # Calcular longitudes
  return ' '.join(str(x) for x in runs)

def submit_kaggle_results():
  !kaggle competitions submit -c tdl-segmentacion -f submission.csv -m "By Germán Otero"

def plot_image_and_mask(image, mask):
  plt.figure(figsize=(10,5))
  img=image.permute(1,2,0).to(DEVICE).cpu().numpy()
  mask=mask.permute(1,2,0).to(DEVICE).cpu().numpy()
  plt.imshow(img)
  plt.axis('off')
  plt.imshow(mask, alpha=0.7, cmap='gray',vmin=0,vmax=1)
  plt.axis('off')
  plt.tight_layout()
  plt.show()

def generate_csv_for_submission(images,masks):
  import csv

  # Construimos la lista que será utilizada para la escritura
  # del CSV.
  # Se coloca como primera línea el encabezado de acuerdo
  # a las instrucciones de Kaggle para la competencia.
  data = [["id", "encoded_pixels"]]
  for i in range(len(images)):
    data.append([images[i], rle_encode(masks[i])])

  # Write to CSV
  with open('submission_.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(data)

  print(f"La cantidad de datos son: {len(data)}")
  print("CSV generado correctamente.")


def generate_kaggle_submission(trained_model, device, test_path):
  """
    trained_model: recibe el modelo entrenado que será utilizado para evaluación
    device: modelo dónde se realizarán los cálculos de tensores
    test_path: donde se encuentran las imágenes de test
  """

  # Definimos un par de listas para guardar el nombre
  # de la imagen, y su respectiva máscara
  images_names = []
  masks = []
  # Preparamos el modelo para evaluación
  model = trained_model
  model.eval()
  model.to(device)

  images = sorted(os.listdir(test_path))
  # transform = T.ToTensor()

  # Recorremos las imágenes, y evaluamos cada una de éstas
  with torch.no_grad():
    for img in images:
      images_names.append(img)
      # Cargamos la imagen
      img_path = os.path.join(test_path, img)
      image = read_image(img_path)
      # Agregamos una dimensión asociada al batch
      image = image.unsqueeze(dim=0)
      # Tenemos la imagen como tensor, y de un tamaño 800x800
      # Procedemos a pasarla por el modelo
      x = image.to(device=device, dtype = torch.float32)
      scores = model(x)
      # Obtenemos las predicciones
      preds = torch.argmax(scores, dim=1)
      # Agregamos la máscara a la lista de máscaras
      masks.append(preds.cpu().numpy())
      # plot_image_and_mask(image.squeeze(0), preds)

  generate_csv_for_submission(images_names, masks)

In [33]:
# Subimos los datos a Kaggle
generate_kaggle_submission(model, DEVICE, TEST_PATH)

La cantidad de datos son: 535
CSV generado correctamente.


In [34]:
submit_kaggle_results()

100% 38.9M/38.9M [00:01<00:00, 40.3MB/s]
Successfully submitted to [TDL] Segmentación

# Análisis de resultados

Como se puede observar, el dice obtenido no supera el valor de 0.66 por lo que comenzaremos a mejorar los datos mediante data augmentation.



In [None]:
# Vamos a comenzar aplicando un "flip" vertical a las imágenes, sobre un
# 100% del total de las imágenes y máscaras, y duplicar el tamaño
# del dataset original.

image_transforms = T.Compose([
    T.Resize((224, 224)),
    T.RandomVerticalFlip(p=1),
])

mask_transforms = T.Compose([
    T.Resize((224, 224)),
    T.RandomVerticalFlip(p=1),
])

full_dataset_flipped = PeopleDataset(data=TRAIN_PATH, masks=TRAIN_MASK_PATH, img_transforms=image_transforms, mask_transforms=mask_transforms)

TRAIN_SIZE = int(len(full_dataset_flipped)*0.8)
VAL_SIZE = len(full_dataset_flipped) - TRAIN_SIZE

train_dataset_flipped, val_dataset_flipped = random_split(full_dataset_flipped, [TRAIN_SIZE, VAL_SIZE])

# Concatenamos con los datasets originales, para obtener un nuevo dataset
# con nuevas imágenes modificadas (al igual que sus máscaras)

train_dataset_agumented = ConcatDataset([train_dataset, train_dataset_flipped])
val_dataset_agumented = ConcatDataset([val_dataset, val_dataset_flipped])

# Obtenemos los nuevos dataloaders

train_loader_augmented = DataLoader(train_dataset_agumented, batch_size=BATCH_SIZE, shuffle=True, num_workers=NUM_WORKERS)
val_loader_augmented = DataLoader(val_dataset_agumented, batch_size=BATCH_SIZE, shuffle=True, num_workers=NUM_WORKERS)

Ahora, contamos con un nuevo dataset, que contiene el doble de elementos que originalmente, y a su vez, la mitad de las imágenes fueron "flippeadas"
horizontalmente.

Mostremos algunas de estas imágenes

In [None]:
imgs_a, masks_a = next(iter(train_loader_augmented))
plot_mini_batch(imgs_a, masks_a, True)

Output hidden; open in https://colab.research.google.com to view.

Procederemos a volver a entrenar el modelo

In [None]:
model_vertically_flipped = UNET(3,64, 2).to(DEVICE)

train_unet(
    model=model_vertically_flipped,
    optimizer=optim.SGD(model_vertically_flipped.parameters(), lr=0.01),
    criterion=nn.CrossEntropyLoss().to(DEVICE),
    train_loader=train_loader_augmented,
    val_loader=val_loader_augmented,
    device=DEVICE,
    epochs=20,
    log_fn=print_log_unet,
    log_every=1,
)

Epoch: 001 | Train Loss: 0.70433 | Val Loss: 0.69379 | Accuracy: 0.45202 | Dice: 0.57120
Epoch: 002 | Train Loss: 0.69899 | Val Loss: 0.69441 | Accuracy: 0.50522 | Dice: 0.55844
Epoch: 003 | Train Loss: 0.70383 | Val Loss: 0.69892 | Accuracy: 0.49368 | Dice: 0.44457
Epoch: 004 | Train Loss: 0.70139 | Val Loss: 0.69772 | Accuracy: 0.59791 | Dice: 0.31968
Epoch: 005 | Train Loss: 0.70681 | Val Loss: 0.73317 | Accuracy: 0.36923 | Dice: 0.26127
Epoch: 006 | Train Loss: 0.70487 | Val Loss: 0.72056 | Accuracy: 0.53836 | Dice: 0.20596
Epoch: 007 | Train Loss: 0.70405 | Val Loss: 0.71586 | Accuracy: 0.50121 | Dice: 0.31435
Epoch: 008 | Train Loss: 0.70226 | Val Loss: 0.72523 | Accuracy: 0.47632 | Dice: 0.32968
Epoch: 009 | Train Loss: 0.70390 | Val Loss: 0.71835 | Accuracy: 0.49206 | Dice: 0.25764
Epoch: 010 | Train Loss: 0.70396 | Val Loss: 0.72248 | Accuracy: 0.50633 | Dice: 0.25919
Epoch: 011 | Train Loss: 0.70311 | Val Loss: 0.71181 | Accuracy: 0.55628 | Dice: 0.35939
Epoch: 012 | Train Lo

([0.7043270885944366,
  0.6989946603775025,
  0.7038322985172272,
  0.7013931393623352,
  0.7068085312843323,
  0.7048747062683105,
  0.7040525436401367,
  0.7022562265396118,
  0.7038958311080933,
  0.7039627730846405,
  0.7031134128570556,
  0.7084710240364075,
  0.7008111238479614,
  0.7009522080421448,
  0.7025912582874299,
  0.7048943161964416,
  0.7063143074512481,
  0.706518805027008,
  0.7061226904392243,
  0.704237163066864],
 [],
 [])

Como se puede observar, no existe una notoria mejoría, por lo que vamos a proceder a crear una serie de transformaciones, a efectos de aumentar el dataset con imágenes modificadas. Crearemos funciones que irán incrementando el dataset, el que será utilizado posteriormente para entrenar el modelo.

De acuerdo al paper de Olaf Ronneberger "et al", en la página 3 se hace mención al uso de "data augmentation" como estrategia frente a la ausencia de datos. Más específicamente, citamos a continuación lo mencionado en el paper: "... we use excessive data augmentation by applying elastic deformations to the available training images.". La explicación de esta técnica, tiene su base en cómo las imágenes son obtenidas.

Bajo esta teoría, y considerando las variaciones de las "personas" en las fotos, podríamos considerar que las principales variaciones radican en:
- Variación en el color de las personas, encontrándose diferente color de piel, de vestimenta, etc.
- Variación del tamaño de la persona dentro de la imagen.
- Variación de la posición de la persona en la imagen, respecto a los ejes x e y, presentándose diferentes grados de inclinación de la persona respecto a la horizontalidad y verticalidad de las imágenes.

Por lo anterior, se aplicarán las siguientes transformaciones sobre las imágenes:
- Aplicación "fotométrica" de "ColorJittering" para modificar el contraste, saturación, y otras propiedades colorométricas de la imagen.
- Aplicación "geométrica" de una transformación "Crop" aumentándose de forma aleatoria ciertas secciones de la imagen, con el objetivo de simular la presencia de tamaños mayores y menores de las personas dentro de las imágenes.
- Aplicación "geométrica" de la rotación de la imagen, con el objetivo de simular la posición de las personas dentro de las imágenes.

Se crearán por lo anterior 3 transformers, y se aplicarán estos de forma aleatoria sobre el dataset.

Se utiliza como referencia la documentación propia de Pytorch para la manipulación de imágenes: https://pytorch.org/vision/0.19/auto_examples/transforms/plot_transforms_illustrations.html#sphx-glr-auto-examples-transforms-plot-transforms-illustrations-py


In [47]:
# Se define una tupla con las dimensiones a utilizar durante el entrenamiento.
# Se pudo comprobar -mediante experiencia- que para valores superiores a
# 224 x 224, la memoria en Colab no es suficiente para el procesamiento.
IMAGE_DIMENSIONS = (224,224)

# Transformación 1:
# No es necesaria aplicarla sobre la máscara al no modificarse
# la geometría de la imagen.
image_transforms_color_jitter = T.Compose([
    T.Resize(IMAGE_DIMENSIONS),
    T.ColorJitter(brightness=.3, hue=.3)
])

# Transformación 2:
# Es necesario aplicar la misma transformación a la máscara
# por tratarse de una transformación geométrica
image_transforms_center_crop = T.Compose([
    T.Resize(IMAGE_DIMENSIONS),
    T.CenterCrop(size=90),
    T.Resize(IMAGE_DIMENSIONS),
])

# Transformación 3:
# Aplicamos una rotación de 30 grados, que también
# debe aplicarse a la máscara
image_transforms_rotate = T.Compose([
    T.RandomRotation(degrees=(15,15)),
    T.Resize(IMAGE_DIMENSIONS),
])

# Creamos los datasets que luego serán concatenados
full_dataset_transformed1 = PeopleDataset(data=TRAIN_PATH, masks=TRAIN_MASK_PATH, img_transforms=image_transforms_color_jitter, mask_transforms=T.Resize(IMAGE_DIMENSIONS))
full_dataset_transformed2 = PeopleDataset(data=TRAIN_PATH, masks=TRAIN_MASK_PATH, img_transforms=image_transforms_center_crop, mask_transforms=image_transforms_center_crop)
full_dataset_transformed3 = PeopleDataset(data=TRAIN_PATH, masks=TRAIN_MASK_PATH, img_transforms=image_transforms_rotate, mask_transforms=image_transforms_rotate)
full_dataset_without_transforms = PeopleDataset(data=TRAIN_PATH, masks=TRAIN_MASK_PATH, img_transforms=T.Resize(IMAGE_DIMENSIONS), mask_transforms=T.Resize(IMAGE_DIMENSIONS))

# Concatenamos los datasets considerando un 50% de las imágenes transformadas
total_size = len(full_dataset_without_transforms)
subset_size = round(total_size * 0.5)
indices = np.random.choice(total_size, subset_size, replace=False)

full_dataset_transformed1 = Subset(full_dataset_transformed1, indices)
full_dataset_transformed2 = Subset(full_dataset_transformed2, indices)
full_dataset_transformed3 = Subset(full_dataset_transformed3, indices)

full_dataset_augmented = ConcatDataset([full_dataset_transformed1, full_dataset_transformed2, full_dataset_transformed3, full_dataset_without_transforms])

TRAIN_SIZE = int(len(full_dataset_augmented)*0.8)
VAL_SIZE = len(full_dataset_augmented) - TRAIN_SIZE

train_dataset_augmented, val_dataset_augmented = random_split(full_dataset_augmented, [TRAIN_SIZE, VAL_SIZE])

# Obtenemos los nuevos dataloaders

train_loader_augmented = DataLoader(train_dataset_augmented, batch_size=BATCH_SIZE, shuffle=True, num_workers=NUM_WORKERS, drop_last=True)
val_loader_augmented = DataLoader(val_dataset_augmented, batch_size=BATCH_SIZE, shuffle=True, num_workers=NUM_WORKERS, drop_last=True)

In [48]:
# Mostramos un minibatch de imágenes transformadas
imgs_a, masks_a = next(iter(train_loader_augmented))
plot_mini_batch(imgs_a, masks_a, True)

Output hidden; open in https://colab.research.google.com to view.

Volvemos a entrenar el modelo:

In [49]:
model_augmented = UNET(3,64, 2).to(DEVICE)

train_unet(
    model=model_augmented,
    optimizer=optim.SGD(model_augmented.parameters(), lr=0.01),
    criterion=nn.CrossEntropyLoss().to(DEVICE),
    train_loader=train_loader_augmented,
    val_loader=val_loader_augmented,
    device=DEVICE,
    do_early_stopping=True,
    patience=5,
    epochs=20,
    log_fn=print_log_unet,
    log_every=2,
)

Epoch: 002 | Train Loss: 0.49255 | Val Loss: 0.45616 | Accuracy: 0.78479 | Dice: 0.75057
Epoch: 004 | Train Loss: 0.41709 | Val Loss: 0.44950 | Accuracy: 0.77417 | Dice: 0.77953
Epoch: 006 | Train Loss: 0.37296 | Val Loss: 0.55561 | Accuracy: 0.73579 | Dice: 0.67047
Epoch: 008 | Train Loss: 0.34223 | Val Loss: 0.33542 | Accuracy: 0.83902 | Dice: 0.79784
Epoch: 010 | Train Loss: 0.30621 | Val Loss: 0.49435 | Accuracy: 0.78042 | Dice: 0.80687
Epoch: 012 | Train Loss: 0.28430 | Val Loss: 0.43791 | Accuracy: 0.77727 | Dice: 0.70149
Epoch: 014 | Train Loss: 0.25995 | Val Loss: 0.35464 | Accuracy: 0.85848 | Dice: 0.84578
Epoch: 016 | Train Loss: 0.23101 | Val Loss: 0.53959 | Accuracy: 0.75693 | Dice: 0.67113
Epoch: 018 | Train Loss: 0.20784 | Val Loss: 0.27583 | Accuracy: 0.85864 | Dice: 0.84255
Epoch: 020 | Train Loss: 0.18843 | Val Loss: 0.36861 | Accuracy: 0.87006 | Dice: 0.84079


([0.5870013662746975,
  0.4925451699952434,
  0.44492256910281075,
  0.4170925749423809,
  0.3901124036401734,
  0.3729621261582339,
  0.35542898137766615,
  0.3422344362825379,
  0.32551546092320205,
  0.30620921296732767,
  0.29681818590576486,
  0.2843029339958851,
  0.2686294060676618,
  0.25995152090725143,
  0.2429346928471013,
  0.23100713097063222,
  0.22415926649158163,
  0.20783617767624388,
  0.19926512448635317,
  0.1884344596611826],
 [0.5438188025445649,
  0.4561562312371803,
  0.4475801704507886,
  0.4494963089625041,
  0.3950656932411772,
  0.5556059136535182,
  0.36719912109952985,
  0.3354159440055038,
  0.3616174269806255,
  0.494350018826398,
  0.39974710525888385,
  0.43790959499099036,
  0.3478669424851735,
  0.354637266108484,
  0.321079078948859,
  0.5395897961024082,
  0.3565561419183558,
  0.27583248326272675,
  0.6444794138272604,
  0.36860591173171997],
 [tensor(0.6498, device='cuda:0'),
  tensor(0.7506, device='cuda:0'),
  tensor(0.7677, device='cuda:0'),
 

# Competencia Kaggle

Luego de diversas pruebas, y habiendo obtenido un modelo con valores aceptables de "dice" en las pruebas locales, se procede a subir los datos a la competencia de Kaggle.

Se crean algunas funciones auxiliares, así como también la necesaria para el "encoding" de los datos mediante "RLE".

In [50]:
def rle_encode(mask):
  '''
  Función que codifica la máscara pasada como parámetro en RLE
  '''
  pixels = np.array(mask).flatten(order='F')  # Aplanar la máscara en orden Fortran
  pixels = np.concatenate([[0], pixels, [0]])  # Añadir ceros al principio y final
  runs = np.where(pixels[1:] != pixels[:-1])[0] + 1  # Encontrar transiciones
  runs[1::2] = runs[1::2] - runs[::2]  # Calcular longitudes
  return ' '.join(str(x) for x in runs)

def submit_kaggle_results():
  '''
  Función que permite subir los resultados a Kaggle
  '''
  !kaggle competitions submit -c tdl-segmentacion -f submission.csv -m "By Germán Otero"

def plot_image_and_mask(image, mask):
  '''
  Función que muestra una imágen, y su máscara permitiendo visualmente
  comparar la predicción del modelo.
  '''
  plt.figure(figsize=(10,5))
  img=image.permute(1,2,0).to(DEVICE).cpu().numpy()
  mask=mask.permute(1,2,0).to(DEVICE).cpu().numpy()
  plt.imshow(img)
  plt.axis('off')
  plt.imshow(mask, alpha=0.7, cmap='gray',vmin=0,vmax=1)
  plt.axis('off')
  plt.tight_layout()
  plt.show()

def generate_csv_for_submission(images,masks):
  '''
  Método que genera un CSV que será utilizado posteriormente
  para la competencia de Kaggle.
  '''
  import csv

  # Construimos la lista que será utilizada para la escritura
  # del CSV.
  # Se coloca como primera línea el encabezado de acuerdo
  # a las instrucciones de Kaggle para la competencia.
  data = [["id", "encoded_pixels"]]
  for i in range(len(images)):
    data.append([images[i], rle_encode(masks[i])])

  # Write to CSV
  with open('submission_.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(data)

  print(f"La cantidad de datos son: {len(data)}")
  print("CSV generado correctamente.")


def generate_kaggle_submission(trained_model, device, test_path):
  """
    trained_model: recibe el modelo entrenado que será utilizado para evaluación
    device: modelo dónde se realizarán los cálculos de tensores
    test_path: donde se encuentran las imágenes de test
  """

  # Definimos un par de listas para guardar el nombre
  # de la imagen, y su respectiva máscara
  images_names = []
  masks = []
  # Preparamos el modelo para evaluación
  model = trained_model
  model.eval()
  model.to(device)

  images = sorted(os.listdir(test_path))
  # transform = T.ToTensor()

  # Recorremos las imágenes, y evaluamos cada una de éstas
  with torch.no_grad():
    counter = 0
    for img in images:
      images_names.append(img)
      # Cargamos la imagen
      img_path = os.path.join(test_path, img)
      image = read_image(img_path)
      # Agregamos una dimensión asociada al batch
      image = image.unsqueeze(dim=0)
      # Tenemos la imagen como tensor, y de un tamaño 800x800
      # Procedemos a pasarla por el modelo
      x = image.to(device=device, dtype = torch.float32)
      scores = model(x)
      # Obtenemos las predicciones
      preds = torch.argmax(scores, dim=1)
      # Agregamos la máscara a la lista de máscaras
      masks.append(preds.cpu().numpy())
      if counter % 25 == 0:
        plot_image_and_mask(image.squeeze(0), preds)
      counter += 1

  generate_csv_for_submission(images_names, masks)

In [53]:
# Generamos CSV
generate_kaggle_submission(model, DEVICE, TEST_PATH)

NameError: name 'model' is not defined

In [52]:
# Subimos los datos a Kaggle
submit_kaggle_results()

100% 17.5M/17.5M [00:00<00:00, 32.8MB/s]
Successfully submitted to [TDL] Segmentación