# Obligatorio - Taller de Deep Learning

**Fecha de entrega:** 3/12/2025  
**Puntaje máximo:** 50 puntos

**Alumno(s):** [Nombre(s) y Apellido(s)]

## Obligatorio

El objetivo de este obligatorio es evaluar su conocimiento en Deep Learning mediante la implementación completa de un modelo de segmentación de imágenes basado en el paper [**"U-Net: Convolutional Networks for Biomedical Image Segmentation"**](https://arxiv.org/pdf/1505.04597). Toda la implementación debe realizarse desde cero utilizando PyTorch, y los estudiantes tendrán la libertad de ajustar ciertos hiperparámetros y configuraciones mientras mantengan la esencia del paper original.

### **Competencia en Kaggle**

Además, como parte de este obligatorio, participarán en una competencia privada en Kaggle donde se les proporcionará un dataset de test oculto (sin target). Deberán subir sus predicciones a Kaggle y se evaluarán en función de la métrica **Dice Coefficient (Coeficiente de Dice)**. Esta competencia les permitirá comparar sus resultados con los de sus compañeros en un entorno real de evaluación.

### **¿Qué es el Dice Coefficient?**
El **Dice Coefficient**, también conocido como F1-score para segmentación, es una métrica utilizada para evaluar la similitud entre la predicción y la verdad del terreno en tareas de segmentación. Se define de la siguiente manera:

$$
\text{Dice} = \frac{2 \cdot |A \cap B|}{|A| + |B|}
$$

Donde:
- $A$ es el conjunto de píxeles predichos como pertenecientes a la clase positiva.
- $B$ es el conjunto de píxeles verdaderos pertenecientes a la clase positiva.
- $|A \cap B|$ es la intersección de $A$ y $B$, es decir, los píxeles correctamente predichos como positivos.

Un valor de Dice de **1** indica una predicción perfecta, mientras que un valor de **0** indica que no hay coincidencia entre la predicción y el valor verdadero. Durante la competencia de Kaggle, deberán obtener un puntaje de al menos **0.75** en la métrica Dice para considerarse aprobados.

### **Criterios a Evaluar**

1. **Análisis del Dataset (5 puntos):**
   - Exploración y visualización del dataset para comprender su estructura y características.
   - Justificación de las decisiones tomadas en la preprocesamiento de datos, como normalización, aumento de datos (data augmentation), y partición del dataset en conjuntos de entrenamiento, validación y prueba.

2. **Implementación Correcta del Modelo U-Net (20 puntos):**
   - Construcción de la arquitectura U-Net siguiendo la estructura descrita en el paper, permitiendo ajustes como el número de filtros, funciones de activación y métodos de inicialización de pesos.
   - Se aceptan mejoras como el uso de técnicas adicionales como batch normalization, otras funciones de activación, etc.

3. **Entrenamiento del Modelo (10 puntos):**
   - Configuración adecuada del ciclo de entrenamiento, incluyendo la elección de la función de pérdida y del optimizador (Adam, SGD, etc.).
   - Uso de técnicas de regularización para mejorar la generalización del modelo, como el dropout, normalización de batch y data augmentation.
   - Gráficas y análisis de la evolución del entrenamiento, mostrando las curvas de pérdida y métricas relevantes tanto en el conjunto de entrenamiento como en el de validación.
   - Puede utilizarse experimentación con hiperparámetros con Weights & Biases (W&B) para optimizar el rendimiento del modelo. Este punto no es obligatorio, pero se valorará positivamente si se justifica su uso y se presentan resultados claros.

4. **Evaluación de Resultados (10 puntos):**
   - Evaluación exhaustiva del modelo utilizando métricas de segmentación como **Dice Coefficient**.
   - Análisis detallado de los resultados, incluyendo un análisis de errores para identificar y discutir casos difíciles.
   - Visualización de ejemplos representativos de segmentaciones correctas e incorrectas, comparando con las etiquetas manuales proporcionadas en el dataset.

5. **Participación y Resultados en la Competencia Kaggle (5 puntos):**
   - Participación activa en la competencia de Kaggle, con al menos una (1) subida de predicción.
   - Puntaje obtenido en la tabla de posiciones de Kaggle, evaluado en base al **Dice Coefficient** en el conjunto de test oculto. Es necesario obtener al menos un valor de **0.75** para esta métrica.

   Notas:
   - **Cualquier decisión debe ser justificada en el notebook.**
   - El **Dice Coefficient** es la métrica utilizada para evaluar la precisión de los modelos de segmentación de imágenes en esta competencia.

### **Run-Length Encoding (RLE)**

Dado que no se suben las imágenes segmentadas directamente a Kaggle, se requiere usar **Run-Length Encoding (RLE)** para comprimir las máscaras de predicción en una cadena de texto que será evaluada. El **RLE** es una técnica de compresión donde se representan secuencias consecutivas de píxeles en formato `start length`, indicando la posición de inicio y la longitud de cada secuencia de píxeles positivos.

Para calcular el **RLE**, se sigue el siguiente proceso:

1. Se aplanan las máscaras predichas en un solo vector
2. Se identifican los píxeles con valor positivo (1) y se calculan las secuencias consecutivas.
3. Se registra la posición de inicio de cada secuencia y su longitud en formato `start length`.

Este formato comprimido se sube a Kaggle en lugar de las imágenes segmentadas.

#### **Ejemplo de RLE**

```python
import numpy as np

def rle_encode(mask):
    pixels = np.array(mask).flatten(order='F')  # Aplanar la máscara en orden Fortran
    pixels = np.concatenate([[0], pixels, [0]])  # Añadir ceros al principio y final
    runs = np.where(pixels[1:] != pixels[:-1])[0] + 1  # Encontrar transiciones
    runs[1::2] = runs[1::2] - runs[::2]  # Calcular longitudes
    return ' '.join(str(x) for x in runs)

mask = np.array([[0, 0, 1, 0, 0],
                 [0, 1, 1, 1, 0],
                 [1, 1, 1, 0, 0],
                 [0, 0, 0, 1, 1]])

print(rle_encode(mask))
```

> **Salida:** 3 1 6 2 9 3 14 1 16 1 20 1


### **Sobre el Dataset**

El dataset proporcionado para esta tarea incluirá imágenes y máscaras para la segmentación de un conjunto específico de clases. El conjunto de entrenamiento estará disponible para su uso durante todo el proceso de desarrollo y pruebas, mientras que el conjunto de validación se mantendrá oculto para la evaluación final en Kaggle.

### **Instrucciones de Entrega**

- Deberán entregar un Jupyter Notebook (.ipynb) que contenga todo el código y las explicaciones necesarias para ejecutar la implementación, el entrenamiento y la evaluación del modelo.
- El notebook debe incluir secciones bien documentadas explicando las decisiones de diseño del modelo, los experimentos realizados, y los resultados obtenidos.
- El código debe estar escrito de manera clara.
- La entrega debe realizarse a través de la plataforma de gestión de ORT (gestion.ort.edu.uy) antes de la fecha límite.

### **Materiales Adicionales**

Para facilitar su trabajo, pueden consultar los siguientes recursos:

- [U-Net: Convolutional Networks for Biomedical Image Segmentation (paper original)](https://arxiv.org/abs/1505.04597)
- [Documentación de PyTorch](https://pytorch.org/docs/stable/index.html)
- [Tutoriales y recursos adicionales en Kaggle](https://www.kaggle.com/)
- [Convolución Transpuesta](https://d2l.ai/chapter_computer-vision/transposed-conv.html)

### **Competencia Kaggle**

[Link a la competencia Kaggle](https://www.kaggle.com/competitions/tdl-obligatorio-2025)

In [1]:
!pip install torchinfo

Collecting torchinfo
  Downloading torchinfo-1.8.0-py3-none-any.whl.metadata (21 kB)
Downloading torchinfo-1.8.0-py3-none-any.whl (23 kB)
Installing collected packages: torchinfo
Successfully installed torchinfo-1.8.0


In [87]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from torch.utils.data import random_split

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
import os
from pathlib import Path
from collections import Counter

from PIL import Image

from torchinfo import summary
from torchvision.transforms import v2 as T

from utils import (
    train,
    model_calassification_report,
    plot_taining
)

from typing import Literal, List

---

In [3]:
!mkdir -p ~/.kaggle

In [4]:
!cp kaggle.json ~/.kaggle/

In [5]:
!chmod 600 ~/.kaggle/kaggle.json

In [None]:
!pip install kaggle



In [6]:
!kaggle competitions download -c tdl-obligatorio-2025

Downloading tdl-obligatorio-2025.zip to /content
 99% 2.12G/2.14G [00:16<00:00, 132MB/s]
100% 2.14G/2.14G [00:16<00:00, 141MB/s]


In [7]:
!unzip tdl-obligatorio-2025.zip

Archive:  tdl-obligatorio-2025.zip
  inflating: test/images/1024.png    
  inflating: test/images/1025.png    
  inflating: test/images/1027.png    
  inflating: test/images/1037.png    
  inflating: test/images/1038.png    
  inflating: test/images/1044.png    
  inflating: test/images/1049.png    
  inflating: test/images/105.png     
  inflating: test/images/1059.png    
  inflating: test/images/1060.png    
  inflating: test/images/1061.png    
  inflating: test/images/1064.png    
  inflating: test/images/1082.png    
  inflating: test/images/1085.png    
  inflating: test/images/1089.png    
  inflating: test/images/1092.png    
  inflating: test/images/1097.png    
  inflating: test/images/1099.png    
  inflating: test/images/111.png     
  inflating: test/images/1119.png    
  inflating: test/images/112.png     
  inflating: test/images/1125.png    
  inflating: test/images/1132.png    
  inflating: test/images/1135.png    
  inflating: test/images/114.png     
  inflating: te

In [73]:
img_transform = T.Compose([
    T.ToImage(),
    T.Resize((572, 572)),
    T.Grayscale(num_output_channels=1),
    T.ToDtype(torch.float32, scale=True)


])

mask_transform = T.Compose([
    T.ToImage(),
    T.Resize((572, 572)),
    T.Grayscale(num_output_channels=1),        # fuerza 1 canal
    T.ToDtype(torch.uint8, scale=False),       # NO escalar, mantener 0-1
])

In [62]:
class SegmentationDataset(Dataset):
    def __init__(self, images_dir, masks_dir, img_transform=None,mask_transform=None):
        self.images_dir = images_dir
        self.masks_dir = masks_dir
        self.img_transform = img_transform
        self.mask_transform = mask_transform

        self.images = sorted(os.listdir(images_dir))
        self.masks = sorted(os.listdir(masks_dir))

        assert len(self.images) == len(self.masks), "Cantidad distinta de imágenes y máscaras"

    def __len__(self):
        return len(self.images)

    def __getitem__(self, idx):
        img_path = os.path.join(self.images_dir, self.images[idx])
        mask_path = os.path.join(self.masks_dir, self.masks[idx])

        img  = Image.open(img_path).convert("RGB")
        mask = Image.open(mask_path).convert("L")   # 1 canal

        if self.img_transform:
            img = self.img_transform(img)

        if self.mask_transform:
            mask = self.mask_transform(mask)

        # Asegurar que la máscara sea 0/1
        mask = (mask > 0).float()

        return img, mask

In [88]:
train_ds = SegmentationDataset(
    "train/images",
    "train/masks",
    img_transform=img_transform,
    mask_transform=mask_transform
)


In [89]:
val_size = int(len(train_ds) * 0.2)
train_size = len(train_ds) - val_size


train_ds_split, val_ds_split = random_split(
    train_ds,
    [train_size, val_size],
    generator=torch.Generator().manual_seed(42)  # para reproducibilidad
)

In [112]:
train_loader = DataLoader(train_ds_split, batch_size=32, shuffle=True)
val_loader = DataLoader(val_ds_split, batch_size=32, shuffle=False)

In [113]:
print(len(train_ds))

2133


In [114]:
train_ds[0]

(Image([[[0.0980, 0.1020, 0.0980,  ..., 0.2000, 0.2000, 0.1961],
         [0.1059, 0.1020, 0.1020,  ..., 0.1961, 0.2000, 0.2000],
         [0.1059, 0.1059, 0.1020,  ..., 0.2000, 0.2000, 0.2000],
         ...,
         [0.0824, 0.0824, 0.0824,  ..., 0.0824, 0.0824, 0.0824],
         [0.0824, 0.0824, 0.0824,  ..., 0.0824, 0.0824, 0.0824],
         [0.0824, 0.0824, 0.0824,  ..., 0.0824, 0.0824, 0.0824]]], ),
 tensor([[[0., 0., 0.,  ..., 0., 0., 0.],
          [0., 0., 0.,  ..., 0., 0., 0.],
          [0., 0., 0.,  ..., 0., 0., 0.],
          ...,
          [0., 0., 0.,  ..., 0., 0., 0.],
          [0., 0., 0.,  ..., 0., 0., 0.],
          [0., 0., 0.,  ..., 0., 0., 0.]]]))

In [93]:
class DoubleConv(nn.Module):

  def __init__(self, in_ch: int, out_ch: int,
               norm: Literal['bn','gn','none'] = 'none',
               groups: int = 8,
               dropout: float = 0.0):
    super().__init__()
    self.conv1 = nn.Conv2d(in_ch, out_ch, kernel_size=3, padding=1, bias=(norm=='none'))
    self.conv2 = nn.Conv2d(out_ch, out_ch, kernel_size=3, padding=1, bias=(norm=='none'))
    #self.norm1 = self._make_norm(norm, out_ch, groups)
    #self.norm2 = self._make_norm(norm, out_ch, groups)
    #self.drop = nn.Dropout2d(dropout) if dropout and dropout > 0 else nn.Identity()
    self.act = nn.ReLU(inplace=True)

  @staticmethod
  def _make_norm(kind: str, num_ch: int, groups: int):
    if kind == 'bn':
      return nn.BatchNorm2d(num_ch)
    if kind == 'gn':
      g = min(groups, num_ch) if num_ch % groups == 0 else 1
      return nn.GroupNorm(g, num_ch)
    return nn.Identity()


  def forward(self, x: torch.Tensor) -> torch.Tensor:
    x = self.conv1(x)
    #x = self.norm1(x)
    x = self.act(x)
    #x = self.drop(x)
    x = self.conv2(x)
    #x = self.norm2(x)
    x = self.act(x)
    return x

In [94]:
class Down(nn.Module):
#Downscaling with maxpool then double conv
  def __init__(self, in_ch: int, out_ch: int,
                 norm: str = 'bn',
                 groups: int = 8,
                 dropout: float = 0.0):
        super().__init__()
        self.pool = nn.MaxPool2d(2)
        self.block = DoubleConv(in_ch, out_ch, norm=norm, groups=groups, dropout=dropout)

  def forward(self, x):
      x = self.pool(x)
      x = self.block(x)
      return x

In [95]:
class Up(nn.Module):
  """Upscaling then double conv
  If bilinear: use Upsample, else learned ConvTranspose2d
  """
  def __init__(self, in_ch: int, out_ch: int, bilinear: bool = False, norm: str = 'bn', groups: int = 8, dropout: float = 0.0):
    super().__init__()
    if bilinear:
      self.up = nn.Upsample(scale_factor=2, mode='bilinear', align_corners=True)
      self.reduce = nn.Conv2d(in_ch, in_ch // 2, kernel_size=1)
      conv_in = in_ch // 2 + out_ch # after concat with skip (which has out_ch channels)
    else:
      self.up = nn.ConvTranspose2d(in_ch, in_ch // 2, kernel_size=2, stride=2)
      self.reduce = nn.Identity()
      conv_in = in_ch // 2 + out_ch
    self.block = DoubleConv(conv_in, out_ch, norm=norm, groups=groups, dropout=dropout)


  @staticmethod
  def _pad_to_match(x: torch.Tensor, ref: torch.Tensor) -> torch.Tensor:
    """Pad x on the right/bottom to match spatial size of ref."""
    diff_y = ref.size(2) - x.size(2)
    diff_x = ref.size(3) - x.size(3)
    if diff_x == 0 and diff_y == 0:
      return x
    return F.pad(x, [0, diff_x, 0, diff_y])


  def forward(self, x: torch.Tensor, skip: torch.Tensor) -> torch.Tensor:
    x = self.up(x)
    x = self.reduce(x)
    x = self._pad_to_match(x, skip)
    # concat along channel dim
    x = torch.cat([skip, x], dim=1)
    x = self.block(x)
    return x

In [96]:
class OutConv(nn.Module):
  def __init__(self, in_ch: int, out_ch: int):
    super().__init__()
    self.conv = nn.Conv2d(in_ch, out_ch, kernel_size=1)

  def forward(self, x):
    return self.conv(x)

In [97]:
for i in range(1, 4):
  print(i)

1
2
3


In [98]:
for i in reversed(range(4)):
  print(i)

3
2
1
0


In [99]:
chs = [64*(2 ** i) for i in range(4+1)]

In [100]:
chs

[64, 128, 256, 512, 1024]

In [101]:
class UNet(nn.Module):
    def __init__(self,
                 in_channels=1,
                 num_classes=1,
                 base_ch=64,
                 depth=4,              # número de downs (pools), igual que el paper
                 bilinear=True,
                 norm='bn',
                 dropout=0.0):
        super().__init__()

        # Ej: base_ch=64, depth=4 -> [64, 128, 256, 512, 1024]
        # chs[0]..chs[depth] son los canales en cada nivel de resolución
        chs = [base_ch * (2 ** i) for i in range(depth + 1)]

        # Encoder
        self.inc = DoubleConv(in_channels, chs[0], norm=norm, dropout=dropout)

        self.downs = nn.ModuleList()
        # Creamos 'depth' downs con maxpool (como el paper)
        for i in range(depth):
            self.downs.append(
                Down(chs[i], chs[i + 1], norm=norm, dropout=dropout)
            )

        # Decoder
        self.ups = nn.ModuleList()
        cur_ch = chs[-1]  # canales del nivel más profundo (ej 1024)

        # Vamos subiendo desde el fondo hasta el tope
        # i = depth-1, depth-2, ..., 0  -> skip channels = chs[i]
        for i in reversed(range(depth)):
            self.ups.append(
                Up(cur_ch, chs[i], bilinear=bilinear, norm=norm, dropout=dropout)
            )
            cur_ch = chs[i]

        self.outc = OutConv(cur_ch, num_classes)
        self._init_weights()

    def _init_weights(self):
        for m in self.modules():
            if isinstance(m, (nn.Conv2d, nn.ConvTranspose2d)):
                nn.init.kaiming_normal_(m.weight, nonlinearity='relu')
                if m.bias is not None:
                    nn.init.zeros_(m.bias)

    def forward(self, x):
        skips = []

        # Primer nivel (sin pool)
        x = self.inc(x)
        skips.append(x)

        # Encoder con 'depth' downs (cada uno hace pool + convs)
        for down in self.downs:
            x = down(x)
            skips.append(x)

        # Ahora x está en el nivel más profundo, mismo que skips[-1]
        # No hay bottleneck extra: el último Down ya es el bloque profundo.

        # Decoder: empezamos desde la representación profunda
        x = skips.pop()  # nivel más profundo

        for up in self.ups:
            skip = skips.pop()   # skip correspondiente de encoder
            x = up(x, skip)

        return self.outc(x)


In [102]:
images, masks = next(iter(train_loader))
print("images:", images.shape, images.dtype)  # [B, 3, 256, 256], float32
print("masks:", masks.shape, masks.dtype)    # [B, 1, 256, 256], float32

images: torch.Size([4, 1, 572, 572]) torch.float32
masks: torch.Size([4, 1, 572, 572]) torch.float32


In [103]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [116]:
model = UNet(
    in_channels=1,
    num_classes=1,     # salida 1 canal con logits para binario
    base_ch=32,        # podés subir a 64 cuando ande todo
    depth=4,
    bilinear=False,
    norm='bn',
).to(device)

In [117]:
criterion = torch.nn.BCEWithLogitsLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)

In [109]:
model.train()
images, masks = next(iter(train_loader))
images = images.to(device)
masks  = masks.to(device)

outputs = model(images)              # [B, 1, 256, 256]
print("outputs:", outputs.shape)

loss = criterion(outputs, masks)
print("loss:", loss.item())

optimizer.zero_grad()
loss.backward()
optimizer.step()
print("Backward OK ✅")

outputs: torch.Size([4, 1, 572, 572])
loss: 1.062403917312622
Backward OK ✅


In [118]:
train_loss, val_loss = train(model,optimizer,criterion,train_loader,val_loader,device)

OutOfMemoryError: CUDA out of memory. Tried to allocate 2.50 GiB. GPU 0 has a total capacity of 14.74 GiB of which 1.16 GiB is free. Process 2489 has 13.57 GiB memory in use. Of the allocated memory 12.58 GiB is allocated by PyTorch, and 896.74 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [119]:
import torch
import gc

del model  # si ya lo tenías creado
gc.collect()
torch.cuda.empty_cache()