#  Práctica Obligatoria - Parte I - Dataset

***<p style="text-align:center;">Aprendizaje Automático II</p>***
***<p style="text-align:center;">German Traffic Signs</p>***

En este Notebook se resumen las características del *dataset* a utilizar a lo largo de la práctica.

### German Traffic Sign (GTS)

El **German Traffic Sign** es un dataset ampliamente utilizado en tareas de clasificación y reconocimiento de señales de tráfico. 

---

#### **Características del Dataset**
- **Cantidad de clases:** 43 clases de señales de tráfico, que incluyen límites de velocidad, prohibiciones, advertencias y otros tipos de señales.
- **Número de imágenes:** Alrededor de 50,000 imágenes para entrenamiento y validación, y aproximadamente 12,000 imágenes para prueba.
- **Dimensiones de las imágenes:** Resoluciones variables, típicamente entre 15x15 y 250x250 píxeles.
- **Formato de los datos:**
  - Cada imagen viene etiquetada con su clase correspondiente.
  - Metadatos como tamaño de la imagen, coordenadas del ROI (Región de Interés) y nombre de archivo están disponibles en archivos CSV.
  
---

#### **Licencia**
El dataset es de uso libre para fines educativos y de investigación.

Más información está disponible en el sitio oficial del benchmark: [GTSRB Dataset](http://benchmark.ini.rub.de/).

--- 

#### **Práctica**

En el contexto de esta práctica, se proporciona una adaptación de dicho conjunto de datos. 

En particular, se proporcionan los datasets (`Dataset`) de PyTorch para trabajar con ellos.

### Evaluación - 1.5/10 puntos

Puntuación de cada parte sobre el total de la práctica:
- **[Ejercicio 1]** 0.5 puntos.
- **[Ejercicio 2]** 1 punto.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import torch
import torch.nn as nn
import torch.nn.functional as F

from torch.utils.data import DataLoader
from torchvision import transforms

from gts_dataset import GTS

El conjunto de datos a utilizar será dividido en 3 partes:

In [None]:
# Definir las transformaciones y conversión a tensor
transform = transforms.Compose([
    transforms.ToTensor(),
])

train_dataset = GTS(csv_file='train.csv', root_dir='./data', transform=transform)
valid_dataset = GTS(csv_file='valid.csv', root_dir='./data', transform=transform)
test_dataset = GTS(csv_file='test.csv', root_dir='./data', transform=transform)

Es decir, deberás utilizar siempre los conjuntos:
* `train_dataset`
* `valid_dataset`
* `test_dataset`

Dados estos tres conjuntos:
1. Cuenta cuántos ejemplos hay en cada uno.
2. Comprueba que, efectivamente, existen 43 clases.
3. Comprueba que las dimensiones de las imágenes son: 25x25x3.
4. Crea una función `visualize_subset(dataset, num_images)` que visualice un número dado de imágenes.

**[Ejercicio 1]**

In [None]:
##################### COMPLETAR #######################
# 1. 
# Número de ejemplos en los conjuntos de entrenamiento y validación
num_train =
num_valid =
num_test = 

print("----------------------------------------------------------")
print(f"Número de ejemplos en el conjunto de entrenamiento: {num_train}")
print(f"Número de ejemplos en el conjunto de validación: {num_valid}")
print(f"Número de ejemplos en el conjunto de test: {num_test}")


##################### COMPLETAR #######################
# 2.
print(f"Número de clases en el dataset: {}")

##################### COMPLETAR #######################
# 3.
print(f"Tamaño de las imágenes: {}")
print("----------------------------------------------------------")

##################### COMPLETAR #######################
4. 
# Visualizar algunos ejemplos
def visualize_subset(dataset, num_images=6):
    """
    Visualiza ejemplos directamente de un Subset o Dataset.
    
    :param dataset: Dataset o Subset que contiene las imágenes y etiquetas.
    :param num_images: Número de imágenes a mostrar.
    """
    indices = np.arange(num_images)
    images = []
    labels = []
    
    for idx in indices:
        image, label = dataset[idx]
        images.append(image)
        labels.append(label)
    
    images =      # Convertir la lista de imágenes en un tensor
    images =      # Permutar dimensiones para visualizar (batch, h, w, c)  


    # Mostrar imágenes
    fig, axes = plt.subplots(1, num_images, figsize=(15, 5))
    for idx in range(num_images):
        axes[idx].imshow(images[idx])
        axes[idx].set_title(f"Clase: {labels[idx]}")
        axes[idx].axis('off')
    plt.tight_layout()
    plt.show()


# Visualizar ejemplos del conjunto de entrenamiento
visualize_subset(train_dataset)


Ahora que tienes acceso a los datos, crea un histograma de las clases para comprobar si están o no desbalanceadas:

In [None]:
##################### COMPLETAR #######################
# Crear un histograma



# Mostrar el gráfico


################### Fin COMPLETAR #####################

Como puedes comprobar, las clases de este dataset están fuertemente desbalanceadas. Para paliar este posible problema, puedes crear un `sampler` específico y usarlo en el `dataloader`.

Ayúdate de la documentación de `WeightedRandomSampler`, para obtener un `dataloader` de manera que las clases tengan la misma probabilidad de ser muestreadas.

**[Ejercicio 2]**

In [None]:
from torch.utils.data import WeightedRandomSampler

##################### COMPLETAR #######################
batch_size = 16

# Paso 1: Calcular el histograma (frecuencias por clase)
histograma, _ = 

# Paso 2: Asignar pesos inversamente proporcionales a las frecuencias
class_weights = 

# Paso 3: Asignar pesos a cada ejemplo del dataset
labels = 
sample_weights = class_weights[labels] # cada ejemplo debe tener un peso asociado

# Paso 4: Crear el WeightedRandomSampler
sampler = 

# Paso 5: Crear el DataLoader con el sampler
train_dataloader_uniform = 

################### Fin COMPLETAR #####################
# Crear un contador para las clases sampleadas
sampled_labels = []

# Samplear las etiquetas usando el sampler
for data_batch, label_batch in train_dataloader_uniform:
    sampled_labels.extend(label_batch.numpy())

# Convertir las etiquetas sampleadas a un tensor y calcular el histograma
sampled_labels = torch.tensor(sampled_labels)
sampled_histogram = torch.bincount(sampled_labels)

plt.figure(figsize=(10, 6))
sns.barplot(x=list(range(len(sampled_histogram))), y=sampled_histogram.numpy(), color='blue')

# Personalización del gráfico
plt.title('Distribución de clases en el conjunto de entrenamiento muestreado uniformemente', fontsize=16)
plt.xlabel('Clase (ClassId)', fontsize=14)
plt.ylabel('Número de ejemplos', fontsize=14)
plt.xticks(ticks=range(len(sampled_histogram)), rotation=90)  # Mostrar todas las clases en el eje x
plt.grid(axis='y', linestyle='--', alpha=0.7)

# Mostrar el gráfico
plt.tight_layout()
plt.show()