In [1]:
%matplotlib inline

# Transformaciones

Los datos no siempre vienen en el formato deseado para hacer el entrenamiento, por lo que a la hora de crear el ``Dataset`` es necesario hacer unas transformaciones de estos

Cuando creamos el ``Dataset`` de forma personalizada podemos hacer las transformaciones como queramos, tanto en el método ``__init__``, como en el ``__getitem__``. Sin embargo, cuando creamos un ``Dataset`` mediante un conjunto de datos de Pytorch, este ofrece dos parámetros ``transform`` y ``target_transform`` para modificar los datos o las etiquetas.

Volvemos a usar el conjunto de datos de ``FashionMNIST`` de la clase anterior. En este las imágenes están en formato PIL y las etiquetas son números enteros.
Para realizar el entrenamiento debemos transformar las imágenes a tensores y las codificar las etiquetas como one-hot encoding

 > **One-hot encodign**:
 > En el conjunto de datos ``FashionMNIST``, tenemos etiquetas con valores conprendidos entre el 0 y el 9. El tipo de codificación one-hot encoding crea vectores de tamaño 10 con todos los valores 0 menos en la posición de la etiqueta. Es decir, si la etiqueta vale 0, la codificación one-hot encoding creará un vector de tamaño 10, donde el primer elemento vale 1 y el resto 0s, si la etiqueta vale 1, creará un vector de tamaño 10, con todos los elementos 0 menos el segundo, y así sucesivamente.
 >
 > Se aprenderá más sobre este tipo de codificación y otros tipos en el módulo de procesamiento del lenguaje natural (NLP Natural Languaje Processing)
 >
 > 0 ==> 1 0 0 0 0 0 0 0 0 0
 
 > 1 ==> 0 1 0 0 0 0 0 0 0 0

 > 2 ==> 0 0 1 0 0 0 0 0 0 0

 > 3 ==> 0 0 0 1 0 0 0 0 0 0

 > 4 ==> 0 0 0 0 1 0 0 0 0 0

 > 5 ==> 0 0 0 0 0 1 0 0 0 0

 > 6 ==> 0 0 0 0 0 0 1 0 0 0

 > 7 ==> 0 0 0 0 0 0 0 1 0 0

 > 8 ==> 0 0 0 0 0 0 0 0 1 0
 
 > 9 ==> 0 0 0 0 0 0 0 0 0 1

Nos descargamos el conjunto de datos ``FashionMNIST`` sin realizar ningún tipo de transformación y analizamos las imágenes y las etiquetas

In [3]:
from torchvision import datasets

dataset_raw = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    # transform=
    # target_transform=
)

Cogemos una muestra

In [4]:
imagen_raw, etiqueta_raw = dataset_raw[0]

Analizamos la imagen

In [16]:
print(f"La imagen es de tipo: {type(imagen_raw)}")
print(f"El tamaño de la imagen es de {imagen_raw.size}")
min_value, max_value = imagen_raw.getextrema()
print(f"La imagen está codificada en píxeles de valor entre {min_value} y {max_value}")

La imagen es de tipo: <class 'PIL.Image.Image'>
El tamaño de la imagen es de (28, 28)
La imagen está codificada en píxeles de valor entre 0 y 255


Analizamos ahora la etiqueta

In [17]:
import matplotlib.pyplot as plt

plt.imshow(imagen_raw.squeeze(), cmap="gray")

AttributeError: squeeze