# Lectura de imágenes

En este notebook veremos como introducir imágenes a nuestra red neuronal.


### Dataset

Existen multiples formas para hacerlo, pero en este tutorial utilizaremos la función *dataset.ImageFolder* incorporada en el paquete *torchvision*. La forma rápida de leer un conjunto de imágenes es

```python
dataset = datasets.ImageFolder('directorio/', transform=transformacion)
```

la función *ImageFolder* espera que dentro del directorio los archivos esté organizados por folderes, donde cada folder contiene las imagenes de una clase en específico.

En este ejemplo usaré una base de datos propia que contiene dos clases, cactus y no_cactus. La base de datos tiene dos carpetas con los nombres *cactus* y *no_cactus*.

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/irvingvasquez/practicas_pytorch/blob/master/07_lectura_de_imagenes.ipynb)


In [None]:
# cargamos paquetes
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

import matplotlib.pyplot as plt

import torch
from torchvision import datasets, transforms

import helper

El conjunto de datos que usaremos será el de cactus

In [None]:
# para linux
#!wget https://jivg.org/wp-content/uploads/2024/07/cactus_course_dataset.zip

# para windows
!curl -o cactus_course_dataset.zip https://jivg.org/wp-content/uploads/2024/07/cactus_course_dataset.zip

In [None]:
# Para linux
#!unzip cactus_course_dataset.zip

# Para windows
import zipfile

with zipfile.ZipFile("cactus_course_dataset.zip", 'r') as zip_ref:
    zip_ref.extractall("cactus_dataset")

### Transformaciones

Usualmente las imagenes que leas estarán en un tamaño diferente al que necesitas para la red, asi que es necesario convertirlas a un formato adecuado, además será necesario convertirlas a tensores de pytorch. Todo esto lo podemos hacer con la función *transforms.Compose()*, en la cual podemos apilar las transformaciones necesarias. Por ejemplo,

```python
transforms = transforms.Compose([transforms.Resize(255),
                                 transforms.CenterCrop(224),
                                 transforms.ToTensor()])

```


In [None]:
# directorio de la carpeta
directorio = 'cactus_dataset/cactus_course_dataset/training_set/'

# aplicaré una serie de transformaciones
# 1. escalar las imágenes a 32 x 32 pixeles
# 2. convertir a tensores
transformaciones = transforms.Compose([transforms.Resize(32),
                               transforms.CenterCrop(32),
                               transforms.ToTensor()])  
datos = datasets.ImageFolder(directorio, transformaciones) 

print(f"Number of classes: {len(datos.classes)}")
print(f"Classes: {datos.classes}")
print(f"Number of images: {len(datos)}")


### Data Loader

Image folder se encarga de las imágenes, sin embargo todavía es necesario otro objeto, el *DataLoader* quien se encarga de leer los ejemplos por lotes (batches) junto con su correspondiente etiqueta. En el objeto *DataLoader* puedes especificar diversos parametros como el tamaño del lote si los datos son mezclados (*suffled*) despúes de cada época, entre otras opciones. Por ejemplo,

```python
dataloader = torch.utils.data.DataLoader(dataset, batch_size=32, shuffle=True)
```

Para iterar sobre los datos podemos hacer:

```python
# Looping through it, get a batch on each loop 
for images, labels in dataloader:
    pass

# Get one batch
images, labels = next(iter(dataloader))
```

In [None]:
#crear el objeto dataloader
cargador = torch.utils.data.DataLoader(datos, batch_size=32, shuffle=True)

In [None]:
# Run this to test your data loader
images, labels = next(iter(cargador))

fig, axes = plt.subplots(3, 3, figsize=(5, 5))
axes = axes.flatten()

for i in range(9):
    img = images[i]
    label = labels[i]
    print(label)
    helper.imshow(img, ax=axes[i], normalize=False)
    axes[i].set_title(f'Class: {label}')

plt.tight_layout()

In [None]:
data_dir = 'data'

# TODO: Define transforms for the training data and testing data
train_transforms = 

test_transforms = 


# Pass transforms in here, then run the next cell to see how the transforms look
train_data = datasets.ImageFolder(data_dir + '/train', transform=train_transforms)
test_data = datasets.ImageFolder(data_dir + '/test', transform=test_transforms)

trainloader = torch.utils.data.DataLoader(train_data, batch_size=32)
testloader = torch.utils.data.DataLoader(test_data, batch_size=32)

In [None]:
# change this to the trainloader or testloader 
data_iter = iter(testloader)

images, labels = next(data_iter)
fig, axes = plt.subplots(figsize=(10,4), ncols=4)
for ii in range(4):
    ax = axes[ii]
    helper.imshow(images[ii], ax=ax)