# Cómo entrenar a tu robot: Un taller de introducción a la IA (Taller de procesamiento de imágenes usando redes neuronales convolucionales)

## 1. Introducción





<p align="justify">El aprendizaje automático, también conocido como <b>Machine Learning (ML)</b>, es el campo de estudio que se centra en <b>desarrollar algoritmos</b> y modelos capaces de <b>aprender y mejorar automáticamente</b> a través de la experiencia y los <b>datos</b>. Con el avance de la tecnología y la disponibilidad masiva de datos, el aprendizaje automático se ha convertido en una <b>herramienta</b> indispensable en una amplia gama de industrias y sectores, desde la <b>medicina y las finanzas hasta la tecnología y el marketing</b>.


### ¿Qué diferencia hay entre inteligencia artificial, machine learning y Deep learning?

<img src='https://drive.google.com/uc?id=1eAXxkRtyRvuyZq3KOPGPX00KIswfMvvf'>



### Evolución en el tiempo

<img src='https://drive.google.com/uc?id=1ZzCX-pPvMHh1nvJ1Bw54BaPuAiwCWB1i'>


### La era de la IA

<img src='https://drive.google.com/uc?id=11ZTDVigES5oGzGCEFfdYj-shRyQbzAI9'>


### Neurona Biológica - La inspiración del la IA

<div>
<img src='https://drive.google.com/uc?id=1XJewQqq_h2WS_DhB7vkru3kyNs0T5tWh' width="500"/>
</div>



### Modelo de neurona: McCulloch-Pitts (1043)


<div>
<img src='https://drive.google.com/uc?id=1aunz3QWhWI6bvhxjPsqVHL1GrWOgBHNm' width="800"/>
</div>



### Perceptrón

<div>
<img src='https://drive.google.com/uc?id=1R35hbuVzHyj6V5Xh566-dXoqJeBN78x8' width="600"/>
</div>



### ¿Qué son las redes neuronals (Neuranal Netwoks)?

 <p align="justify">Una <b>Red Neuronal Artificial (NN)</b> es un conjunto de <b>nodos interconectados</b> de forma ordenada, distribuido <b>en capas</b>, a través del cual una <b>señal</b> de <b>entrada</b> se propaga para <b>producir</b> una <b>salida</b>. Se conocen así porque pretenden <b>emular de forma "sencilla"</b> el funcionamiento de las redes neuronales biológicas que se encuentran en el cerebro.

La siguiente imagen muestra la estructura general de una NN.

<div>
<img src='https://drive.google.com/uc?id=1uXD6UVzjQbR0AJtOrX4xIU760cVYYdFD' width="300"/>
</div>

* imagen tomada de: https://www.pnas.org/doi/10.1073/pnas.1821594116

### ¿Para qué son buenas las redes neuronales?



* Problemas con una larga lista de reglas.
  * Cuando el enfoque tradicional falla, el aprendizaje automático (ML) o el aprendizaje profundo (DL) pueden ayudar.
* Ambientes dinámicos.
  * Cuando el ambiente es constantemente cambiente en el tiempo un efoque con base en DL puede adaptarse (aprender).
* Descubrir información a partir de grandes cantidades de datos.



### ¿Para qué (típicamente) no sirve el *Deep-Learning*?



* Cuando se necesita explicabilidad.
  * Los patrones aprendidos por un modelo de aprendizaje profundo
normalmente son ininterpretables para un ser humano.
* Cuando el enfoque tradicional es una mejor opción.
  * Si se puede lograr lo que se necesita con un sistema simple basado en reglas.
* Cuando los errores son inaceptables, ya que los resultados del modelo de aprendizaje profundo no siempre son predecibles.
* Cuando **no** se tienen muchos datos*.
  * Los modelos de aprendizaje profundo suelen requerir una cantidad "bastante" grande de datos para producir buenos resultados.

### Regla 1 del ML Google's Handbook.


"*If you can build a **simple rule-based** system that doesn't require machine learning, do
that.*"

### PyTorch vs TensorFlow



### ¿Qué son?

**PyTorch** y **TensorFlow** son dos de las bibliotecas más populares para el desarrollo de modelos de Machine Learning y Deep Learning.

---

### 🔍 Diferencias clave:

| Característica         | PyTorch                           | TensorFlow                        |
|------------------------|------------------------------------|------------------------------------|
| Lanzamiento            | 2016 (Facebook)                   | 2015 (Google)                      |
| Facilidad de uso       | Más fácil y "pythónico"           | Más robusto, pero algo más complejo |
| Comunidad              | Muy popular en investigación       | Muy popular en producción          |
| Soporte móvil/embebido | Limitado, pero mejorando           | Mejor soporte (con TensorFlow Lite)|
| Herramientas visuales  | Soporte básico (`torch.utils.tensorboard`) | TensorBoard nativo                |

---

### 🧠 ¿Cuál elegir?

- **PyTorch**: Ideal para prototipado rápido e investigación.
- **TensorFlow**: Ideal para despliegue en producción y soluciones industriales.

Ambos frameworks son muy potentes y están en evolución constante.


## 2. Fundamentos de Pytorch

### Tensores

#### ¿Qué son los tensores?

En **PyTorch**, el objeto fundamental de trabajo es el **tensor**.  
Un tensor es una estructura de datos muy similar a un arreglo (array) o matriz de **NumPy**,  
pero con capacidades adicionales:

- Puede trabajar en **CPU o GPU** (para acelerar cálculos).
- Soporta **operaciones matemáticas eficientes** como producto punto, suma, transpuestas, etc.
- Puede tener **cualquier número de dimensiones**:
  - Escalar →  `5`
  - Vector →  `[1,2,3]`
  - Matriz →  `[[1,2],[3,4]]`
  - Tensores de mayor orden → dimensión mayor o igual a tres son útiles en imágenes, audio, video, etc.

En resumen: un tensor es la **unidad básica de datos en PyTorch**, como lo son los arrays en **NumPy**.


In [None]:
import torch
torch.__version__

In [None]:
# Escalar (0D)
escalar = torch.tensor(7)
print("Escalar:", escalar)
print("Dimensiones:", escalar.ndim)

# Vector (1D)
vector = torch.tensor([1, 2, 3])
print("\nVector:", vector)
print("Dimensiones:", vector.ndim)

# Matriz (2D)
matriz = torch.tensor([[1, 2], [3, 4]])
print("\nMatriz:\n", matriz)
print("Dimensiones:", matriz.ndim)

# Tensor 3D (ejemplo: 2 matrices de 2x2)
tensor_3d = torch.tensor([[[1,2],[3,4]], [[5,6],[7,8]]])
print("\nTensor 3D:\n", tensor_3d)
print("Dimensiones:", tensor_3d.ndim)


Tensores en el GPU (si está disponible)

In [None]:
# Verificar si hay GPU disponible
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Usando dispositivo:", device)

# Crear tensor directamente en GPU
x_gpu = torch.ones((3,3), device=device)
print("\nTensor en GPU:\n", x_gpu)

# Mover un tensor de CPU a GPU
x_cpu = torch.ones((3,3))
x_cpu_to_gpu = x_cpu.to(device)
print("\nTensor movido de CPU a GPU:\n", x_cpu_to_gpu)


### Flujo de trabajo (*Workflow*)

<p align="justify">La <b>esencia del aprendizaje automático</b> (<em>ML</em>, por sus siglas en inglés) y el aprendizaje profundo (<em>DL</em>) consiste en que a partir de la adquisición de datos, se construye un modelo (como una red neuronal) para <b>descubrir patrones</b> en ellos y usar esos patrones para "predecir el futuro".


El "esquema" o flujo de trabajo que se sigue para la implementación de modelos de aprendizaje automático particularmetne en PyTorch es:

<img src='https://drive.google.com/uc?id=1W1vuZFx0nYRbvqVdnHnOhfB-N6REpJgy'>

En resumen, el aprendizaje automático es un juego de dos partes:  
1. Convertir tus datos, sean los que sean, en números (una representación).  
2. Elegir o construir un modelo que aprenda esa representación de la mejor manera posible.

## 3. Preparando los Datos



Los "datos" en el aprendizaje automático pueden ser casi cualquier cosa que puedas imaginar.
- Una tabla de números (como una hoja de cálculo en Excel),
- imágenes de cualquier tipo,
- videos (¡YouTube tiene muchos datos!),
- archivos de audio como canciones o podcasts,
- estructuras de proteínas,
- texto,
- ...

#### Ejemplo - Creando algunos datos.

Usaremos regresión lineal para crear los datos con parámetros conocidos (cosas que un modelo puede aprender) y luego utilizaremos PyTorch para ver si podemos construir un modelo que estime estos parámetros.

Regresión Lineal:

$y=wX+b$

In [None]:
# Importando las bibliotecas de funciones
import torch

#   Bloque para la implementación de redes neuronaels
from torch import nn

#   Biblioteca para graficar
import matplotlib.pyplot as plt


* Crear un conjunto de datos en forma de línea recta utilizando la fórmula de regresión lineal ($y=wX+b$).
  * Establecer `w=0.7` y `b=0.3`, y debe haber al menos `100` puntos de datos en total.
  * Los valores de `X` deben estar entre `0` y `1`.
  

In [None]:
# Creadon parámetro "conocidos"

# ---
# Agregue sus valores aquí
w =
b =

start =
end =
step =
#-----

X = torch.arange(start, end, step).unsqueeze(dim=1)
y = w * X + b

# Mostradon los primeros 10 datos (X,y)
X[:10], y[:10]

Ahora avanzaremos hacia la construcción de un *modelo* que pueda aprender la relación entre `X` (**características**) y `y` (**etiquetas**).

### División de los datos en conjuntos de **entrenamiento**/**validación** y **prueba**

Antes de construir un modelo, necesitamos dividir los datos.

Uno de los pasos más importantes en un proyecto de aprendizaje automático es crear un conjunto de entrenamiento y un conjunto de prueba (y, cuando sea necesario, un conjunto de validación).

Cada división del conjunto de datos cumple una función específica:

| División | Propósito | Cantidad del total de datos | ¿Con qué frecuencia se usa? |
| ----- | ----- | ----- | ----- |
| **Conjunto de entrenamiento** | El modelo aprende de estos datos (como los materiales de estudio que revisas durante el semestre). | ~60-80% | Siempre |
| **Conjunto de validación** | El modelo se ajusta con estos datos (como el examen de práctica que tomas antes del examen final). | ~10-20% | Frecuentemente, pero no siempre |
| **Conjunto de prueba** | El modelo se evalúa con estos datos para probar lo que ha aprendido (como el examen final que tomas al final del semestre). | ~10-20% | Siempre |

Por ahora, solo usaremos un conjunto de entrenamiento y un conjunto de prueba, lo que significa que tendremos un conjunto de datos para que nuestro modelo aprenda y otro para evaluarlo.

Podemos crearlos dividiendo nuestros tensores `X` y `y`.

> <p align="justify"><b>Nota:</b> Al trabajar con datos del mundo real, este paso generalmente se realiza al inicio de un proyecto. Es importante resaltar que <b>el conjunto de prueba siempre debe mantenerse separado de todos los demás datos</b>. Queremos que nuestro modelo aprenda de los datos de entrenamiento y luego evaluarlo con los datos de prueba para obtener una indicación de qué tan bien se <em>generaliza</em> a ejemplos no vistos.

#### Ejemplo - Dividiendo los datos.

* Dividir los datos en 80% para entrenamiento y 20% para pruebas.

In [None]:
# Creando el conjunto de entrenamiento y prube

# ---
# Agregue sus valores aquí
#   Porcesntaje de entramiento
entrenamiento =
# ---

train_split = int(entrenamiento* len(X)) # 80% of data used for training set, 20% for testing
X_train, y_train = X[:train_split], y[:train_split]
X_test, y_test = X[train_split:], y[train_split:]

len(X_train), len(y_train), len(X_test), len(y_test)

Tenemos 80 muestras para entrenamiento (`X_train` y `y_train`) y 20 muestras para prueba (`X_test` y `y_test`).

El modelo que implementemos intentará aprender la relación entre `X_train` y `y_train`, y luego evaluaremos lo que ha aprendido en `X_test` y `y_test`.


#### Ejemplo - Función para visualizar los datos.

In [None]:
def plot_predictions(train_data   = X_train,
                     train_labels = y_train,
                     test_data    = X_test,
                     test_labels  = y_test,
                     predictions  = None):
  """
  Plots training data, test data and compares predictions.
  """
  plt.figure(figsize=(10, 7))

  # Plot training data in blue
  plt.scatter(train_data, train_labels, c="b", s=4, label="Entrenamiento")

  # Plot test data in green
  plt.scatter(test_data, test_labels, c="g", s=4, label="Prueba")

  if predictions is not None:
    # Plot the predictions in red (predictions were made on the test data)
    plt.scatter(test_data, predictions, c="r", s=4, label="Predicciones")

  # Show the legend
  plt.legend(prop={"size": 14});

In [None]:
plot_predictions( X_train, y_train, X_test, y_test);

## 4. Red Neuronal Básica



PyTorch cuenta con cuatro (más o menos) módulos esenciales que puedes usar para crear casi cualquier tipo de red neuronal que imagines.

- Módulos escenciales

  - [`torch.nn`](https://pytorch.org/docs/stable/nn.html),
    -  [`torch.nn.Parameter`](https://pytorch.org/docs/stable/generated/torch.nn.parameter.Parameter.html#parameter)
    - [`torch.nn.Module`](https://pytorch.org/docs/stable/generated/torch.nn.Module.html#torch.nn.Module)
  - [`torch.optim`](https://pytorch.org/docs/stable/optim.html),
  - [`torch.utils.data.Dataset`](https://pytorch.org/docs/stable/data.html#torch.utils.data.Dataset) y
  - [`torch.utils.data.DataLoader`](https://pytorch.org/docs/stable/data.html).

Por ahora, nos enfocaremos en los primeros dos (`torch.nn`, `torch.optim`) y abordaremos los otros dos más adelante (aunque podrías intuir para qué sirven).

| Módulo de PyTorch | ¿Qué hace? |
| ----- | ----- |
| [`torch.nn`](https://pytorch.org/docs/stable/nn.html) | Contiene todos los bloques básicos para los gráficos computacionales (esencialmente una serie de cálculos ejecutados de una manera particular). |
| [`torch.nn.Parameter`](https://pytorch.org/docs/stable/generated/torch.nn.parameter.Parameter.html#parameter) | Almacena tensores que pueden usarse con `nn.Module`. Si `requires_grad=True`, se calculan automáticamente los gradientes (utilizados para actualizar los parámetros del modelo mediante [**descenso de gradiente**](https://ml-cheatsheet.readthedocs.io/en/latest/gradient_descent.html)), lo cual se conoce como "autograd".  |
| [`torch.nn.Module`](https://pytorch.org/docs/stable/generated/torch.nn.Module.html#torch.nn.Module) | La clase base para todos los módulos de redes neuronales; todos los bloques básicos de redes neuronales son subclases de esta. Si estás construyendo una red neuronal en PyTorch, tus modelos deben ser subclases de `nn.Module`. Requiere implementar un método `forward()`. |
| [`torch.optim`](https://pytorch.org/docs/stable/optim.html) | Contiene varios algoritmos de optimización (estos indican a los parámetros del modelo almacenados en `nn.Parameter` cómo deben cambiar para mejorar el descenso de gradiente y reducir la pérdida). |
| `def forward()` | Todas las subclases de `nn.Module` requieren un método `forward()`, que define los cálculos que se realizarán en los datos pasados al `nn.Module` en particular (por ejemplo, la fórmula de la regresión lineal mencionada anteriormente). |


En resumen,

* `nn.Module` contiene los bloques grandes (capas)
* `nn.Parameter` contiene los parámetros más pequeños, como pesos y sesgos (al combinarlos, forman `nn.Module`(s))
* `forward()` indica a los bloques grandes cómo realizar los cálculos en las entradas (tensores llenos de datos) dentro de `nn.Module`(s)
* `torch.optim` contiene métodos de optimización para mejorar los parámetros dentro de `nn.Parameter` y representar mejor los datos de entrada.


### Bloque básico para crear un modelo (Red Neuronal)


<img src='https://drive.google.com/uc?id=1ulrbp-KacueQ8S2QCDfwzf4wc-XDG3cQ'>

Bloques básicos para crear un modelo en PyTorch mediante la clase `nn.Module`.
  * Para los objetos que son clases de `nn.Module`, se debe definir el método `forward()`.


A partir de la estructura general de un modelo en PyTorch y, con los datos que hemos creado antes, vamos a **construir un modelo** para usar los puntos azules y predecir los puntos verdes.

Nota. Para este ejercicios, vamos a replicar un modelo de regresión lineal estándar usando PyTorch puro.

#### Ejemplo - Implementando un modelo básico.

In [None]:
# Creando una clase para un modelo de regresión Lineal
class LinearRegressionModel(nn.Module): # <- práticamente todo en PyTorch es un nn.Module
    def __init__(self):
        super().__init__()
        self.weights = nn.Parameter(torch.randn(1, # <- Iniciar con pesos aleatorios (estos se ajustan conforme el modelo aprende)
                                                dtype=torch.float), # <- usar tipos de dato float32
                                   requires_grad=True)

        self.bias = nn.Parameter(torch.randn(1, # <- Iniciar con un sesgo aleatorio (este se ajusta conforme el modelo aprende)
                                            dtype=torch.float), # <- usar tipos de dato float32
                                requires_grad=True)

    # Forward describe qué hace tu red con los datos cuando los recibe
    def forward(self, x: torch.Tensor) -> torch.Tensor: # <- "x" datos de entrada
        return self.weights * x + self.bias # <- expresión para la regresión lineal (y = m*x + b)


Ahora que hemos visto estos conceptos, vamos a crear una instancia del modelo con la clase que hemos creado y revisar sus parámetros usando [`.parameters()`](https://pytorch.org/docs/stable/generated/torch.nn.Module.html#torch.nn.Module.parameters).

In [None]:
# Inicializamos una "semilla" aleatoria ya que nn.Parameter se inicializa aleatoriamente
torch.manual_seed(42)

# Creamos una instancia del modelo
model_0 = LinearRegressionModel()

# Revisamos los parámetros de la instancia creada
list(model_0.parameters())

También podemos obtener el estado (lo que contiene el modelo) usando [`.state_dict()`](https://pytorch.org/docs/stable/generated/torch.nn.Module.html#torch.nn.Module.state_dict).

In [None]:
# List named parameters
model_0.state_dict()

- Los valores de `weights` y `bias` en `model_0.state_dict()` aparecen como tensores de punto flotante aleatorios. Esto se debe a que los inicializamos anteriormente usando `torch.randn()`.

- Esencialmente, queremos comenzar con parámetros aleatorios y lograr que el modelo los actualice hacia los parámetros que mejor se ajusten a nuestros datos (los valores fijos de `weight` y `bias` que establecimos al crear nuestros datos de línea recta).

- Dado que nuestro modelo comienza con valores aleatorios, en este momento tendrá un bajo poder predictivo.

##### Haciendo predicciones usando `torch.inference_mode()`

Para comprobar esto, podemos pasarle los datos de prueba `X_test` y ver qué tan cerca predice `y_test`.

Cuando pasamos datos a nuestro modelo, estos pasarán por el método `forward()` del modelo y producirán un resultado usando el cálculo que hemos definido.

Hagamos algunas predicciones.

In [None]:
# Make predictions with model
with torch.inference_mode():
    y_preds = model_0(X_test)


Probablemente notaste que usamos [`torch.inference_mode()`](https://pytorch.org/docs/stable/generated/torch.inference_mode.html) como un [administrador de contexto](https://realpython.com/python-with-statement/) (eso es lo que indica `with torch.inference_mode():`) para hacer las predicciones.

Como sugiere el nombre, `torch.inference_mode()` se usa cuando un modelo se emplea para inferencia (realizar predicciones).

`torch.inference_mode()` desactiva varias funciones (como el seguimiento de gradientes, que es necesario para el entrenamiento pero no para la inferencia) para hacer que los **forward-passes** (datos que pasan por el método `forward()`) sean más rápidos.

Hemos hecho algunas predicciones, veamos cómo se ven.

In [None]:
# Veamos las predicciones
print(f"Number of testing samples: {len(X_test)}")
print(f"Number of predictions made: {len(y_preds)}")
print(f"Predicted values:\n{y_preds}")

Observa cómo hay un valor de predicción por cada muestra de prueba.

Esto se debe al tipo de datos que estamos utilizando. En nuestra línea recta, un valor de `X` se asocia a un valor de `y`.

Sin embargo, los modelos de aprendizaje automático son muy flexibles. Podrías tener 100 valores de `X` asociados a uno, dos, tres o 10 valores de `y`, dependiendo del proyecto en el que estés trabajando.

Vamos a visualizarlas con nuestra función `plot_predictions()` que creamos anteriormente.

In [None]:
plot_predictions(predictions=y_preds)

**Esas predicciones se ven bastante mal!!!**

Aunque tiene sentido, si recordamos que nuestro modelo solo está usando valores de parámetros aleatorios para hacer las predicciones.

Ni siquiera ha analizado los puntos azules para intentar predecir los puntos verdes.

Es hora de cambiar eso.

### Entrenando el modelo

Ahora mismo, nuestro modelo está haciendo predicciones utilizando parámetros aleatorios para realizar los cálculos, básicamente está adivinando (de manera aleatoria).

Para solucionar esto, podemos actualizar sus parámetros internos (también me refiero a *parámetros* como patrones), los valores de `weights` y `bias` que configuramos aleatoriamente usando `nn.Parameter()` y `torch.randn()`, para que representen mejor los datos.

Podríamos codificar esto manualmente, pero ¿entonces de que sirve el modelo?

- La mayoría de las veces, no sabrás cuáles son los parámetros ideales para un modelo.

- En su lugar, es mucho más adecuado escribir código para ver si el modelo puede intentar descubrir los parámetros/patrones por sí mismo.

#### Creando una función de pérdida (**loss function**) y un optimizador (**optimizer**) en PyTorch

Para que nuestro modelo actualice sus parámetros por sí mismo, necesitaremos agregar algunas cosas más a nuestra receta. Esas "cosas" son una **función de pérdida** y un **optimizador**:

| Función | ¿Qué hace? | ¿Dónde se encuentra en PyTorch? | Valores comunes |
| ----- | ----- | ----- | ----- |
| **Función de pérdida** | Mide cuán equivocadas están las predicciones de tu modelo<br>(por ejemplo, `y_preds`) en comparación con las etiquetas<br> verdaderas (por ejemplo, `y_test`). Mientras más bajo, mejor. | PyTorch tiene muchas funciones de pérdida predefinidas en [`torch.nn`](https://pytorch.org/docs/stable/nn.html#loss-functions). | Error absoluto medio (MAE) para problemas de regresión ([`torch.nn.L1Loss()`](https://pytorch.org/docs/stable/generated/torch.nn.L1Loss.html)).<br> Entropía cruzada binaria para problemas de clasificación binaria ([`torch.nn.BCELoss()`](https://pytorch.org/docs/stable/generated/torch.nn.BCELoss.html)). |
| **Optimizador** | Indica a tu modelo cómo actualizar sus parámetros internos<br> para reducir al máximo la pérdida. | Puedes encontrar varias implementaciones de funciones de optimización<br> en [`torch.optim`](https://pytorch.org/docs/stable/optim.html). | Descenso de gradiente estocástico ([`torch.optim.SGD()`](https://pytorch.org/docs/stable/generated/torch.optim.SGD.html#torch.optim.SGD)).<br> Optimizador Adam ([`torch.optim.Adam()`](https://pytorch.org/docs/stable/generated/torch.optim.Adam.html#torch.optim.Adam)). |

- Dependiendo del tipo de problema en el que estés trabajando, se elegirá la función de pérdida y el optimizador a utilizar.

Existen algunos valores comunes que se sabe que funcionan bien, como
- el optimizador SGD (descenso de gradiente estocástico) o Adam.
- Y la función de pérdida MAE (error absoluto medio) para problemas de regresión (predecir un número) o
- la función de pérdida de entropía cruzada binaria para problemas de clasificación (predecir una cosa u otra).

Para nuestro problema, como estamos prediciendo un número, usaremos MAE (que está bajo `torch.nn.L1Loss()`) en PyTorch como nuestra función de pérdida.

<img src='https://drive.google.com/uc?id=1g3T2pespFLRjoYrPlgcjPp2pAzG0MSQR'>

*El error absoluto medio (MAE, en PyTorch: `torch.nn.L1Loss`) mide la diferencia absoluta entre dos puntos (predicciones y etiquetas) y luego toma la media de todos los ejemplos.*

Y utilizaremos SGD, `torch.optim.SGD(params, lr)`, donde:

* `params` son los parámetros del modelo objetivo que te gustaría optimizar (por ejemplo, los valores de `weights` y `bias` que configuramos aleatoriamente antes).
* `lr` es la tasa de aprendizaje (**learning rate**) a la que te gustaría que el optimizador actualice los parámetros.
  - Un valor más alto significa que el optimizador intentará actualizaciones más grandes (estas pueden ser a veces demasiado grandes y el optimizador no funcionará),
  - un valor más bajo significa que el optimizador intentará actualizaciones más pequeñas (estas pueden ser demasiado pequeñas y el optimizador tardará mucho en encontrar los valores ideales).
  
La **tasa de aprendizaje** se considera un **hiperparámetro** (que es configurado por el desarrollador). Los valores comunes para la tasa de aprendizaje son `0.01`, `0.001`, `0.0001`. Sin embargo, estos también pueden ajustarse con el tiempo (esto se llama [programación de tasa de aprendizaje](https://pytorch.org/docs/stable/optim.html#how-to-adjust-learning-rate)).

In [None]:
# Create the loss function
loss_fn = nn.L1Loss() # MAE loss está implementada como L1Loss

# Create the optimizer
optimizer = torch.optim.SGD(params=model_0.parameters(), # parámetros del modelo
                            lr=0.01) # lr:learning rate (cuánto debe cambiar el optimizador los parámetros en cada paso, mayor->menos estable, menor->podría tomar mucho tiempo)

#### Ciclo de optimización en PyTorch

Ahora que tenemos una función de pérdida y un optimizador, es momento de crear un **ciclo de entrenamiento** (y un **ciclo de prueba**).

- El ciclo de entrenamiento consiste en que el modelo pase por los datos de entrenamiento y aprenda las relaciones entre las `features` y las `labels`.

- El ciclo de prueba implica pasar por los datos de prueba y evaluar qué tan buenos son los patrones que el modelo aprendió en los datos de entrenamiento (el modelo nunca ve los datos de prueba durante el entrenamiento).

Cada uno de estos se llama "ciclo" porque queremos que nuestro modelo vea (recorra) cada muestra en cada conjunto de datos.

Para crear estos ciclos, vamos a escribir un _for_-_loop_ (`for`) en Python.


#### Etapa (ciclo) de entrenamiento en PyTorch

Para el ciclo de entrenamiento, construiremos los siguientes pasos:


| Número | Nombre del paso | ¿Qué hace? | Ejemplo de código |
| ----- | ----- | ----- | ----- |
| 1 | *Forward pass* | El modelo pasa por todos los datos de entrenamiento una vez,<br> realizando los cálculos de su función `forward()`. | `model(x_train)` |
| 2 | Calcular la pérdida | Las salidas del modelo (predicciones) se comparan con la verdad<br> fundamental y se evalúa cuán incorrectas son. | `loss = loss_fn(y_pred, y_train)` |
| 3 | Poner los gradientes a cero | Los gradientes del optimizador se ponen a cero (por defecto se acumulan)<br> para que puedan ser recalculados para el paso de entrenamiento específico. | `optimizer.zero_grad()` |
| 4 | Retropropagación sobre la pérdida | Calcula el gradiente de la pérdida con respecto a cada parámetro del modelo<br> que se debe actualizar (cada parámetro con `requires_grad=True`). | `loss.backward()` |
| 5 | Actualizar el optimizador (**descenso de gradiente**) | Actualiza los parámetros con `requires_grad=True` con respecto a<br> los gradientes de la pérdida para mejorarlos. | `optimizer.step()` |

<img src='https://drive.google.com/uc?id=1yJgiEGC6oWn0ztagqLz_G6g2evlGwCR0'>


> **Nota:** Lo anterior es solo un ejemplo de cómo podrían ordenarse o describirse los pasos. Con experiencia, descubrirás que los ciclos de entrenamiento en PyTorch pueden ser bastante flexibles.
>
> En cuanto al orden de los pasos, el orden anterior es un buen orden por defecto, pero es posible que veas órdenes ligeramente diferentes. Algunas reglas generales:
> * Calcula la pérdida (`loss = ...`) *antes* de realizar la retropropagación sobre ella (`loss.backward()`).
> * Pon los gradientes a cero (`optimizer.zero_grad()`) *antes* de calcular los gradientes de la pérdida con respecto a cada parámetro del modelo (`loss.backward()`).
> * Actualiza el optimizador (`optimizer.step()`) *después* de realizar la retropropagación sobre la pérdida (`loss.backward()`).

#### Etapa (ciclo) de prueba en PyTorch


En cuanto al ciclo de prueba (evaluación de nuestro modelo), los pasos típicos incluyen:

| Número | Nombre del paso | ¿Qué hace? | Ejemplo de código |
| ----- | ----- | ----- | ----- |
| 1 | *Forward pass* | El modelo pasa por todos los datos de prueba una vez, realizando los cálculos de su función `forward()`. | `model(x_test)` |
| 2 | Calcular la pérdida | Las salidas del modelo (predicciones) se comparan con la verdad fundamental y se evalúa cuán incorrectas son. | `loss = loss_fn(y_pred, y_test)` |
| 3 | Calcular métricas de evaluación (opcional) | Junto con el valor de la pérdida, puede que desees calcular otras métricas de evaluación, como la precisión en el conjunto de prueba. | Funciones personalizadas |

Observa que el ciclo de prueba no incluye realizar la retropropagación (`loss.backward()`) ni actualizar el optimizador (`optimizer.step()`), esto es porque no se cambian parámetros en el modelo durante las pruebas, ya se han calculado. Para las pruebas, solo nos interesa la salida del pase hacia adelante a través del modelo.

<img src='https://drive.google.com/uc?id=1fePzzXh4FK0l_NAC9R9Dv60A0qaabGPL'>



Vamos a juntar todo lo anterior y entrenar nuestro modelo durante 100 **épocas** y lo evaluaremos cada 10 épocas.

In [None]:
torch.manual_seed(42)

# Estableciendo el número de épocas (cuántas veces el modelo pasará sobre los datos de entrenamiento)
epochs = 100

# Crear listas de pérdidas vacías para realizar un seguimiento de los valores
train_loss_values = []
test_loss_values = []
epoch_count = []

for epoch in range(epochs):
    #----------------------
    ### Entrenamiento

    # Poner el modelo en modo de entrenamiento (este es el estado predeterminado de un modelo)
    model_0.train()

    # 1. Calculando la predicción por medio de la función Forward y los datos de entrenamiento
    y_pred = model_0(X_train)
    # print(y_pred)

    # 2. Calcular la pérdida (¿cuán diferentes son las predicciones de nuestros modelos con respecto a la referencia?)
    loss = loss_fn(y_pred, y_train)

    # 3. poner en cero todos los gradientes acumulados del optimizador
    optimizer.zero_grad()

    # 4. calculando los gradientes de la pérdida (loss) con respecto a todos los parámetros del modelo
    loss.backward()

    # 5. Actualizando los valores de los parámetros (los pesos del modelo).
    optimizer.step()
    #----------------------

    #----------------------
    ### Testing

    # Colocando el modelo en modo de evaluación
    model_0.eval()

    with torch.inference_mode():
      # 1. Haciendo la predicción
      test_pred = model_0(X_test)

      # 2. Caculando la pérdidad sobre los datos de prueba
      test_loss = loss_fn(test_pred, y_test.type(torch.float)) # predictions come in torch.float datatype, so comparisons need to be done with tensors of the same type

      # Mostrando los resultados pariciales
      if epoch % 10 == 0:
            epoch_count.append(epoch)
            train_loss_values.append(loss.detach().numpy())
            test_loss_values.append(test_loss.detach().numpy())
            print(f"Epoch: {epoch} | MAE Train Loss: {loss} | MAE Test Loss: {test_loss} ")

    #----------------------

Observa como la pérdida está disminuyendo con cada época, vamos a graficarlo para verlo mejor.

In [None]:
# Plot the loss curves
plt.plot(epoch_count, train_loss_values, label="Loss (Entrenamiento)")
plt.plot(epoch_count, test_loss_values, label="Loss (Prueba)")
plt.title("Curvas de pérdida")
plt.ylabel("Loss")
plt.xlabel("Epocas")
plt.legend();

- Las **curvas de pérdida (_loss_)** muestran cómo la pérdida disminuye con el tiempo. Recuerda, la pérdida es la medida de cuán *incorrecto* está tu modelo, por lo que mientras más baja, mejor.

Pero, ¿por qué disminuyó la pérdida?

Bueno, gracias a la función de pérdida y al optimizador, los parámetros internos del modelo (`weights` y `bias`) fueron actualizados para reflejar mejor los patrones subyacentes en los datos.



Vamos a inspeccionar el [`.state_dict()`](https://pytorch.org/tutorials/recipes/recipes/what_is_state_dict.html) de nuestro modelo para ver qué tan cerca está nuestro modelo de los valores originales que establecimos para los pesos y el sesgo.

In [None]:
# Mostrando los parámetros con los valores aprendidos
print("El modelo aprendió los siguientes valores para pesos y sesgo:")
print(model_0.state_dict())
print("\nLos valores originales para pesos y sesgo fueron:")
print(f"weights: {w}, bias: {b}")

### Haciendo predicciones con un modelo entrenado de PyTorch (inferencia)



Una vez que has entrenado un modelo, probablemente querrás hacer predicciones con él.

Ya hemos visto un vistazo de esto en el código de entrenamiento y prueba anterior, los pasos para hacerlo fuera del ciclo de entrenamiento/prueba son similares.

Hay tres cosas que debes recordar al hacer predicciones (también llamado realizar inferencia) con un modelo de PyTorch:

1. Establecer el modelo en modo de evaluación (`model.eval()`).
2. Hacer las predicciones usando el administrador de contexto de modo de inferencia (`with torch.inference_mode(): ...`).
3. Todas las predicciones deben hacerse con objetos en el mismo dispositivo (por ejemplo, datos y modelo solo en GPU o datos y modelo solo en CPU).

Los dos primeros puntos aseguran que todos los cálculos y configuraciones útiles que PyTorch usa tras bambalinas durante el entrenamiento, pero que no son necesarios para la inferencia, estén apagados (esto resulta en un cálculo más rápido). Y el tercero asegura que no tendrás errores por cruzar dispositivos.

In [None]:
# 1. Actviando el modo de evaluación
model_0.eval()

# 2. Colocando el modelo en modo de inferencia
with torch.inference_mode():
  # 3. Asegúrese de que los cálculos se realicen con el modelo y los datos en el mismo dispositivo;
  # en nuestro caso, aún no hemos configurado un código independiente del dispositivo,
  # por lo que nuestros datos y modelo están en la CPU de forma predeterminada.

  # model_0.to(device)
  # X_test = X_test.to(device)

  y_preds = model_0(X_test)

y_preds

Hemos hecho algunas predicciones con nuestro modelo entrenado, ¿cómo se ven ahora?

In [None]:
plot_predictions(predictions=y_preds)

## 5. Redes Neuronales (NNs)

### Clasificación de Imágenes



Un [problema de clasificación](https://es.wikipedia.org/wiki/Clasificación_estadística) implica predecir si algo es una cosa o otra.

Por ejemplo, podrías querer:

| Tipo de problema | ¿Qué es? | Ejemplo |
| ----- | ----- | ----- |
| **Clasificación binaria** | El objetivo puede ser una de dos opciones, por ejemplo, sí o no | Predecir si una persona tiene o no enfermedad cardíaca en función de sus parámetros de salud. |
| **Clasificación multi-clase** | El objetivo puede ser una de más de dos opciones | Decidir si una foto es de comida, una persona o un perro. |
| **Clasificación multi-etiqueta** | El objetivo puede asignarse a más de una opción | Predecir qué categorías deben asignarse a un artículo de Wikipedia (por ejemplo, matemáticas, ciencia y filosofía). |

<img src='https://drive.google.com/uc?id=1gLya_iLw3EdljxgQtqgqmrhn5zoOO7yt'>

    
La clasificación, junto con la regresión (predecir un número), es uno de los tipos más comunes de problemas en *machine learning*.


Al igual que en el escenario anterior, el "esquema" o flujo de trabajo que se sigue para la implementación de modelos de aprendizaje automático particularmetne en PyTorch, inlcuso para un problema de clasificación, es:

<img src='https://drive.google.com/uc?id=1W1vuZFx0nYRbvqVdnHnOhfB-N6REpJgy'>

Excepto que en lugar de intentar predecir una línea recta (predecir un número, también llamado problema de regresión), trabajaremos en un **problema de clasificación**.


### Arquitectura de una red neuronal para clasificación



Antes de comenzar a escribir código, veamos la arquitectura general de una red neuronal para clasificación.

| **Hiperparámetro** | **Clasificación binaria** | **Clasificación multicategoría** |
| --- | --- | --- |
| **Forma de la capa de entrada** (`in_features`) | Igual al número de características (por ejemplo, altura, peso, estado de fumador en la predicción de enfermedades cardíacas) | Igual a la clasificación binaria |
| **Capa(s) oculta(s)** | Específico al problema, mínimo = 1, máximo = ilimitado | Igual a la clasificación binaria |
| **Neuronas por capa oculta** | Específico al problema, generalmente de 10 a 512 | Igual a la clasificación binaria |
| **Forma de la capa de salida** (`out_features`) | 1 (una clase u otra) | 1 por clase (por ejemplo, 3 para foto de comida, persona o perro) |
| **Activación de la capa oculta** | Usualmente [ReLU](https://pytorch.org/docs/stable/generated/torch.nn.ReLU.html#torch.nn.ReLU) (unidad lineal rectificada), pero [puede ser muchas otras](https://es.wikipedia.org/wiki/Funci%C3%B3n_de_activaci%C3%B3n#Tabla_de_funciones_de_activaci%C3%B3n). | Igual a la clasificación binaria |
| **Activación de la salida** | [Sigmoide](https://es.wikipedia.org/wiki/Funci%C3%B3n_sigmoide) ([`torch.sigmoid`](https://pytorch.org/docs/stable/generated/torch.sigmoid.html) en PyTorch) | [Softmax](https://es.wikipedia.org/wiki/Funci%C3%B3n_softmax) ([`torch.softmax`](https://pytorch.org/docs/stable/generated/torch.nn.Softmax.html) en PyTorch) |
| **Función de pérdida** | [Entropía cruzada binaria](https://es.wikipedia.org/wiki/Entrop%C3%ADa_cruzada#Funci%C3%B3n_de_p%C3%A9rdida_de_entrop%C3%ADa_cruzada_y_regresi%C3%B3n_log%C3%ADstica) ([`torch.nn.BCELoss`](https://pytorch.org/docs/stable/generated/torch.nn.BCELoss.html) en PyTorch) | Entropía cruzada ([`torch.nn.CrossEntropyLoss`](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html) en PyTorch) |
| **Optimizador** | [SGD](https://pytorch.org/docs/stable/generated/torch.optim.SGD.html) (descenso de gradiente estocástico), [Adam](https://pytorch.org/docs/stable/generated/torch.optim.Adam.html) (ver [`torch.optim`](https://pytorch.org/docs/stable/optim.html) para más opciones) | Igual a la clasificación binaria |

Por supuesto, esta lista de componentes de una red neuronal de clasificación variará según el problema con el que estés trabajando.



###  Bibliotecas de visión por computadora en PyTorch



Antes de empezar a escribir código, hablemos de algunas librerías de visión por computadora en PyTorch que debes conocer.

| Módulo de PyTorch | ¿Qué hace? |
| ----- | ----- |
| [`torchvision`](https://pytorch.org/vision/stable/index.html) | Contiene conjuntos de datos, arquitecturas de modelos y transformaciones de imágenes que suelen usarse para problemas de visión por computadora. |
| [`torchvision.datasets`](https://pytorch.org/vision/stable/datasets.html) | Contiene ejemplos de conjuntos de datos de visión por computadora para una variedad de problemas, como clasificación de imágenes, detección de objetos, creación de descripciones de imágenes, etc. También contiene [clases base para crear conjuntos de datos personalizados](https://pytorch.org/vision/stable/datasets.html#base-classes-for-custom-datasets). |
| [`torchvision.models`](https://pytorch.org/vision/stable/models.html) | Este módulo contiene arquitecturas de modelos de visión por computadora bien optimizadas y comúnmente usadas en PyTorch; puedes usarlas con tus propios problemas. |
| [`torchvision.transforms`](https://pytorch.org/vision/stable/transforms.html) | Frecuentemente, las imágenes necesitan ser transformadas (convertidas en números/procesadas/aumentadas) antes de ser usadas en un modelo; aquí se encuentran transformaciones comunes de imágenes. |
| [`torch.utils.data.Dataset`](https://pytorch.org/docs/stable/data.html#torch.utils.data.Dataset) | Clase base para conjuntos de datos en PyTorch. |
| [`torch.utils.data.DataLoader`](https://pytorch.org/docs/stable/data.html#module-torch.utils.data) | Crea un iterable en Python sobre un conjunto de datos (creado con `torch.utils.data.Dataset`). |

> **Nota:** Las clases `torch.utils.data.Dataset` y `torch.utils.data.DataLoader` no son exclusivas para visión por computadora en PyTorch; son capaces de manejar muchos tipos diferentes de datos.


### Obteniendo un conjunto de datos

Para comenzar a trabajar en un problema de visión por computadora, primero obtengamos un conjunto de datos de imágenes.

PyTorch tiene una gran cantidad de conjuntos de datos de visión por computadora comunes almacenados en `torchvision.datasets`.

En este taller vamos a utilizar un conjunto de datos proveniente de la plataforma [Kaggle](https://www.kaggle.com/). Particularmente el conjunto de datos "Traffic Signs Preprocessed".

### 📂 Traffic Signs Preprocessed (Kaggle)

El _dataset_ **Traffic Signs Preprocessed** es una versión ya procesada y normalizada de datos de señales de tránsito.  
Fue creado por **Valentyn Sichkar** y está disponible en [Kaggle](https://www.kaggle.com/datasets/valentynsichkar/traffic-signs-preprocessed).

#### 📊 Características principales
- Contiene aproximadamente **87,000 ejemplos de entrenamiento**.
- Está dividido en **train, validation y test**, en formato **Pickle**.
- Incluye **43 clases** diferentes de señales de tránsito (ej. límites de velocidad, advertencias, ceda el paso).
- Disponible en **RGB** y en **escala de grises**.
- Las imágenes han sido **normalizadas** y ajustadas para facilitar su uso en redes neuronales.

#### ⚠️ Limitaciones
- Las imágenes no siempre son de tamaño fijo ni con fondo completamente limpio.
- Posible **desbalance de clases**.
- Puede requerir adaptación adicional (redimensionado o centrado) para ciertos modelos.



#### Cargando los datos

In [None]:
import os
import gdown

def download_from_drive(ID_PUBLICO_DRIVE, NOMBRE_DESTINO):
  # Ejecutar la descarga
  try:
      print(f"Intentando descargar el ID: {ID_PUBLICO_DRIVE}")
      gdown.download(id=ID_PUBLICO_DRIVE, output=NOMBRE_DESTINO, quiet=False)

      if os.path.exists(NOMBRE_DESTINO):
          print(f"\n✅ ¡Descarga exitosa! Archivo guardado como: {NOMBRE_DESTINO}")
          # Si es un ZIP, puedes descomprimirlo inmediatamente
          if NOMBRE_DESTINO.endswith('.zip'):
              !unzip {NOMBRE_DESTINO} -d /content/some_imgs
              print("Archivo descomprimido.")
              !rm /content/{NOMBRE_DESTINO}
      else:
           print("\n⚠️ Advertencia: No se pudo verificar la descarga. Revisa el ID y los permisos.")

  except Exception as e:
      print(f"\n❌ Error durante la descarga: {e}")


In [None]:
# --- CONFIGURACIÓN ---
#Names
ID_PUBLICO_DRIVE = '1HX4L3YwRwlnK8Fkx7nDaaFh4FKisBjUR'
NOMBRE_DESTINO = 'label_names.csv' # El nombre que tendrá el archivo al descargarse
download_from_drive(ID_PUBLICO_DRIVE, NOMBRE_DESTINO)

#Datos de validacion
ID_PUBLICO_DRIVE = '1cvX1vmUICThgbcAJohcwT_9PEMCkRXR3'
NOMBRE_DESTINO = 'valid.pickle' # El nombre que tendrá el archivo al descargarse
download_from_drive(ID_PUBLICO_DRIVE, NOMBRE_DESTINO)

#Datos de entrenamiento
ID_PUBLICO_DRIVE = '19KnZKR8viJjJebWgmzyylu5E0RqAnemq'
NOMBRE_DESTINO = 'train.pickle' # El nombre que tendrá el archivo al descargarse
download_from_drive(ID_PUBLICO_DRIVE, NOMBRE_DESTINO)

#Datos de prueba
ID_PUBLICO_DRIVE = '1Cv56ilpPxf2CHF8ZF5ImD3VKha2MdR_b'
NOMBRE_DESTINO = 'test.pickle' # El nombre que tendrá el archivo al descargarse
download_from_drive(ID_PUBLICO_DRIVE, NOMBRE_DESTINO)

# No descomentar Comando para eliminar la carpete
#!rm -rf /content/some_imgs/


In [None]:
!mkdir traffic_signs
!mv label_names.csv /content/traffic_signs
!mv train.pickle /content/traffic_signs
!mv test.pickle /content/traffic_signs
!mv valid.pickle /content/traffic_signs

#### Generando los conjuntos de Entrenamiento, Validación y Prueba (_train_, _val_, _test_)

In [None]:
import os
import pickle
import torch
from torch.utils.data import TensorDataset
import matplotlib.pyplot as plt
import csv


# Ruta de los datos descargados
data_dir = "./traffic_signs"

# --- Función para cargar archivos pickle ---
def load_pickle(file_path):
    with open(file_path, "rb") as f:
        data = pickle.load(f, encoding="latin1")
    return data

# --- Función para leer los nombres de las clases ---
def label_text(file):
    # Definición de lista para guardar etiquetas en orden de 0 a 42
    label_list = []

    # Abrir archivo 'csv' y obtener las etiquetas de las imágenes
    with open(file, 'r') as f:
        reader = csv.reader(f)
        # Pasando por todas las filas
        for row in reader:
            # Agregar de cada fila la segunda columna con el nombre de la etiqueta
            label_list.append(row[1])
        # Eliminar el primer elemento de la lista porque es el nombre de la columna
        del label_list[0]
    # Devolviendo la lista de resultados
    return label_list


# Cargar train, valid, test
train_data = load_pickle(os.path.join(data_dir, "train.pickle"))
valid_data = load_pickle(os.path.join(data_dir, "valid.pickle"))
test_data  = load_pickle(os.path.join(data_dir, "test.pickle"))

class_names = label_list = label_text(os.path.join(data_dir, "label_names.csv"))

# Extraer features y labels
X_train, y_train = train_data['features'], train_data['labels']
X_valid, y_valid = valid_data['features'], valid_data['labels']
X_test,  y_test  = test_data['features'],  test_data['labels']

print("Tamaño de entrenamiento:", X_train.shape)
print("Tamaño de validación:", X_valid.shape)
print("Tamaño de prueba:", X_test.shape)

print("Número de clases:", len(class_names))
print("Nombre de las clases:", class_names)

# --- Convertir a escala de grises ---
# Usamos la expresion luminancia: Y = 0.299R + 0.587G + 0.114B
def rgb2gray(images):
    return (
        0.299 * images[:,:,:,0] +
        0.587 * images[:,:,:,1] +
        0.114 * images[:,:,:,2]
    )

X_train_gray = rgb2gray(X_train)[..., None]  # añadir canal
X_valid_gray = rgb2gray(X_valid)[..., None]
X_test_gray  = rgb2gray(X_test)[..., None]

print("Nuevo shape (escala de grises) entrenamiento:", X_train_gray.shape)
print("Nuevo shape (escala de grises) validacio:", X_valid_gray.shape)
print("Nuevo shape (escala de grises) prueba:", X_test_gray.shape)

# --- Convertir a tensores de PyTorch (N, C, H, W) ---
X_train_t = torch.tensor(X_train_gray, dtype=torch.float32).permute(0, 3, 1, 2) / 255.0
y_train_t = torch.tensor(y_train, dtype=torch.long)

X_valid_t = torch.tensor(X_valid_gray, dtype=torch.float32).permute(0, 3, 1, 2) / 255.0
y_valid_t = torch.tensor(y_valid, dtype=torch.long)

X_test_t  = torch.tensor(X_test_gray,  dtype=torch.float32).permute(0, 3, 1, 2) / 255.0
y_test_t  = torch.tensor(y_test,  dtype=torch.long)

# Crear TensorDatasets y DataLoaders
train_dataset = TensorDataset(X_train_t, y_train_t)
valid_dataset = TensorDataset(X_valid_t, y_valid_t)
test_dataset  = TensorDataset(X_test_t,  y_test_t)





In [None]:
import matplotlib.pyplot as plt

# --- Función para mostrar imagen en escala de grises ---
def show_image_gray(index, dataset=X_train_gray, labels_id=y_train):
    """Muestra una imagen en escala de grises y su etiqueta"""
    img = dataset[index].squeeze()  # quitar canal extra
    label = class_names[labels_id[index]]
    plt.imshow(img, cmap="gray")
    plt.title(f"Etiqueta: {label}")
    plt.axis("off")
    plt.show()

# Ejemplo: mostrar la primera imagen
index = 500 # Este índice pude ser un valor entre 0 y 34,798
show_image_gray(index)



Veamos algunas más

In [None]:
# Graficando más imágenes
torch.manual_seed(42)


fig = plt.figure(figsize=(9, 9))

rows, cols = 4, 4

for i in range(1, rows * cols + 1):
    random_idx = torch.randint(0, len(X_train_gray), size=[1]).item()
    img, label = X_train_gray[random_idx], class_names[y_train_t[random_idx]]

    fig.add_subplot(rows, cols, i)

    plt.imshow(img.squeeze(), cmap="gray")
    plt.title(label, fontsize=7)
    plt.axis(False)

### Preparando los datos. Uso de *DataLoader*


Ahora tenemos un conjunto de datos listo para usar.

El siguiente paso es prepararlo con un [`torch.utils.data.DataLoader`](https://pytorch.org/docs/stable/data.html#torch.utils.data.Dataset), o `DataLoader` para abreviar.

El `DataLoader`:
- Ayuda a cargar datos en un modelo.

- Es usado tanto en entrenamiento como en inferencia.

- Convierte un `Dataset` grande en un "iterable" de Python de partes más pequeñas.

  - Estas partes más pequeñas se llaman ***batches*** o ***mini-batches*** y se pueden establecer con el parámetro `batch_size`.


#### Lotes (_Batches_)

¿Por qué usar lotes (*batches*)?

- Porque es más eficiente computacionalmente.

- En un mundo ideal, podrías hacer la pasada hacia adelante y la pasada hacia atrás con todos tus datos a la vez. Pero una vez que comienzas a usar conjuntos de datos realmente grandes, a menos que tengas poder de cómputo infinito, es más fácil dividirlos en lotes (*batches*).

- Su uso le da a tu modelo más oportunidades de mejorar.

Con **mini-batches** (pequeñas porciones de los datos), el descenso de gradiente se realiza más veces por época (una vez por *mini-batches* en lugar de una vez por época).

¿Qué tamaño de *batch* es bueno?

[32 es un buen lugar para comenzar](https://twitter.com/ylecun/status/989610208497360896?s=20&t=N96J_jotN--PYuJk2WcjMw) para una buena cantidad de problemas.

Pero como este es un valor que puedes ajustar (un **hiperparámetro**), puedes probar diferentes valores, aunque generalmente se utilizan potencias de 2 con más frecuencia (por ejemplo, 32, 64, 128, 256, 512).

![ejemplo de cómo se ve un conjunto de datos en lotes](https://drive.google.com/uc?id=1r3lgFpU7ZMxb6DIOQpgi-T3gmofCkjsV)


Vamos a crear `DataLoader`'s para nuestros conjuntos de entrenamiento y prueba.

In [None]:
from torch.utils.data import DataLoader

# Instanciando el tamaño del "batch" (hiperparámetro)
BATCH_SIZE = 32


# Convierte conjuntos de datos en datos "iterables"
train_dataloader = DataLoader(train_dataset, # dataset
    batch_size=BATCH_SIZE, # Num de "batches"
    shuffle=True

)

valid_dataloader = DataLoader(valid_dataset,
    batch_size=BATCH_SIZE,
    shuffle=False
)

test_dataloader = DataLoader(test_dataset,
    batch_size=BATCH_SIZE,
    shuffle=False
)

# Revisando lo que se ha generado
print(f"Dataloaders: {train_dataloader, valid_dataloader, test_dataloader}")
print(f"Length of train dataloader: {len(train_dataloader)} batches of {BATCH_SIZE}")
print(f"Length of train dataloader: {len(valid_dataloader)} batches of {BATCH_SIZE}")
print(f"Length of test dataloader: {len(test_dataloader)} batches of {BATCH_SIZE}")

In [None]:
# Vea lo que hay dentro del "dataloader" de los datos de entrenamiento
train_features_batch, train_labels_batch = next(iter(train_dataloader))
train_features_batch.shape, train_labels_batch.shape

### Construyendo el modelo (NN) para clasificación



Con los datos cargados y preparados, es hora de construir un **modelo base** utilizando `nn.Module`.

Nuestro modelo base consistirá en dos capas [`nn.Linear()`](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html).

Debido a que estamos trabajando con datos de imágenes, vamos a usar una capa diferente para comenzar.

Y esa es la capa [`nn.Flatten()`](https://pytorch.org/docs/stable/generated/torch.nn.Flatten.html).

- `nn.Flatten()` comprime las dimensiones de un tensor en un solo vector.

Particularmente el modelo a generar es:


![modelo base](https://drive.google.com/uc?id=1ZUvLUa81OPqQTx2fdEDbH5P4DVomcJWA)

*Modelo Base*

In [None]:
import torch.nn as nn

# Creando una capa (layer) tipo "flatten"
flatten_model = nn.Flatten()

# Obteniendo una muestra
x = train_features_batch[0]

# "Aplanando" la muestra
output = flatten_model(x)

# Mostrando la salida
print(f"Shape before flattening: {x.shape} -> [color_channels, height, width]")
print(f"Shape after flattening: {output.shape} -> [color_channels, height*width]")


La capa `nn.Flatten()` transformó el dato de la forma `[color_channels, height, width]` a `[color_channels, height*width]`.

¿Por qué hacer esto?

Porque ahora hemos convertido nuestros datos de píxeles de dimensiones de altura y ancho en un **vector de características** largo.

Y las capas `nn.Linear()` prefieren que sus entradas estén en forma de vectores de características.


Ahora, vamos a crear el modelo:

#### Creando el modelo para clasificación

In [None]:
import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch, FancyArrow

# Define layer labels
layers = [
    ("Input", "1×32×32"),
    ("Flatten", "→ 1024"),
    ("Linear", "1024 → 10"),
    ("Linear", "10 → 10"),
    ("Output", "10 classes")
]

# Create figure
fig, ax = plt.subplots(figsize=(8, 4))
ax.axis("off")

# Position parameters
x_start = 0.1
y = 0.5
box_width = 0.15
box_height = 0.2
spacing = 0.08

# Draw boxes and arrows
for i, (name, shape) in enumerate(layers):
    x = x_start + i * (box_width + spacing)

    # Draw layer box
    box = FancyBboxPatch((x, y - box_height/2), box_width, box_height,
                         boxstyle="round,pad=0.02",
                         edgecolor="black", facecolor="#a8dadc")
    ax.add_patch(box)

    # Add text
    ax.text(x + box_width/2, y + 0.03, name, ha="center", va="bottom", fontsize=10, fontweight="bold")
    ax.text(x + box_width/2, y - 0.08, shape, ha="center", va="center", fontsize=8)

    # Draw arrow (except after last box)
    if i < len(layers) - 1:
        ax.add_patch(FancyArrow(
            x + box_width, y, spacing - 0.02, 0,
            width=0.005, head_width=0.03, head_length=0.02,
            length_includes_head=True, color="gray"))

# Adjust layout and save
plt.xlim(0, x_start + len(layers) * (box_width + spacing))
plt.ylim(0, 1)
plt.title("Estructura del Modelo", fontsize=12, fontweight="bold")
plt.show()

In [None]:
from torch import nn

class NNModelV0(nn.Module):
    def __init__(self, input_shape: int, hidden_units: int, output_shape: int):
        super().__init__()

        # Modelo
        self.layer_stack = nn.Sequential(
            nn.Flatten(), # neural networks like their inputs in vector form
            nn.Linear(in_features=input_shape, out_features=hidden_units), # in_features = Número de "características" en una muestra de datos (1024 píxeles))
            nn.Linear(in_features=hidden_units, out_features=output_shape)
        )

    def forward(self, x):
        return self.layer_stack(x)

Tenemos una clase del modelo que podemos usar, ahora instanciemos un modelo.

Necesitaremos establecer los siguientes parámetros:
* `input_shape=1024` - esta es la cantidad de características que entran en el modelo; en nuestro caso, es una por cada píxel en la imagen objetivo (32 píxeles de alto por 32 píxeles de ancho = 1024 características).
* `hidden_units=10` - número de unidades/neuronas en la(s) capa(s) oculta(s); este número podría ser el que prefieras, pero para mantener el modelo pequeño, comenzaremos con `10`.
* `output_shape=` Número de clases - como estamos trabajando con un problema de clasificación multiclase, necesitamos una neurona de salida por clase en nuestro conjunto de datos.


In [None]:
torch.manual_seed(42)

# Agregue los valores faltantes:
#-----------
entrada_tamanio  =
unidades_ocultas =
num_clases       =
#-----------

# Need to setup model with input parameters
model_0 = NNModelV0(input_shape=entrada_tamanio, # one for every pixel (32x32)
    hidden_units=unidades_ocultas, # how many units in the hidden layer
    output_shape=num_clases # one for every class
)

model_0.to("cpu") # keep model on CPU to begin with

####  Configurando la función de pérdida, el optimizador y las métricas de evaluació

In [None]:
# Calcular la precisión (una métrica de clasificación)
def accuracy_fn(y_true, y_pred):
    correct = torch.eq(y_true, y_pred).sum().item() # torch.eq() Calcula dónde son iguales dos tensores
    acc = (correct / len(y_pred)) * 100
    return acc

In [None]:
# Configuración de la función de pérdida y optimizador
loss_fn = nn.CrossEntropyLoss() # Esto también se llama "criterio"/"función de costo" en algunos lugares.
optimizer = torch.optim.SGD(params=model_0.parameters(), lr=0.1)

####  Creación de una función para cronometrar nuestros experimentos

Es decir, vamos a crear una función de cronometraje para medir el tiempo que toma entrenar nuestro modelo.

Nuestra función de cronometraje importará la [función `timeit.default_timer()`](https://docs.python.org/3/library/timeit.html#timeit.default_timer) del módulo [`timeit` de Python](https://docs.python.org/3/library/timeit.html).

In [None]:
from timeit import default_timer as timer
def print_train_time(start: float, end: float, device: torch.device = None):
    """Prints difference between start and end time.

    Args:
        start (float): Start time of computation (preferred in timeit format).
        end (float): End time of computation.
        device ([type], optional): Device that compute is running on. Defaults to None.

    Returns:
        float: time between start and end in seconds (higher is longer).
    """
    total_time = end - start
    print(f"Train time on {device}: {total_time:.3f} seconds")
    return total_time

#### Creación del ciclo de entrenamiento un modelo en *batches* de datos

Parece que tenemos todas las piezas del rompecabezas listas: un cronómetro, una función de pérdida, un optimizador, un modelo y, lo más importante, algunos datos.

Ahora vamos a crear el ciclo de entrenamiento y el de prueba para entrenar y evaluar nuestro modelo.

Usaremos los mismos pasos anteriores, aunque como ahora nuestros datos están en forma de *batches*, añadiremos otro ciclo para recorrerlos.

- Nuestros *batches* de datos están contenidos en nuestros `DataLoader`s: `train_dataloader` y `test_dataloader` para las divisiones de entrenamiento y prueba, respectivamente.

- Dado que estamos usando `BATCH_SIZE=32`, nuestros *batches* tienen 32 muestras de imágenes y objetivos.

- Y como estamos iterando sobre *batches*, nuestra pérdida y métricas de evaluación se calcularán **por batch** en lugar de hacerlo en todo el conjunto de datos.

- Esto significa que tendremos que dividir nuestros valores de pérdida y precisión por la cantidad de *batches* en el `dataloader` correspondiente a cada conjunto de datos.

Entocnes, desglosando:
1. Ciclo a través de las épocas.
2. Cilco a través de los *batches* de entrenamiento, realiza los pasos de entrenamiento y calcula la pérdida de entrenamiento *por batch*.
3. Ciclo a través de los *batches* de prueba, realiza los pasos de prueba y calcula la pérdida de prueba por *batch*.
4. Imprime lo que está sucediendo.
5. Cronometra todo (no es necesario pero es conveniente).


In [None]:
# tqdm Para mostrar una barra de progreso
from tqdm.auto import tqdm

# Establezca la semilla e inicie el temporizador.
torch.manual_seed(42)
train_time_start_on_cpu = timer()

# Establezca el número de épocas (lo mantendremos pequeño para tiempos de entrenamiento más rápidos)
epochs = 7

# Crear el ciclo de entrenamiento y prueba
for epoch in tqdm(range(epochs)):
    print(f"Epoch: {epoch}\n-------")
    # -----------------------
    ### Entrenamiento
    train_loss = 0
    # Ciclo para recorrer los "batches" de entrenamiento
    for batch, (X, y) in enumerate(train_dataloader):
        model_0.train()
        # 1. "Forward pass"
        y_pred = model_0(X)

        # 2. Calcular pérdida (por batch)
        loss = loss_fn(y_pred, y)
        train_loss += loss # Suma acumulativamente la pérdida por época

        # 3. Optimizador - poniendo los gradientes a cero
        optimizer.zero_grad()

        # 4. "Loss backward"
        loss.backward()

        # 5. "Optimizer step"
        optimizer.step()

        # Imprimiendo cuántas muestras se han visto
        if batch % 400 == 0:
            print(f"Looked at {batch * len(X)}/{len(train_dataloader.dataset)} samples")

    # pérdida promedio por bacth por época
    train_loss /= len(train_dataloader)
    # -----------------------

    # -----------------------
    ### Probando
    # Configurar variables para sumar de forma acumulativa la pérdida y la precisión
    test_loss, test_acc = 0, 0
    model_0.eval()
    with torch.inference_mode():
        # X, y en test_dataloader:
        for X, y in valid_dataloader:
            # 1. "Forward pass"
            test_pred = model_0(X)

            # 2. Calculando la pérdida acumulada (loss accumulatively)
            test_loss += loss_fn(test_pred, y)

            # 3. Calcular la precisión (los valores predichos deben ser iguales a y_true)
            test_acc += accuracy_fn(y_true=y, y_pred=test_pred.argmax(dim=1))

        # Los cálculos sobre las métricas de prueba deben realizarse dentro de torch.inference_mode()
        # Dividiendo la pérdida total por la longitud del "dataloader" de datos de pruebas (por batch)
        test_loss /= len(valid_dataloader)

        # Dividiendo la precisión total por la longitud del "dataloader" de datos de prueba (por batch)
        test_acc /= len(valid_dataloader)

    ## Mostrando la evolución
    print(f"\nTrain loss: {train_loss:.5f} | Test loss: {test_loss:.5f}, Test acc: {test_acc:.2f}%\n")

# Calculando el tiempo de entrenamiento
train_time_end_on_cpu = timer()
total_train_time_model_0 = print_train_time(start=train_time_start_on_cpu,
                                           end=train_time_end_on_cpu,
                                           device=str(next(model_0.parameters()).device))

### Haciendo predicciones y obteniendo los resultados del Modelo

Dado que vamos a construir varios modelos, es una buena idea escribir algo de código para evaluarlos todos de manera similar.

En concreto, vamos a crear una función que reciba un modelo entrenado, un `DataLoader`, una función de pérdida y una función de precisión.

La función utilizará el modelo para hacer predicciones sobre los datos en el `DataLoader` y luego podremos evaluar esas predicciones utilizando la función de pérdida y la función de precisión.

In [None]:
torch.manual_seed(42)
def eval_model(model: torch.nn.Module,
               data_loader: torch.utils.data.DataLoader,
               loss_fn: torch.nn.Module,
               accuracy_fn):
    """Returns a dictionary containing the results of model predicting on data_loader.

    Args:
        model (torch.nn.Module): A PyTorch model capable of making predictions on data_loader.
        data_loader (torch.utils.data.DataLoader): The target dataset to predict on.
        loss_fn (torch.nn.Module): The loss function of model.
        accuracy_fn: An accuracy function to compare the models predictions to the truth labels.

    Returns:
        (dict): Results of model making predictions on data_loader.
    """
    loss, acc = 0, 0
    model.eval()
    with torch.inference_mode():
        for X, y in data_loader:
            # Hacer predicciones con el modelo
            y_pred = model(X)

            # Acumular los valores de pérdida y precisión por batch
            loss += loss_fn(y_pred, y)
            acc += accuracy_fn(y_true=y,
                                y_pred=y_pred.argmax(dim=1)) # Para la precisión, se necesitan las etiquetas de predicción (logits -> pred_prob -> pred_labels)

        # Loss y exactitud (acc) por batch
        loss /= len(data_loader)
        acc /= len(data_loader)

    return {"model_name": model.__class__.__name__, # only works when model was created with a class
            "model_loss": loss.item(),
            "model_acc": acc}

# Calcular los resultados del modelo 0 en el conjunto de datos de prueba
model_0_results = eval_model(model=model_0, data_loader=test_dataloader,
    loss_fn=loss_fn, accuracy_fn=accuracy_fn)

model_0_results

### Modelo con no linealidad

- Para este modelo trataresmo de usar el GPU; sin embargo, esto solo será posible (usar el GPU) colab nos otorga una unidad de GPU.

- Lo haremos recreando un modelo similar al anterior, pero esta vez pondremos funciones no lineales (`nn.ReLU()`) entre cada capa lineal.

- PyTorch tiene un montón de [funciones de activación no lineales ya preparadas](https://pytorch.org/docs/stable/nn.html#non-linear-activations-weighted-sum-nonlinearity).

- Una de las más comunes y de mejor rendimiento es [ReLU](https://en.wikipedia.org/wiki/Rectifier_(neural_networks)) (unidad lineal rectificada, [`torch.nn.ReLU()`](https://pytorch.org/docs/stable/generated/torch.nn.ReLU.html)).


In [None]:
# Create a range of input values (from -10 to 10)
x = torch.linspace(-10, 10, 100)
relu = nn.ReLU()      # ReLU activation function
y = relu(x)                 # Apply ReLU to each value

# Plot ReLU
plt.figure(figsize=(6,4))
plt.plot(x, y, label='ReLU(x) = max(0, x)', color='blue')
plt.axhline(0, color='black', linewidth=0.8)
plt.axvline(0, color='black', linewidth=0.8)
plt.title('Rectified Linear Unit (ReLU)')
plt.xlabel('Input')
plt.ylabel('Output')
plt.legend()
plt.grid(True)
plt.show()

| Concepto      | Descripción                                                                                         |
| ------------- | --------------------------------------------------------------------------------------------------- |
| **Nombre**    | Rectified Linear Unit (ReLU)                                                                        |
| **Expresión**   | ( f(x) = \max(0, x) )                                                                               |
| **Efecto**    | Introduce no linealidad y permite aprender funciones complejas                                      |
| **Beneficio** | Acelera la convergencia y evita el problema del gradiente desvanecido (comparado con sigmoide/tanh) |


In [None]:
import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch, FancyArrow

# Define layer labels
layers = [
    ("Input", "1×32×32"),
    ("Flatten", "→ 1024"),
    ("Linear", "1024 → 10"),
    ("ReLU", ""),
    ("Linear", "10 → 10"),
    ("ReLU", ""),
    ("Output", "10 classes")
]

# Create figure
fig, ax = plt.subplots(figsize=(8, 4))
ax.axis("off")

# Position parameters
x_start = 0.1
y = 0.5
box_width = 0.15
box_height = 0.2
spacing = 0.08

# Draw boxes and arrows
for i, (name, shape) in enumerate(layers):
    x = x_start + i * (box_width + spacing)

    # Draw layer box
    box = FancyBboxPatch((x, y - box_height/2), box_width, box_height,
                         boxstyle="round,pad=0.02",
                         edgecolor="black", facecolor="#a8dadc")
    ax.add_patch(box)

    # Add text
    ax.text(x + box_width/2, y + 0.03, name, ha="center", va="bottom", fontsize=10, fontweight="bold")
    ax.text(x + box_width/2, y - 0.08, shape, ha="center", va="center", fontsize=8)

    # Draw arrow (except after last box)
    if i < len(layers) - 1:
        ax.add_patch(FancyArrow(
            x + box_width, y, spacing - 0.02, 0,
            width=0.005, head_width=0.03, head_length=0.02,
            length_includes_head=True, color="gray"))

# Adjust layout and save
plt.xlim(0, x_start + len(layers) * (box_width + spacing))
plt.ylim(0, 1)
plt.title("Estructura del Modelo", fontsize=12, fontweight="bold")
plt.show()

In [None]:
# Setup device agnostic code
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
device

In [None]:
# Crear un modelo con capas lineales y no lineales
class NNModelV1(nn.Module):
    def __init__(self, input_shape: int, hidden_units: int, output_shape: int):
        super().__init__()

        self.layer_stack = nn.Sequential(
          #-----------------
          # Agregue su código aquí





          #-----------------
        )

    def forward(self, x: torch.Tensor):
        return self.layer_stack(x)

Ahora vamos a instanciarlo con las mismas configuraciones que usamos antes.

Necesitaremos:
- **`input_shape=1024`** (igual al número de características de nuestros datos de imagen),
- **`hidden_units=10`** (empezando pequeño, igual que nuestro modelo base),
- **`output_shape=` Numero de clases** (una unidad de salida por clase).

> **Nota:** Observa cómo hemos mantenido la mayoría de las configuraciones de nuestro modelo iguales, excepto por un cambio: agregar capas no lineales. Esta es una práctica estándar para realizar una serie de experimentos en machine learning: cambia una cosa y observa qué sucede, luego hazlo una vez más, otra vez, otra vez.

In [None]:
torch.manual_seed(42)

# Agregue los valores faltantes:
#-----------
entrada_tamanio  =
unidades_ocultas =
num_clases       =
#-----------


model_1 = NNModelV1(input_shape=entrada_tamanio, # number of input features
    hidden_units=unidades_ocultas,
    output_shape=num_clases # number of output classes desired
).to(device) # send model to GPU if it's available

next(model_1.parameters()).device # check model device

Como de costumbre, configuraremos una función de pérdida, un optimizador y una métrica de evaluación (podríamos utilizar múltiples métricas de evaluación, pero por ahora nos quedaremos con la exactitud (*accuracy*)).

In [None]:
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(params=model_1.parameters(),
                            lr=0.1)

#### Haciendo funciones a los cilcos de entrenamiento y prueba

Hasta ahora hemos estado escribiendo ciclos de entrenamiento y prueba una y otra vez.

Escribámoslos de nuevo, pero esta vez los pondremos en funciones para que puedan ser llamados una y otra vez.

Y como ahora estamos usando un código independiente del dispositivo, nos aseguraremos de llamar a `.to(device)` en nuestros tensores de características (`X`) y de etiquetas (`y`).

Para el ciclo de entrenamiento, crearemos una función llamada `train_step()` que recibe un modelo, un `DataLoader`, una función de pérdida y un optimizador.

El ciclo de prueba será similar, pero se llamará `test_step()` y recibirá un modelo, un `DataLoader`, una función de pérdida y una función de evaluación.

> **Nota:** Dado que estas son funciones, puedes personalizarlas de la manera que desees. Lo que estamos creando aquí puede considerarse funciones básicas de entrenamiento y prueba para nuestro caso específico de clasificación.

In [None]:
def train_step(model: torch.nn.Module,
               data_loader: torch.utils.data.DataLoader,
               loss_fn: torch.nn.Module,
               optimizer: torch.optim.Optimizer,
               accuracy_fn,
               device: torch.device = device):

    train_loss, train_acc = 0, 0
    model.to(device)
    for batch, (X, y) in enumerate(data_loader):
        # Send data to GPU
        X, y = X.to(device), y.to(device)

        # 1. Forward pass
        y_pred = model(X)

        # 2. Calculate loss
        loss = loss_fn(y_pred, y)
        train_loss += loss
        train_acc += accuracy_fn(y_true=y,
                                 y_pred=y_pred.argmax(dim=1)) # Go from logits -> pred labels

        # 3. Optimizer zero grad
        optimizer.zero_grad()

        # 4. Loss backward
        loss.backward()

        # 5. Optimizer step
        optimizer.step()

    # Calculate loss and accuracy per epoch and print out what's happening
    train_loss /= len(data_loader)
    train_acc /= len(data_loader)
    print(f"Train loss: {train_loss:.5f} | Train accuracy: {train_acc:.2f}%")

def test_step(data_loader: torch.utils.data.DataLoader,
              model: torch.nn.Module,
              loss_fn: torch.nn.Module,
              accuracy_fn,
              device: torch.device = device):

    test_loss, test_acc = 0, 0
    model.to(device)
    model.eval() # put model in eval mode

    # Turn on inference context manager
    with torch.inference_mode():
        for X, y in data_loader:
            # Send data to GPU
            X, y = X.to(device), y.to(device)

            # 1. Forward pass
            test_pred = model(X)

            # 2. Calculate loss and accuracy
            test_loss += loss_fn(test_pred, y)
            test_acc += accuracy_fn(y_true=y,
                y_pred=test_pred.argmax(dim=1) # Go from logits -> pred labels
            )

        # Adjust metrics and print out
        test_loss /= len(data_loader)
        test_acc /= len(data_loader)
        print(f"Test loss: {test_loss:.5f} | Test accuracy: {test_acc:.2f}%\n")

¡Ahora que tenemos algunas funciones para entrenar y probar nuestro modelo, vamos a ejecutarlas!

Lo haremos dentro de otro ciclo para cada época. De esa manera, para cada época, pasamos por un paso de entrenamiento y un paso de prueba.

> **Nota:** Puedes personalizar la frecuencia con la que haces un paso de prueba. Algunas veces las personas lo hacen cada cinco épocas, diez épocas o, en nuestro caso, cada época.

También vamos a medir el tiempo para ver cuánto tarda nuestro código en ejecutarse en la GPU (si está disponible).

In [None]:
torch.manual_seed(42)

# Midiento el tiempo
from timeit import default_timer as timer
train_time_start_on_gpu = timer()

epochs = 7
for epoch in tqdm(range(epochs)):
    print(f"Epoch: {epoch}\n---------")

    train_step(data_loader=train_dataloader,
        model=model_1,
        loss_fn=loss_fn,
        optimizer=optimizer,
        accuracy_fn=accuracy_fn
    )

    test_step(data_loader=valid_dataloader,
        model=model_1,
        loss_fn=loss_fn,
        accuracy_fn=accuracy_fn
    )

train_time_end_on_gpu = timer()
total_train_time_model_1 = print_train_time(start=train_time_start_on_gpu,
                                            end=train_time_end_on_gpu,
                                            device=device)

Podemos evaluar nuestro `model_1` entrenado usando nuestra función `eval_model()` y ver cómo ha ido. Sin embargo, tomemso en cuenta que hemos decidido utilzia el GPU (si está disponible), lo que implica que los datos y el modelo están ahí, pero la función de evalaución utiliza los datos alojados en el CPU, entonces, si el GPU está disponible, tendríamos un error, por lo tanto, es necesario hacer una modificación a la funcion `eval_model()` para que tome en cuenta el dispositivo en donde se están analizando los datos.

In [None]:
torch.manual_seed(42)
def eval_model(model: torch.nn.Module,
               data_loader: torch.utils.data.DataLoader,
               loss_fn: torch.nn.Module,
               accuracy_fn,
               device: torch.device = device):
    """Evaluates a given model on a given dataset.

    Args:
        model (torch.nn.Module): A PyTorch model capable of making predictions on data_loader.
        data_loader (torch.utils.data.DataLoader): The target dataset to predict on.
        loss_fn (torch.nn.Module): The loss function of model.
        accuracy_fn: An accuracy function to compare the models predictions to the truth labels.
        device (str, optional): Target device to compute on. Defaults to device.

    Returns:
        (dict): Results of model making predictions on data_loader.
    """
    loss, acc = 0, 0
    model.eval()
    with torch.inference_mode():
        for X, y in data_loader:
            # Enviar datos al dispositivo de destino
            X, y = X.to(device), y.to(device)
            y_pred = model(X)
            loss += loss_fn(y_pred, y)
            acc += accuracy_fn(y_true=y, y_pred=y_pred.argmax(dim=1))

        # Loss y acc
        loss /= len(data_loader)
        acc /= len(data_loader)
    return {"model_name": model.__class__.__name__, # only works when model was created with a class
            "model_loss": loss.item(),
            "model_acc": acc}


# Calculate model 1 results with device-agnostic code
model_1_results = eval_model(model=model_1, data_loader=test_dataloader,
    loss_fn=loss_fn, accuracy_fn=accuracy_fn,
    device=device
)

model_1_results

Comparando contra el primer modelo

In [None]:
# Comprobar con los resultados de referencia (modelo 0)
model_0_results

En este caso, parece que agregar no linealidades a nuestro modelo hizo que rindiera peor que el modelo base.

- Esto es algo a tener en cuenta en el aprendizaje automático, a veces lo que pensabas que debería funcionar no lo hace. Y luego lo que pensabas que podría no funcionar, sí lo hace. Es parte ciencia, parte arte.

A juzgar por los resultados, parece que nuestro modelo está **sobreajustándose** a los datos de entrenamiento.

- El sobreajuste significa que nuestro modelo está aprendiendo bien los datos de entrenamiento, pero esos patrones no se generalizan a los datos de prueba.

Dos de las principales formas de solucionar el sobreajuste incluyen:

1. Usar un modelo más pequeño o diferente (algunos modelos se ajustan mejor a ciertos tipos de datos que otros).
2. Usar un conjunto de datos más grande (cuantos más datos, más posibilidades tiene un modelo de aprender patrones generalizables).


## 6. Redes Neuronales Convolucionales (CNNs)

Las [Redes Neuronales Convolucionales](https://es.wikipedia.org/wiki/Red_neuronal_convolucional) (CNNs o ConvNets) son conocidas por su capacidad para encontrar patrones en datos visuales.

- Y como estamos trabajando con datos visuales, veamos si el uso de un modelo CNN puede mejorar nuestro modelo base.



### Operación de Convolución

Una CNN se caracteriza por una operación de convolución que se realiza "típicamente" sobre una imagen bidimensional, $I\in \mathbb{R}^{n\times m}$, como entrada, usando un kernel o filtro, $k\in \mathbb{R}^{p\times q}$, bidimensional y que nos da como resultado una nueva imagen sería:

<center>
$I_n(i,j) = (I * k)(i, j) = \sum_{m} \sum_{n} I(m, n) \cdot k(i-m, j-n)$
</center>


Graficamente la convolución se ve así:

<img src="https://ibm.box.com/shared/static/7maczejdeej0qoz3pzkysw0y8qb70g2h.png" alt="HTML5 Icon" style="width: 500px; height: 200px;">
<center>  Illustration of the operation for one position of the kernel. <a href="http://colah.github.io/posts/2014-07-Understanding-Convolutions/">ref</a></center>


Afortunadamente para nosotros, PyTorch y en genral cualquier *framwork* de ML ya tiene implementada:

- La operación de convolución, además de otras como:
  - el *padding* y
  - el *pooling*.

### Otras Operaciones - Padding



*Zero-padding* agrega ceros en el borde de la imagen:

<img src="https://github.com/csaybar/DLcoursera/blob/master/Convolutional%20Neural%20Networks/week01/images/PAD.png?raw=1" style="width:600px;height:400px;">
<caption><center>Zero-Padding. Imagen de 3 canales (RGB) con un padding de 2. </center></caption>

### Otras Operaciones - Pooling

<table>
<td>
<img src="https://github.com/csaybar/DLcoursera/blob/master/Convolutional%20Neural%20Networks/week01/images/max_pool1.png?raw=1" style="width:500px;height:300px;">
<td>

<td>
<img src="https://github.com/csaybar/DLcoursera/blob/master/Convolutional%20Neural%20Networks/week01/images/a_pool.png?raw=1" style="width:500px;height:300px;">
<td>
</table

### Construyendo un modelo de CNN

El modelo de CNN que vamos a usar se conoce como TinyVGG, del sitio web [CNN Explainer](https://poloclub.github.io/cnn-explainer/).

Este modelo sigue la estructura típica de una red neuronal convolucional:

`Capa de entrada -> [Capa convolucional -> capa de activación -> capa de pooling] -> Capa de salida`

Donde el contenido de `[Capa convolucional -> capa de activación -> capa de pooling]` puede escalarse y repetirse varias veces, dependiendo de los requisitos.

La estructura de la CNN, en este caso la TinyVGG, es la siguiente:

![modelo base](https://drive.google.com/uc?id=1kyYrfQqTjTriykEc0ONYGyuczM7mOLL4)


#### Biblioteca de funciones

In [None]:
# Importando PyTorch
import torch
from torch import nn

#  matplotlib para visualización
import matplotlib.pyplot as plt

# Check versions
# Note: your PyTorch version shouldn't be lower than 1.10.0 and torchvision version shouldn't be lower than 0.11
#print(f"PyTorch version: {torch.__version__}\ntorchvision version: {torchvision.__version__}")

In [None]:
# Seleccionando el dispositivo (cpu/gpu)
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
device


#### Modelo CNN

In [None]:
# Create a convolutional neural network
class CNNModel(nn.Module):
    """
    Model architecture copying TinyVGG from:
    https://poloclub.github.io/cnn-explainer/
    """
    def __init__(self, input_shape: int, hidden_units: int, output_shape: int):
        super().__init__()
        self.block_1 = nn.Sequential(
            nn.Conv2d(in_channels=input_shape,
                      out_channels=hidden_units,
                      kernel_size=3, # Tamnio del "kernle"
                      stride=1, # default
                      padding=1),# Agregando o no "padding"
            nn.ReLU(),
            nn.Conv2d(in_channels=hidden_units,
                      out_channels=hidden_units,
                      kernel_size=3,
                      stride=1,
                      padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2,
                         stride=2) # "paso" del kernel
        )
        self.block_2 = nn.Sequential(
            nn.Conv2d(hidden_units, hidden_units, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(hidden_units, hidden_units, 3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2)
        )
        self.classifier = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=hidden_units*8*8,
                      out_features=output_shape)
        )

    def forward(self, x: torch.Tensor):
        x = self.block_1(x)
        # print(x.shape)
        x = self.block_2(x)
        # print(x.shape)
        x = self.classifier(x)
        # print(x.shape)
        return x

torch.manual_seed(42)

# Cloque su código aquí:
#   Tamanio de la entrada (canales)
in_tamanio =
#   Cantidad de filtros
num_kernels =
#   Cantidad de clases
num_clases =

model_cnn = CNNModel(input_shape=in_tamanio,
    hidden_units=num_kernels,
    output_shape=num_clases).to(device)
model_cnn

Las dos nuevas capas que hemos agregado son:
* [`nn.Conv2d()`](https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html), también conocida como capa convolucional.
* [`nn.MaxPool2d()`](https://pytorch.org/docs/stable/generated/torch.nn.MaxPool2d.html), también conocida como capa de *max Pooling*.

> **Nota:**
>
> El 2d se refiere a datos bidimensionales. Es decir, nuestras imágenes tienen dos dimensiones: altura y anchura.
>
> Para otros tipos de datos (como 1D para texto o 3D para objetos tridimensionales) también existen `nn.Conv1d()` y `nn.Conv3d()`.


#### Un vistazo a la capa de convolución.


![ejemplo de los diferentes parámetros de una capa Conv2d](https://drive.google.com/uc?id=1MJZshpaKCGUHmyLNcRGCWrH5UyCBRopS)

*Ejemplo de lo que ocurre al cambiar los hiperparámetros de una capa `nn.Conv2d()`.*


Esencialmente, **cada capa en una red neuronal intenta comprimir datos de un espacio de mayor dimensión a un espacio de menor dimensión**.

En otras palabras, toma muchos números (datos crudos) y aprende patrones en esos números; patrones que son predictivos y, al mismo tiempo, *más pequeños* en tamaño que los valores originales.

Desde una perspectiva de inteligencia artificial, podrías considerar que el objetivo de una red neuronal es *comprimir* la información.

![cada capa de una red neuronal comprime los datos de entrada originales en una representación más pequeña que, con suerte, es capaz de hacer predicciones en datos de entrada futuros](https://drive.google.com/uc?id=1j7odSUhojI5wLT4M03eSh0X4S_BL641j)


Esto significa que, desde el punto de vista de una red neuronal, la inteligencia es compresión.

Esta es la idea del uso de una capa `nn.MaxPool2d()`: tomar el valor máximo de una porción de un tensor y descartar el resto.

En esencia, se reduce la dimensionalidad de un tensor mientras se retiene una (esperemos) porción significativa de la información.

Es lo mismo para una capa `nn.Conv2d()`.

Excepto que, en lugar de tomar solo el valor máximo, `nn.Conv2d()` realiza una operación de convolución en los datos.


#### Configurando la función de pérdida y el optimizador para el modelo

Ya hemos analizado lo suficiente las capas en nuestra primera CNN.
Ahora es momento de avanzar y comenzar el entrenamiento.

Vamos a configurar una función de pérdida y un optimizador.

Usaremos las mismas funciones que antes: `nn.CrossEntropyLoss()` como función de pérdida (ya que estamos trabajando con datos de clasificación multiclase).

Y `torch.optim.SGD()` como optimizador para optimizar `model_2.parameters()` con una tasa de aprendizaje de `0.1`.

In [None]:
# Setup loss and optimizer
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(params=model_cnn.parameters(),
                             lr=0.1)

#### Entrenando y probando el `model_cnn` usando nuestras funciones de entrenamiento y prueba

Es momento de entrenar y probar.

Usaremos nuestras funciones `train_step()` y `test_step()` que creamos antes.

También mediremos el tiempo para compararlo con nuestros otros modelos.

In [None]:
def train_step(model: torch.nn.Module,
               data_loader: torch.utils.data.DataLoader,
               loss_fn: torch.nn.Module,
               optimizer: torch.optim.Optimizer,
               accuracy_fn,
               device: torch.device = device):

    train_loss, train_acc = 0, 0
    model.to(device)
    for batch, (X, y) in enumerate(data_loader):
        # Enviando al dispositivo (GPU/CPU)
        X, y = X.to(device), y.to(device)

        # 1. Forward pass
        y_pred = model(X)

        # 2. Calculando pérdida (loss)
        loss = loss_fn(y_pred, y)
        train_loss += loss
        train_acc += accuracy_fn(y_true=y,
                                 y_pred=y_pred.argmax(dim=1))

        # 3. Gradientes a cero
        optimizer.zero_grad()

        # 4. Loss backward
        loss.backward()

        # 5. Optimizer step
        optimizer.step()

    # Calcule la pérdida y la exactitud por época e imprima lo que está sucediendo
    train_loss /= len(data_loader)
    train_acc /= len(data_loader)
    print(f"Train loss: {train_loss:.5f} | Train accuracy: {train_acc:.2f}%")

def test_step(data_loader: torch.utils.data.DataLoader,
              model: torch.nn.Module,
              loss_fn: torch.nn.Module,
              accuracy_fn,
              device: torch.device = device):

    test_loss, test_acc = 0, 0
    model.to(device)
    model.eval() # poner el modelo en modo de evaluación

    # Activar el modo de inferencia
    with torch.inference_mode():
        for X, y in data_loader:
            # Enviando al dispositivo (GPU/CPU)
            X, y = X.to(device), y.to(device)

            # 1. Forward pass
            test_pred = model(X)

            # 2. Calculando pérdida (loss) y exactitud (accuracy)
            test_loss += loss_fn(test_pred, y)
            test_acc += accuracy_fn(y_true=y,
                y_pred=test_pred.argmax(dim=1)
            )

        # Mostrando el resultado
        test_loss /= len(data_loader)
        test_acc /= len(data_loader)
        print(f"Test loss: {test_loss:.5f} | Test accuracy: {test_acc:.2f}%\n")


In [None]:
from timeit import default_timer as timer
def print_train_time(start: float, end: float, device: torch.device = None):
    """Prints difference between start and end time.

    Args:
        start (float): Start time of computation (preferred in timeit format).
        end (float): End time of computation.
        device ([type], optional): Device that compute is running on. Defaults to None.

    Returns:
        float: time between start and end in seconds (higher is longer).
    """
    total_time = end - start
    print(f"Train time on {device}: {total_time:.3f} seconds")
    return total_time

In [None]:
# Calculando excactitud (accuracy)
def accuracy_fn(y_true, y_pred):
    correct = torch.eq(y_true, y_pred).sum().item() # torch.eq() calculates where two tensors are equal
    acc = (correct / len(y_pred)) * 100
    return acc

In [None]:
# tqdm para barra de progreso
from tqdm.auto import tqdm

torch.manual_seed(42)

# Measure time
from timeit import default_timer as timer
train_time_start_model_2 = timer()

# Train and test model
epochs = 3
for epoch in tqdm(range(epochs)):
    print(f"Epoch: {epoch}\n---------")
    train_step(data_loader=train_dataloader,
        model=model_cnn,
        loss_fn=loss_fn,
        optimizer=optimizer,
        accuracy_fn=accuracy_fn,
        device=device
    )
    test_step(
        data_loader=valid_dataloader,
        model=model_cnn,
        loss_fn=loss_fn,
        accuracy_fn=accuracy_fn,
        device=device
    )

train_time_end_model_2 = timer()

total_train_time_model_2 = print_train_time(start=train_time_start_model_2,
                                           end=train_time_end_model_2,
                                           device=device)

Parece que las capas convolucionales y de max pooling ayudaron a mejorar el rendimiento un poco.

Ahora evaluemos los resultados de `model_cnn` con nuestra función `eval_model()`.

In [None]:
torch.manual_seed(42)

def eval_model(model: torch.nn.Module,
               data_loader: torch.utils.data.DataLoader,
               loss_fn: torch.nn.Module,
               accuracy_fn,
               device: torch.device = device):
    """Evaluates a given model on a given dataset.

    Args:
        model (torch.nn.Module): A PyTorch model capable of making predictions on data_loader.
        data_loader (torch.utils.data.DataLoader): The target dataset to predict on.
        loss_fn (torch.nn.Module): The loss function of model.
        accuracy_fn: An accuracy function to compare the models predictions to the truth labels.
        device (str, optional): Target device to compute on. Defaults to device.

    Returns:
        (dict): Results of model making predictions on data_loader.
    """
    loss, acc = 0, 0
    model.eval()
    with torch.inference_mode():
        for X, y in data_loader:
            # Datos al dispositivo
            X, y = X.to(device), y.to(device)
            y_pred = model(X)
            loss += loss_fn(y_pred, y)
            acc += accuracy_fn(y_true=y, y_pred=y_pred.argmax(dim=1))

        # loss y acc
        loss /= len(data_loader)
        acc /= len(data_loader)
    return {"model_name": model.__class__.__name__, # only works when model was created with a class
            "model_loss": loss.item(),
            "model_acc": acc}



In [None]:
# Obteniendo resultados
model_cnn_results = eval_model(
    model=model_cnn,
    #data_loader=test_dataloader,
    data_loader=valid_dataloader,
    loss_fn=loss_fn,
    accuracy_fn=accuracy_fn
)
model_cnn_results

#### CNN - Predicciones

Veamos ahora como se son algunas de las predicciones


Para hacerlo, vamos a crear una función llamada `make_predictions()` donde podamos pasar el modelo y algunos datos para que haga predicciones.

In [None]:
def make_predictions(model: torch.nn.Module, data: list, device: torch.device = device):
    pred_probs = []
    model.eval()
    with torch.inference_mode():
        for sample in data:
            # Preparando la muestra
            sample = torch.unsqueeze(sample, dim=0).to(device) # Add an extra dimension and send sample to device

            # Forward pass
            pred_logit = model(sample)

            # Obteniendo predicción (logit -> prediction probability)
            pred_prob = torch.softmax(pred_logit.squeeze(), dim=0)

            # Obtenga pred_prob de la GPU para realizar cálculos adicionales
            pred_probs.append(pred_prob.cpu())

    # Apila los pred_probs para convertir la lista en un tensor
    return torch.stack(pred_probs)

In [None]:
import random
random.seed(42)
test_samples = []
test_labels = []
for sample, label in random.sample(list(test_dataset), k=9):
    test_samples.append(sample)
    test_labels.append(label)


In [None]:
# Haciendo predicciones con los datos de prueba (test samples)
pred_probs= make_predictions(model=model_cnn,
                             data=test_samples)


Visualizando una de las predicciones

In [None]:
import numpy as np
iTest=4
fig, (ax1, ax2) = plt.subplots( ncols=2)
y = pred_probs[iTest].detach().numpy()
y = (y - min(y))/(max(y)-min(y))
ax2.axis('off')
ax2.imshow(test_samples[iTest].squeeze(), cmap="gray")
ax1.set_title('Probabilidad')
ax1.set_yticks(np.arange(43))
ax1.barh(np.arange(43), y)
ax1.set_yticklabels(class_names,fontsize=6)
plt.tight_layout()

Ahora podemos convertir las probabilidades de predicción en etiquetas de predicción tomando el `torch.argmax()` de la salida de la función de activación `torch.softmax()`.

In [None]:
# Convierta las probabilidades de predicción en etiquetas de predicción tomando argmax()
pred_classes = pred_probs.argmax(dim=1)
pred_classes

In [None]:
# Graficando las predicciones
plt.figure(figsize=(9, 9))
nrows = 3
ncols = 3
for i, sample in enumerate(test_samples):
  # Create a subplot
  plt.subplot(nrows, ncols, i+1)

  # Plot the target image
  plt.imshow(sample.squeeze(), cmap="gray")

  # Find the prediction label (in text form, e.g. "Sandal")
  pred_label = class_names[pred_classes[i]]

  # Get the truth label (in text form, e.g. "T-shirt")
  truth_label = class_names[test_labels[i]]

  # Create the title text of the plot
  title_text = f"Pred: {pred_label} | Truth: {truth_label}"

  # Check for equality and change title colour accordingly
  #if pred_label == truth_label:
  if pred_classes[i] == test_labels[i]:
      plt.title(title_text, fontsize=6, c="g") # green text if correct
  else:
      plt.title(title_text, fontsize=6, c="r") # red text if wrong
  plt.axis(False);

### Probando la Generalización del modelo

In [None]:
import os
import gdown

In [None]:
# --- CONFIGURACIÓN ---
# ⚠️ IMPORTANTE: REEMPLAZA ESTE ID con el ID del archivo o carpeta pública de Google Drive.
# El ID es la parte de la URL que está después de 'id='
# Ejemplo: si la URL es https://drive.google.com/file/d/1Bhmv_m3.../view, el ID es 1Bhmv_m3...
ID_PUBLICO_DRIVE = '12IKVEKXU4VYozR-PdGPofU7jyAa00MJy' # Ejemplo: 1u-R6L6vY7...
NOMBRE_DESTINO = 'some_imgs.zip' # El nombre que tendrá el archivo al descargarse


# Paso 2: Ejecutar la descarga
try:
    print(f"Intentando descargar el ID: {ID_PUBLICO_DRIVE}")
    gdown.download(id=ID_PUBLICO_DRIVE, output=NOMBRE_DESTINO, quiet=False)

    if os.path.exists(NOMBRE_DESTINO):
        print(f"\n✅ ¡Descarga exitosa! Archivo guardado como: {NOMBRE_DESTINO}")
        # Si es un ZIP, puedes descomprimirlo inmediatamente
        if NOMBRE_DESTINO.endswith('.zip'):
            !unzip {NOMBRE_DESTINO} -d /content/some_imgs
            print("Archivo descomprimido.")
            !rm /content/{NOMBRE_DESTINO}
    else:
         print("\n⚠️ Advertencia: No se pudo verificar la descarga. Revisa el ID y los permisos.")

except Exception as e:
    print(f"\n❌ Error durante la descarga: {e}")

# No descomentar Comando para eliminar la carpete
#!rm -rf /content/some_imgs/

Leyendo la imagen

In [None]:
import cv2

# Obtener el nombre del archivo

#filename = "some_imgs/no_entry.png"
#filename = "some_imgs/turn_right_ahead.png"
#filename = "some_imgs/turn_left_ahead.png"
filename = "some_imgs/ahead_only.png"

print(f"✅ Archivo cargado: {filename}")

# 3️⃣ Leer la imagen con OpenCV
img_bgr = cv2.imread(filename)

# Verificar que la imagen se haya cargado
if img_bgr is None:
    raise ValueError("❌ No se pudo leer la imagen. Asegúrate de que el archivo es válido (JPG, PNG, etc.)")

# Convertir de BGR a RGB (para mostrar correctamente con Matplotlib)
img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB)

# Mostrar la imagen
plt.figure()
plt.imshow(img_rgb)
plt.axis('off')
plt.title("Imagen cargada con OpenCV", fontsize=14)
plt.show()

# Ver dimensiones
print(f"Dimensiones de la imagen: {img_rgb.shape} ")

Escalando la imagne (32x32) y convirtiendola en una imagen en escala de grises

In [None]:
# Redimensionar la imagen a 32x32 píxeles
img_resized = cv2.resize(img_rgb, (32, 32), interpolation=cv2.INTER_AREA)

# --- Convertir a escala de grises ---
# Usamos la expresión luminancia: Y = 0.299R + 0.587G + 0.114B
def rgb2gray(img):
    return (
        0.299 * img[:,:,0] +
        0.587 * img[:,:,1] +
        0.114 * img[:,:,2]
    )

img_gray = rgb2gray(img_resized)


In [None]:
# Mostrar la imagen
plt.figure()
plt.imshow(img_gray, cmap="gray")
plt.axis('off')
plt.title("Imagen 32x32 en gris", fontsize=14)
plt.show()

# Ver dimensiones
print(f"Dimensiones de la imagen: {img_gray.shape} ")

Haciendo la predicción de la clase con el modelo CNN

In [None]:

# Convertir a tipo float y normalizar valores entre 0 y 1
img_norm = img_gray.astype(np.float32) / 255.0

# Convertir el array numpy en tensor de PyTorch
img_tensor = torch.tensor(img_norm)

# Añadir las dimensiones requeridas:
#     (1 canal, alto, ancho) → (1, 32, 32)0
#     y luego añadir el batch → (1, 1, 32, 32)
img_tensor = img_tensor.unsqueeze(0)

# Mostrar información del tensor
print(f"✅ Tensor creado con forma: {img_tensor.shape}")
print(f"Tipo de dato: {img_tensor.dtype}")
print(f"Valores mínimos y máximos: {img_tensor.min():.3f}, {img_tensor.max():.3f}")



Predicción

In [None]:
# Inferencia
pred_probs= make_predictions(model=model_cnn,
                             data=[img_tensor])
print(pred_probs)

In [None]:
import numpy as np

fig, (ax1, ax2) = plt.subplots( ncols=2)
y = pred_probs[0].detach().numpy()
y = (y - min(y))/(max(y)-min(y))
ax2.axis('off')
ax2.imshow(img_gray, cmap="gray")
ax1.set_title('Probabilidad')
ax1.set_yticks(np.arange(43))
ax1.barh(np.arange(43), y)
ax1.set_yticklabels(class_names,fontsize=6)
plt.tight_layout()

In [None]:
# Convierta las probabilidades de predicción en etiquetas de predicción tomando argmax()
pred_class = pred_probs.argmax(dim=1)
print(f"Clase inferida: \n\t{class_names[pred_class]}")

### Guardando el modelo

In [None]:
from pathlib import Path

# 1. Create models directory
MODEL_PATH = Path("models")
MODEL_PATH.mkdir(parents=True, exist_ok=True)

# 2. Create model save path
MODEL_NAME = "CNN_model.pth"
MODEL_SAVE_PATH = MODEL_PATH / MODEL_NAME

# 3. Save the model state dict
print(f"Saving model to: {MODEL_SAVE_PATH}")
torch.save(obj=model_cnn.state_dict(), # only saving the state_dict() only saves the models learned parameters
           f=MODEL_SAVE_PATH)

## Práctica

In [None]:
# ============================================================
# 📸 Capturar imagen desde la cámara con reflejo vertical (Colab)
# ============================================================

from IPython.display import display, Javascript
from google.colab.output import eval_js
from base64 import b64decode
import cv2
import numpy as np
import matplotlib.pyplot as plt

def take_photo(filename='photo.jpg', quality=0.9):
    js = Javascript('''
      async function takePhoto(quality) {
        const div = document.createElement('div');
        const capture = document.createElement('button');
        capture.textContent = '📸 Capturar';
        div.appendChild(capture);
        document.body.appendChild(div);

        // Activar cámara
        const stream = await navigator.mediaDevices.getUserMedia({video: true});
        const video = document.createElement('video');
        video.srcObject = stream;
        await video.play();

        // Crear canvas
        const canvas = document.createElement('canvas');
        document.body.appendChild(video);
        document.body.appendChild(canvas);

        // Esperar click en el botón "capturar"
        await new Promise((resolve) => capture.onclick = resolve);

        // Ajustar tamaño del canvas
        canvas.width = video.videoWidth;
        canvas.height = video.videoHeight;

        // Obtener contexto del canvas
        const ctx = canvas.getContext('2d');

        // Reflejar el video en el eje vertical (efecto espejo)
        ctx.translate(canvas.width, 0);
        ctx.scale(-1, 1);

        // Dibujar el fotograma reflejado
        ctx.drawImage(video, 0, 0);

        // Detener la cámara
        stream.getTracks().forEach(track => track.stop());
        div.remove();
        video.remove();

        // Devolver la imagen como base64
        return canvas.toDataURL('image/jpeg', quality);
      }
    ''')
    display(js)
    data = eval_js('takePhoto({})'.format(quality))
    binary = b64decode(data.split(',')[1])
    with open(filename, 'wb') as f:
        f.write(binary)
    return filename

try:
    filename = take_photo()
    print(f"✅ Imagen capturada y guardada como {filename}")

    # Leer con OpenCV y mostrar
    img = cv2.imread(filename)
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

    # Reflejar sobre el eje vertical
    flipped = cv2.flip(img_rgb, 1)

    plt.imshow(flipped)
    plt.axis("off")
    plt.title("Imagen capturada")
    plt.show()

except Exception as e:
    print("❌ Error al acceder a la cámara:", e)


In [None]:
# Leer la imagen con OpenCV
filename = 'photo.jpg'

img_bgr = cv2.imread(filename)
img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB)

# Escalar a 32x32
img_resized = cv2.resize(img_rgb, (32, 32), interpolation=cv2.INTER_AREA)

# Convertir a escala de grises
img_gray = cv2.cvtColor(img_resized, cv2.COLOR_RGB2GRAY)

# Mostrar resultados
plt.figure(figsize=(8, 4))
plt.subplot(1, 2, 1)
plt.imshow(img_resized)
plt.title("RGB")
plt.axis("off")

plt.subplot(1, 2, 2)
plt.imshow(img_gray, cmap="gray")
plt.title("Gris")
plt.axis("off")

plt.tight_layout()
plt.show()

print(f"Imagen de color (RGB): {img_resized.shape}")
print(f"Imagen en Gris: {img_gray.shape}")

In [None]:
# Convertir a tipo float y normalizar valores entre 0 y 1
img_norm = img_gray.astype(np.float32) / 255.0

# Convertir el array numpy en tensor de PyTorch
img_tensor = torch.tensor(img_norm)

# Añadir las dimensiones requeridas:
#     (1 canal, alto, ancho) → (1, 32, 32)0
img_tensor = img_tensor.unsqueeze(0)

# Mostrar información del tensor
print(f"✅ Tensor creado con forma: {img_tensor.shape}")
print(f"Tipo de dato: {img_tensor.dtype}")
print(f"Valores mínimos y máximos: {img_tensor.min():.3f}, {img_tensor.max():.3f}")

In [None]:
# Realizar predicciones sobre muestras de prueba con el modelo CNN
pred_probs= make_predictions(model=model_cnn,
                             data=[img_tensor])

# Convierta las probabilidades de predicción en etiquetas de predicción tomando argmax()
pred_class = pred_probs.argmax(dim=1)
print(f"Clase inferida: \n\t{class_names[pred_class]}")