
# Explicación paso a paso de una Red Neuronal Convolucional con PyTorch (MNIST)

Este notebook recoge una conversación educativa sobre cómo funciona una red neuronal convolucional aplicada al dataset MNIST. Se detallan sus componentes, conceptos como padding, stride y el uso del parámetro `dim=1` en la capa de salida.

---


In [None]:

from torch import nn
from torch.nn import functional as F

class CNN(nn.Module):  # Definimos la red neuronal convolucional
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1) 
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.fc1 = nn.Linear(7 * 7 * 64, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 7 * 7 * 64)  # Aplanamiento tras las capas convolucionales
        x = F.relu(self.fc1(x))
        x = F.log_softmax(self.fc2(x), dim=1)  # Use log_softmax for cross-entropy loss
        return x

model = CNN()  # Instanciamos la red neuronal



## 📌 Explicación del modelo CNN

- `conv1`: primera capa convolucional. Toma imágenes de entrada con 1 canal (blanco y negro) y aplica 32 filtros 3x3. Usa `padding=1` para conservar el tamaño.
- `pool`: aplica `MaxPool2d(2, 2)`, que reduce el tamaño de la imagen a la mitad (stride=2, tamaño de filtro=2x2).
- `conv2`: segunda convolución que toma 32 canales y produce 64.
- `fc1`: capa totalmente conectada que toma los 7x7x64 valores de salida y los reduce a 128 neuronas.
- `fc2`: capa de salida con 10 neuronas, una por cada clase (dígitos del 0 al 9).
- `F.log_softmax(..., dim=1)`: convierte las salidas en log-probabilidades a lo largo de las 10 clases.




## 🧱 ¿Qué es el Padding?

El `padding=1` en una convolución con `kernel_size=3` mantiene el tamaño de la imagen:

$$
\text{Salida} = \left\lfloor \frac{28 + 2 \times 1 - 3}{1} \right\rfloor + 1 = 28
$$

Esto evita reducir el tamaño muy rápidamente y conserva la información de los bordes.




## 🏃‍♂️ ¿Qué es el Stride?

El `stride` es el número de píxeles que el filtro avanza cada vez. Si `stride=1`, se mueve de a un píxel; si `stride=2`, se salta uno. A mayor stride, menor tamaño de salida.




## 🎯 ¿Por qué `dim=1` en `F.log_softmax(..., dim=1)`?

En una red de clasificación, la salida típica del modelo tiene forma `[batch_size, num_classes]`, por ejemplo `[64, 10]`.

- `dim=1` aplica `softmax` por **fila**, es decir, para cada ejemplo en el batch.
- Esto normaliza las 10 clases para cada imagen, convirtiéndolas en probabilidades.

