

# Computer Vision Exam Guide 
Miguel Ángel Pérez Ávila

---

# Imágenes como Datos Numéricos

## 1. Visión por Computadora (Computer Vision)

### Definición
La visión por computadora es un campo que permite a las máquinas interpretar y comprender el mundo visual mediante algoritmos y modelos que procesan, analizan y extraen información significativa de imágenes y videos.

**Objetivo:** Replicar las capacidades de visión humana para identificar e interpretar objetos visuales, escenas y actividades.

### Aplicaciones Principales

1. **Vehículos Autónomos**: Reconocimiento de señales, peatones y obstáculos
2. **Imágenes Médicas**: Diagnóstico de enfermedades mediante X-rays, MRIs
3. **Retail y E-commerce**: Búsqueda visual y reconocimiento de productos
4. **Robótica**: Manipulación de objetos y navegación autónoma
5. **Agricultura**: Monitoreo de cultivos y detección de enfermedades
6. **Ciberseguridad**: Detección de amenazas, reconocimiento facial y deepfakes

## 2. Pipeline de Visión por Computadora

### Pasos del Pipeline
1. **Adquisición de Imágenes**: Captura de datos visuales
2. **Procesamiento**: Estandarización de datos
3. **Análisis y Reconocimiento**: Extracción de características
4. **Acción**: Toma de decisiones basada en el análisis

### Importancia del Pre-procesamiento
- Estandariza imágenes a un tamaño uniforme
- Normaliza el formato y la escala
- Mejora la precisión de clasificación

**Ejemplo:** Clasificación de señales de tráfico mediante conteo de píxeles rojos.

## 3. Imágenes como Grillas de Píxeles

### Conceptos Fundamentales

#### Píxel
- Unidad básica de una imagen
- Representa color o intensidad de luz
- Una imagen es una grilla de píxeles

**Ejemplo:** Imagen de 500×300 = 150,000 píxeles totales

### Tipos de Representación

#### Escala de Grises (Grayscale)
- Rango de valores: **0-255**
- 0 = Negro
- 255 = Blanco
- Valores intermedios = tonos de gris
- Representación: entero de 8 bits sin signo

#### Color RGB
- Tres componentes: **Red, Green, Blue**
- Cada componente: rango 0-255
- Formato de tupla: `(red, green, blue)`

**Ejemplos:**
- Blanco: `(255, 255, 255)`
- Negro: `(0, 0, 0)`
- Rojo puro: `(255, 0, 0)`

### ⚠️ Importante: OpenCV y el Orden BGR
OpenCV almacena los canales en orden **BGR** (Blue, Green, Red) en lugar de RGB.

## 4. Operaciones con OpenCV y NumPy

### Lectura y Conversión de Imágenes

```python
# Leer imagen
image = cv2.imread('ruta/imagen.jpg')

# Convertir BGR a RGB
image_rgb = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# Convertir a escala de grises
gray_image = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)
```

### Dimensiones de Imagen
- **Color RGB**: `(altura, ancho, 3)` - 3 canales
- **Escala de grises**: `(altura, ancho)` - 1 canal

### Acceso a Píxeles

```python
# Acceder a píxel específico
pixel = image[y, x]  # Nota: y primero, luego x

# Acceder a región
region = image[y1:y2, x1:x2]
```

### Operaciones con Arrays

```python
# Valores máximo y mínimo
max_val = np.amax(gray_image)
min_val = np.amin(gray_image)

# Modificar región
image[y1:y2, x1:x2] = (0, 255, 0)  # Verde
```

## 5. Creación de Imágenes desde Arrays NumPy

### Imagen en Escala de Grises
```python
tiny_image = np.array([[0, 20, 30],
                       [200, 200, 250],
                       [50, 180, 85]])
```

### Imagen RGB
```python
# Crear imagen de tamaño específico con 3 canales
gradient = np.zeros((height, width, 3), dtype=np.uint8)
```

## 6. Conceptos Clave para Recordar

- **Píxel**: Unidad básica de información visual
- **Coordenadas**: `[y, x]` en arrays de NumPy (fila, columna)
- **Rango de valores**: 0-255 (8 bits)
- **BGR vs RGB**: OpenCV usa BGR por defecto
- **Slicing**: Permite manipular regiones de la imagen
- **dtype=np.uint8**: Tipo de dato para imágenes (0-255)

## 7. Técnicas de Visualización

```python
import matplotlib.pyplot as plt

# Mostrar imagen RGB
plt.imshow(image_rgb)

# Mostrar imagen en escala de grises
plt.imshow(gray_image, cmap='gray')

# Múltiples subplots
f, (ax1, ax2) = plt.subplots(1, 2)
ax1.imshow(image1)
ax2.imshow(image2)
```

## 8. Ejercicio Práctico: Gradiente

**Objetivo**: Crear una imagen con gradiente de rojo a blanco.

**Concepto**: Incrementar progresivamente los valores de los canales Green y Blue mientras Red permanece en 255.

---


## 9. Masking (Enmascaramiento)

### Definición
El masking permite enfocarse únicamente en las porciones de una imagen que son de interés, ignorando el resto del contenido. Es una técnica fundamental para segmentación y procesamiento selectivo de imágenes.

**Aplicación Principal**: Extraer o aislar regiones específicas de una imagen basándose en criterios de color, intensidad u otras características.

### Concepto de Máscara
- Una **máscara** es una imagen binaria (valores 0 y 255) del mismo tamaño que la imagen original
- Píxeles con valor **255** (blancos) indican regiones de interés
- Píxeles con valor **0** (negros) indican regiones a ignorar

### Umbral de Color (Color Threshold)

#### Definir Rangos de Color
Para crear una máscara basada en color, se definen límites inferior y superior en RGB:

```python
# Definir rango de color (ejemplo: azul)
lower_blue = np.array([0, 0, 180])
upper_blue = np.array([70, 70, 255])
```

#### Crear Máscara con inRange
```python
# cv2.inRange verifica si los píxeles están dentro del rango especificado
mask = cv2.inRange(image_rgb, lower_blue, upper_blue)

# Visualizar la máscara
plt.imshow(mask, cmap='gray')
```

### Aplicar Máscaras a Imágenes

#### Método 1: Filtrado Booleano
```python
# Crear copia de la imagen
masked_image = np.copy(image_rgb)

# Crear filtro booleano
filter = mask != 0

# Aplicar filtro (píxeles que coinciden con la máscara se vuelven negros)
masked_image[filter] = [0, 0, 0]
```

#### Método 2: Operaciones Bitwise
```python
# Invertir máscara
mask_inverted = cv2.bitwise_not(mask)

# Aplicar máscara usando operación AND
masked_image = cv2.bitwise_and(image_rgb, image_rgb, mask=mask_inverted)
```

### Operaciones Bitwise Importantes

| Operación | Función | Uso |
|-----------|---------|-----|
| `cv2.bitwise_not()` | Invierte la máscara | Intercambiar regiones de interés |
| `cv2.bitwise_and()` | AND lógico | Aplicar máscara a imagen |
| `cv2.bitwise_or()` | OR lógico | Combinar máscaras |
| `cv2.bitwise_xor()` | XOR lógico | Diferencia entre máscaras |

### Caso Práctico: Cambio de Fondo (Blue Screen)

#### Proceso Completo
1. **Crear máscara** del fondo a eliminar (ej. fondo azul)
2. **Aislar objeto** eliminando el fondo
3. **Preparar nuevo fondo** con las mismas dimensiones
4. **Combinar** objeto y nuevo fondo

```python
# 1. Crear máscara del fondo azul
mask = cv2.inRange(image_rgb, lower_blue, upper_blue)

# 2. Aislar objeto (pizza)
masked_object = np.copy(image_rgb)
masked_object[mask != 0] = [0, 0, 0]

# 3. Preparar nuevo fondo
background = cv2.imread('nuevo_fondo.jpg')
background = cv2.cvtColor(background, cv2.COLOR_BGR2RGB)
crop_background = background[0:height, 0:width]

# Bloquear área del objeto en el fondo
crop_background[mask == 0] = [0, 0, 0]

# 4. Combinar objeto y fondo
complete_image = crop_background + masked_object
```

### Máscaras Multicanal

Para trabajar con máscaras RGB (3 canales), se puede usar `np.all()` para crear filtros:

```python
# Definir color específico
target_color = np.array([255, 0, 255])  # Magenta

# Crear filtro que verifique los 3 canales
filter = np.all(image == target_color, axis=-1)

# Aplicar filtro
result = np.zeros_like(image)
result[filter] = [255, 255, 255]  # Píxeles coincidentes en blanco
```

### Segmentación por Máscaras de Clase

En aplicaciones de segmentación semántica, diferentes clases se representan con colores únicos:

| Clase | R | G | B | Descripción |
|-------|---|---|---|-------------|
| Terreno urbano | 0 | 255 | 255 | Áreas construidas |
| Agricultura | 255 | 255 | 0 | Cultivos |
| Pastizal | 255 | 0 | 255 | Vegetación baja |
| Bosque | 0 | 255 | 0 | Áreas forestales |
| Agua | 0 | 0 | 255 | Cuerpos de agua |
| Tierra árida | 255 | 255 | 255 | Suelo sin vegetación |
| Desconocido | 0 | 0 | 0 | Sin clasificar |

### Consejos Prácticos

1. **Redimensionar imágenes**: Asegurar que todas las imágenes tengan las mismas dimensiones
    ```python
    image = cv2.resize(image, (width, height))
    ```

2. **Tipo de datos**: Las máscaras deben ser `dtype=np.uint8`

3. **Visualización**: Usar `cmap='gray'` para mostrar máscaras binarias correctamente

4. **Ajuste de umbrales**: Experimentar con los rangos de color hasta aislar correctamente la región de interés

### Conceptos Clave

- **Máscara binaria**: Imagen de 2 valores (0 y 255)
- **inRange**: Función para detectar píxeles dentro de un rango de color
- **Operaciones bitwise**: Permiten combinar y manipular máscaras
- **Filtrado booleano**: Usar condiciones para seleccionar píxeles
- **np.all()**: Verificar condiciones en múltiples canales simultáneamente

---


## 10. Separación de Canales de Color (Color Channel Splitting)

### Definición
La separación de canales de color es el proceso de descomponer una imagen RGB en sus componentes individuales (Rojo, Verde, Azul) para analizarlos y manipularlos de forma independiente.

**Aplicación Principal**: Análisis individual de componentes de color, extracción de características específicas por canal, y filtrado selectivo.

### Métodos de Separación de Canales

#### Método 1: Indexación con NumPy
```python
# Separar canales RGB mediante indexación
r = image[:, :, 0]  # Canal Rojo
g = image[:, :, 1]  # Canal Verde
b = image[:, :, 2]  # Canal Azul
```

#### Método 2: cv2.split()
```python
# Separar canales usando OpenCV
(r, g, b) = cv2.split(image)
```

**Ventajas de cv2.split()**: Más eficiente y retorna una tupla con los canales separados.

### Visualización de Canales

#### Visualización en Escala de Grises
Muestra la intensidad de cada canal independientemente:

```python
f, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(20, 10))

ax1.set_title('Canal R')
ax1.imshow(r, cmap='gray')

ax2.set_title('Canal G')
ax2.imshow(g, cmap='gray')

ax3.set_title('Canal B')
ax3.imshow(b, cmap='gray')
```

**Interpretación**: Píxeles más brillantes indican mayor presencia de ese color.

#### Visualización con Colores Específicos
Muestra cada canal con su color correspondiente:

```python
names = ['R Channel', 'G Channel', 'B Channel']
figure, plots = plt.subplots(1, 3, figsize=(20, 10))

for i, subplot, name in zip(range(3), plots, names):
    temp = np.zeros(image.shape, dtype='uint8')
    temp[:, :, i] = image[:, :, i]
    subplot.set_title(name)
    subplot.imshow(temp)
```

**Concepto**: Crea una imagen temporal con ceros en todos los canales excepto el que se quiere visualizar.

### Combinación de Canales con cv2.merge()

```python
# Combinar canales RGB en una imagen
image_merged = cv2.merge((r, g, b))
```

**Uso**: Reconstruir la imagen original después de manipular canales individuales o crear imágenes sintéticas combinando diferentes canales.

### Aplicaciones Prácticas

1. **Análisis de dominancia de color**: Identificar qué canal tiene mayor intensidad
2. **Corrección de color**: Ajustar canales individuales para balancear la imagen
3. **Extracción de características**: Aislar objetos basándose en su predominancia en un canal específico
4. **Efectos artísticos**: Manipular canales para crear efectos visuales

---

## 11. Espacios de Color (Color Spaces)

### Definición
Un espacio de color es un modelo matemático que representa los colores como tuplas de números (usualmente 3 o 4 valores). Define el rango de colores que un dispositivo digital puede capturar, mostrar o imprimir.

**Propósito**: Representar y manipular colores de manera consistente y predecible.

### Espacios de Color Principales

#### RGB (Red, Green, Blue)
- Modelo aditivo de color
- Basado en la mezcla de luz
- Coordenadas cartesianas (cubo)
- Rango: 0-255 por canal

**Uso**: Pantallas, cámaras digitales, procesamiento general de imágenes

#### HSV (Hue, Saturation, Value)
- **Hue (Matiz)**: Tipo de color (0-179° en OpenCV)
- **Saturation (Saturación)**: Pureza del color (0-255)
- **Value (Valor)**: Brillo del color (0-255)

**Geometría**: Representación cilíndrica del espacio RGB

#### HSL (Hue, Saturation, Lightness)
Similar a HSV pero con Lightness en lugar de Value:
- **Lightness**: Nivel de iluminación del color

### Conversión entre Espacios de Color

```python
# Convertir RGB a HSV
hsv = cv2.cvtColor(image, cv2.COLOR_RGB2HSV)

# Convertir RGB a HSL
hls = cv2.cvtColor(image, cv2.COLOR_RGB2HLS)

# Convertir de vuelta a RGB
rgb = cv2.cvtColor(hsv, cv2.COLOR_HSV2RGB)
```

### Análisis de Canales HSV

```python
# Separar canales HSV
h = hsv[:, :, 0]  # Hue (Matiz)
s = hsv[:, :, 1]  # Saturation (Saturación)
v = hsv[:, :, 2]  # Value (Valor)

# Verificar rangos
print(f'Min - Max hue: {np.min(h)} - {np.max(h)}')
print(f'Min - Max saturation: {np.min(s)} - {np.max(s)}')
print(f'Min - Max value: {np.min(v)} - {np.max(v)}')

# Visualizar canales
f, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(20, 10))
ax1.imshow(h, cmap='gray')
ax2.imshow(s, cmap='gray')
ax3.imshow(v, cmap='gray')
```

### Ventajas de HSV sobre RGB

1. **Segmentación de color más intuitiva**: Separar el color del brillo
2. **Invariancia a la iluminación**: El canal Hue es más robusto a cambios de iluminación
3. **Selección de rangos más natural**: Más fácil definir umbrales de color

### Caso Práctico: Eliminación de Fondo Verde (Green Screen)

```python
# Leer imagen con fondo verde
image = cv2.imread('car_green_screen.jpg')
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# Convertir a HSV para mejor segmentación de color
hsv = cv2.cvtColor(image, cv2.COLOR_RGB2HSV)

# Definir rango para color verde en HSV
lower_green = np.array([40, 40, 40])
upper_green = np.array([80, 255, 255])

# Crear máscara del fondo verde
mask = cv2.inRange(hsv, lower_green, upper_green)

# Invertir máscara para obtener solo el objeto
mask_inv = cv2.bitwise_not(mask)

# Extraer objeto sin fondo
object_only = cv2.bitwise_and(image, image, mask=mask_inv)
```

### Rangos de Hue en OpenCV

| Color | Rango Hue (OpenCV) |
|-------|-------------------|
| Rojo | 0-10, 170-180 |
| Naranja | 10-25 |
| Amarillo | 25-35 |
| Verde | 35-85 |
| Cian | 85-95 |
| Azul | 95-130 |
| Violeta | 130-160 |
| Magenta | 160-170 |

**⚠️ Nota**: OpenCV usa rango 0-179 para Hue (no 0-360 como en definiciones estándar).

### Comparación RGB vs HSV para Masking

**RGB**:
- Requiere definir rangos en tres canales simultáneamente
- Sensible a variaciones de iluminación
- Más complejo para aislar colores específicos

**HSV**:
- Más intuitivo para selección de colores (usar principalmente canal H)
- Robusto ante cambios de iluminación
- Ideal para segmentación basada en color

### Conceptos Clave

- **Espacio de color**: Modelo matemático para representar colores
- **HSV**: Modelo cilíndrico más intuitivo para segmentación
- **Hue**: Representa el tipo de color independiente del brillo
- **cv2.cvtColor()**: Función para convertir entre espacios de color
- **Invariancia a iluminación**: HSV separa color de brillo

### Consejos Prácticos

1. **Usar HSV para masking**: Más efectivo que RGB para segmentación de color
2. **Experimentar con rangos**: Los valores óptimos dependen de condiciones de iluminación
3. **Visualizar canales**: Ayuda a entender qué canal usar para cada tarea
4. **Normalización**: Algunos espacios de color requieren normalización (0-1) para ciertos algoritmos

---

## 12. Filtros en Procesamiento de Imágenes

### Definición de Ruido
El ruido en una imagen se refiere a variaciones aleatorias o no deseadas en la intensidad de los píxeles que oscurecen la información visual real. El ruido típicamente se origina de:
- Condiciones ambientales
- Limitaciones del sensor
- Errores de transmisión

**Impacto**: Puede degradar significativamente la calidad de la imagen y afectar el resultado de pasos posteriores de procesamiento.

### ¿Qué son los Filtros?
Los filtros son algoritmos o técnicas aplicados a imágenes para mejorar o modificar sus propiedades visuales. Son herramientas fundamentales para:
- Reducción de ruido
- Detección de bordes
- Desenfoque (blurring)
- Enfoque (sharpening)
- Extracción de características

**Principio**: Filtran información no deseada o irrelevante, o amplifican características como límites de objetos.

---

## 13. Frecuencia en Imágenes

### Definición
La frecuencia en imágenes es la **tasa de cambio**: la velocidad a la que cambian los valores de intensidad de los píxeles a través de una imagen.

### Componentes de Frecuencia

#### 1. Componentes de Baja Frecuencia (Low-Frequency)
Corresponden a cambios lentos o graduales en la intensidad de píxeles:

**Características**:
- Gradientes suaves
- Áreas uniformes grandes
- Estructura general y formas básicas

**Ejemplos**:
- Cielo despejado
- Objetos de color sólido
- Fondos uniformes

#### 2. Componentes de Alta Frecuencia (High-Frequency)
Refieren a cambios rápidos en la intensidad de píxeles:

**Características**:
- Bordes afilados
- Texturas finas
- Detalles pequeños

**Ejemplos**:
- Límites entre objetos distintos
- Texturas de tela
- Detalles finos

**Visualización**: En una imagen de alta frecuencia, la intensidad cambia mucho y rápidamente entre píxeles adyacentes.

---

## 14. Convolución (Convolution)

### Definición Matemática
La convolución es una técnica fundamental en procesamiento de imágenes que combina dos funciones.

#### Formulación Continua
Para funciones continuas f(x) y g(x):

$$f(x) * g(x) = \int_{-\infty}^{\infty} f(u) g(x-u) du$$

#### Formulación Discreta (Imágenes Digitales)
Para imágenes digitales bidimensionales:

$$F(x, y) = \sum_i \sum_j f(x+i, y+j) h(i, j)$$

### Algoritmo para Vecindario 3×3

Para un kernel (máscara) 3×3:

$$\begin{bmatrix} h_1 & h_2 & h_3 \\ h_4 & h_5 & h_6 \\ h_7 & h_8 & h_9 \end{bmatrix}$$

```python
# Pseudocódigo
for all pixels in image do {
    Q0 = P0*h0 + P1*h1 + P2*h2 + P3*h3 + P4*h4 + 
         P5*h5 + P6*h6 + P7*h7 + P8*h8;
}
```

**Concepto**: La convolución aplica una función de dispersión de punto (kernel) a todos los puntos de una imagen y acumula las contribuciones.

---

## 15. Kernels de Convolución

### Definición de Kernel
Un **kernel** (núcleo o máscara) es una matriz de números que modifica una imagen mediante convolución.

### Kernel Laplaciano (Detección de Bordes)

$$\begin{pmatrix} 0 & -1 & 0 \\ -1 & 4 & -1 \\ 0 & -1 & 0 \end{pmatrix}$$

**Características**:
- Todos los elementos suman cero
- Calcula la diferencia o cambio entre píxeles vecinos
- Sustrae los valores de los píxeles circundantes del píxel central

### Proceso de Aplicación
1. El kernel pasa sobre la imagen píxel por píxel
2. En cada posición, se realiza la operación de convolución
3. El resultado transforma la imagen basándose en los valores del kernel

### Implementación con OpenCV

```python
# Definir kernel personalizado
sobel_y = np.array([[-1, -2, -1],
                    [ 0,  0,  0],
                    [ 1,  2,  1]])

# Aplicar filtro usando cv2.filter2D
# Parámetros: (imagen en escala de grises, profundidad de bits, kernel)
filtered_image = cv2.filter2D(gray_image, -1, sobel_y)
```
**Parámetro -1**: Indica que la imagen de salida tendrá la misma profundidad que la imagen de entrada.


![Convolution](https://raw.githubusercontent.com/octavio-navarro/Computer-Vision/main/Notebooks/images/Convolution.png)



---

## 16. Filtros Paso-Alto (High-Pass Filters)

### Propósito
Los filtros paso-alto se usan para:
- Hacer que una imagen aparezca más nítida
- Realzar partes de alta frecuencia de una imagen
- Enfatizar cambios rápidos entre píxeles vecinos

### Funcionamiento
Operan sobre imágenes en escala de grises para:
- Detectar patrones de intensidad
- Resaltar áreas donde un píxel es mucho más brillante que sus vecinos
- Crear líneas que enfatizan estos cambios

### Detección de Bordes
**Bordes**: Áreas en una imagen donde la intensidad cambia muy rápidamente, indicando límites de objetos.

**Resultado**: Los filtros paso-alto realzan estos bordes, creando representaciones que destacan los contornos de objetos.

### Operadores Sobel

#### Sobel X (Detección de bordes verticales)
$$\begin{bmatrix} -1 & 0 & 1 \\ -2 & 0 & 2 \\ -1 & 0 & 1 \end{bmatrix}$$

#### Sobel Y (Detección de bordes horizontales)
$$\begin{bmatrix} -1 & -2 & -1 \\ 0 & 0 & 0 \\ 1 & 2 & 1 \end{bmatrix}$$

```python
# Aplicar operadores Sobel
sobel_x = np.array([[-1, 0, 1],
                    [-2, 0, 2],
                    [-1, 0, 1]])

sobel_y = np.array([[-1, -2, -1],
                    [ 0,  0,  0],
                    [ 1,  2,  1]])

filtered_x = cv2.filter2D(gray_image, -1, sobel_x)
filtered_y = cv2.filter2D(gray_image, -1, sobel_y)
```

---

## 17. Imágenes Binarias y Umbralización (Thresholding)

### Objetivo de Segmentación
Separar regiones oscuras y claras de una imagen para identificar objetos en fondos contrastantes.

### Umbralización (Thresholding)

```python
# cv2.threshold(imagen_fuente, valor_umbral, valor_máximo, tipo_umbral)
retval, binary_image = cv2.threshold(filtered_image, 10, 255, cv2.THRESH_BINARY)
```

**Parámetros**:
- **Valor umbral (10)**: Píxeles ≤ 10 → 0 (negro); píxeles > 10 → 255 (blanco)
- **Valor máximo (255)**: Valor asignado a píxeles que superan el umbral
- **Tipo**: `cv2.THRESH_BINARY` para binarización simple

### Métodos Adaptativos
- **Otsu**: Calcula automáticamente el umbral óptimo
- **Triangle**: Método del triángulo para histogramas bimodales

**retval**: Almacena el valor del umbral calculado cuando se usan métodos adaptativos.

---

## 18. Filtros Paso-Bajo (Low-Pass Filters)

### Propósito
Eliminar ruido de las imágenes mediante:
- Bloqueo de contenido de alta frecuencia
- Suavizado o desenfoque de la apariencia de la imagen
- Reducción de ruido de alta frecuencia

### Importancia
El ruido puede afectar negativamente pasos posteriores de procesamiento. Los filtros paso-alto pueden amplificar el ruido si no se elimina primero.

### Kernel de Promediado (Averaging Kernel)

El filtro paso-bajo más simple:

$$\frac{1}{9} \begin{pmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{pmatrix}$$

**Funcionamiento**: Toma un promedio de los píxeles vecinos (no una diferencia como los filtros paso-alto).

---

## 19. Filtro Gaussiano (Gaussian Blur)

### Características
El filtro más frecuentemente usado en visión por computadora:
- Desenfoca la imagen
- Preserva información de bordes
- Es esencialmente un promedio ponderado

### Kernel Gaussiano 3×3

$$\frac{1}{16} \begin{pmatrix} 1 & 2 & 1 \\ 2 & 4 & 2 \\ 1 & 2 & 1 \end{pmatrix}$$

**Ponderación**: Da más peso al píxel central, considerando también los píxeles circundantes.

### Implementación

```python
# Aplicar desenfoque gaussiano
# El kernel debe tener dimensiones impares para centrarse en cada píxel
gray_blur = cv2.GaussianBlur(gray_image, (3, 3), 0)
```

**Parámetros**:
- `(3, 3)`: Tamaño del kernel (debe ser impar)
- `0`: Desviación estándar (0 = calculada automáticamente)

### Aplicaciones
- **Imágenes médicas**: Reducir ruido excesivo en resonancias magnéticas
- **Pre-procesamiento**: Antes de aplicar filtros de detección de bordes
- **Mejora de calidad**: Suavizar imágenes ruidosas

---

## 20. Detección de Bordes Canny

### Definición
El detector de bordes Canny es uno de los mejores y más utilizados algoritmos de detección de bordes. Considera múltiples aspectos:
- Nivel de cambio de intensidad que constituye un borde
- Detección consistente de bordes finos y gruesos
- Producción de bordes de un píxel de grosor

### Proceso de Canny (4 Pasos)

#### 1. Filtrado de Ruido
Aplica desenfoque gaussiano para eliminar ruido.

#### 2. Cálculo de Gradiente
Encuentra la intensidad y dirección de bordes usando filtros Sobel.

#### 3. Supresión No-Máxima (Non-Maximum Suppression)
- Examina la intensidad y dirección de cada borde detectado
- Selecciona el píxel de máximo local
- Crea líneas delgadas consistentes de un píxel de grosor alineadas con los bordes más fuertes

#### 4. Umbralización por Histéresis (Hysteresis Thresholding)
Aísla los mejores bordes usando dos umbrales:

- **Umbral alto**: Bordes fuertes (definitivamente bordes)
- **Umbral bajo**: Bordes débiles (candidatos)
- **Proceso**: Conecta bordes débiles a bordes fuertes si están conectados

### Implementación

```python
# Aplicar detector Canny
edges = cv2.Canny(gray_image, umbral_bajo, umbral_alto)

# Ejemplos con diferentes umbrales
edges_1 = cv2.Canny(gray_image, 0, 20)      # Muchos bordes
edges_2 = cv2.Canny(gray_image, 50, 100)    # Bordes moderados
edges_3 = cv2.Canny(gray_image, 200, 240)   # Pocos bordes fuertes
```

**Parámetros críticos**:
- **Umbral bajo**: Valor mínimo de intensidad de gradiente
- **Umbral alto**: Valor que define bordes fuertes
- **Relación recomendada**: Alto = 2-3 × Bajo

### Ventajas
- Detecta límites con precisión
- Produce imagen binaria con bordes bien definidos
- Útil para seleccionar áreas de interés para enmascaramiento o análisis posterior

---

## 21. Filtros Adicionales

### Filtro de Enfoque (Sharpen)

$$\begin{bmatrix} 0 & -1 & 0 \\ -1 & 5 & -1 \\ 0 & -1 & 0 \end{bmatrix}$$

**Efecto**: Aumenta el contraste entre píxeles vecinos, haciendo la imagen más nítida.

### Filtro de Relieve (Emboss)

$$\begin{bmatrix} -2 & -1 & 0 \\ -1 & 1 & 1 \\ 0 & 1 & 2 \end{bmatrix}$$

**Efecto**: Crea una apariencia de relieve 3D, resaltando cambios de intensidad direccionales.

### Filtro de Contorno (Outline)

$$\begin{bmatrix} -1 & -1 & -1 \\ -1 & 8 & -1 \\ -1 & -1 & -1 \end{bmatrix}$$

**Efecto**: Resalta los contornos de objetos, similar a la detección de bordes.

### Aplicación de Filtros Personalizados

```python
# Definir filtros
sharpen_filter = np.array([[0, -1, 0],
                           [-1, 5, -1],
                           [0, -1, 0]])

emboss_filter = np.array([[-2, -1, 0],
                          [-1, 1, 1],
                          [0, 1, 2]])

outline_filter = np.array([[-1, -1, -1],
                           [-1, 8, -1],
                           [-1, -1, -1]])

# Aplicar filtros
sharpen = cv2.filter2D(image, -1, sharpen_filter)
emboss = cv2.filter2D(image, -1, emboss_filter)
outline = cv2.filter2D(image, -1, outline_filter)
```

---

## 22. Conceptos Clave de Filtros

### Resumen de Filtros

| Tipo de Filtro | Propósito | Frecuencia Afectada |
|----------------|-----------|---------------------|
| **Paso-Bajo** | Reducir ruido, suavizar | Atenúa alta frecuencia |
| **Paso-Alto** | Detección de bordes, enfoque | Realza alta frecuencia |
| **Gaussiano** | Suavizado preservando bordes | Atenúa alta frecuencia |
| **Canny** | Detección óptima de bordes | Detecta cambios rápidos |

### Consideraciones Importantes

1. **Orden de operaciones**: Generalmente se aplica filtro paso-bajo (reducción de ruido) antes de paso-alto (detección de bordes)

2. **Tamaño de kernel**: 
   - Kernels más grandes → mayor suavizado/desenfoque
   - Debe ser impar para tener píxel central

3. **Selección de umbrales**:
   - Experimentar con diferentes valores
   - Depende de las condiciones de iluminación y contenido de la imagen

4. **Suma de elementos del kernel**:
   - Suma = 0: Filtros de detección de cambios (bordes)
   - Suma = 1: Filtros que preservan brillo promedio

### Aplicaciones Prácticas

- **Preprocesamiento**: Limpiar imágenes antes de análisis
- **Segmentación**: Separar objetos del fondo
- **Extracción de características**: Identificar contornos y formas
- **Mejora de calidad**: Reducir artefactos y ruido
- **Análisis médico**: Procesar imágenes de diagnóstico (MRI, rayos X)

### Consejos Prácticos

1. **Visualizar resultados intermedios**: Ayuda a entender el efecto de cada filtro
2. **Combinar filtros**: Usar múltiples filtros en secuencia para mejores resultados
3. **Ajustar parámetros**: Los valores óptimos varían según la imagen
4. **Considerar el ruido**: Siempre evaluar si es necesario filtrado paso-bajo primero

---


## 23. Operaciones Morfológicas (Morphological Operations)

### Definición
Las operaciones morfológicas son técnicas de procesamiento de imágenes que trabajan sobre la forma de las características dentro de una imagen. Se aplican típicamente sobre imágenes binarias y modifican la estructura de los objetos mediante kernels (elementos estructurantes).

**Aplicación Principal**: Procesamiento de imágenes binarias resultantes de detección de bordes, segmentación o umbralización.

---

## 24. Dilatación (Dilation)

### Definición
La dilatación **agranda las áreas brillantes** (blancas) de una imagen añadiendo píxeles a los límites percibidos de los objetos.

### Funcionamiento
- Expande los bordes de regiones blancas
- Los objetos se hacen más grandes
- Los agujeros dentro de objetos se hacen más pequeños

### Implementación

```python
# Leer imagen en escala de grises
letter = cv2.imread("images/j.png", 0)

# Crear kernel (elemento estructurante)
kernel = np.ones((13, 13), np.uint8)

# Aplicar dilatación
dilation = cv2.dilate(letter, kernel, iterations=1)

# Visualizar resultado
plt.imshow(dilation, cmap='gray')
```

**Parámetros**:
- **kernel**: Matriz que define el tamaño y forma de la dilatación
- **iterations**: Número de veces que se aplica la operación

### Aplicaciones
- Rellenar pequeños agujeros en objetos
- Conectar componentes cercanos
- Hacer objetos más visibles

---

## 25. Erosión (Erosion)

### Definición
La erosión **reduce las áreas brillantes** (blancas) de una imagen eliminando píxeles de los límites de los objetos.

### Funcionamiento
- Contrae los bordes de regiones blancas
- Los objetos se hacen más pequeños
- Los agujeros dentro de objetos se hacen más grandes
- Puede eliminar objetos pequeños

### Implementación

```python
# Aplicar erosión
erosion = cv2.erode(letter, kernel, iterations=1)

# Visualizar resultado
plt.imshow(erosion, cmap='gray')
```

### Aplicaciones
- Eliminar ruido pequeño (píxeles aislados)
- Separar objetos conectados ligeramente
- Reducir el tamaño de características

### Comparación Visual

```python
# Comparar las tres operaciones
f, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(20, 10))

ax1.set_title("Dilatación")
ax1.imshow(dilation, cmap="gray")

ax2.set_title("Original")
ax2.imshow(letter, cmap="gray")

ax3.set_title("Erosión")
ax3.imshow(erosion, cmap="gray")
```

---

## 26. Apertura (Opening)

### Definición
La apertura es una **combinación de erosión seguida de dilatación**. Es útil para la reducción de ruido.

### Proceso
1. **Erosión**: Elimina ruido y objetos pequeños
2. **Dilatación**: Restaura el tamaño de los objetos principales

### Ventajas
- El ruido desaparece en la erosión inicial
- Los objetos principales recuperan su tamaño aproximado con la dilatación posterior
- **El ruido no reaparece** porque fue eliminado en el primer paso

### Implementación

```python
# Leer imagen con ruido
letter_noise = cv2.imread("images/j_noise.png", 0)

# Crear kernel
kernel = np.ones((9, 9), np.uint8)

# Aplicar apertura
opening = cv2.morphologyEx(letter_noise, cv2.MORPH_OPEN, kernel)

# Visualizar comparación
f, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 5))
ax1.set_title("J con Ruido")
ax1.imshow(letter_noise, cmap="gray")
ax2.set_title("Apertura (Opening)")
ax2.imshow(opening, cmap="gray")
```

### Aplicaciones
- Eliminación de ruido de fondo
- Separación de objetos conectados por ruido
- Limpieza de imágenes binarias

---

## 27. Cierre (Closing)

### Definición
El cierre es la **combinación inversa**: dilatación seguida de erosión. Es útil para cerrar pequeños agujeros o áreas oscuras dentro de objetos.

### Proceso
1. **Dilatación**: Cierra agujeros pequeños y conecta regiones cercanas
2. **Erosión**: Restaura el tamaño original de los objetos

### Ventajas
- Los agujeros pequeños se rellenan durante la dilatación
- Los objetos recuperan su tamaño aproximado con la erosión posterior
- **Los agujeros permanecen cerrados** porque fueron rellenados en el primer paso

### Implementación

```python
# Leer imagen con puntos oscuros
letter_dots = cv2.imread("images/j_dots.png", 0)

# Crear kernel
kernel = np.ones((9, 9), np.uint8)

# Aplicar cierre
closing = cv2.morphologyEx(letter_dots, cv2.MORPH_CLOSE, kernel)

# Visualizar comparación
f, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 5))
ax1.set_title("J con Puntos")
ax1.imshow(letter_dots, cmap="gray")
ax2.set_title("Cierre (Closing)")
ax2.imshow(closing, cmap="gray")
```

### Aplicaciones
- Rellenar agujeros pequeños en objetos
- Conectar componentes ligeramente separados
- Suavizar contornos de objetos

---

## 28. Comparación de Operaciones Morfológicas

### Tabla Comparativa

| Operación | Secuencia | Efecto Principal | Uso Principal |
|-----------|-----------|------------------|---------------|
| **Dilatación** | N/A | Agranda objetos blancos | Conectar componentes |
| **Erosión** | N/A | Reduce objetos blancos | Eliminar ruido pequeño |
| **Apertura** | Erosión → Dilatación | Elimina ruido externo | Limpieza de fondo |
| **Cierre** | Dilatación → Erosión | Rellena agujeros internos | Completar objetos |


---

## 29. Elementos Estructurantes (Kernels)

### Importancia del Tamaño del Kernel
El tamaño del kernel determina qué tan agresiva es la operación morfológica:

**Kernel pequeño** (ej. 3×3):
- Cambios sutiles
- Preserva detalles finos
- Elimina solo ruido muy pequeño

**Kernel grande** (ej. 13×13):
- Cambios pronunciados
- Puede eliminar detalles importantes
- Elimina ruido y objetos más grandes

### Formas de Kernels

```python
# Kernel cuadrado (más común)
kernel_square = np.ones((5, 5), np.uint8)

# Kernel rectangular
kernel_rect = np.ones((3, 7), np.uint8)

# Kernel circular (usando cv2.getStructuringElement)
kernel_circle = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5))

# Kernel en forma de cruz
kernel_cross = cv2.getStructuringElement(cv2.MORPH_CROSS, (5, 5))
```

### Selección del Kernel Apropiado
- **Cuadrado/Rectangular**: Para objetos generales
- **Circular**: Para objetos redondeados
- **Cruz**: Para preservar esquinas y detalles lineales

---

## 30. Operaciones Morfológicas Adicionales

### Gradiente Morfológico
Diferencia entre dilatación y erosión:

```python
gradient = cv2.morphologyEx(image, cv2.MORPH_GRADIENT, kernel)
```

**Uso**: Detecta los contornos de objetos.

### Top Hat
Diferencia entre imagen original y su apertura:

```python
tophat = cv2.morphologyEx(image, cv2.MORPH_TOPHAT, kernel)
```

**Uso**: Extrae elementos pequeños más brillantes que el fondo.

### Black Hat
Diferencia entre cierre de imagen y la imagen original:

```python
blackhat = cv2.morphologyEx(image, cv2.MORPH_BLACKHAT, kernel)
```

**Uso**: Extrae elementos pequeños más oscuros que el fondo.

---

## 31. Conceptos Clave de Operaciones Morfológicas

### Principios Fundamentales

1. **Imágenes binarias**: Las operaciones morfológicas funcionan mejor en imágenes binarias (blanco y negro)

2. **Elemento estructurante**: El kernel define la vecindad y forma de la operación

3. **Iteraciones**: Repetir operaciones amplifica su efecto

4. **Orden importa**: La secuencia de operaciones (apertura vs cierre) produce resultados diferentes

### Consejos Prácticos

1. **Preprocesamiento**: Convertir imagen a binaria antes de aplicar operaciones morfológicas
    ```python
    _, binary = cv2.threshold(gray_image, 127, 255, cv2.THRESH_BINARY)
    ```

2. **Experimentar con tamaños**: Probar diferentes tamaños de kernel para encontrar el óptimo

3. **Combinar operaciones**: Usar secuencias de operaciones para mejores resultados

4. **Visualizar pasos intermedios**: Ayuda a entender el efecto de cada operación

### Aplicaciones Prácticas

- **Reconocimiento de caracteres (OCR)**: Limpiar texto escaneado
- **Análisis de documentos**: Eliminar ruido de escaneos
- **Visión médica**: Procesar imágenes de rayos X y MRI
- **Inspección industrial**: Detectar defectos en productos
- **Segmentación**: Mejorar resultados de detección de objetos

---


## 32. Histogramas en Procesamiento de Imágenes

### Definición
Un histograma representa la **distribución de intensidades de píxeles** (ya sea en color o escala de grises) en una imagen. Se visualiza como un gráfico que proporciona una intuición de alto nivel sobre la distribución de intensidades (valores de píxeles).

**Propósito**: Analizar y comprender las características de brillo, contraste y distribución de intensidad de una imagen.

### Componentes del Histograma

#### Bins (Contenedores)
- Son "cestas" que cuentan el número de entradas con valores dentro del rango del bin
- El número de bins determina la granularidad del histograma
- **256 bins**: Cuenta cada valor de píxel individualmente (0-255)
- **2 bins**: Agrupa píxeles en rangos [0, 128) y [128, 255]

#### Ejes del Histograma
- **Eje X**: Valores de intensidad (bins) - rango 0-255
- **Eje Y**: Frecuencia (número de píxeles con cada intensidad)

### Tipos de Histogramas

#### Histograma 1D
Para arrays unidimensionales o imágenes en escala de grises:

```python
def histogram_1D(data, bins):
    hist_values = [0] * bins
    # Iterar sobre los datos y contar valores en cada bin
    for value in data:
        bin_index = int(value * bins)
        hist_values[bin_index] += 1
    return hist_values
```

#### Histograma 2D (Imagen en Escala de Grises)
Para imágenes de un solo canal:

```python
def histogram_2D(image, bins):
    hist_values = [0] * bins
    h, w = image.shape
    
    for j in range(h):
        for i in range(w):
            hist_values[int(image[j, i])] += 1
    
    return hist_values
```

---

## 33. Histogramas con OpenCV

### Función cv2.calcHist()

```python
hist = cv2.calcHist([image], [0], None, [256], [0, 256])
```

**Parámetros**:
1. **images**: La imagen para calcular el histograma (como lista: `[myImage]`)
2. **channels**: Lista de índices de canales
   - `[0]`: Canal 0 (escala de grises o primer canal)
   - `[0, 1, 2]`: Todos los canales RGB
3. **mask**: Máscara opcional para calcular histograma solo en región específica (`None` para toda la imagen)
4. **histSize**: Número de bins (lista: `[256]` para 256 bins)
5. **ranges**: Rango de valores posibles (normalmente `[0, 256]` para cada canal)

### Visualización de Histogramas

```python
# Histograma de imagen en escala de grises
image = cv2.imread('imagen.jpg')
image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
hist = cv2.calcHist([image], [0], None, [256], [0, 256])

f, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 10))
ax1.imshow(image, cmap='gray')
ax2.plot(hist)
```

---

## 34. Histogramas de Imágenes en Color

### Cálculo por Canal

```python
# Separar canales RGB
bins = 256
histogram_values_r = histogram_2D(image[:, :, 0], bins)
histogram_values_g = histogram_2D(image[:, :, 1], bins)
histogram_values_b = histogram_2D(image[:, :, 2], bins)

# Visualizar con colores correspondientes
plt.plot(histogram_values_r, color="red")
plt.plot(histogram_values_g, color="green")
plt.plot(histogram_values_b, color="blue")
plt.show()
```

### Interpretación de Histogramas de Color

**Ejemplo de imagen de playa**:
- **Pico agudo en verde (bin ~100)**: Vegetación y árboles oscuros
- **Muchos píxeles azules (170-225)**: Cielo azul claro
- **Píxeles azules (25-50)**: Océano oscuro

### Información del Histograma

Al examinar un histograma, puedes obtener información sobre:
- **Contraste**: Distribución amplia = alto contraste
- **Brillo**: Posición del pico principal
- **Distribución de intensidad**: Forma general del histograma

---

## 35. Aplicaciones de Histogramas

### 1. Determinación de Umbrales

Los histogramas ayudan a encontrar puntos apropiados para umbralización:

```python
# Analizar histograma para encontrar valor de umbral
hist = cv2.calcHist([image], [0], None, [256], [0, 256])

# Aplicar umbral basado en análisis del histograma
_, image_binary = cv2.threshold(image, 130, 255, cv2.THRESH_BINARY)
```

**Uso**: Identificar valores que separan diferentes regiones del histograma.

### 2. Evaluación de Calidad de Imagen

- **Histograma estrecho**: Imagen de bajo contraste
- **Histograma amplio**: Imagen de alto contraste
- **Picos múltiples**: Diferentes regiones de intensidad bien definidas

---

## 36. Ecualización de Histograma (Histogram Equalization)

### Definición
La ecualización de histograma mejora el **contraste de una imagen** mediante el "estiramiento" de la distribución de píxeles.

**Concepto**: Redistribuye las intensidades de píxeles para que cubran todo el rango disponible (0-255).

### Funcionamiento
- Toma un histograma con un pico grande en el centro
- "Estira" el pico hacia las esquinas de la imagen
- Mejora el contraste global de la imagen

### Cuándo Usar Ecualización de Histograma

**Útil para**:
- Imágenes con fondos y primer planos ambos oscuros o ambos claros
- Imágenes médicas (rayos X, MRI, tomografías)
- Imágenes satelitales
- Imágenes con bajo contraste general

**Limitaciones**:
- Puede producir efectos poco realistas en fotografías normales
- Mejor para aplicaciones técnicas que para fotografía artística

### Implementación Básica

```python
# Ecualización en imagen de escala de grises
image = cv2.imread('imagen.jpg')
image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# Aplicar ecualización
eq = cv2.equalizeHist(image)

# Visualizar comparación
f, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 10))
ax1.imshow(image, cmap='gray')
ax2.imshow(eq, cmap='gray')
```

---

## 37. Ecualización de Histograma en Imágenes RGB

### Aplicación por Canal

```python
# Leer imagen en color
image = cv2.imread('beach.png')
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# Separar canales
R, G, B = cv2.split(image)

# Ecualizar cada canal individualmente
eq_R = cv2.equalizeHist(R)
eq_G = cv2.equalizeHist(G)
eq_B = cv2.equalizeHist(B)

# Combinar canales ecualizados
image_eq = cv2.merge([eq_R, eq_G, eq_B])
```

### Ecualización Selectiva

Puedes ecualizar solo ciertos canales para efectos específicos:

```python
# Ecualizar solo el canal verde
image_eq_g = cv2.merge([R, eq_G, B])
```

---

## 38. Ecualización de Histograma en Espacio HSV

### Ventajas de HSV para Ecualización

La ecualización en espacio HSV es más efectiva que en RGB porque:
- Separa información de color (Hue) del brillo (Value)
- Permite manipular contraste sin afectar colores
- Produce resultados más naturales

### Ecualización del Canal Hue (H)

**Beneficios**:
1. **Reducir dominancia de color**: Elimina tonos dominantes no naturales
2. **Mejorar contraste de color**: Hace la gama de colores más uniforme
3. **Mejorar discriminación de color**: Hace diferencias sutiles más pronunciadas

### Ecualización del Canal Saturación (S)

**Beneficios**:
1. **Reducir saturación excesiva**: Hace colores vibrantes más naturales
2. **Realzar colores sutiles**: Hace diferencias de saturación más visibles
3. **Mejorar armonía de color**: Balancea la intensidad de colores

### Ecualización del Canal Valor (V)

**Beneficios**:
1. **Mejorar brillo general**: Corrige iluminación desigual
2. **Mejorar contraste**: Distribuye mejor los niveles de brillo
3. **Reducir ruido**: Hace los niveles de brillo más consistentes

---

## 39. Algoritmo de Ecualización de Histograma

### Pasos del Algoritmo

#### 1. Calcular Histograma Normalizado
Normalización dividiendo la frecuencia de cada bin por el número total de píxeles:

$$P_x(i) = \frac{\text{frecuencia}(i)}{\text{total\_pixeles}}$$

#### 2. Función de Distribución Acumulativa (CDF)
Calcular la suma acumulativa del histograma normalizado:

$$\text{CDF}(j) = \sum_{i=0}^j P_x(i)$$

#### 3. Tabla de Mapeo de Intensidad
Mapear nuevas intensidades de píxeles para cada nivel discreto de intensidad i:

$$\text{mapped\_pixel\_value}(i) = (L-1) \times \text{CDF}(i)$$

Donde L = 256 para representación típica de 8 bits.

#### 4. Transformar Imagen Original
Crear nueva imagen aplicando la tabla de mapeo a cada píxel.

### Implementación Manual

```python
def histogram_equalization(image):
    # 1. Calcular histograma
    hist, _ = np.histogram(image.flatten(), 256, [0, 256])
    
    # 2. Normalizar histograma
    hist_normalized = hist / hist.sum()
    
    # 3. Calcular CDF
    cdf = hist_normalized.cumsum()
    
    # 4. Crear tabla de mapeo
    lookup_table = np.uint8((256 - 1) * cdf)
    
    # 5. Aplicar transformación
    equalized_image = lookup_table[image]
    
    return equalized_image
```

---

## 40. Análisis de Histogramas

### Visualización Comparativa

```python
# Comparar imagen original y ecualizada con sus histogramas
image = cv2.imread('imagen.jpg', 0)
eq = cv2.equalizeHist(image)

hist_original = cv2.calcHist([image], [0], None, [256], [0, 256])
hist_eq = cv2.calcHist([eq], [0], None, [256], [0, 256])

f, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 10))

ax1.set_title('Imagen Original')
ax1.imshow(image, cmap='gray')

ax2.set_title('Histograma Original')
ax2.plot(hist_original)

ax3.set_title('Imagen Ecualizada')
ax3.imshow(eq, cmap='gray')

ax4.set_title('Histograma Ecualizado')
ax4.plot(hist_eq)
```

---

## 41. Conceptos Clave de Histogramas

### Principios Fundamentales

1. **Distribución de intensidad**: El histograma muestra cómo se distribuyen los valores de píxeles

2. **Bins**: Determinan la granularidad del análisis de distribución

3. **Normalización**: Permite comparar histogramas de imágenes de diferentes tamaños

4. **CDF**: La función de distribución acumulativa es clave para ecualización

### Análisis Visual

**Histograma con pico a la izquierda**:
- Imagen oscura
- Muchos píxeles de baja intensidad

**Histograma con pico a la derecha**:
- Imagen brillante
- Muchos píxeles de alta intensidad

**Histograma centrado**:
- Brillo equilibrado
- Buena distribución de intensidades

**Histograma bimodal**:
- Dos regiones distintas
- Útil para umbralización

### Consejos Prácticos

1. **Analizar antes de procesar**: Examinar el histograma antes de aplicar transformaciones

2. **Ecualizar selectivamente**: No siempre es necesario ecualizar todos los canales

3. **Considerar el contexto**: La ecualización puede no ser apropiada para todas las imágenes

4. **Combinar con otras técnicas**: Usar filtros de suavizado antes de ecualizar para reducir ruido

5. **Validar resultados**: Comparar histogramas y visualizaciones antes y después

### Aplicaciones Prácticas

- **Mejora de imágenes médicas**: Resaltar detalles en rayos X y MRI
- **Procesamiento de imágenes satelitales**: Mejorar contraste en imágenes de sensores remotos
- **Visión nocturna**: Mejorar visibilidad en condiciones de baja luz
- **Reconocimiento de patrones**: Pre-procesamiento para algoritmos de detección
- **Fotografía forense**: Revelar detalles ocultos en evidencia fotográfica

---


## 42. PyTorch Lightning: Framework para Deep Learning

### Definición
PyTorch Lightning es un framework de deep learning construido sobre PyTorch que organiza el código para eliminar código repetitivo (boilerplate) y permitir escalabilidad máxima. Está diseñado para investigadores de IA profesionales e ingenieros de machine learning que necesitan máxima flexibilidad.

**Objetivo**: Estructurar código PyTorch de manera profesional, separando la lógica de investigación de la ingeniería de software.

### Ventajas de PyTorch Lightning

1. **Organización de código**: Estructura clara mediante métodos del ciclo de vida
2. **Eliminación de boilerplate**: El framework maneja loops de entrenamiento, backpropagation, optimización
3. **Escalabilidad**: Soporte nativo para GPUs, TPUs, entrenamiento distribuido
4. **Reproducibilidad**: Facilita la creación de experimentos reproducibles
5. **Callbacks y logging**: Sistema integrado para monitoreo y checkpoints

---


## 44. LightningModule: Estructura Base

### Definición
`LightningModule` es la clase base para construir modelos en PyTorch Lightning. Es equivalente a `nn.Module` de PyTorch pero con métodos adicionales del ciclo de vida.

**Concepto**: Separa la lógica del modelo de los detalles de entrenamiento, haciendo el código más modular y mantenible.

### Métodos Esenciales del Ciclo de Vida

#### 1. `__init__()`
Inicializa el modelo, define capas y estructuras de datos:

```python
def __init__(self, model):
    super().__init__()
    self.model = model
    self.history = {
        'epochs': [],
        'loss': []
    }
```

#### 2. `forward()`
Define cómo los datos pasan a través del modelo:

```python
def forward(self, x):
    return self.model(x)
```

**Propósito**: Actúa como mapper entre capas y funciones de activación.

#### 3. `training_step()`
Define un paso de entrenamiento (obligatorio):

```python
def training_step(self, batch, batch_idx):
    x, y = batch
    y_hat = self.forward(x)
    loss = nn.functional.mse_loss(y_hat, y)
    self.log("train_loss", loss)
    return loss
```

**Parámetros**:
- `batch`: Tupla de (features, targets) del DataLoader
- `batch_idx`: Índice del batch actual

#### 4. `configure_optimizers()`
Define el optimizador para el modelo (obligatorio):

```python
def configure_optimizers(self):
    optimizer = optim.Adam(self.parameters(), lr=1e-2)
    return optimizer
```

---

## 45. Preparación de Datos con PyTorch

### TensorDataset

Wrapper para crear datasets a partir de tensores:

```python
# Crear tensores de entrada y etiquetas
and_input = torch.Tensor([[0.,0.], [0.,1.], [1.,0.], [1., 1.]])
and_labels = torch.Tensor([[0.],[1.], [1.], [0.]])

# Crear dataset que envuelve los tensores
and_data = TensorDataset(and_input, and_labels)
```

**Funcionamiento**: Cada muestra se recupera indexando los tensores a lo largo de la primera dimensión.

### DataLoader

Combina un dataset con un sampler, proporcionando un iterable sobre el dataset:

```python
train_loader = DataLoader(and_data, batch_size=4, shuffle=True)

# Iterar sobre el dataset
for data in train_loader.dataset:
    print(data)
```

**Parámetros importantes**:
- `batch_size`: Número de muestras por batch
- `shuffle`: Si mezclar los datos en cada epoch
- `num_workers`: Procesos para carga de datos en paralelo

---

## 46. Construcción de Modelos: Operador AND/XOR

### Problema XOR
El operador XOR (OR exclusivo) es un problema clásico que no puede resolverse con un perceptrón simple. Requiere una red neuronal con capas ocultas para aprender la relación entre entradas y salidas.

**Importancia histórica**: Demuestra la necesidad de redes neuronales multicapa.

### Arquitectura del Modelo AND

```python
# Stack de capas para operador AND
and_layers = nn.Sequential(
    nn.Linear(2, 2),      # Capa de entrada a oculta
    nn.Sigmoid(),          # Activación
    nn.Linear(2, 1),      # Capa oculta a salida
    nn.Sigmoid()           # Activación de salida
)

# Crear modelo Lightning
and_model = ANDModel(and_layers)
```

**Componentes**:
- **Entrada**: 2 neuronas (valores binarios)
- **Capa oculta**: 2 neuronas con activación Sigmoid
- **Salida**: 1 neurona con activación Sigmoid

---

## 47. Clase Trainer de PyTorch Lightning

### Definición
La clase `Trainer` es una abstracción que maneja todo el código boilerplate de entrenamiento:
- Loops sobre el dataset
- Backpropagation
- Limpieza de gradientes
- Paso del optimizador

### Configuración Básica

```python
# Crear callback para guardar checkpoints
checkpoint_callback = ModelCheckpoint()

# Inicializar trainer
trainer = L.Trainer(
    max_epochs=1000,
    callbacks=[checkpoint_callback]
)
```

**Parámetros comunes**:
- `max_epochs`: Número máximo de épocas
- `callbacks`: Lista de callbacks para funcionalidad adicional
- `accelerator`: Tipo de hardware ('cpu', 'gpu', 'tpu')
- `devices`: Número de dispositivos a usar

### Entrenamiento del Modelo

```python
# Entrenar modelo
trainer.fit(model=and_model, train_dataloaders=train_loader)
```

**Proceso automático**:
1. Itera sobre épocas
2. Para cada batch: forward pass, cálculo de pérdida, backward pass
3. Actualiza pesos con el optimizador
4. Registra métricas

---

## 48. Inferencia y Predicciones

### Context Manager torch.no_grad()

Desactiva el cálculo de gradientes para inferencia:

```python
with torch.no_grad():
    test_output = and_model(and_input)
    for prediction in zip(and_input, test_output):
        print(f'Input: {prediction[0]} Prediction: {prediction[1]}')
```

**Ventajas**:
- Reduce consumo de memoria
- Acelera computación
- Útil cuando no se necesita backpropagation

**Funcionamiento**: `requires_grad=False` para todos los tensores dentro del contexto.

---

## 49. Checkpoints y Guardado de Modelos

### ModelCheckpoint Callback

Guarda el modelo periódicamente durante el entrenamiento:

```python
checkpoint_callback = ModelCheckpoint()

# Obtener ruta del mejor modelo
print(checkpoint_callback.best_model_path)
```

**Características**:
- Guarda automáticamente en `lightning_logs/`
- Versiona los experimentos
- Permite recuperar el mejor modelo según métricas

### Cargar Modelo desde Checkpoint

```python
# Cargar modelo entrenado
trained_model = ANDModel.load_from_checkpoint(
    checkpoint_callback.best_model_path,
    model=and_layers
)
```

**Uso**: Recuperar modelos entrenados para inferencia o continuar entrenamiento.

---

## 50. Predicciones con DataLoader

### Inferencia en Batches

```python
# Crear DataLoader de prueba
test_data = torch.utils.data.DataLoader(and_input, batch_size=1)

# Hacer predicciones
with torch.no_grad():
    for tensor in test_data:
        prediction = trained_model(tensor)
        print(f'Input: {tensor} Prediction: {prediction}')
```

**Ventajas**:
- Procesamiento eficiente de grandes conjuntos de datos
- Consistencia con pipeline de entrenamiento

---

## 51. Monitoreo y Visualización

### Registro de Métricas con self.log()

```python
def training_step(self, batch, batch_idx):
    x, y = batch
    y_hat = self.forward(x)
    loss = nn.functional.mse_loss(y_hat, y)
    
    # Registrar métrica
    self.log("train_loss", loss)
    return loss
```

**Funcionamiento**: Automáticamente registra métricas para TensorBoard y otros loggers.

### Historial Personalizado

```python
# Almacenar datos de entrenamiento
self.history['epochs'].append(self.current_epoch)
self.history['loss'].append(loss.detach().numpy())
```

### Visualización de Pérdida

```python
# Extraer datos del historial
epochs = and_model.history['epochs']
loss = and_model.history['loss']

# Crear gráfica
fig, ax = plt.subplots(1, 1, figsize=(5, 5))
ax.plot(epochs, loss, label="Training loss")
ax.set_xlabel('Epochs')
ax.set_ylabel('Loss')
ax.set_title("Training Loss")
ax.legend(loc='upper right')
```

---

## 52. Función de Pérdida MSE

### Mean Squared Error (MSE)

Función de pérdida comúnmente usada para regresión:

```python
loss = nn.functional.mse_loss(y_hat, y)
```

**Fórmula**:
$$\text{MSE} = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2$$

**Características**:
- Penaliza errores grandes más que pequeños
- Siempre positiva
- Diferenciable (útil para backpropagation)

---

## 53. Estructura de un Proyecto con Lightning

### Ejemplo Completo: Operador AND

```python
import torch
from torch import nn, optim
from torch.utils.data import DataLoader, TensorDataset
import lightning as L
from lightning.pytorch.callbacks import ModelCheckpoint

# 1. Definir datos
and_input = torch.Tensor([[0.,0.], [0.,1.], [1.,0.], [1., 1.]])
and_labels = torch.Tensor([[0.],[0.], [0.], [1.]])
and_data = TensorDataset(and_input, and_labels)
train_loader = DataLoader(and_data, batch_size=4, shuffle=True)

# 2. Definir modelo
class ANDModel(L.LightningModule):
    def __init__(self, model):
        super().__init__()
        self.model = model
        self.history = {'epochs': [], 'loss': []}
    
    def forward(self, x):
        return self.model(x)
    
    def training_step(self, batch, batch_idx):
        x, y = batch
        y_hat = self.forward(x)
        loss = nn.functional.mse_loss(y_hat, y)
        self.log("train_loss", loss)
        return loss
    
    def configure_optimizers(self):
        return optim.Adam(self.parameters(), lr=1e-2)

# 3. Crear arquitectura
and_layers = nn.Sequential(
    nn.Linear(2, 2),
    nn.Sigmoid(),
    nn.Linear(2, 1),
    nn.Sigmoid()
)

# 4. Inicializar y entrenar
and_model = ANDModel(and_layers)
checkpoint_callback = ModelCheckpoint()
trainer = L.Trainer(max_epochs=1000, callbacks=[checkpoint_callback])
trainer.fit(model=and_model, train_dataloaders=train_loader)

# 5. Evaluar
with torch.no_grad():
    predictions = and_model(and_input)
```

---

## 54. Conceptos Clave de PyTorch Lightning

### Principios Fundamentales

1. **Separación de conceptos**: Investigación (modelo) vs. ingeniería (entrenamiento)
2. **Métodos del ciclo de vida**: Estructura predecible y mantenible
3. **Abstracción del entrenamiento**: Trainer maneja detalles de bajo nivel
4. **Callbacks**: Extensibilidad sin modificar código del modelo

### Diferencias PyTorch vs PyTorch Lightning

| Aspecto | PyTorch | PyTorch Lightning |
|---------|---------|-------------------|
| **Loops de entrenamiento** | Manual | Automático (Trainer) |
| **Estructura** | Flexible, menos guiada | Organizada con métodos del ciclo de vida |
| **Backpropagation** | Manual (.backward()) | Automática |
| **Logging** | Manual | Integrado (self.log()) |
| **Checkpoints** | Manual | Automático (callbacks) |
| **Multi-GPU** | Requiere configuración | Automático con parámetro |

### Ventajas para Investigación

1. **Reproducibilidad**: Código estructurado facilita reproducir experimentos
2. **Escalabilidad**: Fácil migración de CPU a GPU/TPU
3. **Experimentación rápida**: Menos código boilerplate permite iterar más rápido
4. **Colaboración**: Estructura estándar facilita compartir código

---

## 55. Consejos Prácticos con PyTorch Lightning

### Mejores Prácticas

1. **Organizar hiperparámetros**: Usar `self.save_hyperparameters()` en `__init__()`
   ```python
   def __init__(self, learning_rate=1e-3):
       super().__init__()
       self.save_hyperparameters()
   ```

2. **Validación**: Implementar `validation_step()` para monitorear overfitting
   ```python
   def validation_step(self, batch, batch_idx):
       x, y = batch
       y_hat = self.forward(x)
       loss = nn.functional.mse_loss(y_hat, y)
       self.log("val_loss", loss)
       return loss
   ```

3. **Early stopping**: Usar callback para detener entrenamiento automáticamente
   ```python
   from lightning.pytorch.callbacks import EarlyStopping
   early_stop = EarlyStopping(monitor="val_loss", patience=3)
   ```

4. **Logging estructurado**: Usar TensorBoard o Weights & Biases
   ```python
   from lightning.pytorch.loggers import TensorBoardLogger
   logger = TensorBoardLogger("logs", name="my_model")
   trainer = L.Trainer(logger=logger)
   ```

### Aplicaciones Prácticas

- **Clasificación de imágenes**: CNNs para visión por computadora
- **Procesamiento de lenguaje natural**: Transformers y RNNs
- **Redes Generativas**: GANs y VAEs
- **Reinforcement Learning**: Algoritmos de aprendizaje por refuerzo
- **Investigación**: Prototipado rápido de arquitecturas nuevas

---


## Clasificación de Dígitos con PyTorch Lightning

### 1. Clasificación Multi-clase

La clasificación de dígitos es un problema de clasificación multi-clase donde se busca identificar imágenes en escala de grises de dígitos manuscritos (28 × 28 píxeles) en 10 categorías (0 a 9) utilizando el conjunto de datos MNIST.

### 2. Importaciones Básicas

Es fundamental importar las bibliotecas necesarias para el manejo de datos, visualización y construcción de modelos. Las bibliotecas clave incluyen:
- `torch`: Para la construcción de modelos y operaciones tensoriales.
- `torchvision`: Para cargar y transformar conjuntos de datos como MNIST y CIFAR10.
- `lightning`: Para facilitar la estructura y entrenamiento de modelos en PyTorch.

### 3. Carga y Visualización de Datos

La carga de datos se realiza utilizando `torchvision.datasets`, y es importante visualizar los datos para entender su distribución y características. Esto se puede hacer utilizando `matplotlib` para mostrar imágenes y sus etiquetas.

### 4. Preparación de Datos

Se utilizan `DataLoader` y `TensorDataset` para manejar los datos de manera eficiente. Esto permite dividir los datos en lotes y mezclar los datos durante el entrenamiento.

### 5. Definición del Modelo

Se define un modelo utilizando `LightningModule`, que organiza el código y separa la lógica del modelo de los detalles de entrenamiento. Los métodos esenciales incluyen:
- `__init__()`: Inicializa el modelo y define las capas.
- `forward()`: Define cómo los datos pasan a través del modelo.
- `training_step()`: Define un paso de entrenamiento y calcula la pérdida.
- `configure_optimizers()`: Configura el optimizador para el modelo.

### 6. Entrenamiento del Modelo

El entrenamiento se realiza utilizando la clase `Trainer` de PyTorch Lightning, que maneja automáticamente los bucles de entrenamiento, la retropropagación y el registro de métricas. Se pueden utilizar callbacks como `ModelCheckpoint` para guardar el modelo durante el entrenamiento.

### 7. Evaluación y Predicciones

Después de entrenar el modelo, se evalúa su rendimiento utilizando un conjunto de datos de prueba. Se pueden realizar predicciones y visualizar los resultados para entender cómo el modelo clasifica las imágenes.

### 8. Redes Neuronales Convolucionales (CNN)

Se introduce el concepto de redes neuronales convolucionales, que son más efectivas para el procesamiento de imágenes. Las CNN aprenden patrones locales en las imágenes y son capaces de reconocer características complejas a través de múltiples capas.

### 9. Implementación de CNN

Se define una arquitectura de CNN utilizando `torch.nn.Sequential`, que incluye capas convolucionales, capas de normalización y capas completamente conectadas. Se entrena el modelo de la misma manera que se haría con un modelo denso, pero aprovechando las ventajas de las CNN.

### 10. Visualización de Resultados

Es importante visualizar las métricas de entrenamiento y validación, así como las predicciones del modelo en un conjunto de datos de prueba. Esto ayuda a entender el rendimiento del modelo y a identificar áreas de mejora.

### 11. Desafío

Se propone un desafío para aplicar los conceptos aprendidos en el conjunto de datos CIFAR10, que es más complejo y requiere ajustes en la arquitectura del modelo y en el proceso de entrenamiento.


---

## Entrenamiento de una ConvNet desde Cero en un Conjunto de Datos Pequeño

### 1. Introducción a la Clasificación de Imágenes

La clasificación de imágenes es una tarea fundamental en visión por computadora, donde el objetivo es asignar una etiqueta a una imagen basada en su contenido. Este proceso se vuelve desafiante cuando se dispone de un conjunto de datos pequeño, lo que es común en aplicaciones del mundo real.

### 2. Preparación del Conjunto de Datos

#### 2.1. Estructura del Conjunto de Datos
El conjunto de datos utilizado en este ejemplo contiene imágenes de dos clases: gatos y perros. Se organiza en carpetas, donde cada carpeta representa una clase. La correcta organización es crucial para que el modelo pueda aprender de manera efectiva.

#### 2.2. División de Datos
Los datos se dividen en conjuntos de entrenamiento, validación y prueba. Esta división permite evaluar el rendimiento del modelo en datos no vistos y ajustar hiperparámetros durante el entrenamiento.

### 3. Importaciones y Configuración Inicial

Se utilizan varias bibliotecas para facilitar el proceso de entrenamiento, incluyendo:
- **PyTorch**: Para la construcción y entrenamiento del modelo.
- **Torchvision**: Para la manipulación de imágenes y conjuntos de datos.
- **Lightning**: Para simplificar el proceso de entrenamiento y gestión de experimentos.

### 4. Transformaciones de Imágenes

Las transformaciones son esenciales para preparar las imágenes antes de ser alimentadas al modelo. Estas pueden incluir:
- **Redimensionamiento**: Ajustar las imágenes a un tamaño uniforme.
- **Normalización**: Escalar los valores de píxeles para mejorar la convergencia del modelo.
- **Aumento de Datos**: Aplicar transformaciones aleatorias para aumentar la diversidad del conjunto de entrenamiento y reducir el sobreajuste.


### 5. Creación del Modelo

#### 5.1. Arquitectura de la Red
Se define una red neuronal convolucional (CNN) que consiste en varias capas convolucionales seguidas de capas de agrupamiento (pooling). Esta arquitectura permite extraer características jerárquicas de las imágenes.

#### 5.2. Definición del Modelo en PyTorch Lightning
El modelo se encapsula en una clase que hereda de `LightningModule`, lo que permite organizar el código y separar la lógica del modelo de los detalles del entrenamiento.

### 6. Entrenamiento del Modelo

#### 6.1. Configuración del Entrenador
Se utiliza la clase `Trainer` de PyTorch Lightning para manejar el ciclo de entrenamiento. Esto incluye la gestión de épocas, el registro de métricas y la optimización de parámetros.

#### 6.2. Monitoreo de Métricas
Durante el entrenamiento, se registran métricas como la pérdida y la precisión para evaluar el rendimiento del modelo. Esto permite realizar ajustes en tiempo real y mejorar la calidad del modelo.

### 7. Evaluación del Modelo

Después del entrenamiento, se evalúa el modelo utilizando el conjunto de prueba. Se calcula la precisión y se visualizan las predicciones para entender cómo el modelo clasifica las imágenes.

### 8. Desafío Práctico

Se propone un desafío para aplicar los conceptos aprendidos en un nuevo conjunto de datos, como el de mariposas de Kaggle. Esto permite a los estudiantes practicar y consolidar su comprensión de los temas tratados.

### 9. Conclusiones

El entrenamiento de una ConvNet desde cero en un conjunto de datos pequeño es un proceso que requiere atención a la preparación de datos, la arquitectura del modelo y el monitoreo de métricas. Con las herramientas adecuadas, es posible construir modelos efectivos incluso con recursos limitados.

## Mejora de Modelos de Visión por Computadora

### 1. Introducción a la Mejora de Modelos
La mejora de modelos en visión por computadora se centra en optimizar el rendimiento de los algoritmos de aprendizaje automático. Esto incluye técnicas para mejorar la precisión, reducir el sobreajuste y aumentar la generalización del modelo.

### 2. Preprocesamiento de Imágenes
El preprocesamiento es crucial para preparar los datos antes de ser alimentados al modelo. Las técnicas comunes incluyen:
- **Redimensionamiento**: Ajustar las imágenes a un tamaño uniforme para asegurar que todas las entradas tengan la misma dimensión.
- **Normalización**: Escalar los valores de píxeles para que estén en un rango específico, lo que ayuda a la convergencia del modelo.
- **Aumento de Datos**: Aplicar transformaciones aleatorias (como rotaciones, recortes y cambios de brillo) para aumentar la diversidad del conjunto de entrenamiento y reducir el riesgo de sobreajuste.

### 3. Arquitectura de Redes Neuronales
Las redes neuronales convolucionales (CNN) son fundamentales en la mejora de modelos de visión por computadora. Las CNN están diseñadas para reconocer patrones en imágenes a través de capas convolucionales que extraen características jerárquicas. Los componentes clave incluyen:
- **Capas Convolucionales**: Extraen características locales de las imágenes.
- **Capas de Agrupamiento (Pooling)**: Reducen la dimensionalidad y ayudan a mantener las características más relevantes.
- **Capas Completamente Conectadas**: Realizan la clasificación final basándose en las características extraídas.

### 4. Técnicas de Regularización
Para evitar el sobreajuste, se pueden aplicar varias técnicas de regularización:
- **Dropout**: Desactiva aleatoriamente un porcentaje de neuronas durante el entrenamiento para prevenir que el modelo dependa demasiado de ciertas características.
- **Regularización L2**: Añade un término de penalización a la función de pérdida para controlar el tamaño de los pesos del modelo.

### 5. Optimización de Hiperparámetros
La optimización de hiperparámetros es esencial para mejorar el rendimiento del modelo. Esto incluye ajustar parámetros como la tasa de aprendizaje, el tamaño del lote y el número de épocas. Técnicas como la búsqueda en cuadrícula y la búsqueda aleatoria son útiles para encontrar la mejor combinación de hiperparámetros.

### 6. Evaluación del Modelo
La evaluación del modelo se realiza utilizando métricas como la precisión, la recuperación y la puntuación F1. Es importante utilizar un conjunto de datos de prueba que no haya sido visto durante el entrenamiento para obtener una evaluación precisa del rendimiento del modelo.

### 7. Visualización de Resultados
La visualización de los resultados es crucial para entender cómo el modelo está funcionando. Esto puede incluir:
- **Matriz de Confusión**: Muestra el rendimiento del modelo en cada clase.
- **Curvas de Aprendizaje**: Muestran cómo la pérdida y la precisión cambian a lo largo del tiempo durante el entrenamiento.

### 8. Conclusiones
La mejora de modelos en visión por computadora es un proceso iterativo que implica la preparación de datos, la selección de la arquitectura adecuada, la optimización de hiperparámetros y la evaluación del rendimiento. Con un enfoque sistemático, es posible construir modelos robustos y precisos.

--- 


# **Pytorch**


---



## Introducción a PyTorch

### 1. ¿Qué es PyTorch?
PyTorch es una biblioteca de aprendizaje automático de código abierto que permite a los desarrolladores crear y entrenar modelos de aprendizaje profundo. Es conocida por su flexibilidad y facilidad de uso, lo que la convierte en una opción popular entre investigadores y desarrolladores.

### 2. Tensores
Los tensores son la estructura de datos fundamental en PyTorch. Son similares a los arrays de NumPy, pero pueden ser utilizados en GPUs para acelerar el cálculo. Los tensores pueden ser de diferentes dimensiones:
- **Escalar**: Un solo valor.
- **Vector**: Una lista de valores (1D).
- **Matriz**: Una tabla de valores (2D).
- **Tensor de N dimensiones**: Generalización de matrices a más dimensiones.

### 3. Operaciones con Tensores
PyTorch permite realizar diversas operaciones con tensores, como:
- **Aritmética**: Suma, resta, multiplicación y división.
- **Transposición**: Cambiar la forma de un tensor.
- **Reducción**: Operaciones como suma o promedio a lo largo de una dimensión.

### 4. Autograd
El módulo `autograd` de PyTorch permite la diferenciación automática. Esto significa que PyTorch puede calcular automáticamente los gradientes de los tensores, lo cual es esencial para el entrenamiento de modelos de aprendizaje profundo. Al definir un tensor con `requires_grad=True`, PyTorch rastrea todas las operaciones realizadas sobre él.

### 5. Construcción de Modelos
Los modelos en PyTorch se construyen utilizando la clase `nn.Module`. Esta clase permite definir la arquitectura del modelo, incluyendo las capas y la función de activación. Los pasos básicos son:
- **Definir el modelo**: Crear una clase que herede de `nn.Module`.
- **Inicializar capas**: Definir las capas en el método `__init__()`.
- **Definir el paso hacia adelante**: Implementar el método `forward()` para especificar cómo los datos fluyen a través del modelo.

### 6. Entrenamiento de Modelos
El proceso de entrenamiento en PyTorch implica:
- **Definir la función de pérdida**: Medir qué tan bien está funcionando el modelo.
- **Seleccionar un optimizador**: Actualizar los pesos del modelo basándose en los gradientes calculados.
- **Iterar sobre los datos**: Pasar los datos a través del modelo, calcular la pérdida, realizar la retropropagación y actualizar los pesos.

### 7. Evaluación del Modelo
Después del entrenamiento, es crucial evaluar el rendimiento del modelo utilizando un conjunto de datos de prueba. Las métricas comunes incluyen precisión, recuperación y puntuación F1. Esto ayuda a entender cómo se comporta el modelo en datos no vistos.

### 8. Visualización
La visualización de resultados es fundamental para interpretar el rendimiento del modelo. Herramientas como Matplotlib pueden ser utilizadas para graficar la pérdida y la precisión a lo largo de las épocas, así como para mostrar ejemplos de predicciones.

### 9. Conclusiones
PyTorch es una herramienta poderosa para el desarrollo de modelos de aprendizaje profundo. Su flexibilidad y facilidad de uso lo hacen ideal tanto para principiantes como para expertos. Comprender los conceptos clave, como tensores, autograd y la construcción de modelos, es esencial para aprovechar al máximo esta biblioteca.

--- 



## 56. PyTorch Workflow Fundamentals

### Definición
El flujo de trabajo de PyTorch es un conjunto de pasos estándar para construir, entrenar y evaluar modelos de machine learning y deep learning. Este workflow proporciona una estructura organizada que puede adaptarse según las necesidades del problema específico.

**Concepto central**: Machine learning y deep learning consisten en tomar datos del pasado, construir un algoritmo para descubrir patrones y usar esos patrones para predecir el futuro.

### Diagrama del Workflow de PyTorch

El workflow estándar de PyTorch incluye los siguientes pasos principales:

1. **Preparación de datos (Data)**
2. **Construcción del modelo (Build model)**
3. **Ajuste del modelo (Fitting the model)**
4. **Hacer predicciones (Making predictions)**
5. **Evaluación del modelo (Evaluating the model)**
6. **Mejorar mediante experimentación (Improve through experimentation)**
7. **Guardar y recargar el modelo (Save and reload the model)**

---

## 57. Preparación y Carga de Datos

### Concepto de "Datos" en Machine Learning

Los datos en machine learning pueden ser casi cualquier cosa:
- Tablas de números (como hojas de cálculo de Excel)
- Imágenes de cualquier tipo
- Videos
- Archivos de audio (canciones, podcasts)
- Estructuras de proteínas
- Texto

### Machine Learning como un Juego de Dos Partes

![Concepto clave](concepto)

**Parte 1**: Convertir tus datos (sean lo que sean) en números (una representación).

**Parte 2**: Elegir o construir un modelo para aprender la representación lo mejor posible.

### Creación de Datos: Regresión Lineal

```python
# Crear parámetros conocidos
weight = 0.7
bias = 0.3

# Crear datos
start = 0
end = 1
step = 0.02
X = torch.arange(start, end, step)
print(X.shape)  # torch.Size([50])

X = X.unsqueeze(dim=1)
print(X.shape)  # torch.Size([50, 1])

y = weight * X + bias

print(f"X:\n {X[:10]}")
print(f"X shape: {X.shape}")
print(f"y:\n {y[:10]}")
print(f"y shape: {y.shape}")
```

**Conceptos importantes**:
- `torch.arange()`: Crea un tensor con valores en un rango específico
- `.unsqueeze()`: Añade una dimensión al tensor
- Los parámetros `weight` y `bias` son valores conocidos que el modelo intentará aprender

### División de Datos: Training y Test Sets

Uno de los pasos más importantes en un proyecto de machine learning es crear conjuntos de entrenamiento y prueba.

#### Propósito de Cada División

| Split | Propósito | Cantidad de datos total | ¿Con qué frecuencia se usa? |
| ----- | --------- | ----------------------- | --------------------------- |
| **Training set** | El modelo aprende de estos datos (como los materiales de estudio durante el semestre) | ~60-80% | Siempre |
| **Validation set** | El modelo se ajusta con estos datos (como el examen de práctica antes del examen final) | ~10-20% | A menudo pero no siempre |
| **Testing set** | El modelo se evalúa con estos datos para probar lo que ha aprendido (como el examen final) | ~10-20% | Siempre |

#### Implementación de la División

```python
# Crear división train/test
train_split = int(0.8 * len(X))  # 80% para entrenamiento, 20% para pruebas
X_train, y_train = X[:train_split], y[:train_split]
X_test, y_test = X[train_split:], y[train_split:]

len(X_train), len(y_train), len(X_test), len(y_test)
# (40, 40, 10, 10)
```

**Importante**: En problemas del mundo real, esta división debe hacerse al inicio del proyecto. El conjunto de prueba debe mantenerse separado para evaluar qué tan bien el modelo **generaliza** a ejemplos no vistos.

### Visualización de Datos

```python
def plot_predictions(train_data=X_train,
                     train_labels=y_train,
                     test_data=X_test,
                     test_labels=y_test,
                     predictions=None):
    """
    Grafica datos de entrenamiento, datos de prueba y compara predicciones.
    """
    plt.figure(figsize=(10, 7))
    
    # Graficar datos de entrenamiento en azul
    plt.scatter(train_data, train_labels, c="b", s=4, label="Training data")
    
    # Graficar datos de prueba en verde
    plt.scatter(test_data, test_labels, c="g", s=6, label="Testing data")
    
    if predictions is not None:
        # Graficar predicciones en rojo
        plt.scatter(test_data, predictions, c="r", s=5, label="Predictions")
    
    # Mostrar leyenda
    plt.legend(prop={"size": 14})

plot_predictions()
```

**Lema del explorador de datos**: "visualizar, visualizar, visualizar!"

---

## 58. Construcción del Modelo

### Estructura Básica de un Modelo de PyTorch

```python
# Crear clase de modelo de Regresión Lineal
class LinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.weights = nn.Parameter(torch.randn(1,
                                                dtype=torch.float),
                                   requires_grad=True)
        
        self.bias = nn.Parameter(torch.randn(1,
                                            dtype=torch.float),
                                requires_grad=True)
    
    # Forward define la computación en el modelo
    def forward(self, x: torch.Tensor) -> torch.Tensor:
        return self.weights * x + self.bias
```

### Módulos Esenciales de PyTorch para Construcción de Modelos

| Módulo de PyTorch | ¿Qué hace? |
| ----------------- | ---------- |
| `torch.nn` | Contiene todos los bloques de construcción para grafos computacionales |
| `torch.nn.Parameter` | Almacena tensores que pueden usarse con `nn.Module`. Si `requires_grad=True`, los gradientes se calculan automáticamente (autograd) |
| `torch.nn.Module` | Clase base para todos los módulos de redes neuronales. Si construyes una red en PyTorch, tu modelo debe heredar de `nn.Module` |
| `torch.optim` | Contiene varios algoritmos de optimización |
| `def forward()` | Todos los subclases de `nn.Module` requieren un método `forward()` que define la computación |

### Componentes del Modelo Anotados

**Estructura**:
- `nn.Module`: Bloques de construcción más grandes (capas)
- `nn.Parameter`: Parámetros más pequeños como pesos y bias
- `forward()`: Define cómo hacer cálculos en las entradas dentro de `nn.Module`
- `torch.optim`: Métodos de optimización para mejorar parámetros

### Verificación del Contenido del Modelo

```python
# Establecer semilla manual
torch.manual_seed(42)

# Crear instancia del modelo
model_0 = LinearRegressionModel()

# Verificar los nn.Parameter dentro del modelo
list(model_0.parameters())
# [Parameter containing: tensor([0.3367], requires_grad=True),
#  Parameter containing: tensor([0.1288], requires_grad=True)]

# Obtener el estado del modelo
model_0.state_dict()
# OrderedDict([('weights', tensor([0.3367])),
#              ('bias', tensor([0.1288]))])
```

**Nota**: Los valores de `weights` y `bias` son aleatorios porque se inicializaron con `torch.randn()`. El modelo comenzará con valores aleatorios e intentará actualizarlos hacia los valores que mejor ajusten los datos.

### Hacer Predicciones con torch.inference_mode()

```python
# Hacer predicciones con el modelo
with torch.inference_mode():
    y_preds = model_0(X_test)

# Verificar predicciones
print(f"Número de muestras de prueba: {len(X_test)}")
print(f"Número de predicciones hechas: {len(y_preds)}")
print(f"Valores predichos:\n{y_preds}")
```

**torch.inference_mode()**:
- Context manager usado para hacer predicciones
- Desactiva funciones necesarias para entrenamiento pero no para inferencia
- Hace los forward-passes más rápidos

**Nota**: En código antiguo de PyTorch, también se puede ver `torch.no_grad()`. Aunque similares, `torch.inference_mode()` es más nuevo, potencialmente más rápido y preferido.

---

## 59. Entrenamiento del Modelo

### Función de Pérdida y Optimizador

Para que el modelo actualice sus parámetros por sí mismo, necesitamos:

#### 1. Función de Pérdida (Loss Function)

| Función | ¿Qué hace? | Dónde vive en PyTorch | Valores comunes |
| ------- | ---------- | --------------------- | --------------- |
| **Loss function** | Mide qué tan incorrectas son las predicciones del modelo comparadas con las etiquetas verdaderas | Muchas funciones integradas en `torch.nn` | MAE para regresión (`torch.nn.L1Loss()`), Binary cross entropy para clasificación binaria (`torch.nn.BCELoss()`) |

#### 2. Optimizador (Optimizer)

| Función | ¿Qué hace? | Dónde vive en PyTorch | Valores comunes |
| ------- | ---------- | --------------------- | --------------- |
| **Optimizer** | Le dice al modelo cómo actualizar sus parámetros internos para reducir mejor la pérdida | Varias implementaciones en `torch.optim` | SGD (`torch.optim.SGD()`), Adam (`torch.optim.Adam()`) |

#### Implementación

```python
# Crear función de pérdida
loss_fn = nn.L1Loss()  # MAE loss = L1Loss

# Crear optimizador
optimizer = torch.optim.SGD(params=model_0.parameters(),
                            lr=0.01)  # lr = learning rate
```

**Parámetros del optimizador**:
- `params`: Parámetros del modelo a optimizar
- `lr` (learning rate): Tasa de aprendizaje
  - Más alta: actualizaciones más grandes (pueden ser inestables)
  - Más baja: actualizaciones más pequeñas (pueden tardar mucho)
  - Valores comunes: 0.01, 0.001, 0.0001

### Loop de Entrenamiento en PyTorch

#### Pasos del Training Loop

| Número | Nombre del paso | ¿Qué hace? | Ejemplo de código |
| ------ | --------------- | ---------- | ----------------- |
| 1 | Forward pass | El modelo pasa por todos los datos de entrenamiento una vez | `model(x_train)` |
| 2 | Calcular la pérdida | Las salidas del modelo se comparan con las etiquetas verdaderas | `loss = loss_fn(y_pred, y_train)` |
| 3 | Limpiar gradientes | Los gradientes del optimizador se ponen a cero (se acumulan por defecto) | `optimizer.zero_grad()` |
| 4 | Realizar backpropagation | Calcula el gradiente de la pérdida respecto a cada parámetro | `loss.backward()` |
| 5 | Actualizar el optimizador (gradient descent) | Actualiza los parámetros para mejorarlos | `optimizer.step()` |

#### Visualización del Training Loop

```
┌─────────────────────────────────────────────────┐
│ 1. Forward Pass: y_pred = model(X_train)       │
│                                                 │
│ 2. Calculate Loss: loss = loss_fn(y_pred, y)   │
│                                                 │
│ 3. Zero Gradients: optimizer.zero_grad()       │
│                                                 │
│ 4. Backpropagation: loss.backward()            │
│                                                 │
│ 5. Optimizer Step: optimizer.step()            │
└─────────────────────────────────────────────────┘
```

### Loop de Testing en PyTorch

#### Pasos del Testing Loop

| Número | Nombre del paso | ¿Qué hace? | Ejemplo de código |
| ------ | --------------- | ---------- | ----------------- |
| 1 | Forward pass | El modelo pasa por todos los datos de prueba una vez | `model(x_test)` |
| 2 | Calcular la pérdida | Las salidas se comparan con las etiquetas verdaderas | `loss = loss_fn(y_pred, y_test)` |
| 3 | Calcular métricas de evaluación (opcional) | Junto con la pérdida, puedes calcular otras métricas como accuracy | Funciones personalizadas |

**Diferencia clave**: El testing loop NO contiene backpropagation (`loss.backward()`) ni actualización del optimizador (`optimizer.step()`), porque no se están cambiando parámetros.

### Implementación Completa del Training Loop

```python
torch.manual_seed(42)

# Establecer número de épocas
epochs = 100

# Crear listas para rastrear valores de pérdida
train_loss_values = []
test_loss_values = []
epoch_count = []

for epoch in range(epochs):
    ### Training
    
    # Poner modelo en modo entrenamiento
    model_0.train()
    
    # 1. Forward pass
    y_pred = model_0(X_train)
    
    # 2. Calcular pérdida
    loss = loss_fn(y_pred, y_train)
    
    # 3. Limpiar gradientes del optimizador
    optimizer.zero_grad()
    
    # 4. Backpropagation de la pérdida
    loss.backward()
    
    # 5. Avanzar el optimizador
    optimizer.step()
    
    ### Testing
    
    # Poner modelo en modo evaluación
    model_0.eval()
    
    with torch.inference_mode():
        # 1. Forward pass en datos de prueba
        test_pred = model_0(X_test)
        
        # 2. Calcular pérdida en datos de prueba
        test_loss = loss_fn(test_pred, y_test.type(torch.float))
        
        # Imprimir lo que está sucediendo
        if epoch % 10 == 0:
            epoch_count.append(epoch)
            train_loss_values.append(loss.detach().numpy())
            test_loss_values.append(test_loss.detach().numpy())
            print(f"Epoch: {epoch} | MAE Train Loss: {loss} | MAE Test Loss: {test_loss}")
```

### Visualización de Curvas de Pérdida

```python
# Graficar curvas de pérdida
plt.plot(epoch_count, train_loss_values, label="Train loss")
plt.plot(epoch_count, test_loss_values, label="Test loss")
plt.title("Training and test loss curves")
plt.ylabel("Loss")
plt.xlabel("Epochs")
plt.legend()
```

**Curvas de pérdida**: Muestran la pérdida disminuyendo con el tiempo. La pérdida mide qué tan *incorrecto* está el modelo, así que menor es mejor.

### Verificación de Parámetros Aprendidos

```python
# Encontrar parámetros aprendidos del modelo
print("El modelo aprendió los siguientes valores para weights y bias:")
print(model_0.state_dict())
print("\nY los valores originales para weights y bias son:")
print(f"weights: {weight}, bias: {bias}")
```

**Resultado**: El modelo se acerca mucho a calcular los valores exactos originales. En machine learning y deep learning, a menudo se busca una aproximación cercana, no perfección.

---

## 60. Hacer Predicciones con un Modelo Entrenado (Inferencia)

### Reglas para Hacer Predicciones en PyTorch

Tres cosas para recordar al hacer predicciones con un modelo de PyTorch:

1. **Poner el modelo en modo evaluación** (`model.eval()`)
2. **Hacer predicciones usando el context manager de inference mode** (`with torch.inference_mode(): ...`)
3. **Todas las predicciones deben hacerse con objetos en el mismo dispositivo** (datos y modelo en GPU o ambos en CPU)

### Implementación

```python
# 1. Poner modelo en modo evaluación
model_0.eval()

# 2. Configurar context manager de inference mode
with torch.inference_mode():
    # 3. Asegurar que los cálculos se hagan con modelo y datos en el mismo dispositivo
    y_preds = model_0(X_test)

y_preds
```

**Beneficios de inference_mode()**:
- Desactiva cálculos útiles para entrenamiento pero innecesarios para inferencia
- Resulta en computación más rápida

### Visualización de Predicciones

```python
plot_predictions(predictions=y_preds)
```

---

## 61. Guardar y Cargar un Modelo de PyTorch

### Métodos Principales para Guardar/Cargar

| Método de PyTorch | ¿Qué hace? |
| ----------------- | ---------- |
| `torch.save` | Guarda un objeto serializado en disco usando la utilidad `pickle` de Python |
| `torch.load` | Usa las características de unpickling de `pickle` para deserializar y cargar objetos de archivos |
| `torch.nn.Module.load_state_dict` | Carga el diccionario de parámetros de un modelo usando un `state_dict()` guardado |

**⚠️ Advertencia de seguridad**: El módulo `pickle` no es seguro. Solo debes cargar modelos de PyTorch de fuentes confiables.

### Guardar el state_dict() de un Modelo

```python
from pathlib import Path

# 1. Crear directorio de modelos
MODEL_PATH = Path("models")
MODEL_PATH.mkdir(parents=True, exist_ok=True)

# 2. Crear ruta de guardado del modelo
MODEL_NAME = "01_pytorch_workflow_model_0.pth"
MODEL_SAVE_PATH = MODEL_PATH / MODEL_NAME

# 3. Guardar el state dict del modelo
print(f"Guardando modelo en: {MODEL_SAVE_PATH}")
torch.save(obj=model_0.state_dict(),
           f=MODEL_SAVE_PATH)
```

**Convención**: Los modelos de PyTorch guardados suelen terminar en `.pt` o `.pth`.

**Verificar archivo guardado**:
```python
!ls -l models/01_pytorch_workflow_model_0.pth
```

### Cargar el state_dict() de un Modelo Guardado

```python
# Instanciar nueva instancia del modelo
loaded_model_0 = LinearRegressionModel()

# Cargar state_dict del modelo guardado
loaded_model_0.load_state_dict(torch.load(f=MODEL_SAVE_PATH))
```

**Por qué cargar en una nueva instancia**:
- Solo guardamos el `state_dict()` (diccionario de parámetros), no el modelo completo
- Debemos cargar el `state_dict()` en una nueva instancia del modelo

**Ventaja**: Guardar solo el `state_dict()` es más flexible que guardar el modelo completo, evitando problemas cuando se refactoriza el código.

### Hacer Predicciones con Modelo Cargado

```python
# 1. Poner modelo cargado en modo evaluación
loaded_model_0.eval()

# 2. Usar context manager de inference mode
with torch.inference_mode():
    loaded_model_preds = loaded_model_0(X_test)

# Comparar predicciones
y_preds == loaded_model_preds
# tensor([[True], [True], ...])
```

---

## 62. Código Device-Agnostic (Independiente del Dispositivo)

### Configuración para GPU/CPU

```python
# Configurar código device-agnostic
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")
```

**Resultado esperado**:
- Con GPU: `Using device: cuda`
- Sin GPU: `Using device: cpu`

### Modelo con nn.Linear()

#### Diferencia entre nn.Parameter y nn.Linear

```python
class LinearRegressionModelV2(nn.Module):
    def __init__(self):
        super().__init__()
        # Usar nn.Linear() para crear parámetros del modelo
        self.linear_layer = nn.Linear(in_features=1,
                                      out_features=1)
    
    def forward(self, x: torch.Tensor) -> torch.Tensor:
        return self.linear_layer(x)

# Establecer semilla manual
torch.manual_seed(42)
model_1 = LinearRegressionModelV2()
model_1, model_1.state_dict()
```

**Ventajas de nn.Linear()**:
- Crea automáticamente `weight` y `bias` aleatorios
- `in_features`: Número de dimensiones de entrada
- `out_features`: Número de dimensiones de salida

### Mover Modelo al Dispositivo

```python
# Verificar dispositivo actual del modelo
next(model_1.parameters()).device
# device(type='cpu')

# Mover modelo a GPU (si está disponible)
model_1.to(device)
next(model_1.parameters()).device
# device(type='cuda', index=0) si GPU disponible
```

### Training Loop Device-Agnostic

```python
torch.manual_seed(42)

epochs = 1000

# Crear función de pérdida y optimizador
loss_fn = nn.L1Loss()
optimizer = torch.optim.SGD(params=model_1.parameters(), lr=0.01)

# Poner datos en el dispositivo disponible
X_train = X_train.to(device)
X_test = X_test.to(device)
y_train = y_train.to(device)
y_test = y_test.to(device)

for epoch in range(epochs):
    ### Training
    model_1.train()
    
    # 1. Forward pass
    y_pred = model_1(X_train)
    
    # 2. Calcular pérdida
    loss = loss_fn(y_pred, y_train)
    
    # 3. Limpiar gradientes
    optimizer.zero_grad()
    
    # 4. Backpropagation
    loss.backward()
    
    # 5. Step del optimizador
    optimizer.step()
    
    ### Testing
    model_1.eval()
    with torch.inference_mode():
        test_pred = model_1(X_test)
        test_loss = loss_fn(test_pred, y_test)
    
    if epoch % 100 == 0:
        print(f"Epoch: {epoch} | Train loss: {loss} | Test loss: {test_loss}")
```

**Nota importante**: Debido a la naturaleza aleatoria del machine learning, los resultados pueden variar ligeramente entre CPU y GPU incluso usando la misma semilla.

### Hacer Predicciones con Datos en GPU

```python
# Poner modelo en modo evaluación
model_1.eval()

# Hacer predicciones
with torch.inference_mode():
    y_preds = model_1(X_test)

# Graficar predicciones (requiere datos en CPU)
plot_predictions(predictions=y_preds.cpu())
```

**Importante**: Bibliotecas como pandas, matplotlib y NumPy no pueden usar datos en GPU. Usa `.cpu()` para copiar tensores a CPU antes de visualizar.

---

## 63. Conceptos Clave del Workflow de PyTorch

### Resumen del Workflow

1. **Datos**: Convertir a tensores y dividir en train/test
2. **Modelo**: Construir heredando de `nn.Module`
3. **Training**: 
   - Forward pass
   - Calcular pérdida
   - Limpiar gradientes
   - Backpropagation
   - Step del optimizador
4. **Evaluación**: Forward pass sin actualizar parámetros
5. **Predicciones**: Usar `inference_mode()`
6. **Guardar/Cargar**: Usar `state_dict()`

### Mejores Prácticas

1. **Visualizar datos**: Siempre visualizar antes y después del procesamiento
2. **Código device-agnostic**: Escribir código que funcione en CPU o GPU
3. **Monitorear métricas**: Rastrear pérdida y otras métricas durante entrenamiento
4. **Separar train/test**: Mantener datos de prueba completamente separados
5. **Experimentar**: Ajustar hiperparámetros y arquitectura del modelo

### Hiperparámetros Comunes

- **Learning rate**: 0.01, 0.001, 0.0001
- **Batch size**: 32, 64, 128
- **Epochs**: 100, 500, 1000
- **Optimizer**: SGD, Adam, RMSprop

---

## 64. Clasificación con PyTorch

### Definición de Clasificación
La clasificación es un problema de machine learning donde se busca predecir a qué categoría o clase pertenece algo. A diferencia de la regresión (que predice números continuos), la clasificación predice etiquetas discretas.

**Tipos de problemas de clasificación**:

| Tipo | Descripción | Ejemplo |
|------|-------------|---------|
| **Clasificación binaria** | El objetivo puede ser una de dos opciones (sí o no) | Predecir si alguien tiene enfermedad cardíaca basándose en parámetros de salud |
| **Clasificación multi-clase** | El objetivo puede ser una de más de dos opciones | Decidir si una foto es de comida, una persona o un perro |
| **Clasificación multi-etiqueta** | Al objetivo se le pueden asignar múltiples opciones | Predecir qué categorías deberían asignarse a un artículo de Wikipedia (ej. matemáticas, ciencia y filosofía) |

---

## 65. Arquitectura de una Red Neuronal de Clasificación

### Componentes Principales

La siguiente tabla muestra los hiperparámetros típicos para redes neuronales de clasificación:

| **Hiperparámetro** | **Clasificación Binaria** | **Clasificación Multi-clase** |
| --- | --- | --- |
| **Forma de capa de entrada** (`in_features`) | Igual al número de características (ej. 5 para edad, sexo, altura, peso, estado de fumador) | Igual que clasificación binaria |
| **Capa(s) oculta(s)** | Específico del problema, mínimo = 1, máximo = ilimitado | Igual que clasificación binaria |
| **Neuronas por capa oculta** | Específico del problema, generalmente 10 a 512 | Igual que clasificación binaria |
| **Forma de capa de salida** (`out_features`) | 1 (una clase u otra) | 1 por clase (ej. 3 para foto de comida, persona o perro) |
| **Activación de capa oculta** | Usualmente ReLU pero pueden ser muchas otras | Igual que clasificación binaria |
| **Activación de salida** | Sigmoid | Softmax |
| **Función de pérdida** | Binary cross entropy (BCELoss) | Cross entropy (CrossEntropyLoss) |
| **Optimizador** | SGD, Adam (ver `torch.optim` para más opciones) | Igual que clasificación binaria |

**Nota**: Esta lista variará dependiendo del problema específico en el que estés trabajando.

---

## 66. Preparación de Datos para Clasificación

### Creación de Datos de Clasificación Binaria

Para este ejemplo, usaremos el método `make_circles()` de Scikit-Learn para generar dos círculos con puntos de diferentes colores:

```python
from sklearn.datasets import make_circles

# Crear 1000 muestras
n_samples = 1000

# Crear círculos
X, y = make_circles(n_samples,
                    noise=0.03,  # un poco de ruido a los puntos
                    random_state=42)  # semilla aleatoria para reproducibilidad

# Ver primeros 5 ejemplos
print(f"Primeras 5 características X:\n{X[:5]}")
print(f"\nPrimeras 5 etiquetas y:\n{y[:5]}")
```

**Resultado esperado**:
- `X`: Array de forma (1000, 2) - dos características por muestra
- `y`: Array de forma (1000,) - una etiqueta por muestra (0 o 1)

### Visualización de Datos

```python
import matplotlib.pyplot as plt

# Visualizar con un gráfico
plt.scatter(x=X[:, 0], 
            y=X[:, 1], 
            c=y, 
            cmap=plt.cm.RdYlBu)
plt.title("Datos de círculos")
plt.xlabel("Característica 1")
plt.ylabel("Característica 2")
```

**Interpretación**: 
- Puntos rojos representan una clase (y=0)
- Puntos azules representan otra clase (y=1)
- El objetivo es construir un modelo que separe estos puntos

### Verificar Formas de Entrada y Salida

```python
# Verificar las formas de características y etiquetas
print(X.shape, y.shape)  # (1000, 2), (1000,)

# Ver primer ejemplo de características y etiquetas
X_sample = X[0]
y_sample = y[0]
print(f"Valores para una muestra de X: {X_sample} y lo mismo para y: {y_sample}")
print(f"Formas para una muestra de X: {X_sample.shape} y lo mismo para y: {y_sample.shape}")
```

**Resultado**: Cada muestra tiene 2 características (vector) y 1 etiqueta (escalar).

---

## 67. Conversión a Tensores y División de Datos

### Convertir a Tensores de PyTorch

```python
import torch

# Convertir a tensores
X_tensor = torch.from_numpy(X).type(torch.float)
y_tensor = torch.from_numpy(y).type(torch.float)

# Ver las primeras 5 muestras
print(X_tensor[:5])
print(y_tensor[:5])
```

**Importante**: Convertir a `torch.float` es crucial para computaciones posteriores.

### División en Conjuntos de Entrenamiento y Prueba

```python
from sklearn.model_selection import train_test_split

# Dividir datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X_tensor,
    y_tensor,
    test_size=0.2,  # 20% prueba, 80% entrenamiento
    random_state=42  # hacer la división aleatoria reproducible
)

print(f"Tamaño train: {len(X_train)}, Tamaño test: {len(X_test)}")
# Tamaño train: 800, Tamaño test: 200
```

**Proporción estándar**: 80% entrenamiento, 20% prueba es una división común.

---

## 68. Construcción de un Modelo de Clasificación

### Modelo Básico con Capas Lineales

```python
from torch import nn

# Construir modelo
class CircleModelV0(nn.Module):
    def __init__(self):
        super().__init__()
        # Crear 2 capas nn.Linear capaces de manejar formas de entrada y salida
        self.layer_1 = nn.Linear(in_features=2, out_features=5)  # 2 características -> 5 ocultas
        self.layer_2 = nn.Linear(in_features=5, out_features=1)  # 5 ocultas -> 1 salida
    
    def forward(self, x):
        # El cálculo pasa primero por layer_1 y luego por layer_2
        return self.layer_2(self.layer_1(x))

# Crear instancia y enviar al dispositivo
device = "cuda" if torch.cuda.is_available() else "cpu"
model_0 = CircleModelV0().to(device)
print(model_0)
```

**Conceptos clave**:
- `in_features=2`: Número de características de entrada
- `out_features=5`: Unidades ocultas (hiperparámetro ajustable)
- `out_features=1`: Una salida para clasificación binaria

### Modelo con nn.Sequential

```python
# Replicar CircleModelV0 con nn.Sequential
model_0 = nn.Sequential(
    nn.Linear(in_features=2, out_features=5),
    nn.Linear(in_features=5, out_features=1)
).to(device)

print(model_0)
```

**Ventaja**: `nn.Sequential` es más simple para computaciones directas.  
**Desventaja**: Siempre se ejecuta secuencialmente, menos flexible para arquitecturas complejas.

---

## 69. Función de Pérdida y Optimizador para Clasificación

### Selección de Función de Pérdida

Para clasificación binaria, PyTorch ofrece dos implementaciones de binary cross entropy:

| Función | Descripción |
|---------|-------------|
| `nn.BCELoss()` | Binary Cross Entropy - requiere aplicar sigmoid a las salidas del modelo manualmente |
| `nn.BCEWithLogitsLoss()` | Binary Cross Entropy con Sigmoid incorporado - **más numericamente estable** |

```python
# Crear función de pérdida
loss_fn = nn.BCEWithLogitsLoss()  # Sigmoid incorporado

# Crear optimizador
optimizer = torch.optim.SGD(params=model_0.parameters(), lr=0.1)
```

**Recomendación**: Usar `BCEWithLogitsLoss()` porque es más estable numéricamente.

### Función de Precisión (Accuracy)

```python
# Calcular precisión (métrica de clasificación)
def accuracy_fn(y_true, y_pred):
    """
    Calcula precisión entre etiquetas verdaderas y predicciones.
    
    Args:
        y_true: Etiquetas verdaderas
        y_pred: Predicciones del modelo
    
    Returns:
        Valor de precisión como porcentaje
    """
    correct = torch.eq(y_true, y_pred).sum().item()
    acc = (correct / len(y_pred)) * 100
    return acc
```

**Uso**: La precisión mide qué tan "correcto" está el modelo (complementa la función de pérdida).

---

## 70. De Logits a Etiquetas de Predicción

### Proceso de Transformación

El modelo produce salidas en tres etapas:

**Logits** → **Probabilidades de Predicción** → **Etiquetas de Predicción**

#### 1. Logits (Salidas Crudas)

```python
# Ver las primeras 5 salidas del forward pass en datos de prueba
y_logits = model_0(X_test.to(device))[:5]
print(f"Logits:\n{y_logits}")
```

**Logits**: Salidas crudas de la ecuación lineal $y = x \cdot W^T + b$

#### 2. Probabilidades de Predicción

```python
# Aplicar función de activación sigmoid
y_pred_probs = torch.sigmoid(y_logits)
print(f"Probabilidades:\n{y_pred_probs}")
```

**Función Sigmoid**: 
$$\text{sigmoid}(x) = \frac{1}{1 + e^{-x}}$$

Convierte logits a valores entre 0 y 1 (probabilidades).

#### 3. Etiquetas de Predicción

```python
# Redondear probabilidades a etiquetas
y_preds = torch.round(y_pred_probs)
print(f"Etiquetas:\n{y_preds}")

# En una sola línea
y_pred_labels = torch.round(torch.sigmoid(model_0(X_test.to(device))[:5]))
```

**Regla de decisión**:
- Si `y_pred_probs` >= 0.5 → `y=1` (clase 1)
- Si `y_pred_probs` < 0.5 → `y=0` (clase 0)

### Eliminar Dimensiones Extra

```python
# Eliminar dimensión extra con squeeze()
y_preds.squeeze()
```

**squeeze()**: Elimina dimensiones de tamaño 1.

---

## 71. Loop de Entrenamiento para Clasificación

### Estructura del Loop

```python
# Establecer semilla
torch.manual_seed(42)

# Configurar épocas
epochs = 100

# Poner datos en el dispositivo
X_train, y_train = X_train.to(device), y_train.to(device)
X_test, y_test = X_test.to(device), y_test.to(device)

# Loop de entrenamiento
for epoch in range(epochs):
    ### Entrenamiento
    model_0.train()
    
    # 1. Forward pass (modelo produce logits crudos)
    y_logits = model_0(X_train).squeeze()
    y_pred = torch.round(torch.sigmoid(y_logits))  # logits -> probabilidades -> etiquetas
    
    # 2. Calcular pérdida/precisión
    loss = loss_fn(y_logits, y_train)  # BCEWithLogitsLoss funciona con logits crudos
    acc = accuracy_fn(y_true=y_train, y_pred=y_pred)
    
    # 3. Limpiar gradientes del optimizador
    optimizer.zero_grad()
    
    # 4. Backpropagation
    loss.backward()
    
    # 5. Step del optimizador
    optimizer.step()
    
    # Imprimir progreso cada 10 épocas
    if epoch % 10 == 0:
        print(f"Epoch: {epoch} | Loss: {loss:.5f}, Accuracy: {acc:.2f}%")
```

### Loop de Testing

```python
### Testing
model_0.eval()
with torch.inference_mode():
    # 1. Forward pass
    test_logits = model_0(X_test).squeeze()
    test_pred = torch.round(torch.sigmoid(test_logits))
    
    # 2. Calcular pérdida/precisión
    test_loss = loss_fn(test_logits, y_test)
    test_acc = accuracy_fn(y_true=y_test, y_pred=test_pred)
    
    print(f"Test loss: {test_loss:.5f}, Test acc: {test_acc:.2f}%")
```

**Observación**: Si la precisión es ~50%, el modelo está adivinando aleatoriamente (problema común).

---

## 72. Visualización de Límites de Decisión

### Función de Visualización

```python
import numpy as np

def plot_decision_boundary(model: torch.nn.Module, X: torch.Tensor, y: torch.Tensor):
    """
    Grafica límites de decisión del modelo comparando predicciones con valores reales.
    """
    # Poner todo en CPU
    model.to("cpu")
    X, y = X.to("cpu"), y.to("cpu")
    
    # Configurar límites de predicción y grid
    x_min, x_max = X[:, 0].min() - 0.1, X[:, 0].max() + 0.1
    y_min, y_max = X[:, 1].min() - 0.1, X[:, 1].max() + 0.1
    xx, yy = np.meshgrid(np.linspace(x_min, x_max, 101), 
                         np.linspace(y_min, y_max, 101))
    
    # Crear características
    X_to_pred_on = torch.from_numpy(np.column_stack((xx.ravel(), yy.ravel()))).float()
    
    # Hacer predicciones
    model.eval()
    with torch.inference_mode():
        y_logits = model(X_to_pred_on)
    
    # Convertir a etiquetas de predicción
    y_pred = torch.round(torch.sigmoid(y_logits))
    
    # Reshape y graficar
    y_pred = y_pred.reshape(xx.shape).detach().numpy()
    plt.contourf(xx, yy, y_pred, cmap=plt.cm.RdYlBu, alpha=0.7)
    plt.scatter(X[:, 0], X[:, 1], c=y, s=40, cmap=plt.cm.RdYlBu)
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
```

### Visualizar Resultados

```python
# Graficar límites de decisión para conjuntos de entrenamiento y prueba
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.title("Train")
plot_decision_boundary(model_0, X_train, y_train)
plt.subplot(1, 2, 2)
plt.title("Test")
plot_decision_boundary(model_0, X_test, y_test)
```

**Resultado**: Si el modelo solo dibuja líneas rectas para datos circulares, está **underfitting** (subajuste).

---

## 73. Mejorando el Modelo: No-Linealidad

### Problema del Underfitting

El modelo está intentando separar datos circulares con líneas rectas, lo cual es matemáticamente imposible.

**Solución**: Añadir funciones de activación no lineales.

### Técnicas de Mejora

| Técnica | ¿Qué hace? |
|---------|------------|
| **Añadir más capas** | Aumenta potencialmente las capacidades de aprendizaje |
| **Añadir más unidades ocultas** | Hace la red más "ancha" |
| **Entrenar por más tiempo** | Más oportunidades de aprender patrones |
| **Cambiar funciones de activación** | Permite aprender patrones no lineales |
| **Cambiar learning rate** | Ajusta la magnitud de actualización de parámetros |
| **Cambiar función de pérdida** | Debe coincidir con el tipo de problema |

### Modelo con No-Linealidad (ReLU)

```python
class CircleModelV2(nn.Module):
    def __init__(self):
        super().__init__()
        self.layer_1 = nn.Linear(in_features=2, out_features=10)
        self.layer_2 = nn.Linear(in_features=10, out_features=10)
        self.layer_3 = nn.Linear(in_features=10, out_features=1)
        self.relu = nn.ReLU()  # Función de activación ReLU
    
    def forward(self, x):
        # Interponer ReLU entre capas
        z = self.layer_1(x)
        z = self.relu(z)
        z = self.layer_2(z)
        z = self.relu(z)
        z = self.layer_3(z)
        return z

model_3 = CircleModelV2().to(device)
print(model_3)
```

**ReLU (Rectified Linear Unit)**:
$$\text{ReLU}(x) = \max(0, x)$$

Convierte todos los valores negativos a 0, manteniendo los positivos.

### Entrenar Modelo con No-Linealidad

```python
# Configurar pérdida y optimizador
loss_fn = nn.BCEWithLogitsLoss()
optimizer = torch.optim.SGD(model_3.parameters(), lr=0.1)

# Entrenar por más épocas
torch.manual_seed(42)
epochs = 2500

for epoch in range(epochs):
    # Entrenamiento
    model_3.train()
    
    y_logits = model_3(X_train).squeeze()
    y_pred = torch.round(torch.sigmoid(y_logits))
    
    loss = loss_fn(y_logits, y_train)
    acc = accuracy_fn(y_true=y_train, y_pred=y_pred)
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    # Imprimir progreso
    if epoch % 100 == 0:
        print(f"Epoch: {epoch} | Loss: {loss:.5f}, Accuracy: {acc:.2f}%")

# Testing
model_3.eval()
with torch.inference_mode():
    test_logits = model_3(X_test).squeeze()
    test_pred = torch.round(torch.sigmoid(test_logits))
    test_loss = loss_fn(test_logits, y_test)
    test_acc = accuracy_fn(y_true=y_test, y_pred=test_pred)
    print(f"Test loss: {test_loss:.5f}, Test acc: {test_acc:.2f}%")
```

**Resultado esperado**: Precisión significativamente mayor (>90%) gracias a las funciones no lineales.

---

## 74. Replicando Funciones de Activación No Lineales

### Función ReLU Personalizada

```python
# Crear tensor de prueba
A = torch.arange(-10, 10, 1, dtype=torch.float32)

# Crear función ReLU manualmente
def relu(x):
    return torch.maximum(torch.tensor(0), x)

# Aplicar ReLU
print(f"Entrada:\n{A}")
print(f"Salida ReLU:\n{relu(A)}")

# Visualizar
plt.plot(A, label="Input")
plt.plot(relu(A), label="ReLU")
plt.legend()
```

**Efecto**: Todos los valores negativos se convierten en 0.

### Función Sigmoid Personalizada

```python
# Crear función sigmoid personalizada
def sigmoid(x):
    return 1 / (1 + torch.exp(-x))

# Aplicar sigmoid
print(f"Salida Sigmoid:\n{sigmoid(A)}")

# Visualizar
plt.plot(sigmoid(A))
plt.title("Función Sigmoid")
```

**Fórmula**:
$$S(x) = \frac{1}{1+e^{-x}}$$

**Efecto**: Comprime valores a rango (0, 1).

### Comparación Visual

```python
# Comparar todas las funciones
plt.figure(figsize=(12, 4))

plt.subplot(1, 3, 1)
plt.plot(A)
plt.title("Lineal (Identidad)")

plt.subplot(1, 3, 2)
plt.plot(relu(A))
plt.title("ReLU")

plt.subplot(1, 3, 3)
plt.plot(sigmoid(A))
plt.title("Sigmoid")
```

**Concepto clave**: Combinando líneas lineales (rectas) y no lineales (curvas), las redes neuronales pueden aproximar casi cualquier función.

---

## 75. Clasificación Multi-clase

### Diferencia con Clasificación Binaria

| Aspecto | Binaria | Multi-clase |
|---------|---------|-------------|
| **Clases** | 2 (perro vs gato) | >2 (perro vs gato vs pollo) |
| **Salidas del modelo** | 1 (probabilidad de clase 1) | 1 por clase |
| **Activación de salida** | Sigmoid | Softmax |
| **Función de pérdida** | BCEWithLogitsLoss | CrossEntropyLoss |

### Creación de Datos Multi-clase

```python
from sklearn.datasets import make_blobs

# Configurar hiperparámetros
NUM_CLASSES = 4
NUM_FEATURES = 2
RANDOM_SEED = 42

# Crear datos multi-clase
X_blob, y_blob = make_blobs(
    n_samples=1000,
    n_features=NUM_FEATURES,
    centers=NUM_CLASSES,
    cluster_std=1.5,
    random_state=RANDOM_SEED
)

# Convertir a tensores
X_blob = torch.from_numpy(X_blob).type(torch.float)
y_blob = torch.from_numpy(y_blob).type(torch.LongTensor)

# Dividir datos
X_blob_train, X_blob_test, y_blob_train, y_blob_test = train_test_split(
    X_blob,
    y_blob,
    test_size=0.2,
    random_state=RANDOM_SEED
)

# Visualizar
plt.figure(figsize=(10, 7))
plt.scatter(X_blob[:, 0], X_blob[:, 1], c=y_blob, cmap=plt.cm.RdYlBu)
plt.title("Datos Multi-clase (4 clases)")
```

---

## 76. Modelo de Clasificación Multi-clase

### Arquitectura

```python
class BlobModel(nn.Module):
    def __init__(self, input_features, output_features, hidden_units=8):
        """
        Inicializa modelo de clasificación multi-clase.
        
        Args:
            input_features: Número de características de entrada
            output_features: Número de clases de salida
            hidden_units: Número de unidades ocultas entre capas
        """
        super().__init__()
        self.linear_layer_stack = nn.Sequential(
            nn.Linear(in_features=input_features, out_features=hidden_units),
            nn.Linear(in_features=hidden_units, out_features=hidden_units),
            nn.Linear(in_features=hidden_units, out_features=output_features)
        )
    
    def forward(self, x):
        return self.linear_layer_stack(x)

# Crear instancia
model_4 = BlobModel(
    input_features=NUM_FEATURES,
    output_features=NUM_CLASSES,
    hidden_units=8
).to(device)

print(model_4)
```

**Puntos clave**:
- `output_features=NUM_CLASSES`: Una salida por clase
- Sin activación en la última capa (CrossEntropyLoss la incluye)

### Función de Pérdida y Optimizador

```python
# Crear función de pérdida
loss_fn = nn.CrossEntropyLoss()

# Crear optimizador
optimizer = torch.optim.SGD(model_4.parameters(), lr=0.1)
```

**CrossEntropyLoss**: Combina softmax y negative log-likelihood, ideal para multi-clase.

---

## 77. Logits a Etiquetas en Multi-clase

### Proceso de Transformación

**Logits** → **Softmax (Probabilidades)** → **Argmax (Etiquetas)**

#### 1. Logits del Modelo

```python
# Hacer predicciones
y_logits = model_4(X_blob_test.to(device))
print(f"Logits:\n{y_logits[:5]}")
```

#### 2. Aplicar Softmax

```python
# Convertir logits a probabilidades de predicción
y_pred_probs = torch.softmax(y_logits, dim=1)
print(f"Probabilidades:\n{y_pred_probs[:5]}")

# Verificar que suman 1
print(f"Suma de primera muestra: {torch.sum(y_pred_probs[0])}")
```

**Función Softmax**:
$$\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}$$

Convierte logits a distribución de probabilidad (suma = 1).

**Parámetro dim=1**: Aplicar softmax a lo largo de las columnas (por fila).

#### 3. Obtener Etiquetas

```python
# Obtener índice del valor máximo (clase más probable)
print(f"Probabilidades de primera muestra:\n{y_pred_probs[0]}")
print(f"Clase predicha: {torch.argmax(y_pred_probs[0])}")

# Para todas las muestras
y_preds = torch.argmax(y_pred_probs, dim=1)
print(f"Predicciones: {y_preds[:5]}\nEtiquetas reales: {y_blob_test[:5]}")
```

**torch.argmax()**: Devuelve el índice del valor máximo.

---

## 78. Entrenamiento de Modelo Multi-clase

### Loop de Entrenamiento

```python
# Establecer semilla
torch.manual_seed(42)

# Configurar épocas
epochs = 100

# Poner datos en dispositivo
X_blob_train, y_blob_train = X_blob_train.to(device), y_blob_train.to(device)
X_blob_test, y_blob_test = X_blob_test.to(device), y_blob_test.to(device)

# Loop de entrenamiento y testing
for epoch in range(epochs):
    ### Entrenamiento
    model_4.train()
    
    # 1. Forward pass (modelo produce logits crudos)
    y_logits = model_4(X_blob_train)
    y_pred = torch.softmax(y_logits, dim=1).argmax(dim=1)  # logits -> probabilidades -> etiquetas
    
    # 2. Calcular pérdida y precisión
    loss = loss_fn(y_logits, y_blob_train)
    acc = accuracy_fn(y_true=y_blob_train, y_pred=y_pred)
    
    # 3. Limpiar gradientes
    optimizer.zero_grad()
    
    # 4. Backpropagation
    loss.backward()
    
    # 5. Step del optimizador
    optimizer.step()
    
    # Imprimir progreso
    if epoch % 10 == 0:
        print(f"Epoch: {epoch} | Loss: {loss:.5f}, Acc: {acc:.2f}%")

### Testing
model_4.eval()
with torch.inference_mode():
    test_logits = model_4(X_blob_test)
    test_pred = torch.softmax(test_logits, dim=1).argmax(dim=1)
    test_loss = loss_fn(test_logits, y_blob_test)
    test_acc = accuracy_fn(y_true=y_blob_test, y_pred=test_pred)
    print(f"Test Loss: {test_loss:.5f}, Test Acc: {test_acc:.2f}%")
```

**Diferencia clave**: Usar `torch.softmax()` y `argmax(dim=1)` para multi-clase.

---

## 79. Hacer y Evaluar Predicciones Multi-clase

### Hacer Predicciones

```python
# Hacer predicciones
model_4.eval()
with torch.inference_mode():
    y_logits = model_4(X_blob_test)

# Ver primeras 10 predicciones
print(f"Logits: {y_logits[:10]}")

# Convertir a probabilidades
y_pred_probs = torch.softmax(y_logits, dim=1)

# Convertir a etiquetas
y_preds = y_pred_probs.argmax(dim=1)

# Comparar con etiquetas reales
print(f"Predicciones: {y_preds[:10]}\nEtiquetas: {y_blob_test[:10]}")
print(f"Test accuracy: {accuracy_fn(y_true=y_blob_test, y_pred=y_preds)}%")
```

### Atajo: Logits a Etiquetas Directamente

```python
# Saltar softmax y ir directo a etiquetas
y_preds = torch.argmax(y_logits, dim=1)
```

**Nota**: Esto funciona pero pierdes acceso a las probabilidades de predicción.

### Visualizar Predicciones

```python
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.title("Train")
plot_decision_boundary(model_4, X_blob_train, y_blob_train)
plt.subplot(1, 2, 2)
plt.title("Test")
plot_decision_boundary(model_4, X_blob_test, y_blob_test)
```

---

## 80. Métricas de Evaluación Adicionales

### Métricas Comunes de Clasificación

| Métrica | Definición | Código |
|---------|------------|--------|
| **Accuracy** | De 100 predicciones, ¿cuántas son correctas? | `torchmetrics.Accuracy()` o `sklearn.metrics.accuracy_score()` |
| **Precision** | Proporción de verdaderos positivos sobre total de predicciones positivas | `torchmetrics.Precision()` o `sklearn.metrics.precision_score()` |
| **Recall** | Proporción de verdaderos positivos sobre total de positivos reales | `torchmetrics.Recall()` o `sklearn.metrics.recall_score()` |
| **F1-score** | Combina precision y recall (1 es mejor, 0 es peor) | `torchmetrics.F1Score()` o `sklearn.metrics.f1_score()` |
| **Confusion matrix** | Compara predicciones con valores reales en formato tabular | `torchmetrics.ConfusionMatrix()` o `sklearn.metrics.confusion_matrix()` |
| **Classification report** | Colección de métricas principales | `sklearn.metrics.classification_report()` |

### Usar TorchMetrics

```python
from torchmetrics import Accuracy

# Configurar métrica (asegurar que esté en el dispositivo correcto)
torchmetrics_accuracy = Accuracy(task='multiclass', num_classes=4).to(device)

# Calcular precisión
accuracy = torchmetrics_accuracy(y_preds, y_blob_test)
print(f"Accuracy usando TorchMetrics: {accuracy}")
```

**Ventajas de TorchMetrics**:
- Diseñado específicamente para PyTorch
- Funciona en GPU/CPU
- Interfaz consistente

---

## 81. Conceptos Clave de Clasificación en PyTorch

### Resumen del Workflow de Clasificación

1. **Preparar datos**:
   - Convertir a tensores
   - Dividir en train/test
   - Visualizar

2. **Construir modelo**:
   - Clasificación binaria: `output_features=1`, activación Sigmoid
   - Multi-clase: `output_features=num_classes`, activación Softmax
   - Añadir capas no lineales (ReLU) según necesidad

3. **Configurar pérdida y optimizador**:
   - Binaria: `BCEWithLogitsLoss`
   - Multi-clase: `CrossEntropyLoss`
   - Optimizador: SGD o Adam

4. **Entrenar**:
   - Forward pass → calcular pérdida → backpropagation → actualizar pesos
   - Monitorear pérdida y precisión

5. **Evaluar**:
   - Calcular métricas en conjunto de prueba
   - Visualizar límites de decisión

6. **Mejorar**:
   - Añadir capas/unidades
   - Cambiar activaciones
   - Ajustar learning rate
   - Entrenar más tiempo

### Diferencias Clave: Binaria vs Multi-clase

| Aspecto | Binaria | Multi-clase |
|---------|---------|-------------|
| **Salidas** | 1 | `num_classes` |
| **Activación** | Sigmoid | Softmax |
| **Pérdida** | BCEWithLogitsLoss | CrossEntropyLoss |
| **Predicción** | `torch.round(torch.sigmoid(logits))` | `torch.softmax(logits, dim=1).argmax(dim=1)` |

### Mejores Prácticas

1. **Visualizar datos**: Entender patrones antes de modelar
2. **Empezar simple**: Modelo básico primero, luego añadir complejidad
3. **Monitorear métricas**: Pérdida y precisión en train/test
4. **Usar no-linealidad**: ReLU para patrones complejos
5. **Experimentar**: Probar diferentes arquitecturas e hiperparámetros
6. **Validar resultados**: Usar métricas múltiples, no solo precisión

### Funciones de Activación Comunes

| Función | Fórmula | Uso |
|---------|---------|-----|
| **ReLU** | $\max(0, x)$ | Capas ocultas |
| **Sigmoid** | $\frac{1}{1+e^{-x}}$ | Salida binaria |
| **Softmax** | $\frac{e^{x_i}}{\sum e^{x_j}}$ | Salida multi-clase |
| **Tanh** | $\frac{e^x-e^{-x}}{e^x+e^{-x}}$ | Capas ocultas (alternativa a ReLU) |

---


## 82. Introducción a Visión por Computadora con PyTorch

### Definición
La visión por computadora es el arte de enseñar a una computadora a "ver". Esto implica construir modelos para clasificar imágenes, detectar objetos, segmentar regiones y más, todo mediante el procesamiento de datos visuales.

**Aplicaciones comunes**:
- **Clasificación binaria**: ¿Es un gato o un perro?
- **Clasificación multi-clase**: ¿Es un gato, perro o pollo?
- **Detección de objetos**: ¿Dónde aparece un auto en un video?
- **Segmentación**: Separar diferentes objetos en una imagen

---

## 83. Bibliotecas de Visión por Computadora en PyTorch

### Módulos Principales

| Módulo PyTorch | ¿Qué hace? |
|----------------|------------|
| **`torchvision`** | Contiene datasets, arquitecturas de modelos y transformaciones para visión por computadora |
| **`torchvision.datasets`** | Datasets de ejemplo (FashionMNIST, CIFAR10, ImageNet) y clases base para datasets personalizados |
| **`torchvision.models`** | Arquitecturas pre-entrenadas de modelos (ResNet, VGG, EfficientNet) |
| **`torchvision.transforms`** | Transformaciones comunes de imágenes (redimensionar, normalizar, augmentar) |
| **`torch.utils.data.Dataset`** | Clase base para crear datasets en PyTorch |
| **`torch.utils.data.DataLoader`** | Crea un iterable sobre el dataset para entrenamiento eficiente |

### Importaciones Básicas

```python
import torch
from torch import nn
import torchvision
from torchvision import datasets
from torchvision.transforms import ToTensor
import matplotlib.pyplot as plt

# Verificar versiones
print(f"PyTorch version: {torch.__version__}")
print(f"torchvision version: {torchvision.__version__}")
```

**Nota**: PyTorch >= 1.10.0 y torchvision >= 0.11 son recomendados.

---

## 84. Dataset FashionMNIST

### Descripción
FashionMNIST es un dataset creado por Zalando Research que contiene imágenes en escala de grises de 10 tipos diferentes de ropa. Es similar al MNIST clásico (dígitos manuscritos) pero más desafiante.

**Características**:
- **Tamaño de imagen**: 28×28 píxeles
- **Canales de color**: 1 (escala de grises)
- **Número de clases**: 10
- **Total de imágenes**: 70,000 (60,000 entrenamiento, 10,000 prueba)

### Clases del Dataset

| Etiqueta | Clase |
|----------|-------|
| 0 | T-shirt/top |
| 1 | Trouser |
| 2 | Pullover |
| 3 | Dress |
| 4 | Coat |
| 5 | Sandal |
| 6 | Shirt |
| 7 | Sneaker |
| 8 | Bag |
| 9 | Ankle boot |

### Descargar el Dataset

```python
# Descargar datos de entrenamiento
train_data = datasets.FashionMNIST(
    root="data",              # dónde descargar
    train=True,               # obtener datos de entrenamiento
    download=True,            # descargar si no existe
    transform=ToTensor(),     # convertir PIL a tensores
    target_transform=None     # transformar labels (opcional)
)

# Descargar datos de prueba
test_data = datasets.FashionMNIST(
    root="data",
    train=False,              # obtener datos de prueba
    download=True,
    transform=ToTensor()
)
```

**ToTensor()**: Transforma imágenes PIL (formato estándar) a tensores de PyTorch.

---

## 85. Formas de Entrada y Salida en Visión por Computadora

### Estructura de una Imagen

```python
# Ver primera muestra
image, label = train_data[0]
print(f"Image shape: {image.shape}")  # torch.Size([1, 28, 28])
print(f"Label: {label}")              # 9 (Ankle boot)
```

**Formato de imagen**: `[color_channels, height, width]`
- **color_channels=1**: Escala de grises
- **color_channels=3**: RGB (rojo, verde, azul)
- **height=28**: Píxeles de alto
- **width=28**: Píxeles de ancho

### Orden de Dimensiones: CHW vs HWC

PyTorch usa **NCHW** (channels first) como default:
- **N**: Número de imágenes (batch size)
- **C**: Canales de color
- **H**: Altura
- **W**: Ancho

**Ejemplo con batch**:
```python
# Batch de 32 imágenes de FashionMNIST
batch_shape = [32, 1, 28, 28]  # [batch_size, channels, height, width]
```

**Nota**: Algunos frameworks usan **NHWC** (channels last), que puede ser más eficiente en ciertos casos.

---

## 86. Visualización de Imágenes

### Visualizar una Imagen

```python
image, label = train_data[0]
class_names = train_data.classes

plt.imshow(image.squeeze(), cmap="gray")  # squeeze() elimina dimensión de canal
plt.title(class_names[label])
plt.axis("off")
plt.show()
```

**Concepto clave**:
- `.squeeze()`: Elimina dimensiones de tamaño 1 (de [1, 28, 28] a [28, 28])
- `cmap="gray"`: Mapa de color para escala de grises

### Visualizar Múltiples Imágenes

```python
torch.manual_seed(42)
fig = plt.figure(figsize=(9, 9))
rows, cols = 4, 4

for i in range(1, rows * cols + 1):
    random_idx = torch.randint(0, len(train_data), size=[1]).item()
    img, label = train_data[random_idx]
    
    fig.add_subplot(rows, cols, i)
    plt.imshow(img.squeeze(), cmap="gray")
    plt.title(class_names[label])
    plt.axis(False)

plt.tight_layout()
```

**Propósito**: Visualizar datos ayuda a entender patrones antes de construir el modelo.

---

## 87. DataLoader: Preparación de Datos por Batches

### ¿Por qué usar Batches?

Entrenar con **mini-batches** (porciones pequeñas de datos) en lugar del dataset completo es más eficiente:

**Ventajas**:
1. **Eficiencia computacional**: Procesar todo el dataset a la vez requiere memoria infinita
2. **Más actualizaciones**: Gradient descent ocurre por batch, no por época
3. **Mejora convergencia**: Actualizaciones más frecuentes pueden acelerar el aprendizaje

**Batch size común**: 32 es un buen punto de partida (también 64, 128, 256)

### Crear DataLoader

```python
from torch.utils.data import DataLoader

BATCH_SIZE = 32

# DataLoader de entrenamiento
train_dataloader = DataLoader(
    train_data,
    batch_size=BATCH_SIZE,
    shuffle=True  # mezclar datos cada época
)

# DataLoader de prueba
test_dataloader = DataLoader(
    test_data,
    batch_size=BATCH_SIZE,
    shuffle=False  # no es necesario mezclar datos de prueba
)

print(f"Batches de entrenamiento: {len(train_dataloader)}")
print(f"Batches de prueba: {len(test_dataloader)}")
```

**Cálculo de batches**: 60,000 imágenes / 32 = 1,875 batches

### Inspeccionar un Batch

```python
# Obtener primer batch
train_features_batch, train_labels_batch = next(iter(train_dataloader))

print(f"Feature batch shape: {train_features_batch.shape}")  # [32, 1, 28, 28]
print(f"Labels batch shape: {train_labels_batch.shape}")     # [32]
```

---

## 88. Modelo Baseline con nn.Flatten

### Arquitectura del Modelo

```python
class FashionMNISTModelV0(nn.Module):
    def __init__(self, input_shape: int, hidden_units: int, output_shape: int):
        super().__init__()
        self.layer_stack = nn.Sequential(
            nn.Flatten(),  # Aplanar imagen 2D a vector 1D
            nn.Linear(in_features=input_shape, out_features=hidden_units),
            nn.Linear(in_features=hidden_units, out_features=output_shape)
        )
    
    def forward(self, x):
        return self.layer_stack(x)
```

### ¿Qué hace nn.Flatten()?

```python
# Ejemplo de flatten
flatten_model = nn.Flatten()
x = train_features_batch[0]  # [1, 28, 28]
output = flatten_model(x)    # [1, 784]

print(f"Antes: {x.shape} -> [channels, height, width]")
print(f"Después: {output.shape} -> [channels, height*width]")
```

**Concepto**: Convierte matriz 2D (28×28=784) en vector 1D que `nn.Linear` puede procesar.

### Instanciar el Modelo

```python
torch.manual_seed(42)

model_0 = FashionMNISTModelV0(
    input_shape=784,              # 28*28 píxeles
    hidden_units=10,              # unidades ocultas
    output_shape=len(class_names) # 10 clases
).to("cpu")

print(model_0)
```

---

## 89. Función de Pérdida y Optimizador para Clasificación Multi-clase

### Configuración

```python
# Función de pérdida para multi-clase
loss_fn = nn.CrossEntropyLoss()

# Optimizador
optimizer = torch.optim.SGD(params=model_0.parameters(), lr=0.1)
```

**CrossEntropyLoss**:
- Combina `nn.LogSoftmax()` y `nn.NLLLoss()`
- Ideal para clasificación multi-clase
- Trabaja directamente con logits (sin softmax manual)

---

## 90. Función de Precisión con TorchMetrics

### Uso

```python
from torchmetrics.classification import Accuracy

# Crear métrica de precisión
metric = Accuracy(task="multiclass", num_classes=10)

# Calcular precisión
metric.update(y_pred, y_true)
accuracy = metric.compute()
metric.reset()  # Reiniciar para siguiente época
```

**Parámetros**:
- `task`: Tipo de problema ("multiclass", "binary", "multilabel")
- `num_classes`: Número de clases en el problema

---

## 91. Training y Testing Loops para Visión por Computadora

### Training Loop

```python
from tqdm.auto import tqdm

torch.manual_seed(42)
epochs = 3

# Métrica de accuracy
train_metric = Accuracy(task="multiclass", num_classes=10)

for epoch in tqdm(range(epochs)):
    print(f"Epoch: {epoch}\n-------")
    
    train_loss = 0
    model_0.train()
    
    # Loop sobre batches de entrenamiento
    for batch, (X, y) in enumerate(train_dataloader):
        # 1. Forward pass
        y_pred = model_0(X)
        
        # 2. Calcular pérdida
        loss = loss_fn(y_pred, y)
        train_loss += loss
        train_metric.update(y_pred, y)
        
        # 3. Limpiar gradientes
        optimizer.zero_grad()
        
        # 4. Backpropagation
        loss.backward()
        
        # 5. Step del optimizador
        optimizer.step()
        
        # Imprimir progreso
        if batch % 400 == 0:
            print(f"Visto {batch * len(X)}/{len(train_dataloader.dataset)} muestras")
    
    # Calcular métricas promedio
    train_loss /= len(train_dataloader)
    train_acc = train_metric.compute()
    train_metric.reset()
    
    print(f"Train loss: {train_loss:.5f} | Train acc: {train_acc:.4f}")
```

### Testing Loop

```python
# Métrica de test
test_metric = Accuracy(task="multiclass", num_classes=10)

model_0.eval()
test_loss = 0

with torch.inference_mode():
    for X, y in test_dataloader:
        # 1. Forward pass
        test_pred = model_0(X)
        
        # 2. Calcular pérdida y accuracy
        test_loss += loss_fn(test_pred, y)
        test_metric.update(test_pred, y)
    
    # Calcular métricas promedio
    test_loss /= len(test_dataloader)
    test_acc = test_metric.compute()

print(f"Test loss: {test_loss:.5f} | Test acc: {test_acc:.2f}%")
```

**Conceptos clave**:
- **train_loss / len(dataloader)**: Pérdida promedio por batch
- **metric.compute()**: Calcular métrica acumulada
- **metric.reset()**: Limpiar para siguiente época

---

## 92. Modelo Mejorado con No-Linealidad

### Arquitectura V1

```python
class FashionMNISTModelV1(nn.Module):
    def __init__(self, input_shape: int, hidden_units: int, output_shape: int):
        super().__init__()
        self.layer_stack = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=input_shape, out_features=hidden_units),
            nn.ReLU(),  # Activación no lineal
            nn.Linear(in_features=hidden_units, out_features=hidden_units),
            nn.ReLU(),
            nn.Linear(in_features=hidden_units, out_features=output_shape),
            nn.ReLU()
        )
    
    def forward(self, x: torch.Tensor):
        return self.layer_stack(x)

# Instanciar
model_1 = FashionMNISTModelV1(
    input_shape=784,
    hidden_units=100,  # Más unidades ocultas
    output_shape=len(class_names)
).to(device)
```

**Mejoras**:
- Añadir `nn.ReLU()` entre capas lineales
- Incrementar `hidden_units` para mayor capacidad

---

## 93. Código Device-Agnostic (GPU/CPU)

### Configuración del Dispositivo

```python
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")
```

### Mover Datos y Modelo

```python
# Mover modelo al dispositivo
model_1.to(device)

# Mover datos en cada batch
for X, y in train_dataloader:
    X, y = X.to(device), y.to(device)
    # Entrenar...
```

**Importancia**: GPU acelera significativamente el entrenamiento de modelos grandes.

---

## 94. Redes Neuronales Convolucionales (CNN)

### ¿Por qué CNN para Visión?

Las CNN son especialmente diseñadas para procesar imágenes:

**Ventajas**:
1. **Parámetros compartidos**: Reducen número de pesos a aprender
2. **Invariancia a traslación**: Detectan características sin importar posición
3. **Jerarquía de características**: Aprenden de simple a complejo

### Capas Clave

| Capa | Función |
|------|---------|
| **Conv2d** | Extrae características locales aplicando filtros |
| **ReLU** | Introduce no-linealidad |
| **MaxPool2d** | Reduce dimensionalidad manteniendo características importantes |
| **Flatten** | Convierte feature maps a vector 1D |
| **Linear** | Clasificación final |

### Arquitectura CNN Básica

```python
class FashionMNISTModelV2(nn.Module):
    def __init__(self, input_shape: int, hidden_units: int, output_shape: int):
        super().__init__()
        self.conv_block_1 = nn.Sequential(
            nn.Conv2d(in_channels=input_shape,
                     out_channels=hidden_units,
                     kernel_size=3,
                     stride=1,
                     padding=1),
            nn.ReLU(),
            nn.Conv2d(in_channels=hidden_units,
                     out_channels=hidden_units,
                     kernel_size=3,
                     stride=1,
                     padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2)
        )
        
        self.conv_block_2 = nn.Sequential(
            nn.Conv2d(in_channels=hidden_units,
                     out_channels=hidden_units,
                     kernel_size=3,
                     stride=1,
                     padding=1),
            nn.ReLU(),
            nn.Conv2d(in_channels=hidden_units,
                     out_channels=hidden_units,
                     kernel_size=3,
                     stride=1,
                     padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2)
        )
        
        self.classifier = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=hidden_units*7*7,
                     out_features=output_shape)
        )
    
    def forward(self, x):
        x = self.conv_block_1(x)
        x = self.conv_block_2(x)
        x = self.classifier(x)
        return x
```

### Parámetros de Conv2d

```python
nn.Conv2d(
    in_channels=1,      # Canales de entrada (1 para escala de grises)
    out_channels=10,    # Canales de salida (número de filtros)
    kernel_size=3,      # Tamaño del filtro (3x3)
    stride=1,           # Paso del filtro
    padding=1           # Padding para mantener tamaño
)
```

**Cálculo de salida**:
$$\text{output} = \frac{\text{input} + 2 \times \text{padding} - \text{kernel\_size}}{\text{stride}} + 1$$

---

## 95. Comparación de Modelos

### Evaluar Múltiples Modelos

```python
def eval_model(model, data_loader, loss_fn):
    loss, acc = 0, 0
    metric = Accuracy(task="multiclass", num_classes=10).to(device)
    
    model.eval()
    with torch.inference_mode():
        for X, y in data_loader:
            X, y = X.to(device), y.to(device)
            y_pred = model(X)
            loss += loss_fn(y_pred, y)
            metric.update(y_pred, y)
        
        loss /= len(data_loader)
        acc = metric.compute()
    
    return {
        "model_name": model.__class__.__name__,
        "model_loss": loss.item(),
        "model_acc": acc.item()
    }

# Comparar resultados
model_0_results = eval_model(model_0, test_dataloader, loss_fn)
model_1_results = eval_model(model_1, test_dataloader, loss_fn)
model_2_results = eval_model(model_2, test_dataloader, loss_fn)
```

---

## 96. Guardar y Cargar Modelos

### Guardar Modelo

```python
from pathlib import Path

MODEL_PATH = Path("models")
MODEL_PATH.mkdir(parents=True, exist_ok=True)

MODEL_NAME = "fashionmnist_model.pth"
MODEL_SAVE_PATH = MODEL_PATH / MODEL_NAME

# Guardar state_dict
torch.save(obj=model_2.state_dict(), f=MODEL_SAVE_PATH)
```

### Cargar Modelo

```python
# Crear nueva instancia
loaded_model = FashionMNISTModelV2(
    input_shape=1,
    hidden_units=10,
    output_shape=len(class_names)
).to(device)

# Cargar pesos guardados
loaded_model.load_state_dict(torch.load(f=MODEL_SAVE_PATH))
```

---

## 97. Hacer Predicciones y Visualizar Resultados

### Predicciones Aleatorias

```python
import random

def make_predictions(model, data, num_samples=9):
    pred_probs = []
    model.eval()
    
    with torch.inference_mode():
        for sample in random.sample(list(data), k=num_samples):
            img, label = sample
            img = img.unsqueeze(0).to(device)
            
            pred_logit = model(img)
            pred_prob = torch.softmax(pred_logit, dim=1)
            pred_probs.append(pred_prob.cpu())
    
    return torch.stack(pred_probs)
```

### Visualizar Predicciones

```python
test_samples = []
test_labels = []

for sample, label in random.sample(list(test_data), k=9):
    test_samples.append(sample)
    test_labels.append(label)

pred_probs = make_predictions(model_2, test_data)
pred_classes = pred_probs.argmax(dim=1)

# Graficar
plt.figure(figsize=(9, 9))
for i, sample in enumerate(test_samples):
    plt.subplot(3, 3, i+1)
    plt.imshow(sample.squeeze(), cmap="gray")
    
    pred_label = class_names[pred_classes[i]]
    true_label = class_names[test_labels[i]]
    
    title_color = "g" if pred_label == true_label else "r"
    plt.title(f"Pred: {pred_label}\nTrue: {true_label}", color=title_color)
    plt.axis(False)
```

---

## 98. Matriz de Confusión

### Crear Matriz de Confusión

```python
from torchmetrics import ConfusionMatrix
from mlxtend.plotting import plot_confusion_matrix

# Hacer predicciones en todo el conjunto de prueba
y_preds = []
model_2.eval()

with torch.inference_mode():
    for X, y in test_dataloader:
        X, y = X.to(device), y.to(device)
        y_logit = model_2(X)
        y_pred = torch.softmax(y_logit, dim=1).argmax(dim=1)
        y_preds.append(y_pred.cpu())

y_pred_tensor = torch.cat(y_preds)

# Calcular matriz de confusión
confmat = ConfusionMatrix(num_classes=len(class_names), task='multiclass')
confmat_tensor = confmat(preds=y_pred_tensor, target=test_data.targets)

# Visualizar
fig, ax = plot_confusion_matrix(
    conf_mat=confmat_tensor.numpy(),
    class_names=class_names,
    figsize=(10, 7)
)
```

**Interpretación**:
- **Diagonal**: Predicciones correctas
- **Fuera de diagonal**: Errores de clasificación

---

## 99. Conceptos Clave de Visión por Computadora en PyTorch

### Workflow de Visión por Computadora

1. **Obtener datos**: Descargar dataset (FashionMNIST, CIFAR10)
2. **Explorar datos**: Visualizar muestras y verificar formas
3. **Preparar datos**: Crear DataLoaders con batch_size apropiado
4. **Construir modelo**:
   - Baseline: Capas lineales con Flatten
   - Mejorado: Añadir ReLU
   - Avanzado: CNN con Conv2d + MaxPool2d
5. **Entrenar**: Loop de entrenamiento con pérdida y métricas
6. **Evaluar**: Calcular accuracy, matriz de confusión
7. **Mejorar**: Ajustar arquitectura e hiperparámetros
8. **Guardar**: Guardar modelo entrenado

### Diferencias entre Modelos

| Característica | Baseline | Con ReLU | CNN |
|----------------|----------|----------|-----|
| **Capas** | Linear + Flatten | Linear + ReLU | Conv2d + MaxPool + Linear |
| **Parámetros** | Muchos | Muchos | Menos (compartidos) |
| **Rendimiento** | Bajo | Medio | Alto |
| **Capacidad** | Limitada | Media | Alta |

### Mejores Prácticas

1. **Empezar simple**: Baseline primero
2. **Visualizar datos**: Entender antes de modelar
3. **Usar GPU**: Acelera entrenamiento significativamente
4. **Monitorear métricas**: Pérdida y accuracy en train/test
5. **Experimentar**: Probar diferentes arquitecturas
6. **Validar resultados**: Matriz de confusión y visualización

---

## 100. Desafío Práctico: CIFAR10

### Dataset CIFAR10

**Características**:
- **Imágenes**: 32×32 píxeles RGB (3 canales)
- **Clases**: 10 (avión, auto, pájaro, gato, ciervo, perro, rana, caballo, barco, camión)
- **Total**: 60,000 imágenes

### Pasos del Desafío

```python
# 1. Cargar CIFAR10
train_data = datasets.CIFAR10(
    root="data",
    train=True,
    download=True,
    transform=ToTensor()
)

test_data = datasets.CIFAR10(
    root="data",
    train=False,
    download=True,
    transform=ToTensor()
)

# 2. Crear DataLoaders
BATCH_SIZE = 64
train_dataloader = DataLoader(train_data, batch_size=BATCH_SIZE, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=BATCH_SIZE, shuffle=False)

# 3. Construir modelo CNN
class CIFAR10Model(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv_layers = nn.Sequential(
            nn.Conv2d(3, 32, 3, padding=1),  # 3 canales de entrada (RGB)
            nn.ReLU(),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 64, 3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2),
        )
        self.fc_layers = nn.Sequential(
            nn.Flatten(),
            nn.Linear(64 * 8 * 8, 512),
            nn.ReLU(),
            nn.Linear(512, 10)
        )
    
    def forward(self, x):
        x = self.conv_layers(x)
        x = self.fc_layers(x)
        return x

# 4. Entrenar y evaluar
model = CIFAR10Model().to(device)
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# ... (loop de entrenamiento similar a FashionMNIST)
```

**Diferencia clave**: CIFAR10 tiene 3 canales (RGB) vs 1 canal (escala de grises) en FashionMNIST.


---

## 101. Convoluciones en PyTorch

### Definición de Convolución
La convolución es una operación fundamental en visión por computadora que extrae características de las imágenes. A diferencia de las capas densamente conectadas que aprenden patrones globales, las capas convolucionales aprenden patrones **locales** en ventanas pequeñas de la imagen.

### Características Clave de las ConvNets

#### 1. Invariancia a la Traslación
Las ConvNets pueden reconocer un patrón sin importar dónde aparezca en la imagen.

**Ventaja**: Si la red aprende un patrón en la esquina inferior derecha, puede reconocerlo en cualquier otra ubicación sin necesidad de reentrenamiento.

#### 2. Jerarquías Espaciales de Patrones
Las ConvNets aprenden características progresivamente más complejas:
- **Primera capa convolucional**: Aprende patrones pequeños como bordes
- **Segunda capa**: Aprende patrones más grandes usando características de la primera capa
- **Capas subsecuentes**: Aprenden conceptos visuales cada vez más abstractos

**Ejemplo**: Bordes → Texturas → Partes de objetos → Objetos completos

---

## 102. Anatomía de una Operación de Convolución

### Feature Maps (Mapas de Características)
Las convoluciones operan sobre tensores llamados **feature maps** con tres dimensiones:
- **Altura** (height): Dimensión vertical
- **Ancho** (width): Dimensión horizontal
- **Profundidad** (depth/channels): Número de canales

**Ejemplos**:
- Imagen RGB: profundidad = 3 (rojo, verde, azul)
- Imagen en escala de grises: profundidad = 1
- Feature map interno: profundidad = número de filtros aplicados

### Parámetros de una Capa Convolucional

#### 1. Tamaño del Parche (Kernel Size)
Define el tamaño de la ventana que se desliza sobre la imagen.

**Valores comunes**: 3×3 o 5×5

#### 2. Profundidad de Salida (Output Depth)
Número de filtros que se aplican. Cada filtro aprende a detectar una característica diferente.

**Concepto**: Un filtro podría detectar "presencia de una cara", otro "presencia de texto", etc.

### Implementación en PyTorch

```python
import torch.nn as nn

# Capa convolucional básica
conv_layer = nn.Conv2d(
    in_channels=1,      # Canales de entrada (1 para escala de grises)
    out_channels=10,    # Número de filtros/características a aprender
    kernel_size=3,      # Tamaño del filtro (3x3)
    stride=1,           # Paso del filtro
    padding=1           # Padding para mantener dimensiones
)
```

---

## 103. Padding en Convoluciones

### Definición
El **padding** consiste en agregar filas y columnas alrededor de los bordes del feature map de entrada para controlar las dimensiones espaciales de salida.

### Tipos de Padding

#### Valid Padding
Sin padding. Solo se usan ubicaciones válidas donde el kernel cabe completamente.

```python
conv = nn.Conv2d(in_channels=3, out_channels=32, kernel_size=3, padding=0)
# o equivalentemente
conv = nn.Conv2d(in_channels=3, out_channels=32, kernel_size=3, padding='valid')
```

**Efecto**: La salida es más pequeña que la entrada.

#### Same Padding
Añade padding para que la salida tenga las mismas dimensiones espaciales que la entrada.

```python
conv = nn.Conv2d(in_channels=3, out_channels=32, kernel_size=3, padding='same')
# o manualmente para kernel 3x3
conv = nn.Conv2d(in_channels=3, out_channels=32, kernel_size=3, padding=1)
```

**Cálculo de padding para same**:
- Kernel 3×3: padding = 1
- Kernel 5×5: padding = 2

### Visualización de Padding

```
Input (5x5)          Con padding=1 (7x7)
┌─────┐              ┌───────────┐
│ X X │              │ 0 0 0 0 0 │
│ X X │    →         │ 0 X X X 0 │
│ X X │              │ 0 X X X 0 │
└─────┘              │ 0 0 0 0 0 │
                     └───────────┘
```

---

## 104. Strides (Paso del Filtro)

### Definición
El **stride** define la distancia entre dos ventanas de convolución consecutivas.

**Valor por defecto**: 1 (ventanas contiguas)

### Efecto del Stride

```python
# Stride = 1 (default)
conv1 = nn.Conv2d(in_channels=1, out_channels=10, kernel_size=3, stride=1)

# Stride = 2 (downsampling)
conv2 = nn.Conv2d(in_channels=1, out_channels=10, kernel_size=3, stride=2)
```

**Con stride=2**: 
- La salida tiene aproximadamente la mitad de las dimensiones espaciales de la entrada
- Reduce el tamaño del feature map por un factor de 2

**Nota**: Las convoluciones con stride > 1 son raras en modelos de clasificación. Para reducir dimensionalidad, se prefiere usar **max pooling**.

---

## 105. Max Pooling

### Definición
El **max pooling** extrae ventanas del feature map de entrada y devuelve el valor máximo de cada canal.

**Conceptos clave**:
- Similar a convolución, pero usa operación de `max` en lugar de transformación aprendida
- Típicamente usa ventanas de 2×2 con stride=2
- Reduce las dimensiones espaciales por un factor de 2

### Implementación

```python
# Capa de max pooling
pool = nn.MaxPool2d(kernel_size=2, stride=2)

# Aplicar a un tensor
input_tensor = torch.randn(1, 64, 28, 28)  # [batch, channels, height, width]
output = pool(input_tensor)
print(output.shape)  # torch.Size([1, 64, 14, 14])
```

### Visualización

```
Input (4x4)          Max Pooling 2x2 (2x2)
┌────────┐           ┌────┐
│ 1  3 │ 2  4       │ 3  4│
│ 5  6 │ 7  8   →   │ 8  9│
│────────│           └────┘
│ 2  1 │ 4  9
│ 0  3 │ 5  2
└────────┘
```

**Interpretación**: De cada región 2×2, se toma el valor máximo.

---

## 106. Arquitectura TinyVGG

### Descripción
TinyVGG es una versión simplificada de la arquitectura VGG, diseñada con propósitos educativos. Se compone de bloques repetidos de capas convolucionales seguidas de max pooling.

### Estructura General

```
Input → [Conv → ReLU → Conv → ReLU → MaxPool] → [Conv → ReLU → Conv → ReLU → MaxPool] → Flatten → Linear → Output
```

### Implementación en PyTorch

```python
class TinyVGG(nn.Module):
    def __init__(self, input_shape: int, hidden_units: int, output_shape: int):
        super().__init__()
        
        # Bloque convolucional 1
        self.conv_block_1 = nn.Sequential(
            nn.Conv2d(in_channels=input_shape, 
                     out_channels=hidden_units, 
                     kernel_size=3, 
                     stride=1, 
                     padding=1),
            nn.ReLU(),
            nn.Conv2d(in_channels=hidden_units, 
                     out_channels=hidden_units,
                     kernel_size=3, 
                     stride=1, 
                     padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        
        # Bloque convolucional 2
        self.conv_block_2 = nn.Sequential(
            nn.Conv2d(hidden_units, hidden_units, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.Conv2d(hidden_units, hidden_units, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2)
        )
        
        # Clasificador
        self.classifier = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=hidden_units*7*7, 
                     out_features=output_shape)
        )
    
    def forward(self, x: torch.Tensor):
        x = self.conv_block_1(x)
        x = self.conv_block_2(x)
        x = self.classifier(x)
        return x
```

### Cálculo de Dimensiones

Para una imagen de entrada de 28×28:

**Después del bloque 1**:
- Conv (padding=1): 28×28 → 28×28
- Conv (padding=1): 28×28 → 28×28
- MaxPool (kernel=2): 28×28 → 14×14

**Después del bloque 2**:
- Conv (padding=1): 14×14 → 14×14
- Conv (padding=1): 14×14 → 14×14
- MaxPool (kernel=2): 14×14 → 7×7

**Fórmula de salida**:
$$\text{Output} = \left\lfloor \frac{I - K + 2P}{S} \right\rfloor + 1$$

Donde:
- $I$ = Tamaño de entrada
- $K$ = Kernel size
- $P$ = Padding
- $S$ = Stride

---

## 107. Entrenamiento de CNN en FashionMNIST

### Preparación del Modelo

```python
# Instanciar modelo
model = TinyVGG(
    input_shape=1,      # Escala de grises
    hidden_units=10,    # Número de filtros
    output_shape=10     # 10 clases
).to(device)

# Función de pérdida y optimizador
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)
```

### Loop de Entrenamiento

```python
from tqdm.auto import tqdm

epochs = 20

for epoch in tqdm(range(epochs)):
    # Training
    model.train()
    train_loss = 0
    
    for batch, (X, y) in enumerate(train_dataloader):
        X, y = X.to(device), y.to(device)
        
        # Forward pass
        y_pred = model(X)
        loss = loss_fn(y_pred, y)
        train_loss += loss.item()
        
        # Backpropagation
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
    # Calcular pérdida promedio
    train_loss /= len(train_dataloader)
    
    # Testing
    model.eval()
    test_loss = 0
    
    with torch.inference_mode():
        for X, y in test_dataloader:
            X, y = X.to(device), y.to(device)
            test_pred = model(X)
            test_loss += loss_fn(test_pred, y).item()
    
    test_loss /= len(test_dataloader)
    
    print(f"Epoch: {epoch} | Train loss: {train_loss:.4f} | Test loss: {test_loss:.4f}")
```

---

## 108. Desafío: AlexNet con CIFAR10

### Arquitectura AlexNet

AlexNet fue una de las primeras CNN profundas que ganó el concurso ImageNet en 2012.

**Estructura**:
- 5 capas convolucionales
- 3 capas fully connected
- ReLU como función de activación
- Max pooling después de ciertas capas convolucionales

### Implementación Simplificada

```python
class AlexNet(nn.Module):
    def __init__(self, num_classes=10):
        super().__init__()
        
        self.features = nn.Sequential(
            # Conv1: 3 → 96 canales
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=3, stride=2),
            
            # Conv2: 96 → 256 canales
            nn.Conv2d(96, 256, kernel_size=5, padding=2),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=3, stride=2),
            
            # Conv3: 256 → 384 canales
            nn.Conv2d(256, 384, kernel_size=3, padding=1),
            nn.ReLU(),
            
            # Conv4: 384 → 384 canales
            nn.Conv2d(384, 384, kernel_size=3, padding=1),
            nn.ReLU(),
            
            # Conv5: 384 → 256 canales
            nn.Conv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        
        self.classifier = nn.Sequential(
            nn.Flatten(),
            nn.Linear(256 * 6 * 6, 4096),  # Ajustar según dimensiones
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(4096, 4096),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(4096, num_classes)
        )
    
    def forward(self, x):
        x = self.features(x)
        x = self.classifier(x)
        return x
```

### Preparar Datos CIFAR10

```python
import torchvision.transforms as transforms

# Transformaciones con Data Augmentation
transform_train = transforms.Compose([
    transforms.Resize((256, 256)),  # AlexNet espera 256x256
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

transform_test = transforms.Compose([
    transforms.Resize((256, 256)),
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

# Cargar datos
train_data = datasets.CIFAR10(
    root='data',
    train=True,
    download=True,
    transform=transform_train
)

test_data = datasets.CIFAR10(
    root='data',
    train=False,
    download=True,
    transform=transform_test
)

# DataLoaders
train_loader = DataLoader(train_data, batch_size=32, shuffle=True)
test_loader = DataLoader(test_data, batch_size=32, shuffle=False)
```

### Entrenamiento

```python
# Instanciar modelo
model = AlexNet(num_classes=10).to(device)

# Optimizador y pérdida
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

# Entrenar (similar al loop anterior)
epochs = 20
for epoch in range(epochs):
    # Training loop
    model.train()
    for X, y in train_loader:
        X, y = X.to(device), y.to(device)
        
        y_pred = model(X)
        loss = loss_fn(y_pred, y)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
    # Evaluation
    model.eval()
    with torch.inference_mode():
        # Calcular métricas...
        pass
```

---

## 109. Conceptos Clave de Redes Convolucionales

### Ventajas de CNN sobre Redes Densas

| Aspecto | Redes Densas | CNN |
|---------|--------------|-----|
| **Parámetros** | Muchos (todos conectados) | Menos (compartidos) |
| **Invariancia espacial** | No | Sí |
| **Aprendizaje de características** | Global | Local → Global (jerárquico) |
| **Eficiencia** | Baja para imágenes | Alta |

### Componentes Clave

1. **Convolución (Conv2d)**: Extrae características locales
2. **Activación (ReLU)**: Introduce no-linealidad
3. **Pooling (MaxPool2d)**: Reduce dimensionalidad
4. **Flatten**: Convierte feature maps a vector
5. **Linear**: Clasificación final

### Fórmula de Dimensiones

Para calcular el tamaño de salida de una capa convolucional o pooling:

$$\text{Output\_size} = \left\lfloor \frac{\text{Input\_size} - \text{Kernel\_size} + 2 \times \text{Padding}}{\text{Stride}} \right\rfloor + 1$$

**Ejemplo** (Input=28, Kernel=3, Padding=1, Stride=1):
$$\text{Output} = \left\lfloor \frac{28 - 3 + 2 \times 1}{1} \right\rfloor + 1 = 28$$

### Mejores Prácticas

1. **Empezar simple**: TinyVGG antes que arquitecturas complejas
2. **Usar padding='same'**: Mantener dimensiones espaciales
3. **MaxPooling después de bloques**: Reducir dimensionalidad gradualmente
4. **Data Augmentation**: Rotar, voltear, recortar imágenes para generalización
5. **Normalización**: Normalizar inputs para convergencia más rápida
6. **Learning Rate**: Empezar con 0.01 o 0.001, ajustar según necesidad

### Recursos Adicionales

- **CNN Explainer**: https://poloclub.github.io/cnn-explainer/ (visualización interactiva)
- **Papers**: VGG, ResNet, EfficientNet para arquitecturas avanzadas
- **torchvision.models**: Modelos pre-entrenados listos para usar

---

## PyTorch Lightning

### Introducción a PyTorch Lightning
PyTorch Lightning es un marco de trabajo que simplifica el proceso de desarrollo de modelos de aprendizaje profundo en PyTorch. Su objetivo es eliminar el código repetitivo y permitir a los investigadores y desarrolladores centrarse en la lógica del modelo, facilitando la escalabilidad y la organización del código.


### Estructura Básica de un Modelo
Los modelos en PyTorch Lightning se construyen heredando de la clase `LightningModule`. Esta clase proporciona métodos de ciclo de vida que ayudan a estructurar el código de manera más clara.

#### Métodos Clave
1. **`forward`**: Define cómo se pasa la entrada a través del modelo.
2. **`training_step`**: Contiene la lógica para un paso de entrenamiento, incluyendo la pérdida y las métricas.
3. **`configure_optimizers`**: Define el optimizador que se utilizará para el entrenamiento.

### Ejemplo de Modelo
Aquí hay un ejemplo de cómo se puede definir un modelo simple en PyTorch Lightning:

```python
class SimpleModel(L.LightningModule):
    def __init__(self):
        super().__init__()
        self.layer = nn.Linear(10, 1)

    def forward(self, x):
        return self.layer(x)

    def training_step(self, batch, batch_idx):
        x, y = batch
        y_hat = self(x)
        loss = F.mse_loss(y_hat, y)
        return loss

    def configure_optimizers(self):
        return optim.Adam(self.parameters(), lr=0.001)
```

### Entrenamiento del Modelo
Para entrenar el modelo, se utiliza la clase `Trainer`, que maneja el bucle de entrenamiento, la retropropagación y el registro de métricas.

```python
trainer = L.Trainer(max_epochs=10)
trainer.fit(model, train_dataloader)
```

### Predicciones y Evaluación
Después de entrenar el modelo, se pueden hacer predicciones utilizando el método `eval()` y el contexto `torch.no_grad()` para desactivar el cálculo de gradientes, lo que ahorra memoria.

```python
model.eval()
with torch.no_grad():
    predictions = model(test_data)
```

### Visualización de Resultados
Es importante visualizar los resultados y las métricas de rendimiento. PyTorch Lightning permite registrar métricas que se pueden graficar para evaluar el rendimiento del modelo durante el entrenamiento.

### Conclusiones
PyTorch Lightning es una herramienta poderosa que ayuda a simplificar el proceso de desarrollo de modelos de aprendizaje profundo, permitiendo a los investigadores y desarrolladores centrarse en la lógica del modelo y la experimentación.

### Recursos Adicionales
- Documentación oficial de PyTorch Lightning: [PyTorch Lightning Docs](https://pytorch-lightning.readthedocs.io/en/stable/)
- Ejemplos de modelos y tutoriales en el repositorio de GitHub de PyTorch Lightning.



---

For:

FashionMNISTModelCNN(

  (block_1): Sequential(

    (0): Conv2d(1, 10, kernel_size=(3, 3), stride=(1, 1), 

    padding=(1, 1))

    (1): ReLU()

    (2): Conv2d(10, 10, kernel_size=(3, 3), stride=(1, 1), 

    padding=(1, 1))

    (3): ReLU()

    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)

  )

  (block_2): Sequential(

    (0): Conv2d(10, 10, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))

    (1): ReLU()

    (2): Conv2d(10, 10, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))

    (3): ReLU()

    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)

  )

  (classifier): Sequential(

    (0): Flatten(start_dim=1, end_dim=-1)

    (1): Linear(in_features=490, out_features=10, bias=True)
  
  )

)


The 7*7 comes from the spatial dimensions (Height x Width) of your data after it has passed through all the convolutional and pooling layers (block_1 and block_2).

The nn.Flatten() layer's job is to take a multi-dimensional tensor and squash it into a 1D vector so it can be fed into a standard nn.Linear (fully connected) layer.

Here’s a step-by-step trace of how the shape changes for FashionMNIST images, which are $28 \times 28$ pixels.

* Input: [batch_size, 1, 28, 28]
* Pass through block_1:
    * nn.Conv2d(..., padding=1): A $3 \times 3$ kernel with padding=1 is "same" padding. It does not change the $28 \times 28$ size.
    * nn.ReLU(): Does not change the shape.
    * nn.Conv2d(..., padding=1): Again, "same" padding. Shape remains $28 \times 28$.
    * nn.ReLU(): Does not change the shape.
    * nn.MaxPool2d(kernel_size=2, stride=2): This layer halves the height and width.
    * Output of block_1 Shape: [batch_size, hidden_units, 14, 14]
* Pass through block_2:
    * Input to block_2 is [batch_size, hidden_units, 14, 14].
    * nn.Conv2d(..., padding=1): "Same" padding. Shape remains $14 \times 14$.
    * nn.ReLU(): Does not change the shape.
    * nn.Conv2d(..., padding=1): "Same" padding. Shape remains $14 \times 14$.
    * nn.ReLU(): Does not change the shape.
    * nn.MaxPool2d(2): This layer (with kernel size 2 and default stride 2) halves the height and width again.
    * Output of block_2 Shape: [batch_size, hidden_units, 7, 7]
* Pass to self.classifier:
    * nn.Flatten(): This is the key. It takes the tensor from block_2 (shape [batch_size, hidden_units, 7, 7]) and "flattens" it. It keeps the batch dimension but multiplies all other dimensions together.
    * Output of Flatten Shape: [batch_size, hidden_units * 7 * 7]
    * nn.Linear(in_features=..., out_features=...): This layer requires a 1D vector (per item in the batch) as input. Its in_features must match the size of the vector it just received from nn.Flatten().
    * Therefore, in_features must be hidden_units * 7 * 7.


There is a standard formula to calculate the output height and width for both convolutional and pooling layers.The formula for the output dimension (Height or Width) is:$$\text{Output} = \lfloor \frac{I - K + 2P}{S} \rfloor + 1$$

Where:
* $I$ = Input dimension (e.g., input height $H_{in}$ or width $W_{in}$)
* $K$ = Kernel size
* $P$ = Padding
* $S$ = Stride

Applying the Formula to the model, let's trace the width (the calculation is identical for height) starting from the $28 \times 28$ input.

Block 1

* First nn.Conv2d:
    * Input ($I$) = 28
    * Kernel ($K$) = 3
    * Padding ($P$) = 1
    * Stride ($S$) = 1
    * Output = $\lfloor \frac{28 - 3 + 2(1)}{1} \rfloor + 1 = \lfloor \frac{27}{1} \rfloor + 1 = 27 + 1 = \mathbf{28}$
* Second nn.Conv2d: (Input is 28 from the previous layer)
    * Input ($I$) = 28
    * Kernel ($K$) = 3
    * Padding ($P$) = 1
    * Stride ($S$) = 1
    * Output = $\lfloor \frac{28 - 3 + 2(1)}{1} \rfloor + 1 = \lfloor \frac{27}{1} \rfloor + 1 = 27 + 1 = \mathbf{28}$
* First nn.MaxPool2d: (Input is 28 from the previous layer)
    * Input ($I$) = 28
    * Kernel ($K$) = 2
    * Padding ($P$) = 0 (default for MaxPool2d)
    * Stride ($S$) = 2
    * Output = $\lfloor \frac{28 - 2 + 2(0)}{2} \rfloor + 1 = \lfloor \frac{26}{2} \rfloor + 1 = 13 + 1 = \mathbf{14}$
* Output shape after block_1 is $14 \times 14$.

Block 2

* Third nn.Conv2d: (Input is 14 from block_1)
    * Input ($I$) = 14
    * Kernel ($K$) = 3
    * Padding ($P$) = 1
    * Stride ($S$) = 1
    * Output = $\lfloor \frac{14 - 3 + 2(1)}{1} \rfloor + 1 = \lfloor \frac{13}{1} \rfloor + 1 = 13 + 1 = \mathbf{14}$
* Fourth nn.Conv2d: (Input is 14 from the previous layer)
    * Input ($I$) = 14
    * Kernel ($K$) = 3
    * Padding ($P$) = 1
    * Stride ($S$) = 1
    * Output = $\lfloor \frac{14 - 3 + 2(1)}{1} \rfloor + 1 = \lfloor \frac{13}{1} \rfloor + 1 = 13 + 1 = \mathbf{14}$
* Second nn.MaxPool2d: (Input is 14 from the previous layer)
    * Input ($I$) = 14
    * Kernel ($K$) = 2
    * Padding ($P$) = 0 (default)
    * Stride ($S$) = 2
    * Output = $\lfloor \frac{14 - 2 + 2(0)}{2} \rfloor + 1 = \lfloor \frac{12}{2} \rfloor + 1 = 6 + 1 = \mathbf{7}$
* Final output shape after block_2 is $7 \times 7$.

This $7 \times 7$ is then flattened (along with the hidden_units channels) to create the hidden_units * 7 * 7 vector for the linear layer.

The 7*7 comes from the spatial dimensions (Height x Width) of your data after it has passed through all the convolutional and pooling layers (block_1 and block_2).

The nn.Flatten() layer's job is to take a multi-dimensional tensor and squash it into a 1D vector so it can be fed into a standard nn.Linear (fully connected) layer.

Here’s a step-by-step trace of how the shape changes for FashionMNIST images, which are $28 \times 28$ pixels.

* Input: [batch_size, 1, 28, 28]
* Pass through block_1:
    * nn.Conv2d(..., padding=1): A $3 \times 3$ kernel with padding=1 is "same" padding. It does not change the $28 \times 28$ size.
    * nn.ReLU(): Does not change the shape.
    * nn.Conv2d(..., padding=1): Again, "same" padding. Shape remains $28 \times 28$.
    * nn.ReLU(): Does not change the shape.
    * nn.MaxPool2d(kernel_size=2, stride=2): This layer halves the height and width.
    * Output of block_1 Shape: [batch_size, hidden_units, 14, 14]
* Pass through block_2:
    * Input to block_2 is [batch_size, hidden_units, 14, 14].
    * nn.Conv2d(..., padding=1): "Same" padding. Shape remains $14 \times 14$.
    * nn.ReLU(): Does not change the shape.
    * nn.Conv2d(..., padding=1): "Same" padding. Shape remains $14 \times 14$.
    * nn.ReLU(): Does not change the shape.
    * nn.MaxPool2d(2): This layer (with kernel size 2 and default stride 2) halves the height and width again.
    * Output of block_2 Shape: [batch_size, hidden_units, 7, 7]
* Pass to self.classifier:
    * nn.Flatten(): This is the key. It takes the tensor from block_2 (shape [batch_size, hidden_units, 7, 7]) and "flattens" it. It keeps the batch dimension but multiplies all other dimensions together.
    * Output of Flatten Shape: [batch_size, hidden_units * 7 * 7]
    * nn.Linear(in_features=..., out_features=...): This layer requires a 1D vector (per item in the batch) as input. Its in_features must match the size of the vector it just received from nn.Flatten().
    * Therefore, in_features must be hidden_units * 7 * 7.


There is a standard formula to calculate the output height and width for both convolutional and pooling layers.The formula for the output dimension (Height or Width) is:$$\text{Output} = \lfloor \frac{I - K + 2P}{S} \rfloor + 1$$

Where:
* $I$ = Input dimension (e.g., input height $H_{in}$ or width $W_{in}$)
* $K$ = Kernel size
* $P$ = Padding
* $S$ = Stride

Applying the Formula to the model, let's trace the width (the calculation is identical for height) starting from the $28 \times 28$ input.

Block 1

* First nn.Conv2d:
    * Input ($I$) = 28
    * Kernel ($K$) = 3
    * Padding ($P$) = 1
    * Stride ($S$) = 1
    * Output = $\lfloor \frac{28 - 3 + 2(1)}{1} \rfloor + 1 = \lfloor \frac{27}{1} \rfloor + 1 = 27 + 1 = \mathbf{28}$
* Second nn.Conv2d: (Input is 28 from the previous layer)
    * Input ($I$) = 28
    * Kernel ($K$) = 3
    * Padding ($P$) = 1
    * Stride ($S$) = 1
    * Output = $\lfloor \frac{28 - 3 + 2(1)}{1} \rfloor + 1 = \lfloor \frac{27}{1} \rfloor + 1 = 27 + 1 = \mathbf{28}$
* First nn.MaxPool2d: (Input is 28 from the previous layer)
    * Input ($I$) = 28
    * Kernel ($K$) = 2
    * Padding ($P$) = 0 (default for MaxPool2d)
    * Stride ($S$) = 2
    * Output = $\lfloor \frac{28 - 2 + 2(0)}{2} \rfloor + 1 = \lfloor \frac{26}{2} \rfloor + 1 = 13 + 1 = \mathbf{14}$
* Output shape after block_1 is $14 \times 14$.

Block 2

* Third nn.Conv2d: (Input is 14 from block_1)
    * Input ($I$) = 14
    * Kernel ($K$) = 3
    * Padding ($P$) = 1
    * Stride ($S$) = 1
    * Output = $\lfloor \frac{14 - 3 + 2(1)}{1} \rfloor + 1 = \lfloor \frac{13}{1} \rfloor + 1 = 13 + 1 = \mathbf{14}$
* Fourth nn.Conv2d: (Input is 14 from the previous layer)
    * Input ($I$) = 14
    * Kernel ($K$) = 3
    * Padding ($P$) = 1
    * Stride ($S$) = 1
    * Output = $\lfloor \frac{14 - 3 + 2(1)}{1} \rfloor + 1 = \lfloor \frac{13}{1} \rfloor + 1 = 13 + 1 = \mathbf{14}$
* Second nn.MaxPool2d: (Input is 14 from the previous layer)
    * Input ($I$) = 14
    * Kernel ($K$) = 2
    * Padding ($P$) = 0 (default)
    * Stride ($S$) = 2
    * Output = $\lfloor \frac{14 - 2 + 2(0)}{2} \rfloor + 1 = \lfloor \frac{12}{2} \rfloor + 1 = 6 + 1 = \mathbf{7}$
* Final output shape after block_2 is $7 \times 7$.

This $7 \times 7$ is then flattened (along with the hidden_units channels) to create the hidden_units * 7 * 7 vector for the linear layer.