## üéØ 1) Funci√≥n de P√©rdida (Loss), Optimizadores y Scheduler

La funci√≥n de p√©rdida mide **qu√© tan mal est√° prediciendo tu modelo**. Es una m√©trica usada por el optimizador para ajustar los pesos.  

**Matem√°ticamente, buscamos minimizarla durante el entrenamiento.**

## 2) üìê Fundamento Matem√°tico


### 2.1) C√°lculo de la funci√≥n `nn.CrossEntropyLoss` paso a paso

Dado un vector de *logits* (valores sin normalizar):

```python
logits = torch.tensor([[1.0, 2.0, 0.1]])
labels = torch.tensor([1])  # Clase real
```

La funci√≥n `nn.CrossEntropyLoss` aplica internamente la funci√≥n **Softmax** para convertir los logits en probabilidades:

$$
\text{Softmax}(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}}
$$

Aplicando Softmax sobre los logits obtenemos:

$$
\text{Probabilidades} = [0.2424,\ 0.6590,\ 0.0986]
$$

La clase correcta (seg√∫n la etiqueta) es la **clase 1**, con una probabilidad asignada de:

$$
p_{\text{correcta}} = 0.6590
$$

Entonces, la **funci√≥n de p√©rdida Cross Entropy** se define como:

$$
\mathcal{L}(y, \hat{y}) = -\log(\hat{y}_{\text{clase correcta}})
$$

Aplicando los valores:

$$
\mathcal{L}(1, [0.2424, 0.6590, 0.0986]) = -\log(0.6590) \approx 0.4170
$$

üëâ Esta p√©rdida ser√° **menor cuanto m√°s alta sea la probabilidad asignada a la clase correcta**, y **mayor si el modelo se equivoca o no est√° seguro**.

### 2.1) Implementaci√≥n de C√≥digo

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [2]:
# Simulamos una predicci√≥n: logits para 3 clases
logits = torch.tensor([[1.0, 2.0, 0.1]])  # sin aplicar softmax
labels = torch.tensor([1])  # clase real

criterion = nn.CrossEntropyLoss()
loss = criterion(logits, labels)

print(f"CrossEntropyLoss: {loss.item():.4f}")
print("Probabilidades:", F.softmax(logits, dim=1))

CrossEntropyLoss: 0.4170
Probabilidades: tensor([[0.2424, 0.6590, 0.0986]])


## 3) üß™ Ejemplos

### 3.1) ¬øQu√© es un Optimizador?

Un optimizador se encarga de **actualizar los pesos de la red** para minimizar la funci√≥n de p√©rdida.  
Ejemplos populares: `SGD`, `Adam`, `RMSprop`.  
Utilizan el gradiente para decidir **c√≥mo mover los pesos en cada paso** del entrenamiento.

### 3.2) ¬øQu√© es un Scheduler?

Un scheduler (programador de tasa de aprendizaje) ajusta din√°micamente el **learning rate**.  
Esto puede ayudar a converger mejor y m√°s r√°pido, o evitar estancarse.  

Ejemplo: reducir el `lr` cuando el modelo deja de mejorar.

### 3.3) Implementaci√≥n de C√≥digo de Optimizer + Scheduler

In [3]:
import torch.optim as optim
from torch.optim import lr_scheduler

In [4]:
model_ft = torch.nn.Linear(10, 2)

criterion = nn.CrossEntropyLoss()

# SGD con momentum
optimizer_ft = optim.SGD(model_ft.parameters(), lr=0.001, momentum=0.9)

# Scheduler: baja el LR cada 7 epochs
exp_lr_scheduler = lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)

for epoch in range(15):
    optimizer_ft.step()
    exp_lr_scheduler.step()
    print(f"Epoch {epoch+1}: LR = {optimizer_ft.param_groups[0]['lr']}")


Epoch 1: LR = 0.001
Epoch 2: LR = 0.001
Epoch 3: LR = 0.001
Epoch 4: LR = 0.001
Epoch 5: LR = 0.001
Epoch 6: LR = 0.001
Epoch 7: LR = 0.0001
Epoch 8: LR = 0.0001
Epoch 9: LR = 0.0001
Epoch 10: LR = 0.0001
Epoch 11: LR = 0.0001
Epoch 12: LR = 0.0001
Epoch 13: LR = 0.0001
Epoch 14: LR = 1e-05
Epoch 15: LR = 1e-05


Lo que vemos es lo siguiente:
```
Epoch | LR
1‚Äì7   | 0.001
8‚Äì14  | 0.0001
15+   | 0.00001
```

## 4) üí° Tips

- Eleg√≠ la funci√≥n de p√©rdida adecuada: clasificaci√≥n, regresi√≥n, etc.
- Monitore√° `train loss` vs `val loss`. Si `train ‚Üì` pero `val ‚Üë`, est√°s sobreajustando.
- Experiment√° con diferentes optimizadores y programadores de LR.