# ü§ñ Fundamentos de IA ‚Äî Entrenamiento Completo de Modelos

**Instructor:** Alexander  
**Duraci√≥n:** 4-5 horas  
**Nivel:** Intermedio-Avanzado

## üìã Objetivos de Aprendizaje

‚úÖ Comprender hiperpar√°metros y c√≥mo afectan el aprendizaje  
‚úÖ Dominar algoritmos de optimizaci√≥n (SGD, Adam, RMSprop)  
‚úÖ Aplicar Feature Engineering para mejorar modelos  
‚úÖ Implementar y comparar m√∫ltiples algoritmos  
‚úÖ Optimizar modelos de manera sistem√°tica  
‚úÖ Desplegar modelos en producci√≥n  

## üìö Contenido Expandido

1. Configuraci√≥n del entorno
2. **NUEVO:** Conceptos fundamentales de ML
3. **NUEVO:** Hiperpar√°metros explicados (Learning Rate, Epochs, etc.)
4. **NUEVO:** Algoritmos de optimizaci√≥n (SGD, Adam, RMSprop)
5. Exploraci√≥n y preparaci√≥n de datos
6. **EXPANDIDO:** Feature Engineering y Feature Selection
7. Modelos de clasificaci√≥n (14+ algoritmos)
8. Modelos de regresi√≥n (11+ algoritmos)
9. Evaluaci√≥n y m√©tricas avanzadas
10. Pipelines y automatizaci√≥n
11. **EXPANDIDO:** Optimizaci√≥n de hiperpar√°metros pr√°ctica
12. Manejo de desbalanceo de clases
13. Validaci√≥n cruzada avanzada
14. Guardado y despliegue
15. Ejercicios y proyecto final

---

## 1Ô∏è‚É£ Configuraci√≥n del Entorno

In [None]:
# Instalaci√≥n (si es necesario)
# !pip install scikit-learn pandas numpy matplotlib seaborn joblib

In [None]:
# Importaciones
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n visual
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

# scikit-learn
from sklearn.datasets import load_iris, load_diabetes, load_breast_cancer, make_classification
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, learning_curve
from sklearn.preprocessing import StandardScaler, MinMaxScaler, PolynomialFeatures, LabelEncoder
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, mean_squared_error, r2_score

# Modelos
from sklearn.linear_model import LogisticRegression, SGDClassifier, Ridge, Lasso
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

# Feature Engineering
from sklearn.feature_selection import SelectKBest, RFE, f_classif
from sklearn.decomposition import PCA

import joblib
import sklearn

print('‚úÖ Librer√≠as cargadas')
print(f'üì¶ Scikit-learn: {sklearn.__version__}')
print(f'üì¶ NumPy: {np.__version__}')
print(f'üì¶ Pandas: {pd.__version__}')

---

## 2Ô∏è‚É£ Conceptos Fundamentales de Machine Learning

### üß† ¬øC√≥mo Aprende un Modelo?

Imagina que est√°s aprendiendo a lanzar una pelota a una canasta:

1. **Intentas** ‚Üí Observas si acertaste o fallaste
2. **Ajustas** tu fuerza y √°ngulo
3. **Repites** hasta mejorar

Los modelos de ML hacen lo mismo:

```
BUCLE DE ENTRENAMIENTO:
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                                                         ‚îÇ
‚îÇ  1. PREDICCI√ìN (Forward Pass)                          ‚îÇ
‚îÇ     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê                                       ‚îÇ
‚îÇ     ‚îÇ  Datos   ‚îÇ ‚îÄ‚îÄ‚Üí [Modelo] ‚îÄ‚îÄ‚Üí Predicci√≥n          ‚îÇ
‚îÇ     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò                                       ‚îÇ
‚îÇ                                                         ‚îÇ
‚îÇ  2. CALCULAR ERROR (Loss Function)                     ‚îÇ
‚îÇ     Error = |Predicci√≥n - Valor Real|                  ‚îÇ
‚îÇ                                                         ‚îÇ
‚îÇ  3. ACTUALIZAR PESOS (Backward Pass)                   ‚îÇ
‚îÇ     Peso_nuevo = Peso_viejo - (Learning_Rate √ó Error)  ‚îÇ
‚îÇ                                                         ‚îÇ
‚îÇ  4. REPETIR ‚Ü∫ (Epochs)                                 ‚îÇ
‚îÇ                                                         ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### üéØ Elementos Clave

1. **Pesos (Weights)**: N√∫meros que el modelo **aprende** durante entrenamiento
2. **Hiperpar√°metros**: Configuraciones que **t√∫ defines** antes de entrenar
3. **Funci√≥n de p√©rdida (Loss)**: Mide qu√© tan mal lo hace el modelo
4. **Optimizador**: Algoritmo que actualiza los pesos

---

## 3Ô∏è‚É£ Hiperpar√°metros Explicados

### üìñ Definici√≥n

**Hiperpar√°metros** = Configuraciones que controlan **c√≥mo** aprende el modelo.

üî¥ **NO** los aprende el modelo  
üü¢ **S√ç** los defines t√∫ antes de entrenar

---

## üéì Hiperpar√°metros M√°s Importantes

### 1Ô∏è‚É£ **Learning Rate (Œ± o Œ∑) - Tasa de Aprendizaje**

**¬øQu√© es?**  
Controla **qu√© tan grandes son los pasos** que da el modelo al ajustar sus pesos.

**Analog√≠a:**  
Imagina que bajas una monta√±a con los ojos vendados:
- **Learning Rate alto** (Œ± = 1.0): Das pasos gigantes ‚Üí R√°pido pero puedes pasarte del valle
- **Learning Rate bajo** (Œ± = 0.001): Das pasos peque√±os ‚Üí Lento pero llegas al fondo

```python
# F√≥rmula de actualizaci√≥n de pesos:
peso_nuevo = peso_viejo - (learning_rate √ó gradiente)
```

**Valores t√≠picos:**
- Para SGD: `0.01` a `0.1`
- Para Adam: `0.001` (default)
- Para redes neuronales: `0.0001` a `0.01`

**Efectos:**
- **Muy alto** ‚Üí Modelo oscila, no converge
- **Muy bajo** ‚Üí Entrenamiento muy lento, se queda en m√≠nimos locales
- **√ìptimo** ‚Üí Converge r√°pido y estable

---

### 2Ô∏è‚É£ **Epochs (√âpocas)**

**¬øQu√© es?**  
Una **epoch** = 1 pasada completa por TODOS los datos de entrenamiento.

**Ejemplo:**  
Si tienes 1000 im√°genes y entrenas por 10 epochs:
- El modelo ver√° las 1000 im√°genes 10 veces
- Total de actualizaciones depende del batch size

**Valores t√≠picos:** `10` a `200` (depende del problema)

**Efectos:**
- **Pocas epochs** ‚Üí Underfitting (modelo no aprende suficiente)
- **Muchas epochs** ‚Üí Overfitting (memoriza los datos)

---

### 3Ô∏è‚É£ **Batch Size (Tama√±o de Lote)**

**¬øQu√© es?**  
N√∫mero de ejemplos que el modelo procesa **antes de actualizar** los pesos.

**Tipos:**
- **Batch Gradient Descent**: Batch size = TODO el dataset
- **Mini-batch**: Batch size = 32, 64, 128, 256 (com√∫n)
- **Stochastic**: Batch size = 1

**Ejemplo con 1000 datos:**
```
Batch size = 100 ‚Üí 10 actualizaciones por epoch
Batch size = 50  ‚Üí 20 actualizaciones por epoch
Batch size = 1   ‚Üí 1000 actualizaciones por epoch
```

**Efectos:**
- **Grande (512+)**: Entrenamiento estable pero lento, necesita m√°s RAM
- **Peque√±o (16-32)**: M√°s ruidoso pero puede escapar de m√≠nimos locales

---

### 4Ô∏è‚É£ **Regularizaci√≥n (Œ±, Œª, C)**

**¬øQu√© es?**  
T√©cnica para **penalizar modelos complejos** y evitar overfitting.

**Tipos principales:**

**L1 (Lasso):**
```python
Loss = Error + Œ± √ó Œ£|pesos|
# Efecto: Lleva algunos pesos a exactamente 0 (selecci√≥n autom√°tica de features)
```

**L2 (Ridge):**
```python
Loss = Error + Œ± √ó Œ£(pesos¬≤)
# Efecto: Reduce todos los pesos hacia 0 (pero no los elimina)
```

**Par√°metro C en SVM y Logistic Regression:**
- `C` = Inverso de la regularizaci√≥n
- **C grande** (ej. 100): Poca regularizaci√≥n ‚Üí Puede hacer overfitting
- **C peque√±o** (ej. 0.01): Mucha regularizaci√≥n ‚Üí Puede hacer underfitting

---

### 5Ô∏è‚É£ **Otros Hiperpar√°metros Importantes**

**Random Forest / Gradient Boosting:**
- `n_estimators`: N√∫mero de √°rboles (t√≠picamente 100-500)
- `max_depth`: Profundidad m√°xima de cada √°rbol (3-20)
- `min_samples_split`: M√≠nimo de muestras para dividir un nodo
- `max_features`: N√∫mero de features a considerar por split

**K-Nearest Neighbors:**
- `n_neighbors` (k): N√∫mero de vecinos a considerar (t√≠picamente 3-15)
- `weights`: 'uniform' o 'distance'

**Support Vector Machines:**
- `kernel`: 'linear', 'rbf', 'poly'
- `gamma`: Influencia de un solo ejemplo (bajo=lejos, alto=cerca)
- `C`: Par√°metro de regularizaci√≥n

---

## 4Ô∏è‚É£ Algoritmos de Optimizaci√≥n

### üéØ ¬øQu√© Hace un Optimizador?

El optimizador decide **c√≥mo actualizar los pesos** para minimizar el error.

**Objetivo:** Encontrar el valle m√°s bajo de la "monta√±a del error"

---

## üèÉ Principales Algoritmos de Optimizaci√≥n

### 1Ô∏è‚É£ **SGD (Stochastic Gradient Descent)**

**El m√°s b√°sico y fundamental.**

**¬øC√≥mo funciona?**
```python
# Actualizaci√≥n simple:
peso = peso - learning_rate √ó gradiente
```

**Analog√≠a:**  
Caminas cuesta abajo, pero el camino es ruidoso (zigzagueas).

**Pros:**
‚úÖ Simple y f√°cil de entender  
‚úÖ Funciona bien para problemas convexos  
‚úÖ Bajo uso de memoria  

**Contras:**
‚ùå Necesitas ajustar manualmente el learning rate  
‚ùå Puede quedar atrapado en m√≠nimos locales  
‚ùå Convergencia lenta  

**C√≥digo:**
```python
from sklearn.linear_model import SGDClassifier

modelo = SGDClassifier(
    loss='log_loss',        # Para clasificaci√≥n
    learning_rate='optimal', # Ajusta learning rate autom√°ticamente
    eta0=0.01,              # Learning rate inicial
    max_iter=1000,
    random_state=42
)
```

**Cu√°ndo usarlo:**
- Datasets muy grandes (millones de muestras)
- Cuando necesitas bajo uso de memoria
- Problemas de clasificaci√≥n lineal

---

### 2Ô∏è‚É£ **SGD con Momentum**

**SGD mejorado con "inercia".**

**¬øC√≥mo funciona?**
```python
# Mantiene un "promedio m√≥vil" de gradientes anteriores
velocidad = momentum √ó velocidad + learning_rate √ó gradiente
peso = peso - velocidad
```

**Analog√≠a:**  
Una bola rodando cuesta abajo que gana impulso ‚Üí Va m√°s r√°pido en la direcci√≥n correcta.

**Par√°metros:**
- `momentum`: T√≠picamente 0.9 (90% del paso anterior)
- `nesterov=True`: Versi√≥n mejorada (mira hacia adelante)

**Pros:**
‚úÖ Converge m√°s r√°pido que SGD b√°sico  
‚úÖ Reduce oscilaciones  
‚úÖ Mejor para valles estrechos  

**C√≥digo:**
```python
modelo = SGDClassifier(
    loss='log_loss',
    learning_rate='constant',
    eta0=0.01,
    momentum=0.9,           # Momentum
    nesterov=True,          # Nesterov momentum
    random_state=42
)
```

---

### 3Ô∏è‚É£ **Adam (Adaptive Moment Estimation)**

**El m√°s popular actualmente. Combina lo mejor de varios m√©todos.**

**¬øC√≥mo funciona?**
```python
# Mantiene dos promedios m√≥viles:
m = Œ≤‚ÇÅ √ó m + (1-Œ≤‚ÇÅ) √ó gradiente           # Momento de primer orden
v = Œ≤‚ÇÇ √ó v + (1-Œ≤‚ÇÇ) √ó (gradiente¬≤)        # Momento de segundo orden

# Actualizaci√≥n adaptativa:
peso = peso - learning_rate √ó m / ‚àö(v + Œµ)
```

**Analog√≠a:**  
Un GPS inteligente que ajusta autom√°ticamente la velocidad seg√∫n el terreno.

**Par√°metros:**
- `learning_rate`: T√≠picamente 0.001 (default)
- `Œ≤‚ÇÅ` (beta1): 0.9 (default) - Decaimiento para el promedio de gradientes
- `Œ≤‚ÇÇ` (beta2): 0.999 (default) - Decaimiento para el promedio de gradientes¬≤
- `Œµ` (epsilon): 1e-8 - Estabilidad num√©rica

**Pros:**
‚úÖ Learning rate adaptativo por par√°metro  
‚úÖ Funciona bien "out of the box"  
‚úÖ Converge r√°pido y estable  
‚úÖ No necesitas ajustar tanto el learning rate  

**Contras:**
‚ùå Usa m√°s memoria (guarda promedios m√≥viles)  
‚ùå A veces generaliza peor que SGD con momentum  

**Nota:** En scikit-learn, Adam est√° disponible principalmente en redes neuronales (MLPClassifier).

**C√≥digo (con MLPClassifier):**
```python
from sklearn.neural_network import MLPClassifier

modelo = MLPClassifier(
    hidden_layer_sizes=(100,),
    solver='adam',           # Optimizador Adam
    learning_rate_init=0.001,
    beta_1=0.9,              # Par√°metro Œ≤‚ÇÅ
    beta_2=0.999,            # Par√°metro Œ≤‚ÇÇ
    max_iter=200,
    random_state=42
)
```

**Cu√°ndo usarlo:**
- Redes neuronales (es el default)
- Cuando no quieres afinar mucho el learning rate
- Problemas con datos ruidosos

---

### 4Ô∏è‚É£ **RMSprop (Root Mean Square Propagation)**

**Predecesor de Adam, ajusta el learning rate por par√°metro.**

**¬øC√≥mo funciona?**
```python
# Mantiene un promedio m√≥vil de gradientes al cuadrado:
v = Œ≤ √ó v + (1-Œ≤) √ó (gradiente¬≤)
peso = peso - learning_rate / ‚àö(v + Œµ) √ó gradiente
```

**Analog√≠a:**  
Ajusta tu velocidad seg√∫n qu√© tan empinado est√° el camino localmente.

**Par√°metros:**
- `learning_rate`: T√≠picamente 0.001
- `Œ≤` (rho): 0.9 - Factor de decaimiento

**Pros:**
‚úÖ Funciona bien para problemas no estacionarios  
‚úÖ Mejor que SGD b√°sico para redes neuronales  

**Contras:**
‚ùå Adam suele funcionar mejor  

---

### 5Ô∏è‚É£ **AdaGrad (Adaptive Gradient)**

**Ajusta el learning rate para cada par√°metro basado en su historial.**

**¬øC√≥mo funciona?**
```python
# Acumula gradientes al cuadrado (sin decaimiento):
v = v + gradiente¬≤
peso = peso - learning_rate / ‚àö(v + Œµ) √ó gradiente
```

**Pros:**
‚úÖ Excelente para datos dispersos (sparse)  
‚úÖ No necesitas ajustar el learning rate manualmente  

**Contras:**
‚ùå Learning rate decae demasiado r√°pido  
‚ùå Puede dejar de aprender prematuramente  

---

## üìä Comparaci√≥n de Optimizadores

| Optimizador | Velocidad | Estabilidad | Ajuste Manual | Uso de Memoria | Mejor Para |
|-------------|-----------|-------------|---------------|----------------|------------|
| **SGD** | ‚≠ê‚≠ê | ‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | Problemas convexos |
| **SGD + Momentum** | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê | Datasets grandes |
| **Adam** | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | Redes neuronales |
| **RMSprop** | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | Redes recurrentes |
| **AdaGrad** | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê | Datos dispersos |

---

## üéØ Recomendaciones Pr√°cticas

**Para empezar:**
1. Usa **Adam** con learning_rate=0.001 (funciona bien en la mayor√≠a de casos)
2. Si no converge, prueba **SGD con momentum** y ajusta el learning rate

**Para producci√≥n:**
1. Compara SGD, SGD+Momentum y Adam
2. Usa GridSearch para encontrar el mejor learning rate
3. Monitorea las curvas de aprendizaje

**Troubleshooting:**
- Loss no baja ‚Üí Learning rate muy bajo o muy alto
- Loss oscila ‚Üí Learning rate muy alto, prueba momentum
- Converge muy lento ‚Üí Learning rate muy bajo o usa Adam
- Overfitting ‚Üí Aumenta regularizaci√≥n, reduce epochs

### üß™ Demostraci√≥n Pr√°ctica: Efecto del Learning Rate

In [None]:
# Cargar datos
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Escalar datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Probar diferentes learning rates
learning_rates = [0.0001, 0.001, 0.01, 0.1, 1.0]
results_lr = []

print("üîç Efecto del Learning Rate en SGD:\n")
print("="*60)

for lr in learning_rates:
    modelo = SGDClassifier(
        loss='log_loss',
        learning_rate='constant',
        eta0=lr,
        max_iter=1000,
        random_state=42
    )
    
    modelo.fit(X_train_scaled, y_train)
    score = modelo.score(X_test_scaled, y_test)
    
    results_lr.append({'Learning Rate': lr, 'Accuracy': score})
    print(f"Learning Rate = {lr:6.4f}  ‚Üí  Accuracy = {score:.4f}")

# Visualizaci√≥n
df_lr = pd.DataFrame(results_lr)
plt.figure(figsize=(10, 6))
plt.plot(df_lr['Learning Rate'], df_lr['Accuracy'], 'o-', linewidth=2, markersize=8)
plt.xscale('log')
plt.xlabel('Learning Rate (escala log)', fontsize=12)
plt.ylabel('Accuracy', fontsize=12)
plt.title('Efecto del Learning Rate en el Rendimiento', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\nüèÜ Mejor learning rate: {df_lr.loc[df_lr['Accuracy'].idxmax(), 'Learning Rate']}")

### üß™ Comparaci√≥n de Optimizadores

In [None]:
from sklearn.neural_network import MLPClassifier

# Comparar optimizadores en redes neuronales
optimizers = {
    'SGD b√°sico': MLPClassifier(solver='sgd', learning_rate_init=0.01, momentum=0, 
                                max_iter=200, random_state=42),
    'SGD + Momentum': MLPClassifier(solver='sgd', learning_rate_init=0.01, momentum=0.9,
                                   nesterov=True, max_iter=200, random_state=42),
    'Adam': MLPClassifier(solver='adam', learning_rate_init=0.001,
                         max_iter=200, random_state=42)
}

print("üèÉ Comparaci√≥n de Optimizadores:\n")
print("="*70)

results_opt = []
for name, model in optimizers.items():
    model.fit(X_train_scaled, y_train)
    score = model.score(X_test_scaled, y_test)
    n_iterations = model.n_iter_
    
    results_opt.append({
        'Optimizador': name,
        'Accuracy': score,
        'Iteraciones': n_iterations
    })
    
    print(f"{name:20s} | Accuracy: {score:.4f} | Iteraciones: {n_iterations}")

df_opt = pd.DataFrame(results_opt)

# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

axes[0].bar(df_opt['Optimizador'], df_opt['Accuracy'], color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
axes[0].set_ylabel('Accuracy', fontsize=12)
axes[0].set_title('Accuracy por Optimizador', fontsize=14, fontweight='bold')
axes[0].set_ylim([0, 1.1])
axes[0].grid(axis='y', alpha=0.3)
for i, v in enumerate(df_opt['Accuracy']):
    axes[0].text(i, v + 0.02, f"{v:.3f}", ha='center', fontweight='bold')

axes[1].bar(df_opt['Optimizador'], df_opt['Iteraciones'], color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
axes[1].set_ylabel('Iteraciones hasta convergencia', fontsize=12)
axes[1].set_title('Velocidad de Convergencia', fontsize=14, fontweight='bold')
axes[1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüí° Observaciones:")
print("   - Adam suele converger m√°s r√°pido")
print("   - SGD + Momentum mejora sobre SGD b√°sico")
print("   - La elecci√≥n depende del problema espec√≠fico")

---

## 6Ô∏è‚É£ Feature Engineering - Ingenier√≠a de Caracter√≠sticas

### üìñ ¬øQu√© es Feature Engineering?

**Feature Engineering** = Arte de **crear nuevas caracter√≠sticas** (features) a partir de los datos existentes para mejorar el modelo.

**Analog√≠a:**  
Imagina que tienes ingredientes (datos crudos). Feature Engineering es como:
- Picar verduras ‚Üí Transformar datos
- Mezclar ingredientes ‚Üí Combinar features
- Sazonar ‚Üí Escalar/normalizar

### üéØ ¬øPor qu√© es importante?

> "Los features importan m√°s que el algoritmo" - Andrew Ng

Un modelo simple con buenos features > Un modelo complejo con features malos

---

## üõ†Ô∏è T√©cnicas de Feature Engineering

### 1Ô∏è‚É£ **Creaci√≥n de Features**

#### A) Features de Dominio

Crear features usando **conocimiento del problema**.

**Ejemplos:**

```python
# De fecha ‚Üí m√∫ltiples features
df['a√±o'] = df['fecha'].dt.year
df['mes'] = df['fecha'].dt.month
df['d√≠a_semana'] = df['fecha'].dt.dayofweek
df['es_fin_semana'] = df['d√≠a_semana'].isin([5, 6]).astype(int)

# De texto ‚Üí longitud
df['largo_nombre'] = df['nombre'].str.len()
df['num_palabras'] = df['descripcion'].str.split().str.len()

# Matem√°ticas del dominio
df['IMC'] = df['peso'] / (df['altura'] ** 2)  # √çndice de Masa Corporal
df['velocidad'] = df['distancia'] / df['tiempo']
```

#### B) Features de Interacci√≥n

Combinar dos o m√°s features existentes.

```python
# Multiplicaci√≥n
df['area'] = df['largo'] * df['ancho']

# Divisi√≥n
df['ratio_precio_m2'] = df['precio'] / df['area']

# Suma/Resta
df['ingresos_netos'] = df['ingresos'] - df['gastos']
```

#### C) Features Polinomiales

Crear potencias e interacciones autom√°ticamente.

```python
from sklearn.preprocessing import PolynomialFeatures

# Grado 2: x, y ‚Üí x, y, x¬≤, xy, y¬≤
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)
```

**Ejemplo visual:**
```
Original: [altura, peso]
         ‚Üì
Grado 2: [altura, peso, altura¬≤, altura√ópeso, peso¬≤]
```

---

### 2Ô∏è‚É£ **Transformaciones**

#### A) Transformaci√≥n Logar√≠tmica

√ötil para **datos con distribuci√≥n asim√©trica** (skewed).

```python
df['log_ingreso'] = np.log1p(df['ingreso'])  # log(1 + x) para evitar log(0)
```

**Antes vs Despu√©s:**
```
Ingresos originales: [100, 1000, 10000, 100000]
Log transformado:    [4.6, 6.9,  9.2,   11.5]    ‚Üê M√°s "normal"
```

#### B) Ra√≠z Cuadrada / Box-Cox

```python
df['sqrt_area'] = np.sqrt(df['area'])

# Box-Cox (encuentra la mejor transformaci√≥n)
from scipy.stats import boxcox
df['transformed'], lambda_param = boxcox(df['feature'] + 1)
```

#### C) Binning (Discretizaci√≥n)

Convertir variables continuas en categor√≠as.

```python
# Edad ‚Üí Grupos de edad
df['grupo_edad'] = pd.cut(df['edad'], 
                          bins=[0, 18, 35, 60, 100],
                          labels=['Menor', 'Adulto Joven', 'Adulto', 'Adulto Mayor'])

# Cuantiles (igual n√∫mero de muestras por bin)
df['ingreso_cuantil'] = pd.qcut(df['ingreso'], q=4, 
                                labels=['Q1', 'Q2', 'Q3', 'Q4'])
```

---

### 3Ô∏è‚É£ **Encoding de Variables Categ√≥ricas**

Los modelos necesitan n√∫meros, no texto.

#### A) Label Encoding

Asignar un n√∫mero a cada categor√≠a.

```python
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df['ciudad_encoded'] = le.fit_transform(df['ciudad'])

# 'Bogot√°' ‚Üí 0, 'Medell√≠n' ‚Üí 1, 'Cali' ‚Üí 2
```

‚ö†Ô∏è **Cuidado:** Implica orden (0 < 1 < 2). Solo para variables ordinales.

#### B) One-Hot Encoding

Crear una columna binaria por cada categor√≠a.

```python
# Pandas
df_encoded = pd.get_dummies(df, columns=['ciudad'])

# Scikit-learn
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(sparse=False, drop='first')  # drop='first' evita multicolinealidad
encoded = ohe.fit_transform(df[['ciudad']])
```

**Ejemplo:**
```
ciudad       ‚Üí  ciudad_Bogot√°  ciudad_Medell√≠n  ciudad_Cali
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
Bogot√°       ‚Üí       1              0              0
Medell√≠n     ‚Üí       0              1              0
Cali         ‚Üí       0              0              1
```

#### C) Target Encoding

Reemplazar categor√≠a por la media del target.

```python
# Media del precio por ciudad
city_means = df.groupby('ciudad')['precio'].mean()
df['ciudad_encoded'] = df['ciudad'].map(city_means)
```

‚ö†Ô∏è **Riesgo de data leakage:** Solo usar en train set.

---

### 4Ô∏è‚É£ **Escalado y Normalizaci√≥n**

Poner todas las features en la misma escala.

#### A) StandardScaler (Z-score)

```python
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# F√≥rmula: (x - media) / desviaci√≥n_est√°ndar
# Resultado: Media=0, Std=1
```

**Antes:**
```
edad:    [20, 30, 40, 50, 60]
salario: [30000, 50000, 70000, 90000, 110000]
```

**Despu√©s:**
```
edad:    [-1.41, -0.71, 0, 0.71, 1.41]
salario: [-1.41, -0.71, 0, 0.71, 1.41]
```

#### B) MinMaxScaler

```python
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# F√≥rmula: (x - min) / (max - min)
# Resultado: Rango [0, 1]
```

#### C) RobustScaler

Robusto a outliers (usa mediana y cuartiles).

```python
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
X_scaled = scaler.fit_transform(X)
```

**¬øCu√°l usar?**
- **StandardScaler**: Default, funciona bien en general
- **MinMaxScaler**: Para redes neuronales, cuando quieres [0,1]
- **RobustScaler**: Cuando tienes muchos outliers

---

### 5Ô∏è‚É£ **Feature Selection - Selecci√≥n de Features**

**¬øPor qu√©?** M√°s features ‚â† Mejor modelo
- Reduce overfitting
- Acelera entrenamiento
- Mejora interpretabilidad

#### A) Filtros (Filter Methods)

Seleccionar basado en estad√≠sticas.

```python
from sklearn.feature_selection import SelectKBest, f_classif

# Seleccionar las k mejores features
selector = SelectKBest(score_func=f_classif, k=10)
X_selected = selector.fit_transform(X, y)

# Ver qu√© features se seleccionaron
selected_features = X.columns[selector.get_support()]
print("Features seleccionadas:", selected_features.tolist())
```

#### B) Wrapper Methods (RFE)

Entrenar modelo iterativamente eliminando features.

```python
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier

estimator = RandomForestClassifier(n_estimators=100, random_state=42)
selector = RFE(estimator, n_features_to_select=10, step=1)
X_selected = selector.fit_transform(X, y)
```

#### C) Embedded Methods (Feature Importance)

Usar importancia del modelo.

```python
# Random Forest da importancia autom√°ticamente
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X, y)

# Ver importancia
importances = pd.DataFrame({
    'feature': X.columns,
    'importance': rf.feature_importances_
}).sort_values('importance', ascending=False)

print(importances)

# Seleccionar top 10
top_features = importances.head(10)['feature'].tolist()
X_selected = X[top_features]
```

#### D) Reducci√≥n de Dimensionalidad (PCA)

Crear nuevas features que son combinaciones lineales.

```python
from sklearn.decomposition import PCA

pca = PCA(n_components=10)  # Reducir a 10 componentes
X_pca = pca.fit_transform(X)

print(f"Varianza explicada: {pca.explained_variance_ratio_.sum():.2%}")
```

---

### 6Ô∏è‚É£ **Manejo de Datos Faltantes**

```python
from sklearn.impute import SimpleImputer

# Estrategias:
imputer_mean = SimpleImputer(strategy='mean')      # Media
imputer_median = SimpleImputer(strategy='median')  # Mediana (mejor con outliers)
imputer_mode = SimpleImputer(strategy='most_frequent')  # Moda (categ√≥ricas)
imputer_constant = SimpleImputer(strategy='constant', fill_value=0)  # Valor fijo

X_imputed = imputer_mean.fit_transform(X)
```

---

## üéØ Pipeline Completo de Feature Engineering

In [None]:
# Ejemplo completo con dataset real
print("üèóÔ∏è DEMO: Feature Engineering Completo\n")
print("="*70)

# 1. Cargar datos
diabetes = load_diabetes(as_frame=True)
X_orig = diabetes.data
y = diabetes.target

print(f"1Ô∏è‚É£ Dataset original: {X_orig.shape}")
print(f"   Features: {X_orig.columns.tolist()}\n")

# 2. Features polinomiales (grado 2)
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X_orig)
print(f"2Ô∏è‚É£ Despu√©s de features polinomiales: {X_poly.shape}")
print(f"   {X_orig.shape[1]} ‚Üí {X_poly.shape[1]} features\n")

# 3. Selecci√≥n de features (top 20)
selector = SelectKBest(score_func=f_classif, k=20)
X_selected = selector.fit_transform(X_poly, y)
print(f"3Ô∏è‚É£ Despu√©s de selecci√≥n: {X_selected.shape}")
print(f"   {X_poly.shape[1]} ‚Üí {X_selected.shape[1]} features\n")

# 4. Dividir datos
X_train, X_test, y_train, y_test = train_test_split(
    X_selected, y, test_size=0.25, random_state=42
)

# 5. Comparar: Con vs Sin Feature Engineering
from sklearn.linear_model import Ridge

# Sin feature engineering
X_train_orig, X_test_orig, _, _ = train_test_split(
    X_orig, y, test_size=0.25, random_state=42
)

model_baseline = Ridge(alpha=1.0, random_state=42)
model_baseline.fit(X_train_orig, y_train)
score_baseline = model_baseline.score(X_test_orig, y_test)

# Con feature engineering
model_engineered = Ridge(alpha=1.0, random_state=42)
model_engineered.fit(X_train, y_train)
score_engineered = model_engineered.score(X_test, y_test)

print("\nüìä RESULTADOS:\n")
print(f"   Sin Feature Engineering:  R¬≤ = {score_baseline:.4f}")
print(f"   Con Feature Engineering:  R¬≤ = {score_engineered:.4f}")
print(f"   Mejora:                   {(score_engineered - score_baseline):.4f} ({(score_engineered/score_baseline - 1)*100:+.1f}%)")

print("\n‚úÖ Feature Engineering puede mejorar significativamente el modelo!")

### üéØ Resumen de Feature Engineering

**‚úÖ DO's (Hacer):**
1. Entender el dominio del problema
2. Visualizar distribuciones antes de transformar
3. Crear features de interacci√≥n relevantes
4. Aplicar escalado cuando sea necesario
5. Eliminar features irrelevantes

**‚ùå DON'Ts (No hacer):**
1. Aplicar transformaciones sin raz√≥n
2. Crear demasiadas features (maldici√≥n de dimensionalidad)
3. Usar informaci√≥n del test set
4. Ignorar data leakage
5. No documentar las transformaciones

**üí° Tips:**
- Empieza simple, agrega complejidad gradualmente
- Usa Pipelines para evitar data leakage
- Documenta cada transformaci√≥n
- Valida que las features nuevas mejoran el modelo

---

## 7Ô∏è‚É£ Modelos de Clasificaci√≥n - Implementaci√≥n Completa

Ahora aplicaremos todo lo aprendido sobre hiperpar√°metros y feature engineering.

In [None]:
# Cargar y preparar datos
iris = load_iris(as_frame=True)
X = iris.data
y = iris.target
feature_names = iris.feature_names
target_names = iris.target_names

# Divisi√≥n
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42, stratify=y
)

print("üìä Dataset Iris cargado")
print(f"   Train: {X_train.shape} | Test: {X_test.shape}")

In [None]:
# Comparaci√≥n de modelos con diferentes configuraciones
models = {
    'Logistic Regression (C=1)': LogisticRegression(C=1.0, max_iter=500, random_state=42),
    'Logistic Regression (C=0.1)': LogisticRegression(C=0.1, max_iter=500, random_state=42),
    'SGD (lr=0.01)': SGDClassifier(loss='log_loss', learning_rate='constant', 
                                   eta0=0.01, max_iter=1000, random_state=42),
    'SGD (lr=0.1)': SGDClassifier(loss='log_loss', learning_rate='constant',
                                  eta0=0.1, max_iter=1000, random_state=42),
    'Random Forest (depth=5)': RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42),
    'Random Forest (depth=None)': RandomForestClassifier(n_estimators=100, max_depth=None, random_state=42),
    'SVM (C=1)': SVC(C=1.0, kernel='rbf', random_state=42),
    'SVM (C=10)': SVC(C=10.0, kernel='rbf', random_state=42),
}

results = []

print("üöÄ Entrenando modelos con diferentes hiperpar√°metros...\n")

for name, model in models.items():
    # Pipeline
    pipeline = Pipeline([
        ('scaler', StandardScaler()),
        ('model', model)
    ])
    
    # Entrenar
    pipeline.fit(X_train, y_train)
    score = pipeline.score(X_test, y_test)
    
    # Cross-validation
    cv_scores = cross_val_score(pipeline, X_train, y_train, cv=5)
    
    results.append({
        'Model': name,
        'Test Accuracy': score,
        'CV Mean': cv_scores.mean(),
        'CV Std': cv_scores.std()
    })
    
    print(f"{name:35s} | Test: {score:.4f} | CV: {cv_scores.mean():.4f} ¬± {cv_scores.std():.4f}")

results_df = pd.DataFrame(results).sort_values('Test Accuracy', ascending=False)

print("\n" + "="*80)
print("üìä RANKING DE MODELOS")
print("="*80)
print(results_df.to_string(index=False))

---

## üéì Ejercicio Pr√°ctico: Ajustando Hiperpar√°metros

**Tu turno:** Experimenta cambiando estos hiperpar√°metros y observa el efecto.

In [None]:
# EJERCICIO: Modifica estos valores y observa los cambios

# 1. Cambia el learning rate de SGD
learning_rate_to_test = 0.01  # Prueba: 0.001, 0.01, 0.1, 1.0

modelo_sgd = SGDClassifier(
    loss='log_loss',
    learning_rate='constant',
    eta0=learning_rate_to_test,
    max_iter=1000,
    random_state=42
)

# 2. Cambia el par√°metro C de Logistic Regression
C_to_test = 1.0  # Prueba: 0.001, 0.01, 0.1, 1, 10, 100

modelo_lr = LogisticRegression(
    C=C_to_test,
    max_iter=500,
    random_state=42
)

# 3. Cambia max_depth de Random Forest
max_depth_to_test = 10  # Prueba: 3, 5, 10, 20, None

modelo_rf = RandomForestClassifier(
    n_estimators=100,
    max_depth=max_depth_to_test,
    random_state=42
)

# Evaluar
for name, modelo in [('SGD', modelo_sgd), ('LogReg', modelo_lr), ('RF', modelo_rf)]:
    pipeline = Pipeline([('scaler', StandardScaler()), ('model', modelo)])
    pipeline.fit(X_train, y_train)
    score = pipeline.score(X_test, y_test)
    print(f"{name:10s} | Accuracy: {score:.4f}")

print("\nüí° Cambia los valores arriba y vuelve a ejecutar para experimentar!")

---

## üèÜ Proyecto Final Integrador

**Desaf√≠o:** Crear un sistema completo aplicando todo lo aprendido.

### Requisitos:
1. ‚úÖ Aplicar Feature Engineering
2. ‚úÖ Comparar al menos 5 modelos
3. ‚úÖ Probar diferentes hiperpar√°metros
4. ‚úÖ Usar GridSearchCV
5. ‚úÖ Evaluar con m√∫ltiples m√©tricas
6. ‚úÖ Guardar el mejor modelo
7. ‚úÖ Documentar decisiones

In [None]:
# PROYECTO FINAL - TU C√ìDIGO AQU√ç

# Paso 1: Cargar datos
breast_cancer = load_breast_cancer(as_frame=True)
X = breast_cancer.data
y = breast_cancer.target

print("üéØ PROYECTO: Clasificaci√≥n de C√°ncer de Mama")
print(f"   Datos: {X.shape}")
print(f"   Clases: {np.unique(y, return_counts=True)}")

# Paso 2: Feature Engineering
# TODO: Aplica transformaciones, selecci√≥n de features, etc.

# Paso 3: Divisi√≥n de datos
# TODO: train_test_split con stratify

# Paso 4: Comparar modelos
# TODO: Probar m√∫ltiples modelos con diferentes hiperpar√°metros

# Paso 5: Optimizaci√≥n
# TODO: GridSearchCV en el mejor modelo

# Paso 6: Evaluaci√≥n final
# TODO: Matriz de confusi√≥n, classification report, ROC curve

# Paso 7: Guardar modelo
# TODO: joblib.dump() con metadata

print("\n‚úÖ Completa cada TODO y documenta tus decisiones!")

---

## üìö Referencias y Recursos

### üìñ Hiperpar√°metros
- [Scikit-learn: Hyperparameter tuning](https://scikit-learn.org/stable/modules/grid_search.html)
- [Practical recommendations for gradient-based training](https://arxiv.org/abs/1206.5533)

### üèÉ Optimizaci√≥n
- [An overview of gradient descent optimization algorithms](https://arxiv.org/abs/1609.04747)
- [Adam paper](https://arxiv.org/abs/1412.6980)

### üõ†Ô∏è Feature Engineering
- [Feature Engineering for Machine Learning](https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/)
- [Scikit-learn: Preprocessing](https://scikit-learn.org/stable/modules/preprocessing.html)

---

## üéâ ¬°Felicitaciones!

Has completado el curso completo de Fundamentos de IA. Ahora dominas:

‚úÖ **Hiperpar√°metros**: Learning rate, epochs, regularizaci√≥n  
‚úÖ **Optimizadores**: SGD, Momentum, Adam, RMSprop  
‚úÖ **Feature Engineering**: Creaci√≥n, transformaci√≥n, selecci√≥n  
‚úÖ **Modelado**: M√∫ltiples algoritmos y comparaci√≥n  
‚úÖ **Optimizaci√≥n**: GridSearch y RandomizedSearch  
‚úÖ **Despliegue**: Guardado y versionado de modelos  

**Pr√≥ximos pasos:**
1. Practica con datasets reales de Kaggle
2. Profundiza en Deep Learning
3. Aprende MLOps para producci√≥n
4. Contribuye a proyectos open source

**¬°Sigue aprendiendo! üöÄ**

---

*Notebook creado por Alexander*  
*Curso: Fundamentos de IA - Entrenamiento de Modelos*  
*√öltima actualizaci√≥n: Noviembre 2025*