# Entrenamiento de Modelos de Clasificación Multiclase

**Rol 2: Ingeniero/a de Modelos**  
**Objetivo**: Entrenar, evaluar y optimizar modelos con overfitting <5%

##  Plan de Trabajo

### Fase 1: Modelos Base
- [ ] Cargar datos del EDA
- [ ] Entrenar modelos base: LogisticRegression, DecisionTree, RandomForest
- [ ] Calcular métricas iniciales

### Fase 2: Optimización
- [ ] Validación cruzada (StratifiedKFold)
- [ ] Modelos ensemble: XGBoost, LightGBM
- [ ] Ajuste de hiperparámetros
- [ ] Control de overfitting

### Fase 3: Análisis Final
- [ ] Métricas por clase
- [ ] Análisis de errores
- [ ] Exportar modelo final


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import joblib

# Configurar visualizaciones
plt.style.use('default')
sns.set_palette("husl")

print(" Librerías importadas correctamente")


##  Paso 1: Cargar datos del EDA

**IMPORTANTE**: Primero necesitas revisar el notebook `01_EDA.ipynb` para:
1. Ver qué dataset tienes
2. Identificar las features (X) y el target (y)
3. Cargar los datos aquí

**Ejemplo de cómo cargar datos:**
```python
# Si tienes un CSV:
datos = pd.read_csv('data/raw/tu_dataset.csv')

# Si tienes un archivo procesado del EDA:
datos = pd.read_csv('data/processed/datos_limpios.csv')

# Separar features y target
X = datos.drop('target_column', axis=1)  # todas las columnas excepto la target
y = datos['target_column']  # solo la columna target

print(f"Features: {X.shape}")
print(f"Target: {y.shape}")
print(f"Clases: {y.unique()}")
```


In [None]:
# CARGAR DATOS DEL FOREST COVER TYPE DATASET
# Usando ucimlrepo para descargar directamente desde UCI

from ucimlrepo import fetch_ucirepo

# Descargar dataset
print(" Descargando Forest Cover Type Dataset")
covertype = fetch_ucirepo(id=31)

# Obtener datos
X = covertype.data.features
y = covertype.data.targets

# Convertir y a serie si es necesario
if hasattr(y, 'iloc'):
    y = y.iloc[:, 0]  # Tomar la primera columna si es DataFrame

print("Datos cargados correctamente")
print(f"   - Features: {X.shape}")
print(f"   - Target: {y.shape}")
print(f"   - Clases: {sorted(y.unique())}")
print(f"   - Distribución de clases:")
print(y.value_counts().sort_index())

# Mostrar información del dataset
print(f"\n Información del dataset:")
print(f"   - Nombres de features: {list(X.columns)}")
print(f"   - Tipos de datos: {X.dtypes.value_counts()}")
print(f"   - Valores nulos: {X.isnull().sum().sum()}")


## 🚀 Paso 2: Comparar modelos (SIMPLE)

Una vez que tengas X e y cargados, ejecuta esta celda para comparar todos los modelos de una vez:


In [None]:
# Importar la función de comparación
import sys
sys.path.append('../src/models')
from model_comparison import compare_models

# Comparar todos los modelos de una vez
print("🧠 COMPARANDO MODELOS DE CLASIFICACIÓN MULTICLASE")
print("=" * 60)

resultados = compare_models(X, y)


##  Paso 3: Análisis de resultados

Una vez ejecutado el código anterior, aquí puedes analizar los resultados:
