## üß† 03_training_validation.ipynb ‚Äì Entrenamiento y Validaci√≥n de Modelos

Este notebook entrena y eval√∫a distintos modelos de clasificaci√≥n para predecir la presencia de diabetes en pacientes, utilizando el dataset ya preprocesado.  
Se exploran modelos base, se comparan m√©tricas clave y se registra el experimento con MLflow.

### 1. Carga del dataset limpio


Cargamos el archivo `diabetes_clean.csv` generado durante el preprocesamiento.  
Usamos `os.path.join` para construir rutas relativas seguras, ya que este notebook se encuentra en la carpeta `notebooks/` mientras que los datos est√°n en `data/`.

> ‚ö†Ô∏è Si obtienes un error de archivo no encontrado (`FileNotFoundError`), aseg√∫rate de:
> - Haber ejecutado completamente el notebook `02_preprocessing.ipynb`
> - Estar en el directorio ra√≠z del proyecto al iniciar el entorno de notebooks

In [4]:
import pandas as pd
import os

# Construcci√≥n de ruta robusta al archivo limpio
file_path = os.path.join("..", "data", "diabetes_clean.csv")
df = pd.read_csv(file_path)

df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,BMI,DiabetesPedigreeFunction,Age,Outcome,Insulin
0,6,148.0,72.0,35.0,33.6,0.627,50,1,1.764094
1,1,85.0,66.0,29.0,26.6,0.351,31,0,1.764094
2,8,183.0,64.0,29.0,23.3,0.672,32,1,1.764094
3,1,89.0,66.0,23.0,28.1,0.167,21,0,1.714496
4,0,137.0,44.0,35.0,43.1,2.288,33,1,1.813178


### üîÑ 2. Separaci√≥n de variables independientes (X) y variable objetivo (y)

En este paso separamos la variable objetivo `Outcome` del resto de los predictores.


In [8]:
# Separar variables predictoras (X) y variable objetivo (y)
X = df.drop("Outcome", axis=1)
y = df["Outcome"]

### üß™ 3. Divisi√≥n del dataset en entrenamiento y prueba

Dividimos el dataset en un conjunto de entrenamiento (80%) y uno de prueba (20%), manteniendo la proporci√≥n de clases mediante `stratify=y`.  
Esta divisi√≥n se hace **antes** de ajustar cualquier modelo para evitar data leakage.

In [10]:
from sklearn.model_selection import train_test_split

# Divisi√≥n 80/20 con estratificaci√≥n
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42, 
    stratify=y
)

### üßæ 4. Verificaci√≥n de dimensiones

Revisamos las dimensiones de los conjuntos para confirmar que la divisi√≥n fue exitosa y las proporciones se mantuvieron.

In [11]:
print("Shape de X_train:", X_train.shape)
print("Shape de X_test:", X_test.shape)
print("Shape de y_train:", y_train.shape)
print("Shape de y_test:", y_test.shape)

Shape de X_train: (614, 8)
Shape de X_test: (154, 8)
Shape de y_train: (614,)
Shape de y_test: (154,)


### 5. üîÑ Escalado de caracter√≠sticas

Aplicamos `StandardScaler` para escalar las variables predictoras. Esta t√©cnica transforma los datos para que tengan media 0 y desviaci√≥n est√°ndar 1. Es importante ajustar el escalador √∫nicamente con el conjunto de entrenamiento para evitar data leakage.

Transformamos `X_train` y `X_test` usando este escalador.

In [12]:
from sklearn.preprocessing import StandardScaler
import numpy as np

# Inicializar el escalador
scaler = StandardScaler()

# Ajustar solo con datos de entrenamiento
X_train_scaled = scaler.fit_transform(X_train)

# Transformar tambi√©n el conjunto de prueba
X_test_scaled = scaler.transform(X_test)

print("Media (X_train_scaled):", np.mean(X_train_scaled, axis=0))
print("Desviaci√≥n est√°ndar (X_train_scaled):", np.std(X_train_scaled, axis=0))

Media (X_train_scaled): [-6.94341436e-17 -1.09937394e-16 -1.66352636e-16 -6.94341436e-17
  6.27800381e-16 -1.09937394e-16 -1.08490849e-16 -5.11353536e-16]
Desviaci√≥n est√°ndar (X_train_scaled): [1. 1. 1. 1. 1. 1. 1. 1.]



#### üíæ Guardado de datos procesados

Se almacenan los conjuntos de datos `X_train_scaled`, `X_test_scaled`, `y_train`, `y_test` como archivos `.pkl` para reutilizarlos en el notebook `04_evaluation_export.ipynb` sin tener que repetir el preprocesamiento.

In [14]:
import os
import joblib

# Crear carpeta ../data si no existe
os.makedirs('../data', exist_ok=True)

# Guardar datasets escalados desde notebooks/
joblib.dump(X_train_scaled, '../data/X_train_scaled.pkl')
joblib.dump(X_test_scaled, '../data/X_test_scaled.pkl')
joblib.dump(y_train, '../data/y_train.pkl')
joblib.dump(y_test, '../data/y_test.pkl')

print("‚úÖ Datos escalados guardados exitosamente en ../data/")

‚úÖ Datos escalados guardados exitosamente en ../data/




#### ‚úÖ Conclusiones de la etapa de validaci√≥n y escalado

- Se realiz√≥ una correcta divisi√≥n del dataset en entrenamiento y prueba con una proporci√≥n 80/20, utilizando estratificaci√≥n para conservar la proporci√≥n de clases en ambos subconjuntos.
- Se aplic√≥ `StandardScaler` exclusivamente con los datos de entrenamiento y luego se transformaron los datos de prueba, siguiendo buenas pr√°cticas para evitar filtraci√≥n de datos.
- Se verific√≥ que los datos escalados tienen media cercana a 0 y desviaci√≥n est√°ndar igual a 1.
- Finalmente, se guardaron los conjuntos escalados en archivos `.pkl` utilizando `joblib` para su reutilizaci√≥n posterior en el m√≥dulo `04_evaluation_export.ipynb`.

Este enfoque modular facilita el entrenamiento y la evaluaci√≥n de modelos de manera eficiente, reproducible y alineada con buenas pr√°cticas de ciencia de datos.

