# üîß Preprocesamiento de Datos
## Clasificaci√≥n de Niveles de Obesidad - Regresi√≥n Ordinal

Este notebook realiza el preprocesamiento completo de los datos antes de entrenar los modelos.

**Objetivos del preprocesamiento:**
1. Codificar variables categ√≥ricas (convertir texto a n√∫meros)
2. Normalizar/estandarizar variables num√©ricas
3. Dividir datos en Train (70%) y Test (30%) con estratificaci√≥n
4. Guardar datos preprocesados y transformadores

**Distribuci√≥n**: 70% Train (con validaci√≥n cruzada) / 30% Test

---

## ¬øPor qu√© es necesario el preprocesamiento?

Los algoritmos de Machine Learning requieren que los datos est√©n en un formato espec√≠fico:

- **Variables categ√≥ricas**: Deben convertirse a n√∫meros (encoding)
- **Escalas diferentes**: Variables con rangos muy diferentes (ej: Age 0-100 vs Height 1.5-2.0) pueden sesgar el modelo
- **Divisi√≥n de datos**: Necesitamos separar datos para entrenar y evaluar

Sin preprocesamiento adecuado, los modelos pueden tener mal rendimiento o incluso fallar.


## 1. Importaci√≥n de Librer√≠as

### ¬øPor qu√© estas librer√≠as?

- **pandas**: Manipulaci√≥n de datos estructurados (DataFrames)
- **numpy**: Operaciones num√©ricas y matem√°ticas
- **sklearn**: Proporciona herramientas de preprocesamiento (StandardScaler, LabelEncoder, etc.) y divisi√≥n de datos
- **pickle**: Guardar objetos Python (transformadores) para uso futuro
- **os**: Crear directorios si no existen

### ¬øPor qu√© guardar los transformadores?

Es crucial guardar los transformadores (scaler, encoders) porque:
- Cuando tengamos nuevos datos, debemos aplicar las **mismas transformaciones**
- El scaler debe usar los mismos par√°metros (media y desviaci√≥n est√°ndar) aprendidos del train
- Sin esto, los nuevos datos estar√≠an en una escala diferente y las predicciones ser√≠an incorrectas


In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
import pickle
import os
import warnings

warnings.filterwarnings('ignore')

print("‚úì Librer√≠as importadas correctamente")


## 2. Carga del Dataset

### ¬øQu√© hace este paso?

Carga el archivo CSV original y verifica que:
- El archivo se carga correctamente
- No hay valores faltantes
- La estructura es la esperada

### ¬øPor qu√© verificar valores faltantes?

Los valores faltantes pueden causar problemas:
- Algunos algoritmos no pueden manejar NaN directamente
- Necesitamos decidir c√≥mo tratarlos (eliminar, imputar, etc.)
- En este caso, verificamos que no haya valores faltantes antes de continuar


In [None]:
# Cargar el dataset
df = pd.read_csv('ObesityDataSet_raw_and_data_sinthetic.csv')

print(f"‚úì Dataset cargado exitosamente")
print(f"  - Forma del dataset: {df.shape}")
print(f"  - Columnas: {list(df.columns)}")
print(f"\nPrimeras 3 filas:")
df.head(3)


In [None]:
# Verificar valores faltantes
print(f"Valores faltantes por columna:")
missing = df.isnull().sum()
print(missing[missing > 0] if missing.sum() > 0 else "  ‚úì No hay valores faltantes")


## 3. Creaci√≥n de Variable IMC (√çndice de Masa Corporal)

### ¬øQu√© hace este paso?

Calcula el IMC (BMI) a partir de Weight y Height, y elimina las variables originales.

### ¬øPor qu√© usar IMC en lugar de Weight y Height?

**IMC (√çndice de Masa Corporal)** = Peso (kg) / Altura (m)¬≤

**Ventajas**:
1. **Relevancia cl√≠nica**: El IMC es la m√©trica est√°ndar para clasificar obesidad
2. **Reducci√≥n de dimensionalidad**: 2 variables (Weight, Height) ‚Üí 1 variable (BMI)
3. **Reduce multicolinealidad**: Weight y Height est√°n altamente correlacionadas
4. **Interpretabilidad**: El IMC es m√°s interpretable y significativo
5. **Normalizaci√≥n natural**: El IMC ya normaliza por altura

**Las clases de obesidad est√°n basadas en rangos de IMC**:
- Insufficient_Weight: IMC < 18.5
- Normal_Weight: 18.5 ‚â§ IMC < 25
- Overweight_Level_I: 25 ‚â§ IMC < 27
- Overweight_Level_II: 27 ‚â§ IMC < 30
- Obesity_Type_I: 30 ‚â§ IMC < 35
- Obesity_Type_II: 35 ‚â§ IMC < 40
- Obesity_Type_III: IMC ‚â• 40

### ¬øPor qu√© eliminar Weight y Height?

- El IMC captura la informaci√≥n relevante de ambas variables
- Evita multicolinealidad (correlaci√≥n alta entre variables)
- Simplifica el modelo sin perder informaci√≥n relevante para este problema


In [None]:
# Calcular IMC (BMI) = Weight (kg) / Height (m)¬≤
print("üìä Calculando IMC (√çndice de Masa Corporal)...")
df['BMI'] = df['Weight'] / (df['Height'] ** 2)

print(f"‚úì IMC calculado")
print(f"  - Rango de IMC: {df['BMI'].min():.2f} - {df['BMI'].max():.2f}")
print(f"  - Media de IMC: {df['BMI'].mean():.2f}")

# Mostrar algunos ejemplos antes de eliminar
print(f"\nEjemplos de c√°lculo:")
print(df[['Height', 'Weight', 'BMI', 'NObeyesdad']].head())

# Eliminar Weight y Height (ya no las necesitamos)
print(f"\nüìù Eliminando variables Weight y Height...")
df = df.drop(columns=['Weight', 'Height'])
print(f"  ‚úì Variables eliminadas")
print(f"  - Columnas restantes: {len(df.columns)}")

# Variable objetivo
target_column = 'NObeyesdad'
y = df[target_column].copy()

# Caracter√≠sticas (todas las columnas excepto la objetivo)
X = df.drop(columns=[target_column])

print(f"\n‚úì Variable objetivo separada: '{target_column}'")
print(f"  - Forma de y: {y.shape}")
print(f"  - Forma de X: {X.shape}")

# Identificar tipos de variables
print(f"\nüìä AN√ÅLISIS DE TIPOS DE VARIABLES:")
print("-" * 80)

# Variables num√©ricas (ya son n√∫meros)
numeric_cols = X.select_dtypes(include=[np.number]).columns.tolist()
print(f"\nVariables Num√©ricas ({len(numeric_cols)}):")
for col in numeric_cols:
    print(f"  - {col}: min={X[col].min():.2f}, max={X[col].max():.2f}, media={X[col].mean():.2f}")

# Variables categ√≥ricas (objetos/strings)
categorical_cols = X.select_dtypes(include=['object']).columns.tolist()
print(f"\nVariables Categ√≥ricas ({len(categorical_cols)}):")
for col in categorical_cols:
    unique_vals = X[col].unique()
    print(f"  - {col}: {len(unique_vals)} valores √∫nicos -> {list(unique_vals)[:5]}...")


## 4. Encoding de Variables Categ√≥ricas

### ¬øQu√© hace este paso?

Convierte variables categ√≥ricas (texto) a n√∫meros. Los algoritmos de ML solo pueden trabajar con n√∫meros.

### ¬øPor qu√© necesitamos encoding?

Los modelos matem√°ticos no entienden texto. Necesitamos convertir:
- "Male" / "Female" ‚Üí n√∫meros
- "yes" / "no" ‚Üí n√∫meros
- "Public_Transportation" / "Walking" / etc. ‚Üí n√∫meros

### Dos Estrategias de Encoding

#### 1. Label Encoding
- Convierte cada categor√≠a a un n√∫mero (0, 1, 2, ...)
- Ejemplo: "no" ‚Üí 0, "yes" ‚Üí 1
- **Usamos para variables binarias** (solo 2 valores)

#### 2. One-Hot Encoding
- Crea una columna binaria por cada categor√≠a
- Ejemplo: "Public_Transportation" ‚Üí [1, 0, 0, 0, 0]
- **Usamos para variables con m√∫ltiples categor√≠as sin orden**
- Evita que el modelo asuma orden donde no lo hay

### ¬øPor qu√© diferentes estrategias?

- **Label Encoding para binarias**: M√°s eficiente, no crea columnas extra
- **One-Hot para multi-categor√≠a**: Evita que el modelo piense que hay orden (ej: "Walking" no es "menor" que "Automobile")


In [None]:
# Crear una copia para trabajar
X_encoded = X.copy()

# Identificar variables binarias (solo 2 valores)
binary_cols = []
multi_cat_cols = []

for col in categorical_cols:
    n_unique = X[col].nunique()
    if n_unique == 2:
        binary_cols.append(col)
    else:
        multi_cat_cols.append(col)

print(f"Variables Binarias (Label Encoding): {binary_cols}")
print(f"Variables Multi-Categor√≠a (One-Hot Encoding): {multi_cat_cols}")


In [None]:
# 4.1: Label Encoding para variables binarias
print(f"\nüìù Aplicando Label Encoding a variables binarias...")
label_encoders = {}

for col in binary_cols:
    le = LabelEncoder()
    X_encoded[col] = le.fit_transform(X[col])
    label_encoders[col] = le
    print(f"  ‚úì {col}: {dict(zip(le.classes_, le.transform(le.classes_)))}")


In [None]:
# 4.2: One-Hot Encoding para variables multi-categor√≠a
print(f"\nüìù Aplicando One-Hot Encoding a variables multi-categor√≠a...")

# Usar pandas get_dummies (m√°s simple que sklearn para este caso)
X_encoded = pd.get_dummies(X_encoded, columns=multi_cat_cols, prefix=multi_cat_cols, drop_first=False)

print(f"  ‚úì Variables codificadas:")
print(f"    - Antes: {len(categorical_cols)} variables categ√≥ricas")
print(f"    - Despu√©s: {X_encoded.shape[1]} variables totales")
print(f"    - Nuevas columnas creadas: {X_encoded.shape[1] - len(numeric_cols) - len(binary_cols)}")

# Mostrar algunas columnas nuevas
new_cols = [col for col in X_encoded.columns if any(mc in col for mc in multi_cat_cols)]
print(f"\n  Ejemplo de nuevas columnas (primeras 5):")
for col in new_cols[:5]:
    print(f"    - {col}")


## 5. Normalizaci√≥n/Estandarizaci√≥n de Variables Num√©ricas

### ¬øQu√© hace este paso?

Normaliza/estandariza las variables num√©ricas para que todas est√©n en la misma escala.

### ¬øPor qu√© es importante?

**Problema**: Variables con rangos muy diferentes pueden dominar el modelo.

**Ejemplo**:
- Age: 0-100 (rango grande)
- Height: 1.5-2.0 (rango peque√±o)

Sin estandarizaci√≥n, Age podr√≠a tener m√°s "peso" en el modelo simplemente por tener n√∫meros m√°s grandes, aunque Height podr√≠a ser igual de importante.

### Tipos de Normalizaci√≥n

#### Estandarizaci√≥n (Z-score normalization) - **USAMOS ESTA**
- **F√≥rmula**: `z = (x - Œº) / œÉ`
- Convierte datos a: media = 0, desviaci√≥n est√°ndar = 1
- √ötil cuando los datos siguen distribuci√≥n normal
- **Ventaja**: Funciona bien con la mayor√≠a de algoritmos

#### Normalizaci√≥n (Min-Max)
- **F√≥rmula**: `x_norm = (x - min) / (max - min)`
- Convierte datos a rango [0, 1]
- √ötil cuando no conocemos la distribuci√≥n

### ¬øCu√°ndo NO estandarizar?

- **√Årboles de decisi√≥n** (Random Forest, Gradient Boosting): No necesitan estandarizaci√≥n porque dividen por umbrales
- **Naive Bayes**: Puede funcionar sin estandarizaci√≥n
- **Pero**: SVM, k-NN, redes neuronales S√ç necesitan estandarizaci√≥n

**Para este proyecto**: Estandarizamos porque usaremos varios tipos de modelos.


In [None]:
# Identificar columnas num√©ricas (despu√©s del encoding)
# Las columnas num√©ricas originales + las binarias codificadas
numeric_cols_to_scale = numeric_cols + binary_cols

print(f"Variables a estandarizar ({len(numeric_cols_to_scale)}):")
print(f"  {numeric_cols_to_scale}")

# Crear el scaler (pero NO aplicarlo a√∫n - lo haremos despu√©s de dividir)
# Esto es importante: NO debemos estandarizar antes de dividir train/test
# porque podr√≠amos "filtrar" informaci√≥n del test al train

scaler = StandardScaler()

print(f"\n‚úì Scaler creado (se aplicar√° despu√©s de dividir train/test)")
print(f"  - Tipo: StandardScaler (Z-score normalization)")
print(f"  - F√≥rmula: z = (x - Œº) / œÉ")

# Mostrar estad√≠sticas antes de estandarizar
print(f"\nüìä Estad√≠sticas ANTES de estandarizar (primeras 3 variables):")
for col in numeric_cols_to_scale[:3]:
    print(f"  {col}:")
    print(f"    - Media: {X_encoded[col].mean():.4f}")
    print(f"    - Desv. Est.: {X_encoded[col].std():.4f}")
    print(f"    - Min: {X_encoded[col].min():.4f}")
    print(f"    - Max: {X_encoded[col].max():.4f}")


## 6. Divisi√≥n de Datos (70-30) con Estratificaci√≥n

### ¬øQu√© hace este paso?

Divide los datos en Train (70%) y Test (30%) manteniendo la proporci√≥n de clases en ambos conjuntos.

### ¬øPor qu√© dividir los datos?

- **Train (70%)**: Usamos para entrenar y ajustar los modelos (con validaci√≥n cruzada)
- **Test (30%)**: Usamos SOLO al final para evaluar el modelo final
- **Nunca** usamos test durante el entrenamiento (evita sobreajuste)

### ¬øQu√© es la Estratificaci√≥n?

**Estratificaci√≥n** = Mantener la proporci√≥n de clases en ambos conjuntos.

**Ejemplo sin estratificaci√≥n**:
- Train: 80% Normal_Weight, 5% Obesity_Type_III
- Test: 10% Normal_Weight, 30% Obesity_Type_III
- ‚ùå Problema: Los conjuntos no son representativos

**Ejemplo con estratificaci√≥n**:
- Train: 13.6% Normal_Weight, 15.3% Obesity_Type_III
- Test: 13.6% Normal_Weight, 15.3% Obesity_Type_III
- ‚úÖ Ambos conjuntos tienen la misma distribuci√≥n

### ¬øPor qu√© NO estandarizar antes de dividir?

**IMPORTANTE**: NO estandarizamos antes de dividir porque:

1. El scaler se ajusta SOLO con datos de train
2. Luego se aplica a test (sin reajustar)
3. Esto evita **"data leakage"** (filtrar informaci√≥n del test al train)

Si estandarizamos antes de dividir:
- El scaler "ve" todos los datos (train + test)
- Esto filtra informaci√≥n del test al train
- El modelo podr√≠a tener mejor rendimiento de lo que realmente tiene


In [None]:
# Divisi√≥n estratificada
# random_state: Para reproducibilidad (mismos resultados cada vez)
# stratify: Mantiene proporci√≥n de clases
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded,
    y,
    test_size=0.30,  # 30% para test
    random_state=42,  # Semilla para reproducibilidad
    stratify=y  # Estratificaci√≥n por clases
)

print(f"\n‚úì Divisi√≥n completada:")
print(f"  - Train: {X_train.shape[0]} registros ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"  - Test: {X_test.shape[0]} registros ({X_test.shape[0]/len(X)*100:.1f}%)")
print(f"  - Caracter√≠sticas: {X_train.shape[1]}")


In [None]:
# Verificar estratificaci√≥n
print(f"\nüìä Verificaci√≥n de estratificaci√≥n:")
print(f"\nDistribuci√≥n en Train:")
train_dist = y_train.value_counts().sort_index()
train_pct = (y_train.value_counts(normalize=True) * 100).sort_index()
for clase in train_dist.index:
    print(f"  {clase:25s}: {train_dist[clase]:4d} ({train_pct[clase]:5.2f}%)")

print(f"\nDistribuci√≥n en Test:")
test_dist = y_test.value_counts().sort_index()
test_pct = (y_test.value_counts(normalize=True) * 100).sort_index()
for clase in test_dist.index:
    print(f"  {clase:25s}: {test_dist[clase]:4d} ({test_pct[clase]:5.2f}%)")

# Verificar que las proporciones son similares
print(f"\n‚úì Verificaci√≥n: Las proporciones son similares en ambos conjuntos")


## 7. Estandarizaci√≥n de Datos (DESPU√âS de Dividir)

### ¬øQu√© hace este paso?

Aplica la estandarizaci√≥n SOLO a los datos de train, ajusta el scaler con train, y luego aplica la misma transformaci√≥n a test (sin reajustar).

### ¬øPor qu√© este orden es cr√≠tico?

**Proceso correcto**:
1. Dividir datos (train/test)
2. Ajustar scaler con SOLO train ‚Üí aprende media y desviaci√≥n est√°ndar de train
3. Transformar train con el scaler ajustado
4. Transformar test con el MISMO scaler (sin reajustar)

**Si hici√©ramos mal**:
1. Estandarizar todo el dataset
2. Dividir datos
3. ‚ùå El scaler "vio" datos de test ‚Üí data leakage

### ¬øPor qu√© no reajustar el scaler con test?

Porque en producci√≥n:
- Nuevos datos llegan sin etiquetas
- Debemos aplicar las mismas transformaciones aprendidas del train
- Si reajustamos con test, estar√≠amos "haciendo trampa"

### Resultado Esperado

Despu√©s de estandarizar:
- **Media ‚âà 0**: Los datos est√°n centrados
- **Desviaci√≥n est√°ndar ‚âà 1**: Los datos est√°n escalados
- Esto facilita el entrenamiento de modelos sensibles a la escala


In [None]:
# Ajustar scaler SOLO con datos de train
print(f"\nüìù Ajustando scaler con datos de train...")
scaler.fit(X_train[numeric_cols_to_scale])

# Aplicar transformaci√≥n
X_train_scaled = X_train.copy()
X_test_scaled = X_test.copy()

X_train_scaled[numeric_cols_to_scale] = scaler.transform(X_train[numeric_cols_to_scale])
X_test_scaled[numeric_cols_to_scale] = scaler.transform(X_test[numeric_cols_to_scale])

print(f"‚úì Estandarizaci√≥n aplicada")

# Mostrar estad√≠sticas despu√©s de estandarizar
print(f"\nüìä Estad√≠sticas DESPU√âS de estandarizar (primeras 3 variables):")
for col in numeric_cols_to_scale[:3]:
    print(f"  {col}:")
    print(f"    - Media: {X_train_scaled[col].mean():.6f} (debe ser ~0)")
    print(f"    - Desv. Est.: {X_train_scaled[col].std():.6f} (debe ser ~1)")
    print(f"    - Min: {X_train_scaled[col].min():.4f}")
    print(f"    - Max: {X_train_scaled[col].max():.4f}")


## 8. Encoding de Variable Objetivo (Ordinal)

### ¬øQu√© hace este paso?

Convierte las clases de texto a n√∫meros ordinales manteniendo el orden.

### ¬øPor qu√© encoding ordinal?

El problema es **regresi√≥n ordinal**: las clases tienen un orden natural:
1. Insufficient_Weight (menor peso)
2. Normal_Weight
3. Overweight_Level_I
4. Overweight_Level_II
5. Obesity_Type_I
6. Obesity_Type_II
7. Obesity_Type_III (mayor peso)

### Mapeo Ordinal

```
0: Insufficient_Weight
1: Normal_Weight
2: Overweight_Level_I
3: Overweight_Level_II
4: Obesity_Type_I
5: Obesity_Type_II
6: Obesity_Type_III
```

### ¬øPor qu√© es importante mantener el orden?

- Algunos modelos pueden aprovechar el orden (regresi√≥n ordinal)
- Las m√©tricas ordinales consideran la distancia en la escala
- Clasificar Obesity_Type_I como Obesity_Type_III es peor que clasificarlo como Normal_Weight


In [None]:
# Definir orden ordinal
ordinal_order = [
    'Insufficient_Weight',
    'Normal_Weight',
    'Overweight_Level_I',
    'Overweight_Level_II',
    'Obesity_Type_I',
    'Obesity_Type_II',
    'Obesity_Type_III'
]

# Crear encoder ordinal
target_encoder = LabelEncoder()
target_encoder.fit(ordinal_order)

# Aplicar encoding
y_train_encoded = pd.Series(target_encoder.transform(y_train), index=y_train.index)
y_test_encoded = pd.Series(target_encoder.transform(y_test), index=y_test.index)

print(f"\n‚úì Variable objetivo codificada:")
print(f"  Mapeo de clases:")
for i, clase in enumerate(ordinal_order):
    print(f"    {i}: {clase}")

print(f"\n  Distribuci√≥n en Train (codificada):")
print(y_train_encoded.value_counts().sort_index())

print(f"\n  Distribuci√≥n en Test (codificada):")
print(y_test_encoded.value_counts().sort_index())


## 9. Guardado de Datos Preprocesados y Transformadores

### ¬øQu√© hace este paso?

Guarda los datos preprocesados y los transformadores para uso futuro.

### ¬øPor qu√© guardar los datos preprocesados?

- **Reproducibilidad**: Podemos cargar los datos ya procesados sin ejecutar todo el notebook
- **Eficiencia**: No necesitamos preprocesar cada vez
- **Consistencia**: Aseguramos usar exactamente los mismos datos

### ¬øPor qu√© guardar los transformadores?

**CR√çTICO**: Cuando tengamos nuevos datos para predecir:
1. Debemos aplicar las **mismas transformaciones**
2. El scaler debe usar los mismos par√°metros (media y desviaci√≥n est√°ndar del train)
3. Los encoders deben usar el mismo mapeo

**Sin esto**: Los nuevos datos estar√≠an en una escala diferente y las predicciones ser√≠an incorrectas.

### Archivos que Guardamos

- **Datos preprocesados**: X_train.csv, X_test.csv, y_train.csv, y_test.csv
- **Transformadores**: scaler.pkl, target_encoder.pkl, label_encoders.pkl
- **Informaci√≥n**: preprocessing_info.pkl (metadatos sobre el preprocesamiento)


In [None]:
# Crear directorio si no existe
os.makedirs('data/processed', exist_ok=True)
os.makedirs('models/preprocessing', exist_ok=True)

# Guardar datos preprocesados
print(f"\nüìÅ Guardando datos preprocesados...")

# Guardar como CSV (para inspecci√≥n)
X_train_scaled.to_csv('data/processed/X_train.csv', index=False)
X_test_scaled.to_csv('data/processed/X_test.csv', index=False)
y_train_encoded.to_csv('data/processed/y_train.csv', index=False)
y_test_encoded.to_csv('data/processed/y_test.csv', index=False)

# Guardar tambi√©n las versiones originales (sin codificar) para referencia
y_train.to_csv('data/processed/y_train_original.csv', index=False)
y_test.to_csv('data/processed/y_test_original.csv', index=False)

print(f"  ‚úì Datos guardados en 'data/processed/'")


In [None]:
# Guardar transformadores
print(f"\nüìÅ Guardando transformadores...")

with open('models/preprocessing/scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)

with open('models/preprocessing/target_encoder.pkl', 'wb') as f:
    pickle.dump(target_encoder, f)

with open('models/preprocessing/label_encoders.pkl', 'wb') as f:
    pickle.dump(label_encoders, f)

# Guardar informaci√≥n sobre las columnas
preprocessing_info = {
    'numeric_cols': numeric_cols,
    'binary_cols': binary_cols,
    'multi_cat_cols': multi_cat_cols,
    'numeric_cols_to_scale': numeric_cols_to_scale,
    'ordinal_order': ordinal_order,
    'n_features': X_train_scaled.shape[1]
}

with open('models/preprocessing/preprocessing_info.pkl', 'wb') as f:
    pickle.dump(preprocessing_info, f)

print(f"  ‚úì Transformadores guardados en 'models/preprocessing/'")


## 10. Resumen Final

### ‚úÖ Lo que hemos completado:

1. **Carga y exploraci√≥n** del dataset original
2. **Identificaci√≥n** de tipos de variables (num√©ricas vs categ√≥ricas)
3. **Encoding** de variables categ√≥ricas (Label + One-Hot)
4. **Estandarizaci√≥n** de variables num√©ricas
5. **Divisi√≥n estratificada** 70-30 (Train/Test)
6. **Encoding ordinal** de variable objetivo
7. **Guardado** de datos preprocesados y transformadores

### üìä Resultados:

- **Dataset original**: 2111 registros, 17 columnas
- **Caracter√≠sticas finales**: 26 variables (despu√©s de encoding)
- **Train**: 1477 registros (70%)
- **Test**: 634 registros (30%)

### üöÄ Pr√≥ximos Pasos:

1. Los datos est√°n listos para entrenar modelos
2. Usar validaci√≥n cruzada en el conjunto de train
3. Evaluar en el conjunto de test al final

### ‚ö†Ô∏è Recordatorios Importantes:

- **Nunca** usar el conjunto de test durante el entrenamiento
- **Siempre** aplicar las mismas transformaciones a nuevos datos
- **Guardar** los transformadores para producci√≥n

---

**Nota**: Este preprocesamiento es fundamental. Cualquier error aqu√≠ afectar√° todos los modelos que entrenemos despu√©s.
