# 02 - Preprocesamiento de Datos
## Kaggle Playground Series S5E6: Predicting Optimal Fertilizers

**Autor:** F√©lix  
**Fecha:** 3 de junio de 2025  
**Objetivo:** Preparar datos para modelos TIER 1 (Random Forest, LightGBM, XGBoost)

### üìã Plan de Trabajo:
1. **Recrear variables del EDA** - Todas las features identificadas como importantes
2. **Encoding** - Preparar variables categ√≥ricas para los modelos
3. **Escalado** - Normalizar variables num√©ricas 
4. **Divisi√≥n** - Train/Validation 80/20 con random_state=513
5. **Guardado** - Datasets listos para modelado en `/data/processed/`

## üìö Importar Librer√≠as Necesarias

In [1]:
import pandas as pd
import numpy as np
import os
import warnings
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
import joblib

# Configuraciones
warnings.filterwarnings('ignore')
np.random.seed(513)

# Crear directorio para datos procesados si no existe
processed_dir = '../data/processed'
if not os.path.exists(processed_dir):
    os.makedirs(processed_dir)
    print(f"‚úÖ Directorio creado: {processed_dir}")
else:
    print(f"‚úÖ Directorio ya existe: {processed_dir}")

print("Librer√≠as importadas correctamente")

‚úÖ Directorio ya existe: ../data/processed
Librer√≠as importadas correctamente


## üìä Cargar Datos de Entrenamiento y Prueba

In [2]:
# Cargar datasets originales
train_df = pd.read_csv('../data/train.csv').set_index('id')  # ‚Üê Establecer 'id' como √≠ndice
test_df = pd.read_csv('../data/test.csv').set_index('id')   # ‚Üê Establecer 'id' como √≠ndice
sample_submission = pd.read_csv('../data/sample_submission.csv')

print("=== INFORMACI√ìN DE DATASETS ===\n")
print(f"üìà Train shape: {train_df.shape}")
print(f"üìä Test shape: {test_df.shape}")
print(f"üìù Sample submission shape: {sample_submission.shape}")

print("\n=== COLUMNAS DISPONIBLES ===\n")
print(f"Train columns: {list(train_df.columns)}")
print(f"Test columns: {list(test_df.columns)}")

print("\n=== VARIABLE OBJETIVO ===\n")
print(f"Tipos √∫nicos de fertilizantes: {train_df['Fertilizer Name'].nunique()}")
print(f"Distribuci√≥n target (top 5):")
print(train_df['Fertilizer Name'].value_counts().head())

# Verificar consistencia entre train y test
print("\n=== VERIFICACI√ìN DE CONSISTENCIA ===\n")
train_cols = set(train_df.columns) - {'Fertilizer Name'}
test_cols = set(test_df.columns)  # test ya no tiene 'id' como columna (es el √≠ndice)

if train_cols == test_cols:
    print("‚úÖ Train y test tienen las mismas features")
else:
    print("‚ö†Ô∏è Diferencias en columnas:")
    print(f"  Solo en train: {train_cols - test_cols}")
    print(f"  Solo en test: {test_cols - train_cols}")

print("\n=== PREVIEW DE DATOS ===\n")
print("Train (con √≠ndice 'id'):")
display(train_df.head(3))
print("\nTest (con √≠ndice 'id'):")
display(test_df.head(3))

=== INFORMACI√ìN DE DATASETS ===

üìà Train shape: (750000, 9)
üìä Test shape: (250000, 8)
üìù Sample submission shape: (250000, 2)

=== COLUMNAS DISPONIBLES ===

Train columns: ['Temparature', 'Humidity', 'Moisture', 'Soil Type', 'Crop Type', 'Nitrogen', 'Potassium', 'Phosphorous', 'Fertilizer Name']
Test columns: ['Temparature', 'Humidity', 'Moisture', 'Soil Type', 'Crop Type', 'Nitrogen', 'Potassium', 'Phosphorous']

=== VARIABLE OBJETIVO ===

Tipos √∫nicos de fertilizantes: 7
Distribuci√≥n target (top 5):
Fertilizer Name
14-35-14    114436
10-26-26    113887
17-17-17    112453
28-28       111158
20-20       110889
Name: count, dtype: int64

=== VERIFICACI√ìN DE CONSISTENCIA ===

‚úÖ Train y test tienen las mismas features

=== PREVIEW DE DATOS ===

Train (con √≠ndice 'id'):


Unnamed: 0_level_0,Temparature,Humidity,Moisture,Soil Type,Crop Type,Nitrogen,Potassium,Phosphorous,Fertilizer Name
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,37,70,36,Clayey,Sugarcane,36,4,5,28-28
1,27,69,65,Sandy,Millets,30,6,18,28-28
2,29,63,32,Sandy,Millets,24,12,16,17-17-17



Test (con √≠ndice 'id'):


Unnamed: 0_level_0,Temparature,Humidity,Moisture,Soil Type,Crop Type,Nitrogen,Potassium,Phosphorous
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
750000,31,70,52,Sandy,Wheat,34,11,24
750001,27,62,45,Red,Sugarcane,30,14,15
750002,28,72,28,Clayey,Ground Nuts,14,15,4


## ‚öôÔ∏è Recrear Variables del EDA

### üéØ Feature Engineering Estrat√©gico
Recrearemos todas las variables importantes identificadas en el EDA:
- **Ratios NPK** - Relaciones entre nutrientes principales
- **√çndices ambientales** - Combinaciones de variables clim√°ticas
- **Categorizaci√≥n inteligente** - Niveles de nutrientes y condiciones
- **Interacciones** - Combinaciones suelo-cultivo
- **Features de balance** - M√©tricas de equilibrio nutricional

In [3]:
def apply_feature_engineering(df, is_train=True):
    """
    Aplica el mismo feature engineering del EDA a cualquier dataset
    """
    df_features = df.copy()
    
    print(f"üîß Aplicando feature engineering a {'TRAIN' if is_train else 'TEST'}...")
    
    # 1. RATIOS DE NUTRIENTES (basado en alto MI de NPK)
    print("  1Ô∏è‚É£ Creando ratios de nutrientes...")
    df_features["N_P_ratio"] = df_features["Nitrogen"] / (df_features["Phosphorous"] + 1)
    df_features["N_K_ratio"] = df_features["Nitrogen"] / (df_features["Potassium"] + 1)
    df_features["P_K_ratio"] = df_features["Phosphorous"] / (df_features["Potassium"] + 1)
    df_features["Total_NPK"] = (
        df_features["Nitrogen"] + df_features["Phosphorous"] + df_features["Potassium"]
    )
    
    # 2. √çNDICES AMBIENTALES
    print("  2Ô∏è‚É£ Creando √≠ndices ambientales...")
    df_features["Temp_Hum_index"] = (
        df_features["Temparature"] * df_features["Humidity"] / 100
    )
    df_features["Moist_Balance"] = df_features["Moisture"] - df_features["Humidity"]
    df_features["Environ_Stress"] = abs(df_features["Temparature"] - 25) + abs(
        df_features["Humidity"] - 65
    )
    
    # 3. CATEGORIZACI√ìN INTELIGENTE
    print("  3Ô∏è‚É£ Creando categor√≠as basadas en distribuciones...")
    df_features["Temp_Cat"] = pd.cut(
        df_features["Temparature"],
        bins=[0, 25, 30, 35, 100],
        labels=["Fr√≠o", "Templado", "C√°lido", "Muy_C√°lido"],
    )
    df_features["Hum_Cat"] = pd.cut(
        df_features["Humidity"],
        bins=[0, 50, 65, 80, 100],
        labels=["Muy_Baja", "Baja", "Media", "Alta"],
    )
    df_features["N_Level"] = pd.cut(
        df_features["Nitrogen"], bins=[0, 15, 25,100], include_lowest=True,  labels=["Bajo", "Medio", "Alto"]
    )
    df_features["K_Level"] = pd.cut(
        df_features["Potassium"], bins=[0, 4, 14, 100],  include_lowest=True, labels=["Bajo", "Medio", "Alto"]
    )
    df_features["P_Level"] = pd.cut(
        df_features["Phosphorous"], bins=[0, 10, 32,100], include_lowest=True,  labels=["Bajo", "Medio", "Alto"]
    )
    
    # 4. FEATURES DE INTERACCI√ìN
    print("  4Ô∏è‚É£ Creando interacciones estrat√©gicas...")
    df_features["Soil_Crop_Combo"] = (
        df_features["Soil Type"] + "_" + df_features["Crop Type"]
    )
    
    # 5. FEATURES DE BALANCE Y RATIOS AVANZADOS
    print("  5Ô∏è‚É£ Features de balance y ratios avanzados...")
    
    # Balance de macronutrientes
    df_features['NPK_Balance'] = abs(df_features['Nitrogen'] - df_features['Phosphorous']) + \
                                abs(df_features['Nitrogen'] - df_features['Potassium']) + \
                                abs(df_features['Phosphorous'] - df_features['Potassium'])
    
    # √çndice de nutriente dominante
    max_nutrient = df_features[['Nitrogen', 'Phosphorous', 'Potassium']].max(axis=1)
    df_features['Dominant_NPK_Level'] = max_nutrient
    
    # Condiciones ambientales combinadas
    df_features['Temp_Moist_inter'] = df_features['Temparature'] * df_features['Moisture'] / 100
    
    # Listar nuevas features creadas
    new_features = [
        "N_P_ratio", "N_K_ratio", "P_K_ratio", "Total_NPK",
        "Temp_Hum_index", "Moist_Balance", "Environ_Stress",
        "Temp_Cat", "Hum_Cat", "N_Level", "K_Level", "P_Level",
        "Soil_Crop_Combo", 'NPK_Balance', 'Dominant_NPK_Level', 'Temp_Moist_inter'
    ]
    
    print(f"  ‚úÖ {len(new_features)} nuevas features creadas")
    
    return df_features, new_features

# Aplicar feature engineering a ambos datasets
train_processed, new_features_list = apply_feature_engineering(train_df, is_train=True)
test_processed, _ = apply_feature_engineering(test_df, is_train=False)

print(f"\nüìä RESUMEN DESPU√âS DEL FEATURE ENGINEERING:")
print(f"  ‚Ä¢ Train shape: {train_processed.shape}")
print(f"  ‚Ä¢ Test shape: {test_processed.shape}")
print(f"  ‚Ä¢ Nuevas features: {len(new_features_list)}")
print(f"  ‚Ä¢ Features categ√≥ricas nuevas: {[f for f in new_features_list if 'Category' in f or 'Level' in f or 'Combo' in f]}")
print(f"  ‚Ä¢ Features num√©ricas nuevas: {[f for f in new_features_list if f not in ['Temp_Cat', 'Hum_Cat', 'N_Level', 'K_Level', 'P_Level', 'Soil_Crop_Combo']]}")

üîß Aplicando feature engineering a TRAIN...
  1Ô∏è‚É£ Creando ratios de nutrientes...
  2Ô∏è‚É£ Creando √≠ndices ambientales...
  3Ô∏è‚É£ Creando categor√≠as basadas en distribuciones...
  4Ô∏è‚É£ Creando interacciones estrat√©gicas...
  5Ô∏è‚É£ Features de balance y ratios avanzados...
  ‚úÖ 16 nuevas features creadas
üîß Aplicando feature engineering a TEST...
  1Ô∏è‚É£ Creando ratios de nutrientes...
  2Ô∏è‚É£ Creando √≠ndices ambientales...
  3Ô∏è‚É£ Creando categor√≠as basadas en distribuciones...
  4Ô∏è‚É£ Creando interacciones estrat√©gicas...
  5Ô∏è‚É£ Features de balance y ratios avanzados...
  ‚úÖ 16 nuevas features creadas

üìä RESUMEN DESPU√âS DEL FEATURE ENGINEERING:
  ‚Ä¢ Train shape: (750000, 25)
  ‚Ä¢ Test shape: (250000, 24)
  ‚Ä¢ Nuevas features: 16
  ‚Ä¢ Features categ√≥ricas nuevas: ['N_Level', 'K_Level', 'P_Level', 'Soil_Crop_Combo', 'Dominant_NPK_Level']
  ‚Ä¢ Features num√©ricas nuevas: ['N_P_ratio', 'N_K_ratio', 'P_K_ratio', 'Total_NPK', 'Temp_Hum_index', 'M

## üî¢ Codificaci√≥n de Variables Categ√≥ricas

### üéØ Estrategia de Encoding por Modelo:
- **Random Forest**: Puede manejar categ√≥ricas directamente, pero usaremos Label Encoding
- **LightGBM**: Nativo con categ√≥ricas, pero Label Encoding es m√°s estable
- **XGBoost**: Requiere encoding num√©rico - usaremos Label Encoding

**Decisi√≥n**: Usar **Label Encoding** para todas las categ√≥ricas para m√°xima compatibilidad.

In [4]:
def apply_encoding(train_df, test_df, target_col='Fertilizer Name'):
    """
    Aplica Label Encoding a todas las variables categ√≥ricas
    Mantiene consistencia entre train y test
    Maneja correctamente el caso donde test no tiene columna objetivo (competici√≥n Kaggle)
    """
    print("üî¢ Aplicando Label Encoding...\n")
    
    # Identificar variables categ√≥ricas
    categorical_cols = [
        'Soil Type', 'Crop Type', 'Temp_Cat', 'Hum_Cat', 
        'N_Level', 'K_Level', 'P_Level', 'Soil_Crop_Combo'
    ]
    
    # Verificar que existan en ambos datasets (excluyendo target)
    existing_categorical = [col for col in categorical_cols if col in train_df.columns and col in test_df.columns]
    
    print(f"Variables categ√≥ricas a codificar: {existing_categorical}")
    
    # Copiar datasets
    train_encoded = train_df.copy()
    test_encoded = test_df.copy()
    
    # Diccionario para almacenar encoders
    label_encoders = {}
    
    # Aplicar Label Encoding a features (no target)
    for col in existing_categorical:
        print(f"  ‚Ä¢ {col}:")
        
        # Crear encoder
        le = LabelEncoder()
        
        # Combinar valores √∫nicos de train y test para consistencia
        combined_values = pd.concat([train_df[col], test_df[col]]).astype(str)
        le.fit(combined_values)
        
        # Aplicar encoding
        train_encoded[f'{col}_encoded'] = le.transform(train_df[col].astype(str))
        test_encoded[f'{col}_encoded'] = le.transform(test_df[col].astype(str))
        
        # Guardar encoder
        label_encoders[col] = le
        
        # Mostrar mapeo (primeros 5)
        unique_values = train_df[col].unique()[:5]
        print(f"    Total categor√≠as: {len(le.classes_)}")
    
    # Codificar variable objetivo (solo para train - no existe en test)
    if target_col in train_encoded.columns:
        print(f"\nüéØ Codificando variable objetivo: {target_col}")
        target_encoder = LabelEncoder()
        train_encoded[f'{target_col}_encoded'] = target_encoder.fit_transform(train_encoded[target_col])
        label_encoders[target_col] = target_encoder
        print(f"    Total clases objetivo: {len(target_encoder.classes_)}")
        print(f"    Ejemplos: {dict(list(zip(target_encoder.classes_[:5], range(5))))}")
        print(f"    ‚úÖ Objetivo solo en train (correcto para competici√≥n Kaggle)")
    else:
        print(f"\n‚ö†Ô∏è  Variable objetivo '{target_col}' no encontrada en train")
    
    return train_encoded, test_encoded, label_encoders

# Aplicar encoding
train_encoded, test_encoded, encoders_dict = apply_encoding(train_processed, test_processed)

print(f"\nüìä RESUMEN DESPU√âS DEL ENCODING:")
print(f"  ‚Ä¢ Train shape: {train_encoded.shape}")
print(f"  ‚Ä¢ Test shape: {test_encoded.shape}")
print(f"  ‚Ä¢ Encoders creados: {len(encoders_dict)}")
print(f"  ‚Ä¢ Variables codificadas: {list(encoders_dict.keys())}")

# Identificar todas las columnas num√©ricas para escalado
numeric_cols_original = ['Temparature', 'Humidity', 'Moisture', 'Nitrogen', 'Potassium', 'Phosphorous']
numeric_cols_new = [col for col in new_features_list if col not in ['Temp_Cat', 'Hum_Cat', 'N_Level', 'K_Level', 'P_Level', 'Soil_Crop_Combo']]
encoded_cols = [col for col in train_encoded.columns if col.endswith('_encoded')]

all_numeric_cols = numeric_cols_original + numeric_cols_new + encoded_cols

print(f"\nüìà COLUMNAS PARA ESCALADO:")
print(f"  ‚Ä¢ Originales: {numeric_cols_original}")
print(f"  ‚Ä¢ Nuevas num√©ricas: {numeric_cols_new}")
print(f"  ‚Ä¢ Codificadas: {encoded_cols}")
print(f"  ‚Ä¢ Total para escalado: {len(all_numeric_cols)}")

üî¢ Aplicando Label Encoding...

Variables categ√≥ricas a codificar: ['Soil Type', 'Crop Type', 'Temp_Cat', 'Hum_Cat', 'N_Level', 'K_Level', 'P_Level', 'Soil_Crop_Combo']
  ‚Ä¢ Soil Type:
    Total categor√≠as: 5
  ‚Ä¢ Crop Type:
    Total categor√≠as: 11
  ‚Ä¢ Temp_Cat:
    Total categor√≠as: 4
  ‚Ä¢ Hum_Cat:
    Total categor√≠as: 3
  ‚Ä¢ N_Level:
    Total categor√≠as: 3
  ‚Ä¢ K_Level:
    Total categor√≠as: 3
  ‚Ä¢ P_Level:
    Total categor√≠as: 3
  ‚Ä¢ Soil_Crop_Combo:
    Total categor√≠as: 55

üéØ Codificando variable objetivo: Fertilizer Name
    Total clases objetivo: 7
    Ejemplos: {'10-26-26': 0, '14-35-14': 1, '17-17-17': 2, '20-20': 3, '28-28': 4}
    ‚úÖ Objetivo solo en train (correcto para competici√≥n Kaggle)

üìä RESUMEN DESPU√âS DEL ENCODING:
  ‚Ä¢ Train shape: (750000, 34)
  ‚Ä¢ Test shape: (250000, 32)
  ‚Ä¢ Encoders creados: 9
  ‚Ä¢ Variables codificadas: ['Soil Type', 'Crop Type', 'Temp_Cat', 'Hum_Cat', 'N_Level', 'K_Level', 'P_Level', 'Soil_Crop_Combo', 'Fe

## üìè Escalado de Datos

### üéØ Estrategia de Escalado:
- **StandardScaler**: Para variables con distribuciones normales
- **Solo features comunes**: Train y test deben tener las mismas columnas
- **Excluir variable objetivo**: Solo existe en train (competici√≥n Kaggle)
- **Consistencia train/test**: Ajustar scaler solo en train, aplicar a test

> **Nota**: Aunque Random Forest y XGBoost no requieren escalado, lo aplicamos para:
> - Facilitar comparaciones entre modelos
> - Mejorar convergencia de algunos algoritmos
> - Mantener consistencia en el pipeline

In [5]:
# üîç DIAGN√ìSTICO: Verificar columnas antes del escalado
print("üîç DIAGN√ìSTICO PRE-ESCALADO:\n")

print(f"üìä COLUMNAS EN TRAIN ({len(train_encoded.columns)}):")
print(f"  Primeras 10: {list(train_encoded.columns[:10])}")
print(f"  √öltimas 10: {list(train_encoded.columns[-10:])}")

print(f"\nüìä COLUMNAS EN TEST ({len(test_encoded.columns)}):")
print(f"  Primeras 10: {list(test_encoded.columns[:10])}")
print(f"  √öltimas 10: {list(test_encoded.columns[-10:])}")

# Verificar diferencias cr√≠ticas
train_only = set(train_encoded.columns) - set(test_encoded.columns)
test_only = set(test_encoded.columns) - set(train_encoded.columns)
common_cols = set(train_encoded.columns) & set(test_encoded.columns)

print(f"\nüîç AN√ÅLISIS DE COLUMNAS:")
print(f"  ‚Ä¢ Solo en train: {len(train_only)} - {list(train_only)}")
print(f"  ‚Ä¢ Solo en test: {len(test_only)} - {list(test_only)}")
print(f"  ‚Ä¢ Comunes: {len(common_cols)}")

# Verificar columnas para escalado
print(f"\nüìà VERIFICACI√ìN DE COLUMNAS PARA ESCALADO:")
print(f"  ‚Ä¢ all_numeric_cols definidas: {len(all_numeric_cols)}")
print(f"  ‚Ä¢ Muestra: {all_numeric_cols[:10]}")

# Verificar cu√°les existen realmente
existing_in_train = [col for col in all_numeric_cols if col in train_encoded.columns]
existing_in_test = [col for col in all_numeric_cols if col in test_encoded.columns]
existing_in_both = [col for col in all_numeric_cols if col in train_encoded.columns and col in test_encoded.columns]

print(f"  ‚Ä¢ Existen en train: {len(existing_in_train)}")
print(f"  ‚Ä¢ Existen en test: {len(existing_in_test)}")
print(f"  ‚Ä¢ Existen en ambos: {len(existing_in_both)}")

if 'Fertilizer Name_encoded' in existing_in_both:
    print(f"  ‚ö†Ô∏è  Variable objetivo en lista de features para escalado")
else:
    print(f"  ‚úÖ Variable objetivo NO en lista de features comunes (correcto)")

print(f"\n‚úÖ Diagn√≥stico completado - procediendo con escalado...")

üîç DIAGN√ìSTICO PRE-ESCALADO:

üìä COLUMNAS EN TRAIN (34):
  Primeras 10: ['Temparature', 'Humidity', 'Moisture', 'Soil Type', 'Crop Type', 'Nitrogen', 'Potassium', 'Phosphorous', 'Fertilizer Name', 'N_P_ratio']
  √öltimas 10: ['Temp_Moist_inter', 'Soil Type_encoded', 'Crop Type_encoded', 'Temp_Cat_encoded', 'Hum_Cat_encoded', 'N_Level_encoded', 'K_Level_encoded', 'P_Level_encoded', 'Soil_Crop_Combo_encoded', 'Fertilizer Name_encoded']

üìä COLUMNAS EN TEST (32):
  Primeras 10: ['Temparature', 'Humidity', 'Moisture', 'Soil Type', 'Crop Type', 'Nitrogen', 'Potassium', 'Phosphorous', 'N_P_ratio', 'N_K_ratio']
  √öltimas 10: ['Dominant_NPK_Level', 'Temp_Moist_inter', 'Soil Type_encoded', 'Crop Type_encoded', 'Temp_Cat_encoded', 'Hum_Cat_encoded', 'N_Level_encoded', 'K_Level_encoded', 'P_Level_encoded', 'Soil_Crop_Combo_encoded']

üîç AN√ÅLISIS DE COLUMNAS:
  ‚Ä¢ Solo en train: 2 - ['Fertilizer Name_encoded', 'Fertilizer Name']
  ‚Ä¢ Solo en test: 0 - []
  ‚Ä¢ Comunes: 32

üìà VERIFI

In [6]:
def apply_scaling(train_df, test_df, numeric_columns, target_col='Fertilizer Name_encoded'):
    """
    Aplica StandardScaler a las columnas num√©ricas
    Mantiene separados los features de la variable objetivo
    Maneja correctamente el caso donde test no tiene columna objetivo (competici√≥n Kaggle)
    """
    print("üìè Aplicando escalado con StandardScaler...\n")
    
    # Copiar datasets
    train_scaled = train_df.copy()
    test_scaled = test_df.copy()
    
    # Filtrar columnas que realmente existen en AMBOS datasets
    # Excluir columna objetivo de las features a escalar
    existing_numeric_train = [col for col in numeric_columns if col in train_df.columns and col != target_col]
    existing_numeric_test = [col for col in numeric_columns if col in test_df.columns]
    
    # Solo escalar columnas que existen en ambos datasets
    existing_numeric = [col for col in existing_numeric_train if col in existing_numeric_test]
    
    print(f"Columnas a escalar: {len(existing_numeric)}")
    print(f"Muestra: {existing_numeric[:10]}...")
    
    if target_col in train_df.columns and target_col not in test_df.columns:
        print(f"‚úÖ Correcto: Variable objetivo '{target_col}' solo en train (competici√≥n Kaggle)")
    
    # Crear y ajustar scaler
    scaler = StandardScaler()
    
    # Ajustar solo en train con las features comunes
    train_features = train_df[existing_numeric]
    scaler.fit(train_features)
    
    # Aplicar escalado
    train_scaled_features = scaler.transform(train_features)
    test_scaled_features = scaler.transform(test_df[existing_numeric])
    
    # Reemplazar en los DataFrames
    train_scaled[existing_numeric] = train_scaled_features
    test_scaled[existing_numeric] = test_scaled_features
    
    print(f"‚úÖ Escalado aplicado exitosamente")
    print(f"\nüìä ESTAD√çSTICAS POST-ESCALADO:")
    print(f"  ‚Ä¢ Media de features escaladas (train): {train_scaled[existing_numeric].mean().mean():.3f}")
    print(f"  ‚Ä¢ Std de features escaladas (train): {train_scaled[existing_numeric].std().mean():.3f}")
    print(f"  ‚Ä¢ Rango medio escalado: [{train_scaled[existing_numeric].min().min():.2f}, {train_scaled[existing_numeric].max().max():.2f}]")
    
    return train_scaled, test_scaled, scaler, existing_numeric

# Aplicar escalado
train_final, test_final, scaler_fitted, numeric_cols_used = apply_scaling(
    train_encoded, test_encoded, all_numeric_cols
)

print(f"\nüéØ DATASETS FINALES PREPARADOS:")
print(f"  ‚Ä¢ Train shape: {train_final.shape}")
print(f"  ‚Ä¢ Test shape: {test_final.shape}")
print(f"  ‚Ä¢ Features num√©ricas escaladas: {len(numeric_cols_used)}")
print(f"  ‚Ä¢ Variable objetivo disponible: {'Fertilizer Name_encoded' in train_final.columns}")

# Verificar que no hay valores nulos despu√©s del procesamiento
print(f"\nüîç VERIFICACI√ìN DE CALIDAD:")
print(f"  ‚Ä¢ Nulos en train: {train_final.isnull().sum().sum()}")
print(f"  ‚Ä¢ Nulos en test: {test_final.isnull().sum().sum()}")
print(f"  ‚Ä¢ Infinitos en train: {np.isinf(train_final.select_dtypes(include=[np.number])).sum().sum()}")
print(f"  ‚Ä¢ Infinitos en test: {np.isinf(test_final.select_dtypes(include=[np.number])).sum().sum()}")

if train_final.isnull().sum().sum() == 0 and test_final.isnull().sum().sum() == 0:
    print("  ‚úÖ Datasets limpios - sin valores nulos o infinitos")
else:
    print("  ‚ö†Ô∏è Revisar valores nulos o infinitos")

üìè Aplicando escalado con StandardScaler...

Columnas a escalar: 24
Muestra: ['Temparature', 'Humidity', 'Moisture', 'Nitrogen', 'Potassium', 'Phosphorous', 'N_P_ratio', 'N_K_ratio', 'P_K_ratio', 'Total_NPK']...
‚úÖ Correcto: Variable objetivo 'Fertilizer Name_encoded' solo en train (competici√≥n Kaggle)
‚úÖ Escalado aplicado exitosamente

üìä ESTAD√çSTICAS POST-ESCALADO:
  ‚Ä¢ Media de features escaladas (train): -0.000
  ‚Ä¢ Std de features escaladas (train): 1.000
  ‚Ä¢ Rango medio escalado: [-2.82, 8.92]

üéØ DATASETS FINALES PREPARADOS:
  ‚Ä¢ Train shape: (750000, 34)
  ‚Ä¢ Test shape: (250000, 32)
  ‚Ä¢ Features num√©ricas escaladas: 24
  ‚Ä¢ Variable objetivo disponible: True

üîç VERIFICACI√ìN DE CALIDAD:
  ‚Ä¢ Nulos en train: 0
  ‚Ä¢ Nulos en test: 0
  ‚Ä¢ Infinitos en train: 0
  ‚Ä¢ Infinitos en test: 0
  ‚úÖ Datasets limpios - sin valores nulos o infinitos


## üîÑ Divisi√≥n en Conjuntos de Entrenamiento y Validaci√≥n

### üéØ Configuraci√≥n de Divisi√≥n:
- **Proporci√≥n**: 80% entrenamiento, 20% validaci√≥n
- **Random State**: 513 (para reproducibilidad)
- **Estratificada**: Por tipo de fertilizante (variable objetivo)
- **Separaci√≥n**: X (features) e y (target) claramente definidos

In [7]:
def create_train_validation_split(df, target_col='Fertilizer Name_encoded', test_size=0.2, random_state=513):
    """
    Crea divisi√≥n estratificada de entrenamiento y validaci√≥n
    """
    print(f"üîÑ Creando divisi√≥n train/validation...\n")
    
    # Definir features y target
    feature_cols = [col for col in df.columns if col not in [target_col, 'Fertilizer Name']]
    
    X = df[feature_cols]
    y = df[target_col]
    
    print(f"üìä CONFIGURACI√ìN DE DIVISI√ìN:")
    print(f"  ‚Ä¢ Total muestras: {len(df):,}")
    print(f"  ‚Ä¢ Features: {len(feature_cols)}")
    print(f"  ‚Ä¢ Clases objetivo: {y.nunique()}")
    print(f"  ‚Ä¢ Proporci√≥n validaci√≥n: {test_size*100}%")
    print(f"  ‚Ä¢ Random state: {random_state}")
    
    # Divisi√≥n estratificada
    X_train, X_val, y_train, y_val = train_test_split(
        X, y, 
        test_size=test_size, 
        random_state=random_state, 
        stratify=y
    )
    
    print(f"\n‚úÖ DIVISI√ìN COMPLETADA:")
    print(f"  ‚Ä¢ Train: {len(X_train):,} muestras ({len(X_train)/len(df)*100:.1f}%)")
    print(f"  ‚Ä¢ Validation: {len(X_val):,} muestras ({len(X_val)/len(df)*100:.1f}%)")
    
    # Verificar distribuci√≥n estratificada
    train_dist = y_train.value_counts(normalize=True).sort_index()
    val_dist = y_val.value_counts(normalize=True).sort_index()
    
    print(f"\nüìä VERIFICACI√ìN ESTRATIFICACI√ìN:")
    print(f"  ‚Ä¢ Diferencia m√°xima en distribuci√≥n: {abs(train_dist - val_dist).max():.4f}")
    if abs(train_dist - val_dist).max() < 0.01:
        print(f"  ‚úÖ Estratificaci√≥n exitosa (diferencia < 1%)")
    else:
        print(f"  ‚ö†Ô∏è Verificar estratificaci√≥n")
    
    return X_train, X_val, y_train, y_val, feature_cols

# Crear divisi√≥n
X_train, X_val, y_train, y_val, feature_columns = create_train_validation_split(train_final)

print(f"\nüéØ DATASETS FINALES PARA MODELADO:")
print(f"  ‚Ä¢ X_train: {X_train.shape}")
print(f"  ‚Ä¢ X_val: {X_val.shape}")
print(f"  ‚Ä¢ y_train: {y_train.shape} (clases √∫nicas: {y_train.nunique()})")
print(f"  ‚Ä¢ y_val: {y_val.shape} (clases √∫nicas: {y_val.nunique()})")
print(f"  ‚Ä¢ Test completo: {test_final[feature_columns].shape}")

# Preparar dataset de test para predicci√≥n
X_test = test_final[feature_columns]

print(f"\nüìã RESUMEN DE FEATURES:")
print(f"  ‚Ä¢ Total features: {len(feature_columns)}")
print(f"  ‚Ä¢ Features originales: {len(numeric_cols_original)}")
print(f"  ‚Ä¢ Features nuevas: {len([f for f in feature_columns if f in new_features_list or f.endswith('_encoded')])}")
print(f"  ‚Ä¢ Todas escaladas: ‚úÖ")

üîÑ Creando divisi√≥n train/validation...

üìä CONFIGURACI√ìN DE DIVISI√ìN:
  ‚Ä¢ Total muestras: 750,000
  ‚Ä¢ Features: 32
  ‚Ä¢ Clases objetivo: 7
  ‚Ä¢ Proporci√≥n validaci√≥n: 20.0%
  ‚Ä¢ Random state: 513

‚úÖ DIVISI√ìN COMPLETADA:
  ‚Ä¢ Train: 600,000 muestras (80.0%)
  ‚Ä¢ Validation: 150,000 muestras (20.0%)

üìä VERIFICACI√ìN ESTRATIFICACI√ìN:
  ‚Ä¢ Diferencia m√°xima en distribuci√≥n: 0.0000
  ‚úÖ Estratificaci√≥n exitosa (diferencia < 1%)

üéØ DATASETS FINALES PARA MODELADO:
  ‚Ä¢ X_train: (600000, 32)
  ‚Ä¢ X_val: (150000, 32)
  ‚Ä¢ y_train: (600000,) (clases √∫nicas: 7)
  ‚Ä¢ y_val: (150000,) (clases √∫nicas: 7)
  ‚Ä¢ Test completo: (250000, 32)

üìã RESUMEN DE FEATURES:
  ‚Ä¢ Total features: 32
  ‚Ä¢ Features originales: 6
  ‚Ä¢ Features nuevas: 24
  ‚Ä¢ Todas escaladas: ‚úÖ


## üíæ Guardar Datasets Procesados

### üéØ Estructura de Archivos:
- **Datos principales**: X_train, X_val, y_train, y_val, X_test (formato .parquet)
- **Metadatos**: encoders, scaler, mapeos de columnas (.pkl)
- **Datasets completos**: train/test procesados con √≠ndice 'id' (.parquet)

### üì¶ Ventajas del formato .parquet:
- **Eficiencia**: Archivos 60-80% m√°s peque√±os que CSV
- **Velocidad**: Carga/escritura m√°s r√°pida
- **Tipos preservados**: Mantiene autom√°ticamente dtypes e √≠ndices
- **Compatibilidad**: Funciona con pandas, sklearn y todos los frameworks ML

### üìÅ Ubicaci√≥n: `/data/processed/`

In [8]:
def save_processed_datasets():
    """
    Guarda todos los datasets procesados y metadatos necesarios
    OPTIMIZADO: Usando formato .parquet (m√°s eficiente, mantiene √≠ndices y tipos autom√°ticamente)
    No crea archivos redundantes ya que la informaci√≥n de ID est√° en el √≠ndice del dataset
    """
    print("üíæ Guardando datasets procesados (formato .parquet optimizado)...\n")
    
    # 1. DATASETS PRINCIPALES
    print("1Ô∏è‚É£ Guardando datasets de entrenamiento y validaci√≥n...")
    
    # Datasets de entrenamiento (DataFrames)
    X_train.to_parquet(f'{processed_dir}/X_train.parquet')
    X_val.to_parquet(f'{processed_dir}/X_val.parquet')
    
    # Variables objetivo (Series) - convertir a DataFrame para guardar en parquet
    y_train.to_frame().to_parquet(f'{processed_dir}/y_train.parquet')
    y_val.to_frame().to_parquet(f'{processed_dir}/y_val.parquet')
    
    # Dataset de test
    X_test.to_parquet(f'{processed_dir}/X_test.parquet')
    
    print(f"  ‚úÖ X_train.parquet: {X_train.shape}")
    print(f"  ‚úÖ X_val.parquet: {X_val.shape}")
    print(f"  ‚úÖ y_train.parquet: {y_train.shape}")
    print(f"  ‚úÖ y_val.parquet: {y_val.shape}")
    print(f"  ‚úÖ X_test.parquet: {X_test.shape}")
    
    # 2. METADATOS Y CONFIGURACIONES
    print("\n2Ô∏è‚É£ Guardando metadatos y configuraciones...")
    
    # Guardar encoders y scaler
    joblib.dump(encoders_dict, f'{processed_dir}/label_encoders.pkl')
    joblib.dump(scaler_fitted, f'{processed_dir}/standard_scaler.pkl')
    print(f"  ‚úÖ label_encoders.pkl: {len(encoders_dict)} encoders")
    print(f"  ‚úÖ standard_scaler.pkl: scaler para {len(numeric_cols_used)} features")
    
    # Guardar lista de columnas
    feature_info = {
        'feature_columns': feature_columns,
        'numeric_original': numeric_cols_original,
        'numeric_new': numeric_cols_new,
        'categorical_original': ['Soil Type', 'Crop Type'],
        'categorical_new': [f for f in new_features_list if f in ['Temp_Cat', 'Hum_Cat', 'N_Level', 'K_Level', 'P_Level', 'Soil_Crop_Combo']],
        'encoded_columns': [col for col in encoded_cols if col in feature_columns],
        'target_column': 'Fertilizer Name_encoded',
        'target_original': 'Fertilizer Name'
    }
    
    joblib.dump(feature_info, f'{processed_dir}/feature_info.pkl')
    print(f"  ‚úÖ feature_info.pkl: informaci√≥n de {len(feature_columns)} features")
    
    # 3. DATASETS COMPLETOS CON √çNDICE ID (OPTIMIZADO)
    print("\n3Ô∏è‚É£ Guardando datasets completos con √≠ndice 'id'...")
    
    # Train completo procesado (mantiene el √≠ndice 'id' autom√°ticamente con parquet)
    train_complete = train_final.copy()
    train_complete.to_parquet(f'{processed_dir}/train_complete_processed.parquet')
    print(f"  ‚úÖ train_complete_processed.parquet: {train_complete.shape} (con √≠ndice 'id')")
    
    # Test completo procesado (mantiene el √≠ndice 'id' autom√°ticamente con parquet)
    test_complete = test_final.copy()
    test_complete.to_parquet(f'{processed_dir}/test_complete_processed.parquet')
    print(f"  ‚úÖ test_complete_processed.parquet: {test_complete.shape} (con √≠ndice 'id')")
    
    print("\nüéâ Todos los datasets guardados exitosamente")
    return True

# Ejecutar guardado
save_success = save_processed_datasets()

if save_success:
    print(f"\nüéâ ¬°PREPROCESAMIENTO COMPLETADO EXITOSAMENTE!\n")
    
    print(f"üìÅ ARCHIVOS GUARDADOS EN: {processed_dir}")
    print(f"\nüìä RESUMEN FINAL:")
    print(f"  ‚Ä¢ Datasets listos para: Random Forest, LightGBM, XGBoost")
    print(f"  ‚Ä¢ Features totales: {len(feature_columns)}")
    print(f"  ‚Ä¢ Train/Validation: 80/20 estratificado")
    print(f"  ‚Ä¢ Random state: 513")
    print(f"  ‚Ä¢ Escalado: StandardScaler aplicado")
    print(f"  ‚Ä¢ Encoding: Label Encoding para categ√≥ricas")
    
    print(f"\nüöÄ PR√ìXIMOS PASOS:")
    print(f"  1. Cargar datasets desde /data/processed/")
    print(f"  2. Implementar modelos TIER 1")
    print(f"  3. Evaluar performance con validation set")
    print(f"  4. Generar predicciones para submission")
    
    print(f"\n‚úÖ ¬°Listos para modelado!")
else:
    print(f"‚ùå Error en el guardado")

üíæ Guardando datasets procesados (formato .parquet optimizado)...

1Ô∏è‚É£ Guardando datasets de entrenamiento y validaci√≥n...
  ‚úÖ X_train.parquet: (600000, 32)
  ‚úÖ X_val.parquet: (150000, 32)
  ‚úÖ y_train.parquet: (600000,)
  ‚úÖ y_val.parquet: (150000,)
  ‚úÖ X_test.parquet: (250000, 32)

2Ô∏è‚É£ Guardando metadatos y configuraciones...
  ‚úÖ label_encoders.pkl: 9 encoders
  ‚úÖ standard_scaler.pkl: scaler para 24 features
  ‚úÖ feature_info.pkl: informaci√≥n de 32 features

3Ô∏è‚É£ Guardando datasets completos con √≠ndice 'id'...
  ‚úÖ train_complete_processed.parquet: (750000, 34) (con √≠ndice 'id')
  ‚úÖ test_complete_processed.parquet: (250000, 32) (con √≠ndice 'id')

üéâ Todos los datasets guardados exitosamente

üéâ ¬°PREPROCESAMIENTO COMPLETADO EXITOSAMENTE!

üìÅ ARCHIVOS GUARDADOS EN: ../data/processed

üìä RESUMEN FINAL:
  ‚Ä¢ Datasets listos para: Random Forest, LightGBM, XGBoost
  ‚Ä¢ Features totales: 32
  ‚Ä¢ Train/Validation: 80/20 estratificado
  ‚Ä¢ Random

## ‚úÖ Verificaci√≥n Final y Pr√≥ximos Pasos

### üîç Resumen del Preprocesamiento:

1. **‚úÖ Feature Engineering Completado**: Todas las variables del EDA recreadas
2. **‚úÖ Encoding Aplicado**: Label Encoding para m√°xima compatibilidad 
3. **‚úÖ Escalado Realizado**: StandardScaler para normalizaci√≥n
4. **‚úÖ Divisi√≥n Train/Val**: 80/20 estratificado con random_state=513
5. **‚úÖ Datasets Guardados**: Listos para modelos en `/data/processed/`

### üéØ Modelos Preparados Para:
- **Random Forest**: Baseline robusto
- **LightGBM**: Gradient boosting eficiente  
- **XGBoost**: Gradient boosting de alta performance

### üìÅ Archivos Generados (Optimizados):
```
data/processed/
‚îú‚îÄ‚îÄ X_train.parquet, X_val.parquet, y_train.parquet, y_val.parquet  # Datasets divididos
‚îú‚îÄ‚îÄ X_test.parquet                                                    # Test para predicci√≥n
‚îú‚îÄ‚îÄ label_encoders.pkl                                                # Encoders categ√≥ricos
‚îú‚îÄ‚îÄ standard_scaler.pkl                                               # Scaler num√©rico
‚îú‚îÄ‚îÄ feature_info.pkl                                                  # Metadatos de features
‚îî‚îÄ‚îÄ train/test_complete_processed.parquet                            # Datasets completos (con √≠ndice 'id')
```

### üìÑ C√≥mo cargar los archivos:
```python
# Cargar datasets principales
X_train = pd.read_parquet('../data/processed/X_train.parquet')
y_train = pd.read_parquet('../data/processed/y_train.parquet')

# Cargar datasets completos (con √≠ndice 'id')
test_complete = pd.read_parquet('../data/processed/test_complete_processed.parquet')
```

### üöÄ ¬°Preprocesamiento completado! Listos para fase de modelado.