# **Notebook 6: Transformaci√≥n Avanzada y Persistencia de Par√°metros üõ†Ô∏è**

En este notebook daremos el paso final antes del entrenamiento. Prepararemos las variables num√©ricas para optimizar la convergencia de modelos lineales (Regresi√≥n Log√≠stica).

**Pasos Clave:**
1. **Transformaci√≥n Box-Cox:** Para estabilizar la varianza y normalizar la distribuci√≥n de `avg_glucose_level` y `bmi`.
2. **Serializaci√≥n (JSON):** Guardaremos los valores de $\lambda$ (lambda) para replicar la transformaci√≥n en el futuro.
3. **Estandarizaci√≥n:** Aplicaremos `StandardScaler` para que todas las variables tengan media 0 y desviaci√≥n 1.
4. **Exportaci√≥n Final:** Generaremos el dataset listo para entrar a la fase de Machine Learning.

In [6]:
import pandas as pd
import numpy as np
import json
from scipy import stats
from sklearn.preprocessing import StandardScaler

# 1. Carga de datos original
df = pd.read_csv('dataset/healthcare-dataset-stroke-transformed.csv')

# 2. Estructura para persistencia de par√°metros
model_parameters = {
    "box_cox_lambdas": {},
    "box_cox_shifts": {},
    "scaler_params": {}
}

cols_to_transform = ['age', 'avg_glucose_level', 'bmi']

# --- FASE 1: TRANSFORMACI√ìN BOX-COX CON BLINDAJE ---
print("--- Iniciando Transformaci√≥n Box-Cox ---")
for col in cols_to_transform:
    # Verificamos si existen valores <= 0 para aplicar un SHIFT (Desplazamiento)
    min_val = df[col].min()
    
    if min_val <= 0:
        # Si hay valores no positivos, sumamos el valor necesario para que el m√≠nimo sea 1
        shift = abs(min_val) + 1
        df[col] = df[col] + shift
        model_parameters["box_cox_shifts"][col] = shift
        print(f"‚ö†Ô∏è Variable '{col}': Aplicado shift de {shift:.4f} (detectado valor <= 0)")
    else:
        model_parameters["box_cox_shifts"][col] = 0.0

    # Aplicaci√≥n de Box-Cox
    # La funci√≥n devuelve (datos_transformados, valor_lambda)
    df[col], lmbda = stats.boxcox(df[col])
    model_parameters["box_cox_lambdas"][col] = lmbda
    print(f"‚úÖ Variable '{col}': Lambda √≥ptimo = {lmbda:.4f}")

# --- FASE 2: ESTANDARIZACI√ìN (Z-SCORE) ---
print("\n--- Iniciando Estandarizaci√≥n ---")
scaler = StandardScaler()
df[cols_to_transform] = scaler.fit_transform(df[cols_to_transform])

# Guardamos los par√°metros del Scaler para reconstruirlo en producci√≥n
model_parameters["scaler_params"] = {
    "mean": dict(zip(cols_to_transform, scaler.mean_)),
    "scale": dict(zip(cols_to_transform, scaler.scale_)) # escala = desviaci√≥n est√°ndar
}

# --- FASE 3: PERSISTENCIA Y EXPORTACI√ìN ---
# Guardar par√°metros en JSON
with open('dataset/preprocessing_params.json', 'w') as f:
    json.dump(model_parameters, f, indent=4)

# Guardar Dataset Final
df.to_csv('dataset/healthcare-dataset-stroke-final-scaled.csv', index=False)

print("\n" + "="*40)
print("PROCESO FINALIZADO CON √âXITO")
print("Archivo generado: healthcare-dataset-stroke-final-scaled.csv")
print("Par√°metros guardados: preprocessing_params.json")
print("="*40)

--- Iniciando Transformaci√≥n Box-Cox ---
‚úÖ Variable 'age': Lambda √≥ptimo = 0.8361
‚úÖ Variable 'avg_glucose_level': Lambda √≥ptimo = -1.0574
‚úÖ Variable 'bmi': Lambda √≥ptimo = 0.0029

--- Iniciando Estandarizaci√≥n ---

PROCESO FINALIZADO CON √âXITO
Archivo generado: healthcare-dataset-stroke-final-scaled.csv
Par√°metros guardados: preprocessing_params.json
