In [None]:
## ⚙️ 3. Feature Engineering (3_feature_engineering.ipynb)

# Importar paquetes
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Importaciones de Scikit-learn para transformaciones
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import QuantileTransformer

# --- 1. Carga de datos limpios ---
df = pd.read_csv('./data/titanic_clean.csv')

# --- 2. Codificación de variables categóricas (Label Encoding) ---

# Codificación de 'Sex' y 'Embarked'
label_sex = LabelEncoder()
label_embarked = LabelEncoder()

df['Sex'] = label_sex.fit_transform(df['Sex'])
df['Embarked'] = label_embarked.fit_transform(df['Embarked'])

print("Muestra después de Label Encoding (Sex y Embarked ahora son números):")
print(df.sample(5))

# --- 3. Normalización de Distribución (QuantileTransformer) ---

# Usar QuantileTransformer para forzar una distribución normal en Age y Fare
# Esto es útil para variables sesgadas y con outliers.

qun_tra_age = QuantileTransformer(output_distribution='normal', n_quantiles=500, random_state=42)
qun_tra_fare = QuantileTransformer(output_distribution='normal', n_quantiles=500, random_state=42)

df['Age'] = qun_tra_age.fit_transform(df[['Age']])
df['Fare'] = qun_tra_fare.fit_transform(df[['Fare']])

# Gráficas de verificación (después de QuantileTransformer)
fig, axes = plt.subplots(1, 2, figsize=(14, 6))
sns.histplot(df['Age'], kde=True, ax=axes[0])
axes[0].set_title('Distribución de Age (Transformada)')
sns.histplot(df['Fare'], kde=True, ax=axes[1])
axes[1].set_title('Distribución de Fare (Transformada)')
plt.tight_layout()
plt.show()

# --- 4. Escalado (MinMaxScaler) ---

# Aplicar MinMaxScaler a todas las características, excluyendo 'Survived' (target)
# Esto asegura que todos los valores estén en el rango [0, 1].

mms = MinMaxScaler()
cols_to_scale = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']

# Transformación de cada columna
for col in cols_to_scale:
    # Usamos fit_transform en una lista de listas (o un DataFrame con esa columna)
    df[col] = mms.fit_transform(df[[col]]) 

print("\nMuestra de datos después de MinMaxScaler (todos en rango [0, 1]):")
print(df.sample(5))

# --- 5. Guardar datos procesados (Checkpoint) ---

# Guardar el DataFrame final con todas las transformaciones
df.to_csv('./data/titanic_procesado.csv', index=False)
print("\nDatos procesados guardados en: ./data/titanic_procesado.csv")