# üß™ Feature Engineering

El *feature engineering* es el proceso de transformar, crear o seleccionar variables (features) para mejorar el rendimiento de los modelos de machine learning.

üîπ A veces los datos originales no contienen directamente las variables que m√°s ayudan al modelo.  
üîπ Crear buenas features puede marcar m√°s diferencia que cambiar de modelo.

En este notebook, trabajaremos sobre el dataset del Titanic para aplicar:

- Selecci√≥n y transformaci√≥n de variables
- Codificaci√≥n de variables categ√≥ricas
- Generaci√≥n de nuevas variables (features sint√©ticas)
- Discretizaci√≥n, escalado y m√°s


## Importaci√≥n de librer√≠as

In [None]:
import pandas as pd
import seaborn as sns

df = sns.load_dataset("titanic")
df.head()

## Limpieza b√°sica

In [None]:
# Eliminar columnas poco √∫tiles para el modelo
df = df.drop(columns=['deck', 'embark_town', 'alive'])

# Imputar valores nulos
df['age'] = df['age'].fillna(df['age'].median())
df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])

## C√≥dificaci√≥n de variables categ√≥ricas

Label Encoding (para variables ordinales o binarias)

In [None]:
df['sex'] = df['sex'].map({'male': 0, 'female': 1})

One-Hot Encoding (para variables nominales)

In [None]:
df = pd.get_dummies(df, columns=['embarked'], drop_first=True)

## Crear nuevas variables

A. T√≠tulo del pasajero (Mr, Mrs, Miss‚Ä¶)

In [None]:
df['title'] = df['name'].str.extract('([A-Za-z]+)\.', expand=False)

# Agrupar t√≠tulos raros
df['title'] = df['title'].replace(['Lady', 'Countess', 'Capt', 'Col',
                                   'Don', 'Dr', 'Major', 'Rev', 'Sir',
                                   'Jonkheer', 'Dona'], 'Rare')

# Simplificar
df['title'] = df['title'].replace('Mlle', 'Miss')
df['title'] = df['title'].replace('Ms', 'Miss')
df['title'] = df['title'].replace('Mme', 'Mrs')

df['title'] = df['title'].map({'Mr': 0, 'Miss': 1, 'Mrs': 2, 'Master': 3, 'Rare': 4})

B. Tama√±o de familia

In [None]:
df['family_size'] = df['sibsp'] + df['parch'] + 1

C. ¬øEst√° solo?

In [None]:
df['is_alone'] = (df['family_size'] == 1).astype(int)

## Escalado de variables num√©ricas

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df[['age_scaled', 'fare_scaled']] = scaler.fit_transform(df[['age', 'fare']])

## Otras transformaciones √∫tiles

Discretizaci√≥n (binning)

In [None]:
# Agrupar edad en rangos
df['age_bin'] = pd.cut(df['age'], bins=[0, 12, 18, 35, 60, 100], labels=['child', 'teen', 'young_adult', 'adult', 'senior'])

## Modelo final

In [None]:
df_model = df[['pclass', 'sex', 'age_scaled', 'fare_scaled', 'title', 'family_size', 'is_alone', 'embarked_Q', 'embarked_S', 'survived']]
df_model.head()

- Crear variables como `title` o `is_alone` puede capturar informaci√≥n √∫til que no se ve directamente.
- La codificaci√≥n y escalado son pasos esenciales si usar√°s modelos que lo requieran (como SVM o redes neuronales).
- Siempre es bueno visualizar las nuevas variables para entender si agregan valor.
