# Sesión 1 - Apartado 4: Ingeniería de características

En este cuaderno aprenderemos a crear nuevas variables, transformar las existentes y aplicar técnicas de ingeniería de características para mejorar el rendimiento de los modelos.

## 1. Motivación
- La calidad de las características (features) suele ser más importante que el modelo en sí.
- Una buena ingeniería de características puede transformar un dataset mediocre en uno útil.

In [1]:
import pandas as pd
import numpy as np

# Cargar dataset
df = pd.read_csv('../data/raw/mini_titanic.csv')
df.head()

Unnamed: 0,sex,class,age,fare,survived
0,male,Third,34.352706,119.0,0
1,female,Second,50.654987,66.77,0
2,male,First,42.007235,21.87,0
3,male,Second,27.760861,,0
4,male,Third,29.733773,212.45,0


## 2. Transformaciones de variables numéricas

In [13]:
# Crear nuevas variables numéricas

# Edad al cuadrado (ejemplo polinómico)
df['Age2'] = df['age']**2

# Interacción entre Age y Fare
df['Age_Fare'] = df['age'] * df['fare']

# Normalización logarítmica (útil para distribuciones sesgadas)
df['Fare_log'] = np.log1p(df['fare'])

df[['age','Age2','Age_Fare','fare','Fare_log']].head()

Unnamed: 0,age,Age2,Age_Fare,fare,Fare_log
0,34.352706,1180.108404,4087.972004,119.0,4.787492
1,50.654987,2565.927712,3382.233484,66.77,4.21612
2,42.007235,1764.607769,918.698223,21.87,3.129826
3,27.760861,770.66538,,,
4,29.733773,884.097262,6316.940093,212.45,5.363403


## 3. Transformaciones de variables categóricas

In [22]:
# Crear nuevas variables categóricas

# Longitud de nombre como proxy de estatus social
df["Class_length"] = df["class"].astype(str).apply(len)

# Inicial del pasajero (ejemplo de extracción de substring)
df['Class_initial'] = df['class'].str[0]

df[['class','Class_length','Class_initial']].head()

Unnamed: 0,class,Class_length,Class_initial
0,Third,5,T
1,Second,6,S
2,First,5,F
3,Second,6,S
4,Third,5,T


## 4. Discretización (Binning)

In [24]:
# Discretizar la edad en categorías
bins = [0, 12, 18, 30, 50, 80]
labels = ['Niño','Adolescente','Joven','Adulto','Mayor']
df['Age_group'] = pd.cut(df['age'], bins=bins, labels=labels)
df[['age','Age_group']].head(10)

Unnamed: 0,age,Age_group
0,34.352706,Adulto
1,50.654987,Mayor
2,42.007235,Adulto
3,27.760861,Joven
4,29.733773,Joven
5,15.964589,Adolescente
6,29.740816,Joven
7,25.958779,Joven
8,34.51806,Adulto
9,18.418767,Joven


## 5. Variables dummy adicionales

In [25]:
df = pd.get_dummies(df, columns=['Age_group'], drop_first=True)
df.head()

Unnamed: 0,sex,class,age,fare,survived,Age2,Age_Fare,Fare_log,Class_length,Class_initial,Age_group_Adolescente,Age_group_Joven,Age_group_Adulto,Age_group_Mayor
0,male,Third,34.352706,119.0,0,1180.108404,4087.972004,4.787492,5,T,False,False,True,False
1,female,Second,50.654987,66.77,0,2565.927712,3382.233484,4.21612,6,S,False,False,False,True
2,male,First,42.007235,21.87,0,1764.607769,918.698223,3.129826,5,F,False,False,True,False
3,male,Second,27.760861,,0,770.66538,,,6,S,False,True,False,False
4,male,Third,29.733773,212.45,0,884.097262,6316.940093,5.363403,5,T,False,True,False,False


## 6. Funciones complejas

In [2]:
df = pd.DataFrame(
    {
        "Nombre": ["Ana", "Luis", "María", "Pedro"],
        "Edad": [23, 35, 29, 41],
        "Ciudad": ["Madrid", "Valencia", "Barcelona", "Sevilla"],
    }
)

In [3]:
df["Edad_doble"] = df["Edad"].apply(lambda x: x * 2)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_doble
0,Ana,23,Madrid,46
1,Luis,35,Valencia,70
2,María,29,Barcelona,58
3,Pedro,41,Sevilla,82


In [4]:
df["Descripcion"] = df.apply(
    lambda fila: f"{fila['Nombre']} tiene {fila['Edad']} años y vive en {fila['Ciudad']}",
    axis=1,
)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_doble,Descripcion
0,Ana,23,Madrid,46,Ana tiene 23 años y vive en Madrid
1,Luis,35,Valencia,70,Luis tiene 35 años y vive en Valencia
2,María,29,Barcelona,58,María tiene 29 años y vive en Barcelona
3,Pedro,41,Sevilla,82,Pedro tiene 41 años y vive en Sevilla


In [7]:
df["Raiz_Edad"] = df["Edad"].apply(np.sqrt)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_doble,Descripcion,Clasificacion,Descripcion2,Raiz_Edad
0,Ana,23,Madrid,46,Ana tiene 23 años y vive en Madrid,Joven,Ana tiene 23 años y vive en Madrid,4.795832
1,Luis,35,Valencia,70,Luis tiene 35 años y vive en Valencia,Adulto,Luis tiene 35 años y vive en Valencia,5.91608
2,María,29,Barcelona,58,María tiene 29 años y vive en Barcelona,Joven,María tiene 29 años y vive en Barcelona,5.385165
3,Pedro,41,Sevilla,82,Pedro tiene 41 años y vive en Sevilla,Mayor,Pedro tiene 41 años y vive en Sevilla,6.403124


In [5]:
def clasificar_edad(edad):
    if edad < 30:
        return "Joven"
    elif edad < 40:
        return "Adulto"
    else:
        return "Mayor"

df["Clasificacion"] = df["Edad"].apply(clasificar_edad)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_doble,Descripcion,Clasificacion
0,Ana,23,Madrid,46,Ana tiene 23 años y vive en Madrid,Joven
1,Luis,35,Valencia,70,Luis tiene 35 años y vive en Valencia,Adulto
2,María,29,Barcelona,58,María tiene 29 años y vive en Barcelona,Joven
3,Pedro,41,Sevilla,82,Pedro tiene 41 años y vive en Sevilla,Mayor


In [6]:
def descripcion_persona(fila):
    return f"{fila['Nombre']} tiene {fila['Edad']} años y vive en {fila['Ciudad']}"

df["Descripcion2"] = df.apply(descripcion_persona, axis=1)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_doble,Descripcion,Clasificacion,Descripcion2
0,Ana,23,Madrid,46,Ana tiene 23 años y vive en Madrid,Joven,Ana tiene 23 años y vive en Madrid
1,Luis,35,Valencia,70,Luis tiene 35 años y vive en Valencia,Adulto,Luis tiene 35 años y vive en Valencia
2,María,29,Barcelona,58,María tiene 29 años y vive en Barcelona,Joven,María tiene 29 años y vive en Barcelona
3,Pedro,41,Sevilla,82,Pedro tiene 41 años y vive en Sevilla,Mayor,Pedro tiene 41 años y vive en Sevilla
