# Sesión 1 - Apartado 4: Ingeniería de características

En este cuaderno aprenderemos a crear nuevas variables, transformar las existentes y aplicar técnicas de ingeniería de características para mejorar el rendimiento de los modelos.

## 1. Motivación
- La calidad de las características (features) suele ser más importante que el modelo en sí.
- Una buena ingeniería de características puede transformar un dataset mediocre en uno útil.

In [None]:
import pandas as pd
import numpy as np

# Cargar dataset
df = pd.read_csv('data/mini_titanic.csv')
df.head()

## 2. Transformaciones de variables numéricas

In [None]:
# Crear nuevas variables numéricas

# Edad al cuadrado (ejemplo polinómico)
df['Age2'] = df['Age']**2

# Interacción entre Age y Fare
df['Age_Fare'] = df['Age'] * df['Fare']

# Normalización logarítmica (útil para distribuciones sesgadas)
df['Fare_log'] = np.log1p(df['Fare'])

df[['Age','Age2','Age_Fare','Fare','Fare_log']].head()

## 3. Transformaciones de variables categóricas

In [None]:
# Crear nuevas variables categóricas

# Longitud de nombre como proxy de estatus social
df['Name_length'] = df['Name'].apply(len)

# Inicial del pasajero (ejemplo de extracción de substring)
df['Name_initial'] = df['Name'].str[0]

df[['Name','Name_length','Name_initial']].head()

## 4. Discretización (Binning)

In [None]:
# Discretizar la edad en categorías
bins = [0, 12, 18, 30, 50, 80]
labels = ['Niño','Adolescente','Joven','Adulto','Mayor']
df['Age_group'] = pd.cut(df['Age'], bins=bins, labels=labels)
df[['Age','Age_group']].head(10)

## 5. Variables dummy adicionales

In [None]:
df = pd.get_dummies(df, columns=['Age_group'], drop_first=True)
df.head()

## 6. Ejercicio práctico
- Crea al menos **dos nuevas características** derivadas de las ya existentes.
- Ejemplo: relación Fare/Edad, número de espacios en el nombre, indicador binario si el ticket empieza por una letra.

👉 Intenta combinarlas luego en un pipeline en el siguiente apartado.