<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%202/Modulo_2_Ejercicio_6_Resuelto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 6: Transformación y Feature Engineering

## Objetivo
En este ejercicio aprenderás a:
- **Transformar variables numéricas:** Aplicar técnicas de normalización o estandarización a variables numéricas.
- **Codificar variables categóricas:** Convertir variables categóricas en variables dummy (One-Hot Encoding).
- **Crear nuevas características:** Generar variables derivadas a partir de las originales (por ejemplo, calcular el tamaño de la familia y definir si el pasajero viaja solo).

Utilizaremos el dataset **Titanic**, que contiene información de los pasajeros. Algunas ideas de nuevas características son:
- **FamilySize:** La suma de "SibSp" y "Parch" más 1 (para incluir al propio pasajero).
- **IsAlone:** Variable binaria que indique si el pasajero viaja solo (FamilySize == 1).

> **Pregunta de Reflexión:**  
> ¿Cómo pueden las transformaciones de variables y la creación de nuevas features mejorar el desempeño de un modelo predictivo?  
> ¿Qué ventajas encuentras al convertir variables categóricas en variables dummy?

¡Manos a la obra!


In [None]:
# Paso 1: Importa las librerías necesarias y carga el dataset Titanic.

# TODO: Importa pandas, numpy y, si lo consideras útil, las librerías para escalado y visualización.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Define la URL del dataset Titanic (usaremos el dataset original de DataScienceDojo)
url_titanic = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"

# TODO: Carga el dataset utilizando pd.read_csv() y almacénalo en un DataFrame llamado 'df_titanic'
df_titanic = pd.read_csv(url_titanic)

# Muestra las primeras filas para verificar la carga
print("Primeras filas del dataset Titanic:")
display(df_titanic.head())


In [None]:
# Paso 2: Aplica técnicas de escalado a variables numéricas.

# Selecciona algunas variables numéricas de interés, por ejemplo: 'Age', 'Fare', 'SibSp' y 'Parch'.
numeric_features = ['Age', 'Fare', 'SibSp', 'Parch']

# TODO: Crea un DataFrame llamado df_numeric con solo estas columnas.
df_numeric = df_titanic[numeric_features].copy()

# Opcional: Si existen valores nulos en 'Age', imputalos con la mediana.
if df_numeric['Age'].isnull().sum() > 0:
    df_numeric['Age'].fillna(df_numeric['Age'].median(), inplace=True)

# TODO: Aplica StandardScaler a df_numeric y almacena el resultado en un DataFrame llamado df_numeric_scaled.
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_numeric_scaled = pd.DataFrame(scaler.fit_transform(df_numeric), columns=numeric_features)

print("Estadísticas descriptivas de las variables numéricas escaladas:")
display(df_numeric_scaled.describe())


In [None]:
# Paso 3: Convierte variables categóricas en variables dummy.

# Selecciona las columnas categóricas de interés, por ejemplo: 'Sex' y 'Embarked'
categorical_features = ['Sex', 'Embarked']
df_categorical = df_titanic[categorical_features].copy()

# TODO: Aplica One-Hot Encoding a estas columnas usando pd.get_dummies(), eliminando la primera categoría para evitar la multicolinealidad.
df_dummies = pd.get_dummies(df_categorical, drop_first=True)

print("Primeras filas de las variables categóricas codificadas:")
display(df_dummies.head())


In [None]:
# Paso 4: Genera nuevas características a partir de las variables originales.

# Ejemplo 1: 'FamilySize' = SibSp + Parch + 1 (para incluir al pasajero)
# TODO: Crea una nueva columna 'FamilySize' en el DataFrame df_titanic.
df_titanic['FamilySize'] = df_titanic['SibSp'] + df_titanic['Parch'] + 1

# Ejemplo 2: 'IsAlone' = 1 si FamilySize == 1, 0 en caso contrario.
# TODO: Crea una nueva columna 'IsAlone' en df_titanic.
df_titanic['IsAlone'] = (df_titanic['FamilySize'] == 1).astype(int)

print("Primeras filas con las nuevas características 'FamilySize' e 'IsAlone':")
display(df_titanic[['FamilySize', 'IsAlone']].head())


In [None]:
# Paso 5: Integra las variables transformadas en un único DataFrame para modelado.

# Selecciona las nuevas características que creaste: 'FamilySize' e 'IsAlone'
new_features = ['FamilySize', 'IsAlone']
df_new_features = df_titanic[new_features].copy()

# TODO: Combina df_numeric_scaled, df_dummies y df_new_features en un DataFrame final llamado df_final.
df_final = pd.concat([df_numeric_scaled, df_dummies, df_new_features], axis=1)

print("Primeras filas del DataFrame final integrado:")
display(df_final.head())
print("Información del DataFrame final:")
display(df_final.info())


In [None]:
# Paso 6 (Opcional): Aplica PCA para reducir la dimensionalidad del DataFrame final.
# Esto te ayudará a visualizar la estructura de datos en 2 dimensiones.

# TODO: Aplica PCA a df_final para reducirlo a 2 componentes.
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
df_pca = pd.DataFrame(pca.fit_transform(df_final), columns=['PC1', 'PC2'])

# Muestra la varianza explicada de cada componente.
print("Varianza explicada por cada componente PCA:")
print(pca.explained_variance_ratio_)

# Visualiza los resultados del PCA.
plt.figure(figsize=(8,6))
sns.scatterplot(x='PC1', y='PC2', data=df_pca)
plt.title("Visualización PCA del DataFrame Final")
plt.show()


In [None]:
# Paso 7: Sistema de testeo para validar las transformaciones y la integración.

# Este bloque de código verificará:
# 1. Que el DataFrame final (df_final) contenga las columnas esperadas:
#    - Las variables numéricas escaladas: 'Age', 'Fare', 'SibSp', 'Parch'
#    - Las variables dummy: (por ejemplo, 'Sex_male', 'Embarked_Q' o 'Embarked_S' según aparezcan)
#    - Las nuevas características: 'FamilySize' e 'IsAlone'
# 2. Que no existan valores nulos en df_final.
# 3. (Opcional) Que el DataFrame PCA tenga 2 columnas.

expected_numeric = ['Age', 'Fare', 'SibSp', 'Parch']
expected_new = ['FamilySize', 'IsAlone']
expected_columns = expected_numeric + list(df_dummies.columns) + expected_new

for col in expected_columns:
    assert col in df_final.columns, f"Test fallido: La columna '{col}' no se encontró en el DataFrame final."

assert df_final.isnull().sum().sum() == 0, "Test fallido: Existen valores nulos en el DataFrame final."

# Test opcional para PCA: El DataFrame resultante debe tener 2 columnas.
assert df_pca.shape[1] == 2, "Test fallido: El DataFrame PCA no tiene 2 componentes."

print("Todos los tests se han pasado correctamente. Las transformaciones y feature engineering se realizaron como se esperaba.")


## Reflexión Final

1. ¿Cómo crees que la creación de nuevas variables como 'FamilySize' e 'IsAlone' puede influir en la capacidad predictiva de un modelo?
2. ¿Qué ventajas encuentras al aplicar técnicas de escalado a las variables numéricas antes de combinarlas con otras features?
3. ¿Qué impacto tiene convertir variables categóricas en variables dummy para el análisis de datos?
4. (Opcional) ¿Crees que la reducción de dimensionalidad con PCA es útil para visualizar la estructura del conjunto de datos? ¿Por qué?

_Responde estas preguntas en una celda Markdown adicional o en un comentario._
