# Ingeniería de Características: Creación de Nuevas Variables (Core)

## Descripción:

En esta actividad, trabajarás con el dataset «Titanic – Machine Learning from Disaster» disponible en Kaggle para realizar ingeniería de características. El objetivo es crear nuevas variables a partir de las existentes y evaluar cómo estas nuevas características pueden mejorar la capacidad predictiva de un modelo de machine learning.

Enlace al dataset: https://www.kaggle.com/c/titanic

## Objetivo: 

El objetivo principal es desarrollar habilidades en la creación de nuevas variables que capturen información útil no presente en las variables originales. Estas nuevas características serán utilizadas para mejorar el rendimiento de un modelo de clasificación que prediga la supervivencia de los pasajeros del Titanic.

## Instrucciones: 

### 1. Carga de datos:

* Descarga y carga el dataset «Titanic» desde Kaggle. Realiza una exploración inicial de las variables disponibles, que incluyen información sobre la edad, el género, la clase del pasajero, entre otros.
* Examina cuántos valores faltan en las variables importantes como la edad y el precio del boleto.

### 2. Exploración y preprocesamiento de datos:

* Realiza una limpieza de los datos, manejando los valores nulos. Por ejemplo, puedes imputar los valores faltantes de la edad con la mediana o la media según sea conveniente.
* Revisa la distribución de las variables y asegúrate de que las categorías estén codificadas correctamente para el modelado.

### 3. Creación de nuevas características:

* Crea nuevas variables a partir de las existentes. Algunas ideas incluyen:
- Tamaño de la familia: Combina las variables «SibSp» (número de hermanos/esposos) y «Parch» (número de padres/hijos) para crear una variable que represente el tamaño total de la familia del pasajero.
- Cabina desconocida: Crea una variable binaria que indique si la cabina de un pasajero es conocida o no, lo cual podría estar relacionado con la clase o la ubicación a bordo.
- Categoría de tarifa: Agrupa la variable «Fare» en diferentes rangos para crear una variable categórica que represente el nivel de costo del boleto.
- Título del pasajero: Extrae el título de cada pasajero desde la variable «Name» y crea una nueva variable categórica que represente estos títulos (e.g., Mr., Mrs., Miss.).

### 4. Evaluación de nuevas características:

* Aplica un modelo de machine learning (como un modelo de regresión logística o un árbol de decisión) antes y después de agregar las nuevas características para evaluar su impacto en el rendimiento del modelo.
* Utiliza métricas como la exactitud y el F1-score para comparar el rendimiento con y sin las nuevas variables.

### 5. Interpretación de los resultados:

* Analiza cuáles de las nuevas características tuvieron el mayor impacto en el rendimiento del modelo. ¿Cómo ayudaron a mejorar la capacidad predictiva del modelo en comparación con las variables originales?
* Discute cómo las nuevas características creadas representan una mejor captura de la información sobre los pasajeros.

# Resolución

## 1. Carga de datos:

In [413]:
from utils.git_utils import get_repo_file_path
from utils.kaggle_utils import descargar_dataset_kaggle


# Asegúrarse de que el archivo kaggle.json con las credenciales de kaggle
# estén en el directorio base del repositorio.
kaggle_credentials_path = get_repo_file_path("kaggle.json")

descargar_dataset_kaggle(
    "https://www.kaggle.com/c/titanic",
    kaggle_credentials_path,
    "../data/",
)

Skipping, found downloaded files in "../data/titanic" (use force=True to force download)


In [414]:
import pandas as pd


camino_ds = "../data/titanic/train.csv"
df = pd.read_csv(camino_ds, delimiter=",")

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [415]:
from utils.eda_utils import obtener_estadisticas_datos_nulos


obtener_estadisticas_datos_nulos(df)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Cabin,204,687,77.1
Age,714,177,19.87
Embarked,889,2,0.22
PassengerId,891,0,0.0
Survived,891,0,0.0
Pclass,891,0,0.0
Name,891,0,0.0
Sex,891,0,0.0
SibSp,891,0,0.0
Parch,891,0,0.0


## 2. Exploración y preprocesamiento de datos:

### Realiza una limpieza de los datos, manejando los valores nulos. Por ejemplo, puedes imputar los valores faltantes de la edad con la mediana o la media según sea conveniente.

In [416]:
from utils.eda_utils import obtener_estadisticas_descriptivas_df_es


obtener_estadisticas_descriptivas_df_es(df).T

Unnamed: 0,Cantidad,Mínimo,Máximo,Promedio,Desviación Estándar,Mediana,Coeficiente de Variación
PassengerId,891.0,1.0,891.0,446.0,257.353842,446.0,0.577027
Survived,891.0,0.0,1.0,0.383838,0.486592,0.0,1.267701
Pclass,891.0,1.0,3.0,2.308642,0.836071,3.0,0.362149
Age,714.0,0.42,80.0,29.699118,14.526497,28.0,0.489122
SibSp,891.0,0.0,8.0,0.523008,1.102743,0.0,2.108464
Parch,891.0,0.0,6.0,0.381594,0.806057,0.0,2.112344
Fare,891.0,0.0,512.3292,32.204208,49.693429,14.4542,1.543073


In [417]:
df["Name"]

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [418]:
# Regex que busca el primer punto y trae los caracteres previos
df['Title'] = df['Name'].str.extract('([A-Za-z]+)\.', expand=True)

In [419]:
obtener_estadisticas_datos_nulos(df)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Cabin,204,687,77.1
Age,714,177,19.87
Embarked,889,2,0.22
PassengerId,891,0,0.0
Survived,891,0,0.0
Pclass,891,0,0.0
Name,891,0,0.0
Sex,891,0,0.0
SibSp,891,0,0.0
Parch,891,0,0.0


In [420]:
df["Title"].unique().tolist()

['Mr',
 'Mrs',
 'Miss',
 'Master',
 'Don',
 'Rev',
 'Dr',
 'Mme',
 'Ms',
 'Major',
 'Lady',
 'Sir',
 'Mlle',
 'Col',
 'Capt',
 'Countess',
 'Jonkheer']

In [421]:
def _convertir_titulo(X):
    equivalencia_titulo = {
        "Mr": ["Mr", "Master", "Dr", "Col", "Capt", "Jonkheer", "Don", "Rev", "Sir", "Major"],
        "Mrs": ["Mrs", "Ms", "Mme", "Lady", "Mlle", "Countess",],
        "Miss": ["Miss",],
    }

    for key, values in equivalencia_titulo.items():
        if X in values:
            return key

    return X


df["Title"] = df["Title"].apply(_convertir_titulo)

In [422]:
df["Title"].unique().tolist()

['Mr', 'Mrs', 'Miss']

In [423]:
df_medianas_edades = df.groupby("Title")["Age"].median().reset_index()

def _imputar_edades(X):
    if pd.isna(X["Age"]):
        return df_medianas_edades[df_medianas_edades["Title"] == X["Title"]].loc[:, "Age"].values[0]

    return X["Age"]


df["Age"] = df.apply(_imputar_edades, axis=1)

In [424]:
obtener_estadisticas_datos_nulos(df)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Cabin,204,687,77.1
Embarked,889,2,0.22
PassengerId,891,0,0.0
Survived,891,0,0.0
Pclass,891,0,0.0
Name,891,0,0.0
Sex,891,0,0.0
Age,891,0,0.0
SibSp,891,0,0.0
Parch,891,0,0.0


In [425]:
df["Cabin"].unique().tolist()

[nan,
 'C85',
 'C123',
 'E46',
 'G6',
 'C103',
 'D56',
 'A6',
 'C23 C25 C27',
 'B78',
 'D33',
 'B30',
 'C52',
 'B28',
 'C83',
 'F33',
 'F G73',
 'E31',
 'A5',
 'D10 D12',
 'D26',
 'C110',
 'B58 B60',
 'E101',
 'F E69',
 'D47',
 'B86',
 'F2',
 'C2',
 'E33',
 'B19',
 'A7',
 'C49',
 'F4',
 'A32',
 'B4',
 'B80',
 'A31',
 'D36',
 'D15',
 'C93',
 'C78',
 'D35',
 'C87',
 'B77',
 'E67',
 'B94',
 'C125',
 'C99',
 'C118',
 'D7',
 'A19',
 'B49',
 'D',
 'C22 C26',
 'C106',
 'C65',
 'E36',
 'C54',
 'B57 B59 B63 B66',
 'C7',
 'E34',
 'C32',
 'B18',
 'C124',
 'C91',
 'E40',
 'T',
 'C128',
 'D37',
 'B35',
 'E50',
 'C82',
 'B96 B98',
 'E10',
 'E44',
 'A34',
 'C104',
 'C111',
 'C92',
 'E38',
 'D21',
 'E12',
 'E63',
 'A14',
 'B37',
 'C30',
 'D20',
 'B79',
 'E25',
 'D46',
 'B73',
 'C95',
 'B38',
 'B39',
 'B22',
 'C86',
 'C70',
 'A16',
 'C101',
 'C68',
 'A10',
 'E68',
 'B41',
 'A20',
 'D19',
 'D50',
 'D9',
 'A23',
 'B50',
 'A26',
 'D48',
 'E58',
 'C126',
 'B71',
 'B51 B53 B55',
 'D49',
 'B5',
 'B20',
 'F G

In [426]:
df["Cabin"].fillna("UNK", inplace=True)

obtener_estadisticas_datos_nulos(df)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Cabin"].fillna("UNK", inplace=True)


Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Embarked,889,2,0.22
PassengerId,891,0,0.0
Survived,891,0,0.0
Pclass,891,0,0.0
Name,891,0,0.0
Sex,891,0,0.0
Age,891,0,0.0
SibSp,891,0,0.0
Parch,891,0,0.0
Ticket,891,0,0.0


In [427]:
df["Embarked"].fillna("UNK", inplace=True)

obtener_estadisticas_datos_nulos(df)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Embarked"].fillna("UNK", inplace=True)


Unnamed: 0,datos sin NAs en q,Na en q,Na en %
PassengerId,891,0,0.0
Survived,891,0,0.0
Pclass,891,0,0.0
Name,891,0,0.0
Sex,891,0,0.0
Age,891,0,0.0
SibSp,891,0,0.0
Parch,891,0,0.0
Ticket,891,0,0.0
Fare,891,0,0.0


Ya se imputaron los datos nulos.

In [428]:
columnas = df.columns.tolist()

columnas_convertidas_booleanas = []

valores_columnas_booleanas_potenciales = [
    [0, 1],
    [0.0, 1.0],
    ["false", "true"],
    ["no", "yes"],
    ["no", "si"],
    ["N", "Y"],
]


def _convertir_valor_a_booleano(x):
    if x in [0, 0.0, "false", "no", "no", "N"]:
        return False

    if x in [1, 1.0, "true", "yes", "si", "Y"]:
        return True

    return x


for columna in columnas:
    valores_unicos = df[columna].dropna().unique()

    columna_booleana_encontrada = False

    if len(valores_unicos) == 2:
        print(f"Valores de columna '{columna}': {str(valores_unicos)}")

        for posibilidad_valores_booleanos in valores_columnas_booleanas_potenciales:
            if set(valores_unicos) == set(posibilidad_valores_booleanos):
                print(f"La columna '{columna}' es booleana. Será convertida.")
                df[columna] = df[columna].apply(_convertir_valor_a_booleano)
                df[columna] = df[columna].astype("bool")

                columna_booleana_encontrada = True
                break

    if columna_booleana_encontrada:
        columnas_convertidas_booleanas.append(columna)


print(f"Columnas convertidas a booleanas: {str(columnas_convertidas_booleanas)}")

Valores de columna 'Survived': [0 1]
La columna 'Survived' es booleana. Será convertida.
Valores de columna 'Sex': ['male' 'female']
Columnas convertidas a booleanas: ['Survived']


In [429]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    bool   
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        891 non-null    object 
 11  Embarked     891 non-null    object 
 12  Title        891 non-null    object 
dtypes: bool(1), float64(2), int64(4), object(6)
memory usage: 84.5+ KB


In [430]:
columnas_potencialmente_categoricas = df.select_dtypes(include=["object", "string"]).columns.tolist()

columnas_potencialmente_categoricas

['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked', 'Title']

In [431]:
from utils.eda_utils import limpiar_cadena


for columna in columnas_potencialmente_categoricas:
    df[columna] = df[columna].apply(limpiar_cadena)

In [432]:
# Se elige el 5% como valor para empezar a considerar una columna como categórica.
# Si se supera esta cantidad la columna se dejará como cadena.
porcentaje_max_columnas_categoricas = 0.05
cant_filas_df = df.shape[0]

columnas_a_excluir = []
columnas_convertidas_a_categoricas = []
columnas_convertidas_a_string = []

for columna in columnas_potencialmente_categoricas:
    valores_unicos = df[columna].dropna().unique().tolist()
    print(f"Cant. únicos para columna '{columna}': {len(valores_unicos)}")
    if len(valores_unicos) <= (porcentaje_max_columnas_categoricas * cant_filas_df):
        
        print(f"Valores únicos columna '{columna}': {str(valores_unicos)}")
        print(f"Se procede a convertir la columna '{columna}' a categórica")
        df[columna] = df[columna].astype("category")
        columnas_convertidas_a_categoricas.append(columna)
    else:
        print(f"No se convierte la columna '{columna}' a categórica, se opta por dejarla como string")
        df[columna] = df[columna].astype("string")
        columnas_convertidas_a_string.append(columna)

    del valores_unicos

print("\n")
print(f"Cant. de columnas analizadas: {len(columnas_potencialmente_categoricas)}")
print(f"Cant. de columnas convertidas a category: {len(columnas_convertidas_a_categoricas)}")
print(f"Cant. de columnas convertidas a string: {len(columnas_convertidas_a_string)}")
print(f"Columnas convertidas a categóricas: {str(columnas_convertidas_a_categoricas)}")
print(f"Columnas convertidas a string: {str(columnas_convertidas_a_string)}")

Cant. únicos para columna 'Name': 891
No se convierte la columna 'Name' a categórica, se opta por dejarla como string
Cant. únicos para columna 'Sex': 2
Valores únicos columna 'Sex': ['male', 'female']
Se procede a convertir la columna 'Sex' a categórica
Cant. únicos para columna 'Ticket': 681
No se convierte la columna 'Ticket' a categórica, se opta por dejarla como string
Cant. únicos para columna 'Cabin': 148
No se convierte la columna 'Cabin' a categórica, se opta por dejarla como string
Cant. únicos para columna 'Embarked': 4
Valores únicos columna 'Embarked': ['s', 'c', 'q', 'unk']
Se procede a convertir la columna 'Embarked' a categórica
Cant. únicos para columna 'Title': 3
Valores únicos columna 'Title': ['mr', 'mrs', 'miss']
Se procede a convertir la columna 'Title' a categórica


Cant. de columnas analizadas: 6
Cant. de columnas convertidas a category: 3
Cant. de columnas convertidas a string: 3
Columnas convertidas a categóricas: ['Sex', 'Embarked', 'Title']
Columnas convert

In [433]:
df.drop("PassengerId", axis=1, inplace=True)
df.drop("Name", axis=1, inplace=True)
df.drop("Ticket", axis=1, inplace=True)

## 3. Creación de nuevas características:

### Crea nuevas variables a partir de las existentes.

In [434]:
df["FamilySize"] = df["SibSp"] + df["Parch"]

In [435]:
df["FamilySize"]

0      1
1      1
2      0
3      1
4      0
      ..
886    0
887    0
888    3
889    0
890    0
Name: FamilySize, Length: 891, dtype: int64

In [436]:
def _convertir_cabina_unknown(X):
    if X == "unk":
        return True

    return False


df["CabinUnknown"] = df["Cabin"].apply(_convertir_cabina_unknown)

In [437]:
obtener_estadisticas_datos_nulos(df)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Survived,891,0,0.0
Pclass,891,0,0.0
Sex,891,0,0.0
Age,891,0,0.0
SibSp,891,0,0.0
Parch,891,0,0.0
Fare,891,0,0.0
Cabin,891,0,0.0
Embarked,891,0,0.0
Title,891,0,0.0


In [438]:
obtener_estadisticas_descriptivas_df_es(df).T    

Unnamed: 0,Cantidad,Mínimo,Máximo,Promedio,Desviación Estándar,Mediana,Coeficiente de Variación
Pclass,891.0,1.0,3.0,2.308642,0.836071,3.0,0.362149
Age,891.0,0.42,80.0,29.341942,13.133698,29.0,0.447608
SibSp,891.0,0.0,8.0,0.523008,1.102743,0.0,2.108464
Parch,891.0,0.0,6.0,0.381594,0.806057,0.0,2.112344
Fare,891.0,0.0,512.3292,32.204208,49.693429,14.4542,1.543073
FamilySize,891.0,0.0,10.0,0.904602,1.613459,0.0,1.783612


In [439]:
def _convertir_fare(X):
    if X < 50:
        return "basic"
    
    elif 50 <= X <= 250:
        return "medium"

    else:
        return "premium"


df["FareCat"] = df["Fare"].apply(_convertir_fare).astype("category")

In [440]:
df["FareCat"]

0       basic
1      medium
2       basic
3      medium
4       basic
        ...  
886     basic
887     basic
888     basic
889     basic
890     basic
Name: FareCat, Length: 891, dtype: category
Categories (3, object): ['basic', 'medium', 'premium']

In [441]:
df["Deck"] = df["Cabin"].apply(lambda s: s[0] if pd.notnull(s) else 'M')

In [442]:
columnas_nuevas = ["Title", "FamilySize", "FareCat", "CabinUnknown", "Deck"]

## 4. Evaluación de nuevas características:

### Aplica un modelo de machine learning (como un modelo de regresión logística o un árbol de decisión) antes y después de agregar las nuevas características para evaluar su impacto en el rendimiento del modelo.

In [443]:
columnas = df.columns.tolist()


columnas

['Survived',
 'Pclass',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Fare',
 'Cabin',
 'Embarked',
 'Title',
 'FamilySize',
 'CabinUnknown',
 'FareCat',
 'Deck']

In [444]:
columnas_original = [
    'Pclass',
    'Sex',
    'Age',
    'SibSp',
    'Parch',
    'Fare',
    # 'Cabin',
    'Embarked',
]

columnas_feature_eng = [
    'Pclass',
    'Sex',
    'Age',
    'Fare',
    # 'Cabin',
    'Embarked',
    'Title',
    'FamilySize',
    'CabinUnknown',
    'FareCat',
    'Deck',
]

columnas_total = list(set(columnas_original + columnas_feature_eng))

X = df[columnas_total]

y = df["Survived"]

In [445]:
from utils.eda_utils import obtener_columnas_categoricas_df


columnas_categoricas = obtener_columnas_categoricas_df(df)

for columna in columnas_total:
    if columna not in columnas_categoricas:
        continue

    valores_unicos = df[columna].unique().tolist()
    print(f"Valores únicos para columna '{columna}': {str(valores_unicos)}")

Valores únicos para columna 'Sex': ['male', 'female']
Valores únicos para columna 'Title': ['mr', 'mrs', 'miss']
Valores únicos para columna 'FareCat': ['basic', 'medium', 'premium']
Valores únicos para columna 'Deck': ['u', 'c', 'e', 'g', 'd', 'a', 'b', 'f', 't']
Valores únicos para columna 'Embarked': ['s', 'c', 'q', 'unk']


De estos datos, podemos obtener columnas a codificar como ordinales como one hot.

In [446]:
columnas_ordinales_feature_eng = [
    "FareCat",
]

categorias_columnas_ordinales_feature_eng = [["basic", "medium", "premium"]]

columnas_onehot_original = [
    "Sex",
    "Embarked"
]

columnas_onehot_feature_eng = [
    "Sex",
    "Title",
    "Deck",
    "Embarked"
]

Importamos las librerías necesarias para entrenamiento de modelos

In [447]:
# Modelado
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder, MinMaxScaler
from sklearn.pipeline import Pipeline
from sklearn.tree import DecisionTreeClassifier
import xgboost as xgb

# Evaluación
from sklearn.metrics import (
    classification_report,
    confusion_matrix,
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
)
from sklearn.metrics import roc_curve, roc_auc_score
from sklearn.model_selection import cross_val_score

from utils.classification_utils import graficar_matrices_confusion, graficar_matriz_confusion

In [448]:
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42,
)

X_train_original = X_train[columnas_original]
X_train_feature_eng = X_train[columnas_feature_eng]
X_test_original = X_test[columnas_original]
X_test_feature_eng = X_test[columnas_feature_eng]

In [449]:
preprocessor_original = ColumnTransformer(
    transformers=[
        ("onehot", OneHotEncoder(), columnas_onehot_original)
    ],
    remainder="passthrough"
)

preprocessor_feature_eng = ColumnTransformer(
    transformers=[
        ("ordinal", OrdinalEncoder(), columnas_ordinales_feature_eng),
        ("onehot", OneHotEncoder(), columnas_onehot_feature_eng),
    ],
    remainder="passthrough"
)

#### Modelo sin Feature engineering

In [450]:
rf_original = Pipeline(
    steps=[
        ("preprocessor", preprocessor_original),
        ("model", RandomForestClassifier(n_estimators=20, random_state=42))
    ]
)

rf_original.fit(X_train_original, y_train)

The format of the columns of the 'remainder' transformer in ColumnTransformer.transformers_ will change in version 1.7 to match the format of the other transformers.
At the moment the remainder columns are stored as indices (of type int). With the same ColumnTransformer configuration, in the future they will be stored as column names (of type str).



In [451]:
y_pred_rf_original = rf_original.predict(X_test_original)

accuracy_rf_original = accuracy_score(y_test, y_pred_rf_original)
precision_rf_original = precision_score(y_test, y_pred_rf_original)
recall_rf_original = recall_score(y_test, y_pred_rf_original)
f1_rf_original = f1_score(y_test, y_pred_rf_original)
roc_auc_rf_original = roc_auc_score(y_test, y_pred_rf_original)


print(f"Accuracy RF original: {accuracy_rf_original}")
print(f"Precision RF original: {precision_rf_original}")
print(f"Recall RF original: {recall_rf_original}")
print(f"F1 RF original: {f1_rf_original}")
print(f"ROC AUC original: {roc_auc_rf_original}")

Accuracy RF original: 0.7761194029850746
Precision RF original: 0.7475728155339806
Recall RF original: 0.6936936936936937
F1 RF original: 0.719626168224299
ROC AUC original: 0.7640442990761462


#### Modelo con Feature Engineering

In [452]:
rf_feature_eng = Pipeline(
    steps=[
        ("preprocessor", preprocessor_feature_eng),
        ("model", RandomForestClassifier(n_estimators=20, random_state=42))
    ]
)

rf_feature_eng.fit(X_train_feature_eng, y_train)

The format of the columns of the 'remainder' transformer in ColumnTransformer.transformers_ will change in version 1.7 to match the format of the other transformers.
At the moment the remainder columns are stored as indices (of type int). With the same ColumnTransformer configuration, in the future they will be stored as column names (of type str).



In [453]:
y_pred_rf_feature_eng = rf_feature_eng.predict(X_test_feature_eng)

accuracy_rf_feature_eng = accuracy_score(y_test, y_pred_rf_feature_eng)
precision_rf_feature_eng = precision_score(y_test, y_pred_rf_feature_eng)
recall_rf_feature_eng = recall_score(y_test, y_pred_rf_feature_eng)
f1_rf_feature_eng = f1_score(y_test, y_pred_rf_feature_eng)
roc_auc_rf_feature_eng = roc_auc_score(y_test, y_pred_rf_feature_eng)


print(f"Accuracy RF Feature Eng: {accuracy_rf_feature_eng}")
print(f"Precision RF Feature Eng: {precision_rf_feature_eng}")
print(f"Recall RF Feature Eng: {recall_rf_feature_eng}")
print(f"F1 RF Feature Eng: {f1_rf_feature_eng}")
print(f"ROC AUC Feature Eng: {roc_auc_rf_feature_eng}")

Accuracy RF Feature Eng: 0.7835820895522388
Precision RF Feature Eng: 0.7476635514018691
Recall RF Feature Eng: 0.7207207207207207
F1 RF Feature Eng: 0.7339449541284404
ROC AUC Feature Eng: 0.7743730992138635


### Utiliza métricas como la exactitud y el F1-score para comparar el rendimiento con y sin las nuevas variables.

In [454]:
rf_original_metrics = {
    "Accuracy": accuracy_rf_original,
    "Precision": precision_rf_original,
    "Recall": recall_rf_original,
    "F1-Score": f1_rf_original,
    "ROC-AUC": roc_auc_rf_original,
}

rf_feature_eng_metrics = {
    "Accuracy": accuracy_rf_feature_eng,
    "Precision": precision_rf_feature_eng,
    "Recall": recall_rf_feature_eng,
    "F1-Score": f1_rf_feature_eng,
    "ROC-AUC": roc_auc_rf_feature_eng,
}

results = pd.DataFrame(
    [rf_original_metrics, rf_feature_eng_metrics,],
    index=["Random Forests Original", "Random Forests Feature Eng",],)
print(results)

print("\n")

print("Mejores modelos por métrica:\n")
print(results.idxmax(axis=0))

                            Accuracy  Precision    Recall  F1-Score   ROC-AUC
Random Forests Original     0.776119   0.747573  0.693694  0.719626  0.764044
Random Forests Feature Eng  0.783582   0.747664  0.720721  0.733945  0.774373


Mejores modelos por métrica:

Accuracy     Random Forests Feature Eng
Precision    Random Forests Feature Eng
Recall       Random Forests Feature Eng
F1-Score     Random Forests Feature Eng
ROC-AUC      Random Forests Feature Eng
dtype: object


De los resultados, podemos notar que efectivamente el modelo con feature engineering tiene mejores métricas.

## 5. Interpretación de los resultados:

### Analiza cuáles de las nuevas características tuvieron el mayor impacto en el rendimiento del modelo. ¿Cómo ayudaron a mejorar la capacidad predictiva del modelo en comparación con las variables originales?

Las nuevas variables ayudaron a mejorar la predicción ya que agrupan los datos de manera mas eficiente. Por ejemplo, el FareCat agrupa el costo del ticket en rangos. También , se mantiene el título de la persona como mr, mrs, miss, que está implícitamente en el nombre. La cantidad de familiares también fue agregada y es un parámetro que potencialmente puede mejorar el rendimiento de los modelos.

### Discute cómo las nuevas características creadas representan una mejor captura de la información sobre los pasajeros.

Estas nuevas características traen datos nuevos al modelo (como Title) por lo cual se posee más información que puede ser usada para entrenar los modelos. Adicionalmente, el hecho de que se sepa la cabina del pasajero (a través de CabinUnknown), provee de información adicional que puede ser relevante a la hora de la predicción. Finalmente, el Deck en el que se encuentra el pasajero, también puede potencialmente influír en que el pasajero haya sobrevivido o no dependiendo de donde se encuentre el pasajero al momento del hundimiento.