# **Momento de Retroalimentación: Reto Limpieza del Conjunto de Datos**

# **Importación de los datos**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np


# URL del archivo CSV en GitHub
train = pd.read_csv("https://raw.githubusercontent.com/AdrianPinedaSanchez/RetoIAAvanzada/main/Datasets/train.csv")
test = pd.read_csv("https://raw.githubusercontent.com/AdrianPinedaSanchez/RetoIAAvanzada/main/Datasets/test_augmented.csv")
test

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Survived
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,0
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S,1
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q,0
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S,0
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S,1
...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S,0
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C,1
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S,0
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S,0


La selección de los valores de prueba se realizó utilizando los valores correctos disponibles en el repositorio de GitHub, obtenidos a través de Kaggle: [Titanic Labelled Test Set](https://www.kaggle.com/datasets/wesleyhowe/titanic-labelled-test-set). Esta decisión fue consultada con el profesor Iván, ya que al utilizar estos valores, se obtiene un 100% de precisión al subir el resultado en Kaggle (es decir, las etiquetas reales con correctas).

In [None]:
# Asignación de los datasets originales de entrenamiento y prueba a nuevas variables
df_train = train
df_test = test

# **Limpieza y transformación de los datos**

## Renombrar columnas

Se renombran las columnas del dataset para que sean más intuitivas, especialmente si se prefiere trabajar con nombres en español.
Renombrar Columnas: Este paso es esencial para mejorar la claridad del código, facilitando la interpretación de las columnas en futuras etapas del análisis.

In [None]:
# Renombrar columnas del dataset de entrenamiento a español
df_train = df_train.rename(columns={
    'PassengerId': 'ID',
    'Survived': 'Sobrevivio',
    'Pclass': 'Clase Ticket',
    'Name': 'Nombre',
    'Sex': 'Sexo',
    'Age': 'Edad',
    'SibSp': 'Hermanos_Esposos',
    'Parch': 'Padres_Hijos',
    'Ticket': 'Boleto',
    'Fare': 'Tarifa',
    'Cabin': 'Cabina',
    'Embarked': 'Embarcacion'
})

# Renombrar columnas del dataset de prueba a español
df_test = df_test.rename(columns={
    'PassengerId': 'ID',
    'Survived': 'Sobrevivio',
    'Pclass': 'Clase Ticket',
    'Name': 'Nombre',
    'Sex': 'Sexo',
    'Age': 'Edad',
    'SibSp': 'Hermanos_Esposos',
    'Parch': 'Padres_Hijos',
    'Ticket': 'Boleto',
    'Fare': 'Tarifa',
    'Cabin': 'Cabina',
    'Embarked': 'Embarcacion'
})


In [None]:
# Imprimir la información general de los datasets de entrenamiento y prueba
print(df_train.info())
print('')
print(df_test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID                891 non-null    int64  
 1   Sobrevivio        891 non-null    int64  
 2   Clase Ticket      891 non-null    int64  
 3   Nombre            891 non-null    object 
 4   Sexo              891 non-null    object 
 5   Edad              714 non-null    float64
 6   Hermanos_Esposos  891 non-null    int64  
 7   Padres_Hijos      891 non-null    int64  
 8   Boleto            891 non-null    object 
 9   Tarifa            891 non-null    float64
 10  Cabina            204 non-null    object 
 11  Embarcacion       889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------     

Imprimir la información general de los datos permite verificar que las columnas han sido correctamente renombradas y obtener una visión general de los datos.

## Cantidad de nulos

Se requiere conocer la cantidad de datos nulos o faltantes para más adelante poder trabajar con imputaciones.

In [None]:
# Conocer la cantidad de valores nulos
print(df_train.isna().sum())
print('')
print(df_test.isna().sum())

ID                    0
Sobrevivio            0
Clase Ticket          0
Nombre                0
Sexo                  0
Edad                177
Hermanos_Esposos      0
Padres_Hijos          0
Boleto                0
Tarifa                0
Cabina              687
Embarcacion           2
dtype: int64

ID                    0
Clase Ticket          0
Nombre                0
Sexo                  0
Edad                 86
Hermanos_Esposos      0
Padres_Hijos          0
Boleto                0
Tarifa                1
Cabina              327
Embarcacion           0
Sobrevivio            0
dtype: int64


## Eliminar columnas no necesarias

Se decidió eliminar las columnas 'Boleto', 'Embarcación', y 'Cabina' debido a que, tras un análisis detallado de las variables, se concluyó que no aportan información relevante para predecir la supervivencia de los pasajeros.

- **'Boleto'**: Esta columna solo contiene un número identificador del billete, sin proporcionar ninguna característica significativa que influya en la probabilidad de supervivencia.
  
- **'Embarcación'**: Aunque indica el puerto donde los pasajeros abordaron, se considera que esta información no es crítica para predecir la supervivencia. La zona donde se encontraban los pasajeros en el barco, representada por la clase del ticket ('Clase Ticket'), tiene mayor relevancia para el modelo que el lugar de embarque.
  
- **'Cabina'**: Similar a 'Boleto', la columna 'Cabina' contiene números identificadores que no aportan valor predictivo directo. Además, la mayoría de los registros en esta columna están incompletos, lo que reduce aún más su utilidad.

In [None]:
# Descartar las columnas 'Boleto', 'Embarcado' y 'Cabina'
df_train = df_train.drop(columns=[ 'Boleto', 'Embarcacion', 'Cabina'])

df_test = df_test.drop(columns=['Boleto', 'Embarcacion', 'Cabina'])

## Aplicar One Hot Encoding a la columna de Sexo

En este paso, se está aplicando una transformación One Hot Encoding a la columna 'Sexo', donde 'male' se cambia a 0 y 'female' a 1. Esto nos permite transformar las variables categóricas a binarias.

El objetivo de esta transformación es convertir la variable categórica 'Sexo' en un formato numérico que sea entendible por modelos de Machine Learning.
Al asignar valores 0 y 1 a 'male' y 'female' respectivamente, estamos facilitando el procesamiento del dato por parte de algoritmos que no pueden trabajar directamente con texto.


In [None]:
df_train = pd.get_dummies(df_train, columns=['Sexo'])
df_train['Sexo_male'] = df_train['Sexo_male'].astype(int)
df_train['Sexo_female'] = df_train['Sexo_female'].astype(int)

df_test = pd.get_dummies(df_test, columns=['Sexo'])
df_test['Sexo_male'] = df_test['Sexo_male'].astype(int)
df_test['Sexo_female'] = df_test['Sexo_female'].astype(int)

In [None]:
# Mostrar el DataFrame transformado para verificar los cambios en la columna 'Sexo
df_test

Unnamed: 0,ID,Clase Ticket,Nombre,Edad,Hermanos_Esposos,Padres_Hijos,Tarifa,Sobrevivio,Sexo_female,Sexo_male
0,892,3,"Kelly, Mr. James",34.5,0,0,7.8292,0,0,1
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",47.0,1,0,7.0000,1,1,0
2,894,2,"Myles, Mr. Thomas Francis",62.0,0,0,9.6875,0,0,1
3,895,3,"Wirz, Mr. Albert",27.0,0,0,8.6625,0,0,1
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",22.0,1,1,12.2875,1,1,0
...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",,0,0,8.0500,0,0,1
414,1306,1,"Oliva y Ocana, Dona. Fermina",39.0,0,0,108.9000,1,1,0
415,1307,3,"Saether, Mr. Simon Sivertsen",38.5,0,0,7.2500,0,0,1
416,1308,3,"Ware, Mr. Frederick",,0,0,8.0500,0,0,1


# Clasificación de los grupos de edad para la imputación sintética de datos por medio del título

## Extracción del título del nombre

Se realiza una imputación de datos en la columna 'Edad', dado que contiene valores nulos y se considera una variable importante para el análisis.

Se utiliza la columna 'Nombre' para extraer los títulos como 'Mr', 'Mrs', 'Master', 'Miss', etc., ya que estos títulos proporcionan una indicación aproximada de la edad de los pasajeros.

 Por ejemplo, 'Master' generalmente se refiere a niños, mientras que 'Mr' y 'Mrs' corresponden a adultos, lo que facilita la imputación más precisa de las edades faltantes.


In [None]:
# Extraer el título del nombre en el conjunto de entrenamiento
df_train['Titulo'] = df_train['Nombre'].str.extract(r',\s*([^\.]*)\s*\.', expand=False)
df_train['Titulo'] = df_train['Titulo'].str.strip()

# Extraer el título del nombre en el conjunto de prueba
df_test['Titulo'] = df_test['Nombre'].str.extract(r',\s*([^\.]*)\s*\.', expand=False)
df_test['Titulo'] = df_test['Titulo'].str.strip()

## Observación de las medias y desviaciones estándar de los principales títulos

In [None]:
# Filtrar los registros para cada categoría de título
# Separamos los datos en subconjuntos según el título para calcular la media y desviación estándar de la columna 'Edad' dentro de cada grupo.mr_df = df_train[df_train['Titulo'] == 'Mr']
mrs_df = df_train[df_train['Titulo'] == 'Mrs']
master_df = df_train[df_train['Titulo'] == 'Master']
miss_df = df_train[df_train['Titulo'] == 'Miss']
dr_df =df_train[df_train['Titulo'] == 'Dr']
mr_df =df_train[df_train['Titulo'] == 'Mr']

# Calcular la media y desviación estándar para cada categoría de título
mr_mean = mr_df['Edad'].mean()
mr_std = mr_df['Edad'].std()

mrs_mean = mrs_df['Edad'].mean()
mrs_std = mrs_df['Edad'].std()

master_mean = master_df['Edad'].mean()
master_std = master_df['Edad'].std()

miss_mean = miss_df['Edad'].mean()
miss_std = miss_df['Edad'].std()

dr_mean = dr_df['Edad'].mean()
dr_std = dr_df['Edad'].std()

# Imprimir los resultados
print(f"Mr: Media = {mr_mean}, Desviación Estándar = {mr_std}")
print(f"Mrs: Media = {mrs_mean}, Desviación Estándar = {mrs_std}")
print(f"Master: Media = {master_mean}, Desviación Estándar = {master_std}")
print(f"Miss: Media = {miss_mean}, Desviación Estándar = {miss_std}")
print(f"Dr: Media = {dr_mean}, Desviación Estándar = {dr_std}")


Mr: Media = 32.368090452261306, Desviación Estándar = 12.708792722573982
Mrs: Media = 35.898148148148145, Desviación Estándar = 11.433627902196415
Master: Media = 4.574166666666667, Desviación Estándar = 3.6198716433439615
Miss: Media = 21.773972602739725, Desviación Estándar = 12.99029242215268
Dr: Media = 42.0, Desviación Estándar = 12.016655108639842


Al observar las medias y desviaciones estándar, podemos ver que las edades varían significativamente entre los títulos.

Este patrón puede ser utilizado para imputar valores nulos en la columna 'Edad' de manera más precisa.

La imputación de datos faltantes en 'Edad' se puede realizar utilizando estas medias y desviaciones estándar específicas para cada título, asegurando que los valores imputados estén alineados con la tendencia observada en los datos disponibles.


In [None]:
# Calcular la media y desviación estándar para cada categoría de título
categories = ['Mr', 'Mrs', 'Master', 'Miss', 'Dr']
stats = {}

# Calcular la media y desviación estándar para cada categoría de título y almacenarlas en el diccionario 'stats'
for category in categories:
    category_df = df_train[df_train['Titulo'] == category]
    mean_age = category_df['Edad'].mean()
    std_age = category_df['Edad'].std()
    stats[category] = (mean_age, std_age)

# Función para asignar valores nulos probabilísticamente
def assign_age(row):
    if pd.isnull(row['Edad']):
        for category in categories:
            if category == row['Titulo']:
                mean_age, std_age = stats[category]
                return round(np.random.normal(mean_age, std_age))
    return row['Edad']

# Asignar los valores nulos en la columna 'Edad' usando la función 'assign_age'
df_train['Edad'] = df_train.apply(assign_age, axis=1)
df_test['Edad'] = df_test.apply(assign_age, axis=1)

# Verificar la cantidad de valores nulos restantes
print(df_train.isna().sum())
print('')
print(df_test.isna().sum())

ID                  0
Sobrevivio          0
Clase Ticket        0
Nombre              0
Edad                0
Hermanos_Esposos    0
Padres_Hijos        0
Tarifa              0
Sexo_female         0
Sexo_male           0
Titulo              0
dtype: int64

ID                  0
Clase Ticket        0
Nombre              0
Edad                1
Hermanos_Esposos    0
Padres_Hijos        0
Tarifa              1
Sobrevivio          0
Sexo_female         0
Sexo_male           0
Titulo              0
dtype: int64


Anteriormente, se tenían 177 valores nulos en la columna de Edad en el conjunto de entrenamiento y 86 en el de prueba.
Tras la imputación probabilística basada en los títulos, solo queda un valor nulo en la columna Edad y uno en Tarifa en los datos de prueba.
Estos valores restantes serán imputados manualmente utilizando la media obtenida de otra información disponible en las columnas relacionadas.


In [None]:
# Identificación de valores nulos
df_test[df_test.isna().any(axis=1)]

Unnamed: 0,ID,Clase Ticket,Nombre,Edad,Hermanos_Esposos,Padres_Hijos,Tarifa,Sobrevivio,Sexo_female,Sexo_male,Titulo
88,980,3,"O'Donoghue, Ms. Bridget",,0,0,7.75,0,1,0,Ms
152,1044,3,"Storey, Mr. Thomas",60.5,0,0,,0,0,1,Mr


Observamos que el ID 88 tiene un NaN en Edad y el ID 152 tiene un NaN en Tarifa.

Para el ID 88, se utilizará el título para imputar la edad, mientras que para el ID 152, se utilizará la clase del ticket para imputar la tarifa.


In [None]:
# Contar el número de filas donde la columna Titulo tiene el valor 'Ms'.
count_ms = df_test[df_test['Titulo'] == 'Ms'].shape[0]
count_ms

1

Este paso es importante porque 'Ms' tiene pocos registros, lo que puede complicar la imputación.

Se observa que el primer valor nulo es debido al Título "Ms". Dado que solo hay un dato con este título,

Se decide imputar la edad utilizando un valor dentro del promedio ponderado de las medias de los títulos 'Miss' y 'Mrs', así como sus respectivas desviaciones estándar, ya que el título 'Ms' puede ser una variante de estos.

La edad faltante en la fila con ID 88 pertenece a un pasajero con el título 'Ms', que tiene pocos registros.
Para imputar la edad de manera razonable, se utiliza un promedio ponderado entre las medias y desviaciones estándar de los títulos 'Mrs' y 'Miss',
considerando que 'Ms' es una variante de estos títulos. Esta técnica permite imputar la edad de forma que refleje la distribución observada en el conjunto de datos.

In [None]:
# Imputar el valor faltante en la columna Edad
# Inicializar un generador de números aleatorios con una semilla fija para garantizar la reproducibilidad
rng = np.random.RandomState(43)

# Calcular la cantidad de registros con los títulos 'Mrs' y 'Miss' en el conjunto de prueba
count_mrs = df_test[df_test['Titulo'] == 'Mrs'].shape[0]
count_miss = df_test[df_test['Titulo'] == 'Miss'].shape[0]

# Calcular la varianza de la edad para los títulos 'Mrs' y 'Miss' en el conjunto de entrenamiento
mrs_var = mrs_df['Edad'].var()
miss_var = miss_df['Edad'].var()

# Calcular la media ponderada de la edad para imputar la edad del título 'Ms'
ms_mean = ((mrs_mean * count_mrs) + (miss_mean * count_miss)) / (count_mrs + count_miss)

# Calcular la desviación estándar ponderada para imputar la edad del título 'Ms'
ms_std = (((mrs_var * count_mrs) + (miss_var * count_miss) + ((count_miss*count_mrs) / (count_miss + count_mrs)) + ((mrs_mean - miss_mean)**2) ) / ((count_mrs + count_miss -1)))**0.5

# Imputar la edad faltante en la fila con ID 88 utilizando una distribución normal basada en la media y desviación estándar calculadas
df_test.at[88, 'Edad'] =  round(rng.normal(ms_mean, ms_std))

# Imputar la edad faltante en la fila con ID 88 utilizando una distribución normal basada en la media y desviación estándar calculadas
df_test.iloc[88]

Unnamed: 0,88
ID,980
Clase Ticket,3
Nombre,"O'Donoghue, Ms. Bridget"
Edad,32.0
Hermanos_Esposos,0
Padres_Hijos,0
Tarifa,7.75
Sobrevivio,0
Sexo_female,1
Sexo_male,0


El valor nulo en la columna 'Tarifa' para la fila con ID 152 se imputa utilizando la media y desviación estándar de las tarifas en la clase 3.
Al generar un valor dentro del rango μ ± nσ, donde μ es la media y σ es la desviación estándar, se garantiza que el valor imputado siga la distribución
observada en el conjunto de datos, minimizando la introducción de sesgos.


In [None]:
# Imputar un valor faltante en la columna 'Tarifa' para una fila específica (ID 152)
# Filtrar las tarifas de los pasajeros en la clase 3 del conjunto de prueba
clase_3_tarifa = df_test[df_test['Clase Ticket'] == 3]['Tarifa']

# Calcular la media y desviación estándar de las tarifas en la clase 3
mean_tarifa_3 = clase_3_tarifa.mean()
std_tarifa_3 = clase_3_tarifa.std()
# Imputar la tarifa faltante en la fila con ID 152 utilizando una distribución normal basada en la media y desviación estándar calculadas
df_test.at[152, 'Tarifa'] =  max(min(clase_3_tarifa), round(rng.normal(mean_tarifa_3, std_tarifa_3)))

# Mostrar la fila imputada para verificar la imputación
df_test.iloc[152]

Unnamed: 0,152
ID,1044
Clase Ticket,3
Nombre,"Storey, Mr. Thomas"
Edad,60.5
Hermanos_Esposos,0
Padres_Hijos,0
Tarifa,3.1708
Sobrevivio,0
Sexo_female,0
Sexo_male,1


In [None]:
# Verificar la cantidad de valores nulos restantes en los conjuntos de datos de entrenamiento y prueba
print(df_train.isna().sum())
print('')
print(df_test.isna().sum())

ID                  0
Sobrevivio          0
Clase Ticket        0
Nombre              0
Edad                0
Hermanos_Esposos    0
Padres_Hijos        0
Tarifa              0
Sexo_female         0
Sexo_male           0
Titulo              0
dtype: int64

ID                  0
Clase Ticket        0
Nombre              0
Edad                0
Hermanos_Esposos    0
Padres_Hijos        0
Tarifa              0
Sobrevivio          0
Sexo_female         0
Sexo_male           0
Titulo              0
dtype: int64


In [None]:
# Mostrar el conjunto de prueba después de las imputaciones
df_test

Unnamed: 0,ID,Clase Ticket,Nombre,Edad,Hermanos_Esposos,Padres_Hijos,Tarifa,Sobrevivio,Sexo_female,Sexo_male,Titulo
0,892,3,"Kelly, Mr. James",34.5,0,0,7.8292,0,0,1,Mr
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",47.0,1,0,7.0000,1,1,0,Mrs
2,894,2,"Myles, Mr. Thomas Francis",62.0,0,0,9.6875,0,0,1,Mr
3,895,3,"Wirz, Mr. Albert",27.0,0,0,8.6625,0,0,1,Mr
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",22.0,1,1,12.2875,1,1,0,Mrs
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",24.0,0,0,8.0500,0,0,1,Mr
414,1306,1,"Oliva y Ocana, Dona. Fermina",39.0,0,0,108.9000,1,1,0,Dona
415,1307,3,"Saether, Mr. Simon Sivertsen",38.5,0,0,7.2500,0,0,1,Mr
416,1308,3,"Ware, Mr. Frederick",14.0,0,0,8.0500,0,0,1,Mr


## Creación de la columna de Clasificación Edad

Se crea una nueva columna para clasificar las edades en diferentes categorías
Además, se calcula el número total de familiares para cada pasajero sumando las columnas 'Hermanos_Esposos' y 'Padres_Hijos'.


La columna 'Clasificacion_Edad' permite agrupar a los pasajeros en diferentes categorías de edad, lo que puede ser útil para analizar patrones de supervivencia según la edad o para mejorar el rendimiento de modelos predictivos al proporcionar información adicional sobre la demografía de los pasajeros.

La creación de la columna 'Familiares' ayuda a entender mejor las dinámicas familiares a bordo, ya que el número de familiares podría influir en la probabilidad de supervivencia de un pasajero.
Estas nueva variable aporta contexto adicional y podría mejorar la precisión de cualquier modelo predictivo aplicado posteriormente.

In [None]:
# Crear una columna de clasificación de edad

# Definimos los límites de las edades (bins) y las etiquetas correspondientes para cada rango de edad.
# 'right=False' indica que el límite superior de cada bin no está incluido en el rango.
bins = bins=[0, 5, 14, 18, 30, 60, 100]
labels = ['Bebé', 'Niño', 'Adolescente', 'Adulto', 'Adulto mayor', 'Viejo']

# Aplicar la clasificación de edad al conjunto de entrenamiento
df_train['Clasificacion_Edad'] = pd.cut(df_train['Edad'], bins=bins, labels=labels, right=False)

# Aplicar la clasificación de edad al conjunto de prueba
df_test['Clasificacion_Edad'] = pd.cut(df_test['Edad'], bins=bins, labels=labels, right=False)

In [None]:
# Crear la nueva columna de 'Familiares'
# Esta columna se crea sumando las columnas 'Hermanos_Esposos' y 'Padres_Hijos',
# lo que representa el número total de familiares que el pasajero tenía a bordo.
df_train['Familiares'] = df_train['Hermanos_Esposos'] + df_train['Padres_Hijos']
df_test['Familiares'] = df_test['Hermanos_Esposos'] + df_test['Padres_Hijos']