# Introduccion

La limpieza de datos es una etapa crucial en el proceso de análisis de datos y construcción de modelos de aprendizaje automático. Consiste en identificar y corregir errores, manejar valores faltantes, estandarizar formatos y eliminar datos irrelevantes o duplicados. En este cuaderno, nos enfocaremos en la limpieza del famoso dataset del Titanic, que contiene información sobre los pasajeros que viajaron en el transatlántico que se hundió en 1912.

El objetivo de este cuaderno es preparar los datos para el análisis exploratorio y el modelado predictivo, asegurando que los datos sean consistentes, completos y estén en un formato adecuado para su uso posterior.

## Carga de datos

In [11]:
import pandas as pd

# Cargar el dataset
train_df = pd.read_csv('../data/train.csv')
test_df = pd.read_csv('../data/test.csv')

# Limpieza de datos

In [12]:
# Analisis general del conjunto entrenamiento
print('Informacion del dataset: ')
train_df.info()

Informacion del dataset: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [13]:
# Analisis general del conjunto prueba
print('Informacion del dataset: ')
test_df.info()

Informacion del dataset: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


## Manejo de valores nulos

### Notas importantes 

**median(): Calcula la mediana normalmente en una Serie ejemplo train_df['Age'].median()**

**mode(): Calcula el valor mas repetido en una Serie ejemplo train_df['Age'].mode()**

**mean(): Calcula el valor promedio en una Serie ejemplo train_df['Age'].mean()**

**fillna(): Es un método de pandas que se utiliza para llenar (imputar) valores faltantes en un DataFrame o Serie**

**inplace=True: Modifica el DataFrame original directamente sin necesidad de asignar el resultado a una nueva variable.**

### Edad

Usaremos la mediana para llenar los valores faltantes en la columna Age ya que el promedio puede causar conflicto frente a valores atípicos, la media tiene la capacidad de mantener la distribución de los datos lo más cercana posible a la original.

In [16]:
train_df['Age'] = train_df['Age'].fillna(train_df['Age'].median())
test_df['Age'] = test_df['Age'].fillna(test_df['Age'].median())

### Embarked

La columna Embarked contiene valores categóricos nominales que representan los puertos de embarque (por ejemplo, 'C' para Cherbourg, 'Q' para Queenstown, y 'S' para Southampton). Para este tipo de datos, la moda (el valor más frecuente) es una elección adecuada para imputar valores faltantes.

In [15]:
train_df['Embarked'] = train_df['Embarked'].fillna(train_df['Embarked'].mode()[0])
test_df['Embarked'] = test_df['Embarked'].fillna(test_df['Embarked'].mode()[0])

### Fare

In [17]:
test_df['Fare'] = test_df['Fare'].fillna(test_df['Fare'].median())


### Cabin

En el caso de esta columna, no hay manera de poder determinar correctamente que metodo usar debido a que hay muchos valores nulos, por eso la mejor opcion es eliminar la columna

In [18]:
train_df.drop(columns=['Cabin'], inplace=True)
test_df.drop(columns=['Cabin'], inplace=True)

### Verificar valores Nulos

In [19]:
print("\nValores nulos después de la limpieza:")
print(train_df.isnull().sum())
print(test_df.isnull().sum())


Valores nulos después de la limpieza:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64
PassengerId    0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64


## Variables categoricas a numericas

Las variables categóricas se deben convertir a numéricas por varias razones clave en el contexto del análisis de datos y el aprendizaje automático debido a que estos modelos solo pueden procesar variables numericas:

1. Compatibilidad con modelos algoritmicos
2. Calculo de distancias
3. Eficiencia computacional
4. Mejora del rendimiento del modelo
5. Manejo de relaciones ordinales 



### Metodos Comunes de conversion

1. Codificación One-Hot (One-Hot Encoding):

    * Cada categoría se representa como una columna binaria separada (0 o 1). Ideal para variables nominales sin orden intrínseco.

2. Codificación Ordinal:

    * Las categorías se asignan a valores enteros en función de su orden. Útil para variables categóricas con una relación ordenada.

3. Codificación de Frecuencia:

    * Las categorías se reemplazan con la frecuencia (o proporción) de su aparición en el dataset.

4. Codificación de Embedding:

    * Especialmente útil en redes neuronales, donde las categorías se representan como vectores en un espacio de características continuo.

### Sexo

Tenemos solo dos tipos de sexo en los datasets male(masculino) y female(femenino)

In [22]:
print('Conjunto de entrenamiento')
print(train_df['Sex'].value_counts())
print('Conjunto de pruebas')
print(test_df['Sex'].value_counts())

Conjunto de entrenamiento
Sex
male      577
female    314
Name: count, dtype: int64
Conjunto de pruebas
Sex
male      266
female    152
Name: count, dtype: int64


In [23]:
# Convertir a numérico (0 = male, 1 = female)
train_df['Sex'] = train_df['Sex'].map({'male': 0, 'female': 1})
test_df['Sex'] = test_df['Sex'].map({'male': 0, 'female': 1})

### Embarked

Tenemos tres tipos de embarcaciones para la conversion utilizaremos el metodo one-hot encoding, debido a que no se tiene ningun orden especifico ni importante en cuanto a las embarcaciones

In [26]:
print('Conjunto de entrenamiento\n')
print(train_df['Embarked'].value_counts())
print('\nConjunto de pruebas\n')
print(test_df['Embarked'].value_counts())

Conjunto de entrenamiento

Embarked
S    646
C    168
Q     77
Name: count, dtype: int64

Conjunto de pruebas

Embarked
S    270
C    102
Q     46
Name: count, dtype: int64


In [27]:
train_df = pd.get_dummies(train_df, columns=['Embarked'], prefix='Embarked')
test_df = pd.get_dummies(test_df, columns=['Embarked'], prefix='Embarked')

In [32]:
# Convertir columnas booleanas a enteros
for col in train_df.columns:
    if train_df[col].dtype == 'bool':
        train_df[col] = train_df[col].astype(int)

for col in test_df.columns:
    if test_df[col].dtype == 'bool':
        test_df[col] = test_df[col].astype(int)

**Ejemplo de la conversion**

| Embarked_C | Embarked_Q | Embarked_S |
|------------|------------|------------|
| 1          | 0          | 0          |
| 0          | 1          | 0          |
| 0          | 0          | 1          |


### Verificacion de conversion

In [33]:
# Verificar las primeras filas para asegurar la correcta conversión
print("\nPrimeras filas del dataset de entrenamiento después de la conversión:")
train_df.head()


Primeras filas del dataset de entrenamiento después de la conversión:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked_C,Embarked_Q,Embarked_S
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,0,0,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,1,0,0
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,0,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,0,0,1
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,0,0,1


In [30]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    int64  
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Embarked_C   891 non-null    bool   
 11  Embarked_Q   891 non-null    bool   
 12  Embarked_S   891 non-null    bool   
dtypes: bool(3), float64(2), int64(6), object(2)
memory usage: 72.3+ KB


In [36]:
print("\nPrimeras filas del dataset de prueba después de la conversion:")
test_df.head()


Primeras filas del dataset de prueba después de la conversion:


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked_C,Embarked_Q,Embarked_S
0,892,3,"Kelly, Mr. James",0,34.5,0,0,330911,7.8292,0,1,0
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",1,47.0,1,0,363272,7.0,0,0,1
2,894,2,"Myles, Mr. Thomas Francis",0,62.0,0,0,240276,9.6875,0,1,0
3,895,3,"Wirz, Mr. Albert",0,27.0,0,0,315154,8.6625,0,0,1
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",1,22.0,1,1,3101298,12.2875,0,0,1


## Creacion de nuevas caracteristicas

Crear nuevas características (features) es una parte crucial del preprocesamiento de datos en el aprendizaje automático y análisis de datos. Razones clave para crear nuevas caracteristicas:

1. Mejorar la Capacidad Predictiva:

    * Nuevas características pueden capturar información y patrones que no son evidentes en las características originales. Esto puede mejorar la capacidad predictiva de los modelos.

2. Incorporar Conocimiento del Dominio:

    * Al crear características nuevas, puedes incorporar conocimiento específico del dominio o contexto del problema, lo que puede proporcionar información valiosa para el modelo.

3. Manejo de Relaciones No Lineales:

    * Algunas relaciones entre características y la variable objetivo pueden no ser lineales. Nuevas características pueden ayudar a capturar estas relaciones complejas.

4. Reducir la Dimensionalidad:

    * En algunos casos, nuevas características pueden resumir o consolidar la información de múltiples características originales, lo que puede ayudar a reducir la dimensionalidad y simplificar el modelo.

### Numero Familares

Esta característica puede ser útil porque puede capturar la influencia de viajar en grupo en la probabilidad de supervivencia.

In [37]:
train_df['Family_Size'] = train_df['SibSp'] + train_df['Parch'] + 1 #Recordemos que el pasajero cuenta como familiar
test_df['Family_Size'] = test_df['SibSp'] + test_df['Parch'] + 1

### Pasajero Solitario

La característica **IsAlone** indica si el pasajero está viajando solo. Un valor de *1* significa que el pasajero está solo, y un valor de *0* significa que no está solo. Esta característica puede ser importante porque los pasajeros que viajan solos pueden tener diferentes probabilidades de supervivencia en comparación con aquellos que viajan con familiares.

In [38]:
train_df['IsAlone'] = (train_df['Family_Size'] == 1).astype(int)
test_df['IsAlone'] = (test_df['Family_Size'] == 1).astype(int)

### Verificacion Nuevas Caracteristicas

In [40]:
print("\nNuevas características en el dataset de entrenamiento:")
train_df.head()


Nuevas características en el dataset de entrenamiento:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked_C,Embarked_Q,Embarked_S,Family_Size,IsAlone
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,0,0,1,2,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,1,0,0,2,0
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,0,0,1,1,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,0,0,1,2,0
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,0,0,1,1,1


In [41]:
print("\nNuevas características en el dataset de prueba:")
test_df.head()


Nuevas características en el dataset de prueba:


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked_C,Embarked_Q,Embarked_S,Family_Size,IsAlone
0,892,3,"Kelly, Mr. James",0,34.5,0,0,330911,7.8292,0,1,0,1,1
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",1,47.0,1,0,363272,7.0,0,0,1,2,0
2,894,2,"Myles, Mr. Thomas Francis",0,62.0,0,0,240276,9.6875,0,1,0,1,1
3,895,3,"Wirz, Mr. Albert",0,27.0,0,0,315154,8.6625,0,0,1,1,1
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",1,22.0,1,1,3101298,12.2875,0,0,1,3,0


## Eliminacion columnas

Eliminar columnas innecesarias es una parte crucial del preprocesamiento de datos y tiene varias ventajas importantes:

1. Reducción de la Dimensionalidad:

    * Eliminar columnas irrelevantes reduce la dimensionalidad del dataset, lo que puede simplificar el modelo y hacerlo más interpretable. Menos características significan menos complejidad y, en muchos casos, un mejor rendimiento del modelo.

2. Mejora del Rendimiento del Modelo:

    * Columnas irrelevantes pueden añadir ruido a los datos, afectando negativamente el rendimiento del modelo. Eliminar estas columnas puede ayudar a que el modelo se enfoque en las características verdaderamente importantes.

3. Eficiencia Computacional:

    * Menos características implican menos datos que procesar, lo que puede reducir el tiempo de entrenamiento y la memoria necesaria, mejorando la eficiencia computacional.

4. Evitar el Sobreajuste:

    * Tener demasiadas características puede llevar a un modelo que se ajuste demasiado a los datos de entrenamiento (sobreajuste), afectando su capacidad para generalizar a nuevos datos. Reducir el número de características puede ayudar a mitigar este problema.

### Columnas irrelevantes

In [42]:
train_df.drop(columns=['Name', 'Ticket', 'SibSp', 'Parch'], inplace=True)
test_df.drop(columns=['Name', 'Ticket', 'SibSp', 'Parch'], inplace=True)

**Se elimina el nombre y ticket, debido a que no es relavante para el modelo**

**Se elimina SibSp y Parch, debido a que se ya se creo la columna Family_Size**

In [46]:
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,Fare,Embarked_C,Embarked_Q,Embarked_S,Family_Size,IsAlone
0,1,0,3,0,22.0,7.25,0,0,1,2,0
1,2,1,1,1,38.0,71.2833,1,0,0,2,0
2,3,1,3,1,26.0,7.925,0,0,1,1,1
3,4,1,1,1,35.0,53.1,0,0,1,2,0
4,5,0,3,0,35.0,8.05,0,0,1,1,1


### Pasajero ID

Guardaremos los ID del conjunto prueba en una nueva variable, pero eliminaremos ambas columnas de los dos datasets ya que seran irrelevantes para el modelo

In [47]:
# Guardar los PassengerId del dataset de prueba en un archivo CSV
passenger_id = test_df[['PassengerId']]
passenger_id.to_csv('passenger_id.csv', index=False)

# Eliminar la columna 'PassengerId' del dataset de prueba y entrenamiento
test_df.drop(columns=['PassengerId'], inplace=True)
train_df.drop(columns=['PassengerId'], inplace=True)


# Verificacion final y guardado datos

## Verificacion datasets

In [49]:
print("\nPrimeras filas del dataset de entrenamiento después de la limpieza final:")
train_df.head()


Primeras filas del dataset de entrenamiento después de la limpieza final:


Unnamed: 0,Survived,Pclass,Sex,Age,Fare,Embarked_C,Embarked_Q,Embarked_S,Family_Size,IsAlone
0,0,3,0,22.0,7.25,0,0,1,2,0
1,1,1,1,38.0,71.2833,1,0,0,2,0
2,1,3,1,26.0,7.925,0,0,1,1,1
3,1,1,1,35.0,53.1,0,0,1,2,0
4,0,3,0,35.0,8.05,0,0,1,1,1


In [50]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Survived     891 non-null    int64  
 1   Pclass       891 non-null    int64  
 2   Sex          891 non-null    int64  
 3   Age          891 non-null    float64
 4   Fare         891 non-null    float64
 5   Embarked_C   891 non-null    int64  
 6   Embarked_Q   891 non-null    int64  
 7   Embarked_S   891 non-null    int64  
 8   Family_Size  891 non-null    int64  
 9   IsAlone      891 non-null    int64  
dtypes: float64(2), int64(8)
memory usage: 69.7 KB


In [51]:
print("\nPrimeras filas del dataset de prueba después de la limpieza final:")
test_df.head()


Primeras filas del dataset de prueba después de la limpieza final:


Unnamed: 0,Pclass,Sex,Age,Fare,Embarked_C,Embarked_Q,Embarked_S,Family_Size,IsAlone
0,3,0,34.5,7.8292,0,1,0,1,1
1,3,1,47.0,7.0,0,0,1,2,0
2,2,0,62.0,9.6875,0,1,0,1,1
3,3,0,27.0,8.6625,0,0,1,1,1
4,3,1,22.0,12.2875,0,0,1,3,0


In [53]:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Pclass       418 non-null    int64  
 1   Sex          418 non-null    int64  
 2   Age          418 non-null    float64
 3   Fare         418 non-null    float64
 4   Embarked_C   418 non-null    int64  
 5   Embarked_Q   418 non-null    int64  
 6   Embarked_S   418 non-null    int64  
 7   Family_Size  418 non-null    int64  
 8   IsAlone      418 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 29.5 KB


## Guardado

In [54]:
train_df.to_csv('../data/clean_train.csv', index=False)
test_df.to_csv('../data/clean_test.csv', index=False)

# Conclusion Cuaderno

En este proceso de preprocesamiento de datos para el dataset del Titanic, hemos llevado a cabo varios pasos importantes para preparar los datos para el análisis y modelado predictivo:

1. Imputación de Valores Faltantes:

    * Se imputaron los valores faltantes en la columna Age con la mediana y en la columna Embarked con la moda para asegurar la consistencia de los datos.

2. Creación de Nuevas Características:

    * Se crearon las características Family_Size e IsAlone para capturar información adicional sobre las relaciones familiares de los pasajeros, lo que puede mejorar la capacidad predictiva del modelo.

3. Eliminación de Columnas Innecesarias:

    * Se eliminaron las columnas Name, Ticket, SibSp, y Parch, así como PassengerId en el dataset de prueba, para reducir la dimensionalidad y eliminar ruido de los datos.

4. Guardado de PassengerId:

    * Los IDs de los pasajeros del dataset de prueba se guardaron en un archivo CSV (passenger_id.csv) para su uso en otro cuaderno de Jupyter, asegurando una organización clara y accesible de los datos.

Estos pasos aseguran que los datos estén limpios, consistentes y en un formato adecuado para el análisis exploratorio y la construcción de modelos predictivos.