# Introduccion

La limpieza de datos es una etapa crucial en el proceso de análisis de datos y construcción de modelos de aprendizaje automático. Consiste en identificar y corregir errores, manejar valores faltantes, estandarizar formatos y eliminar datos irrelevantes o duplicados. En este cuaderno, nos enfocaremos en la limpieza del famoso dataset del Titanic, que contiene información sobre los pasajeros que viajaron en el transatlántico que se hundió en 1912.

El objetivo de este cuaderno es preparar los datos para el análisis exploratorio y el modelado predictivo, asegurando que los datos sean consistentes, completos y estén en un formato adecuado para su uso posterior.

## Carga de datos

In [11]:
import pandas as pd

# Cargar el dataset
train_df = pd.read_csv('../data/train.csv')
test_df = pd.read_csv('../data/test.csv')

# Limpieza de datos

In [12]:
# Analisis general del conjunto entrenamiento
print('Informacion del dataset: ')
train_df.info()

Informacion del dataset: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [13]:
# Analisis general del conjunto prueba
print('Informacion del dataset: ')
test_df.info()

Informacion del dataset: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB


## Manejo de valores nulos

### Notas importantes 

**median(): Calcula la mediana normalmente en una Serie ejemplo train_df['Age'].median()**

**mode(): Calcula el valor mas repetido en una Serie ejemplo train_df['Age'].mode()**

**mean(): Calcula el valor promedio en una Serie ejemplo train_df['Age'].mean()**

**fillna(): Es un método de pandas que se utiliza para llenar (imputar) valores faltantes en un DataFrame o Serie**

**inplace=True: Modifica el DataFrame original directamente sin necesidad de asignar el resultado a una nueva variable.**

### Edad

Usaremos la mediana para llenar los valores faltantes en la columna Age ya que el promedio puede causar conflicto frente a valores atípicos, la media tiene la capacidad de mantener la distribución de los datos lo más cercana posible a la original.

In [16]:
train_df['Age'] = train_df['Age'].fillna(train_df['Age'].median())
test_df['Age'] = test_df['Age'].fillna(test_df['Age'].median())

### Embarked

La columna Embarked contiene valores categóricos nominales que representan los puertos de embarque (por ejemplo, 'C' para Cherbourg, 'Q' para Queenstown, y 'S' para Southampton). Para este tipo de datos, la moda (el valor más frecuente) es una elección adecuada para imputar valores faltantes.

In [15]:
train_df['Embarked'] = train_df['Embarked'].fillna(train_df['Embarked'].mode()[0])
test_df['Embarked'] = test_df['Embarked'].fillna(test_df['Embarked'].mode()[0])

### Fare

In [17]:
test_df['Fare'] = test_df['Fare'].fillna(test_df['Fare'].median())


### Cabin

En el caso de esta columna, no hay manera de poder determinar correctamente que metodo usar debido a que hay muchos valores nulos, por eso la mejor opcion es eliminar la columna

In [18]:
train_df.drop(columns=['Cabin'], inplace=True)
test_df.drop(columns=['Cabin'], inplace=True)

### Verificar valores Nulos

In [19]:
print("\nValores nulos después de la limpieza:")
print(train_df.isnull().sum())
print(test_df.isnull().sum())


Valores nulos después de la limpieza:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64
PassengerId    0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64


## Variables categoricas a numericas

Las variables categóricas se deben convertir a numéricas por varias razones clave en el contexto del análisis de datos y el aprendizaje automático debido a que estos modelos solo pueden procesar variables numericas:

1. Compatibilidad con modelos algoritmicos
2. Calculo de distancias
3. Eficiencia computacional
4. Mejora del rendimiento del modelo
5. Manejo de relaciones ordinales 



### Metodos Comunes de conversion

1. Codificación One-Hot (One-Hot Encoding):

    * Cada categoría se representa como una columna binaria separada (0 o 1). Ideal para variables nominales sin orden intrínseco.

2. Codificación Ordinal:

    * Las categorías se asignan a valores enteros en función de su orden. Útil para variables categóricas con una relación ordenada.

3. Codificación de Frecuencia:

    * Las categorías se reemplazan con la frecuencia (o proporción) de su aparición en el dataset.

4. Codificación de Embedding:

    * Especialmente útil en redes neuronales, donde las categorías se representan como vectores en un espacio de características continuo.

### Sexo

Tenemos solo dos tipos de sexo en los datasets male(masculino) y female(femenino)

In [22]:
print('Conjunto de entrenamiento')
print(train_df['Sex'].value_counts())
print('Conjunto de pruebas')
print(test_df['Sex'].value_counts())

Conjunto de entrenamiento
Sex
male      577
female    314
Name: count, dtype: int64
Conjunto de pruebas
Sex
male      266
female    152
Name: count, dtype: int64


In [23]:
# Convertir a numérico (0 = male, 1 = female)
train_df['Sex'] = train_df['Sex'].map({'male': 0, 'female': 1})
test_df['Sex'] = test_df['Sex'].map({'male': 0, 'female': 1})

### Embarked

Tenemos tres tipos de embarcaciones para la conversion utilizaremos el metodo one-hot encoding, debido a que no se tiene ningun orden especifico ni importante en cuanto a las embarcaciones

In [26]:
print('Conjunto de entrenamiento\n')
print(train_df['Embarked'].value_counts())
print('\nConjunto de pruebas\n')
print(test_df['Embarked'].value_counts())

Conjunto de entrenamiento

Embarked
S    646
C    168
Q     77
Name: count, dtype: int64

Conjunto de pruebas

Embarked
S    270
C    102
Q     46
Name: count, dtype: int64


In [27]:
train_df = pd.get_dummies(train_df, columns=['Embarked'], prefix='Embarked')
test_df = pd.get_dummies(test_df, columns=['Embarked'], prefix='Embarked')

In [32]:
# Convertir columnas booleanas a enteros
for col in train_df.columns:
    if train_df[col].dtype == 'bool':
        train_df[col] = train_df[col].astype(int)

for col in test_df.columns:
    if test_df[col].dtype == 'bool':
        test_df[col] = test_df[col].astype(int)

**Ejemplo de la conversion**

| Embarked_C | Embarked_Q | Embarked_S |
|------------|------------|------------|
| 1          | 0          | 0          |
| 0          | 1          | 0          |
| 0          | 0          | 1          |


### Verificacion de conversion

In [33]:
# Verificar las primeras filas para asegurar la correcta conversión
print("\nPrimeras filas del dataset de entrenamiento después de la conversión:")
train_df.head()


Primeras filas del dataset de entrenamiento después de la conversión:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked_C,Embarked_Q,Embarked_S
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,0,0,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,1,0,0
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,0,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,0,0,1
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,0,0,1


In [30]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    int64  
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Embarked_C   891 non-null    bool   
 11  Embarked_Q   891 non-null    bool   
 12  Embarked_S   891 non-null    bool   
dtypes: bool(3), float64(2), int64(6), object(2)
memory usage: 72.3+ KB
