<div style="display: flex; justify-content:center; margin:auto; width: 100%;">
  <img src="https://www.uniagraria.edu.co/wp-content/uploads/2023/04/LogoUa2023Horizontal.png" alt="Logo de Uniagraria" width="350"/>
  <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/512px-Pandas_logo.svg.png" alt="Logo de Pandas" width="200"/>
</div>


---
<p align="center" style="color:green; font-size:20px;">
LIMPIEZA Y PREPARACIÓN DE DATOS
</p>







Para esta implementación, utilizaremos el conocido dataset Titanic, disponible a través de seaborn, una biblioteca de visualización en Python que incluye varios datasets de ejemplo. Este conjunto de datos proporciona información detallada sobre los pasajeros del Titanic, como:

## I. Descripción de los campos del Dataset

* **survived:** Indica si el pasajero sobrevivió o no al naufragio. Es una
variable binaria donde:
    0 significa que el pasajero no sobrevivió.
    1 significa que el pasajero sobrevivió.
* **pclass:** Representa la clase del boleto del pasajero, que se asocia con la posición en el barco y ciertas comodidades disponibles. Tiene tres valores posibles:
    1: Primera clase (la más alta).
    2: Segunda clase.
    3: Tercera clase (la más baja).
* **sex:** Indica el género del pasajero, ya sea male (masculino) o female (femenino).
* **age:** Edad del pasajero. Esta columna contiene valores numéricos, y algunos pasajeros tienen edades desconocidas, por lo que puede haber valores faltantes.
* **sibsp:** Número de hermanos y cónyuges a bordo con el pasajero. Se considera:
    * Hermano(a): hermanos y hermanas biológicos o medio hermanos.
    * Cónyuge: esposo o esposa. Las parejas de hecho no se incluyen en esta columna.
* **parch:** Número de padres e hijos a bordo con el pasajero. Se incluye:
    * Padres: padre o madre del pasajero.
    * Hijos: hijos del pasajero (sin incluir a hijos adultos independientes).
* **fare:** Tarifa del boleto pagada por el pasajero, en libras. Este valor varía según la clase de boleto y la distancia del viaje.
* **embarked:** Puerto de embarque, que representa el lugar donde el pasajero subió al barco. Los valores posibles son:
    * C: Cherburgo, Francia.
    * Q: Queenstown, Irlanda (ahora Cobh).
    * S: Southampton, Inglaterra.
* **class:** Alternativa categórica a pclass, indicando la clase del pasajero como First, Second, o Third. Es útil para análisis, ya que presenta la clase como una etiqueta más descriptiva.
* **who:** Clasificación del tipo de persona, con valores man, woman, o child. Esto simplifica el análisis basado en edad y género.
* **adult_male:** Columna booleana (True o False) que indica si el pasajero es un hombre adulto (edad >= 18 años).
* **deck:** Nivel de la cubierta donde estaba ubicado el camarote del pasajero. Este dato representa la letra de la cubierta, como A, B, C, etc. Sin embargo, muchos valores están ausentes en esta columna.
* **embark_town:** Ciudad donde el pasajero subió al barco, similar a embarked, pero usando el nombre de la ciudad completa (Cherbourg, Queenstown, Southampton).
* **alive:** Indica si el pasajero sobrevivió, similar a survived, pero en formato de texto (yes para los sobrevivientes y no para quienes no sobrevivieron). Es útil para visualización.
* **alone:** Columna booleana (True o False) que indica si el pasajero viajaba solo. Se calcula en función de las columnas sibsp y parch. Si ambas son 0, entonces alone será True; de lo contrario, será False.

## II. Propuesta de Limpieza del Dataset

La limpieza de datos es una fase fundamental en el análisis y la ciencia de datos. Este proceso implica identificar, corregir o eliminar errores y valores no deseados en un dataset para asegurar que los datos sean consistentes, precisos y estén en un formato adecuado para su análisis. Un dataset sin limpiar puede llevar a interpretaciones incorrectas y conclusiones poco fiables, por lo que esta etapa es esencial para el éxito de cualquier proyecto de análisis o machine learning.

Durante el proceso de limpieza de datos, trabajaremos en las siguientes áreas clave:

**Valores Faltantes:** Cuando faltan valores en una columna o fila, es importante decidir cómo abordarlos. Podemos rellenarlos con valores estadísticos, como la media, mediana o moda, o eliminar completamente esos registros si no aportan información significativa.

**Tipos de Datos:** Algunas columnas pueden tener tipos de datos incorrectos, como fechas almacenadas como texto o números en formato de cadena. Corregir estos tipos asegura que las operaciones y cálculos se realicen correctamente.

**Datos Duplicados:** Las filas duplicadas pueden distorsionar el análisis, especialmente en conteos y estadísticas. Al eliminarlas, garantizamos que cada registro en el dataset sea único y representativo.

**Normalización y Escalamiento de Datos:** Los valores numéricos pueden tener diferentes escalas (por ejemplo, precios o edades). Escalar estos valores, como transformarlos en un rango de 0 a 1, ayuda a que los modelos de machine learning procesen la información de manera más efectiva.

**Codificación de Variables Categóricas:** Variables como "sexo" o "clase de embarque" son categóricas y deben transformarse en variables numéricas (variables dummy) para que los algoritmos de machine learning puedan interpretarlas correctamente.

Al finalizar este proceso, obtendremos un dataset limpio y estructurado, listo para su análisis o para alimentar modelos predictivos con datos consistentes y confiables.

## III. Implementación

### 1. Importar Bibliotecas y cargar el Dataset

In [1]:
# Importar las bibliotecas
import pandas as pd
import seaborn as sns

# Cargar el dataset Titanic desde seaborn
df = sns.load_dataset('titanic')

# Mostrar las primeras filas del dataset
df.head()


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### 2. Análisis Inicial del Dataset

La función `info()` muestra la estructura del dataset, incluyendo el tipo de datos y la cantidad de valores nulos. Observe que algunas columnas como `age`, `embarked`, y `deck`, contienen valores faltantes.

In [2]:
# Obtener información general del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


### 3. Identificación de Valores Faltantes

`isnull().sum()` cuenta la cantidad de valores nulos en cada columna, ayudándonos a identificar las áreas que requieren limpieza. En este dataset, `age`, `embarked`, `deck` y `embark_town` tienen valores nulos.

In [3]:
# Verificar valores nulos por columna
df.isnull().sum()

Unnamed: 0,0
survived,0
pclass,0
sex,0
age,177
sibsp,0
parch,0
fare,0
embarked,2
class,0
who,0


### 4. Tratamiento de Valores Faltantes

Utilizamos la mediana para rellenar los valores faltantes en age, ya que es una columna numérica y la mediana es menos sensible a valores atípicos. Para las columnas categóricas `embarked` y `embark_town`, usamos la moda (el valor más frecuente) para rellenar los valores nulos. La columna `deck` se elimina porque tiene demasiados valores faltantes.

In [4]:
# Rellenar valores faltantes en la columna 'age' con la mediana
df['age'] = df['age'].fillna(df['age'].median())

# Rellenar valores faltantes en 'embarked' y 'embark_town' con el valor más frecuente
df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])
df['embark_town'] = df['embark_town'].fillna(df['embark_town'].mode()[0])

# Eliminar la columna 'deck' ya que tiene demasiados valores faltantes
df.drop(columns='deck', inplace=True)

### 5. Corrección de Tipo de Datos

 Convertimos las columnas `sex` y `embarked` en datos categóricos, lo cual ahorra memoria y ayuda en algunos modelos de machine learning.

In [5]:
# Convertir 'sex' y 'embarked' en categorías
df['sex'] = df['sex'].astype('category')
df['embarked'] = df['embarked'].astype('category')

### 6.  Eliminación de Datos Duplicados
Aquí buscamos filas duplicadas y las eliminamos en caso de encontrarlas. En general, no se esperan duplicados en el dataset Titanic, pero es una buena práctica verificar.

In [6]:
# Verificar duplicados
print("Número de filas duplicadas:", df.duplicated().sum())

# Eliminar duplicados si existen
df.drop_duplicates(inplace=True)

Número de filas duplicadas: 116


### 7. Normalización y Transformación de Datos

Escalamos la columna `fare` entre 0 y 1, lo cual es útil si planeamos usar estos datos en algoritmos de machine learning. Luego, usamos `pd.get_dummies` para convertir las variables categóricas `sex` y `embarked` en variables dummy.

In [7]:
# Escalar la columna 'fare' entre 0 y 1
df['fare_normalized'] = (df['fare'] - df['fare'].min()) / (df['fare'].max() - df['fare'].min())

# Codificar variables categóricas 'sex' y 'embarked' usando get_dummies
df = pd.get_dummies(df, columns=['sex', 'embarked'], drop_first=True)

### 8. Validación Final

Revisamos si quedan valores nulos y mostramos una vista previa del dataset limpio.

In [8]:
# Revisar si quedan valores nulos
print(df.isnull().sum())

# Vista previa del dataset limpio
df.head()

survived           0
pclass             0
age                0
sibsp              0
parch              0
fare               0
class              0
who                0
adult_male         0
embark_town        0
alive              0
alone              0
fare_normalized    0
sex_male           0
embarked_Q         0
embarked_S         0
dtype: int64


Unnamed: 0,survived,pclass,age,sibsp,parch,fare,class,who,adult_male,embark_town,alive,alone,fare_normalized,sex_male,embarked_Q,embarked_S
0,0,3,22.0,1,0,7.25,Third,man,True,Southampton,no,False,0.014151,True,False,True
1,1,1,38.0,1,0,71.2833,First,woman,False,Cherbourg,yes,False,0.139136,False,False,False
2,1,3,26.0,0,0,7.925,Third,woman,False,Southampton,yes,True,0.015469,False,False,True
3,1,1,35.0,1,0,53.1,First,woman,False,Southampton,yes,False,0.103644,False,False,True
4,0,3,35.0,0,0,8.05,Third,man,True,Southampton,no,True,0.015713,True,False,True


### Paso 9: Guardar el Dataset Limpio

Finalmente, guardamos el dataset limpio en un archivo CSV para su uso en análisis posteriores.

In [9]:
# Guardar el dataset limpio en un archivo CSV
df.to_csv('titanic_limpio.csv', index=False)