<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%202/Modulo_2_Ejercicio_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 2: Limpieza y Validación de Datos

## Objetivo
En este ejercicio aprenderás a limpiar y validar un dataset, abordando aspectos fundamentales como:

- **Eliminación de duplicados:** Verificar si existen registros duplicados y eliminarlos.
- **Manejo de valores faltantes:** Detectar columnas con valores nulos y aplicar técnicas de imputación o eliminación de filas según corresponda.
- **Detección de outliers:** Identificar posibles valores atípicos en columnas numéricas mediante análisis gráfico y estadístico.

Utilizaremos nuevamente el dataset **Titanic**, disponible online, que contiene información sobre los pasajeros del Titanic. Este dataset es ideal para practicar porque presenta valores faltantes (por ejemplo, en la columna `Age`), y es posible que existan duplicados o outliers en columnas como `Fare`.

**URL del dataset:**  
`https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv`

> **Pregunta de Reflexión:**  
> ¿Por qué es importante eliminar duplicados y manejar valores faltantes antes de realizar un análisis o modelado?  
> ¿Qué impacto pueden tener los outliers en un análisis de datos?

¡Empecemos!


In [None]:
# Paso 1: Importa las librerías necesarias y carga el dataset Titanic

# TODO: Importa pandas y, opcionalmente, matplotlib y seaborn para visualizaciones.
import ..

# Define la URL del dataset
url_titanic = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"

# TODO: Carga el dataset utilizando pd.read_csv() y almacénalo en un DataFrame llamado 'df_titanic'
..

# Muestra las primeras filas para verificar la carga
print("Primeras filas del dataset Titanic:")
display(..)

# Muestra información general y el número de filas inicial
print("Información general del dataset:")
display(..)
print("Número de filas inicial:", ..)


In [None]:
# Paso 2: Verificar y eliminar duplicados

# TODO: Verifica si existen filas duplicadas en df_titanic y muestra la cantidad de duplicados.
duplicados = ..
print("Número de filas duplicadas antes de la limpieza:", duplicados)

# TODO: Elimina los duplicados y almacena el DataFrame resultante en df_titanic_clean
df_titanic_clean = ..

# Verifica que los duplicados hayan sido eliminados
duplicados_despues = df_titanic_clean.duplicated().sum()
print("Número de filas duplicadas después de la limpieza:", duplicados_despues)


In [None]:
# Paso 3: Manejar los valores faltantes

# TODO: Muestra la cantidad de valores nulos por columna en df_titanic_clean
print("Valores nulos por columna:")
print(df_titanic_clean.isnull().sum())

# Estrategia:
# - Para la columna 'Age', imputaremos la mediana.
# - La columna 'Cabin' tiene muchos valores nulos; en este ejercicio, la eliminaremos.
# - Para 'Embarked', imputaremos el valor más frecuente (mode).

# TODO: Imputa la mediana en la columna 'Age'
if 'Age' in df_titanic_clean.columns:
    median_age = df_titanic_clean['Age'].median()
    df_titanic_clean['Age'].fillna(median_age, inplace=True)

# TODO: Elimina la columna 'Cabin'
if 'Cabin' in df_titanic_clean.columns:
    df_titanic_clean.drop(columns=['Cabin'], inplace=True)

# TODO: Imputa el valor más frecuente en la columna 'Embarked'
if 'Embarked' in df_titanic_clean.columns:
    mode_embarked = df_titanic_clean['Embarked'].mode()[0]
    df_titanic_clean['Embarked'].fillna(mode_embarked, inplace=True)

# Verifica que los valores nulos hayan sido manejados
print("Valores nulos después del manejo:")
print(df_titanic_clean.isnull().sum())


In [None]:
# Paso 4: Identificar outliers en columnas numéricas
# En este ejemplo, vamos a examinar la columna 'Fare' para detectar posibles outliers.

# TODO: Crea un diagrama de caja (boxplot) para la columna 'Fare'
plt.figure(figsize=(8,4))
sns.boxplot(x=df_titanic_clean['Fare'])
plt.title("Boxplot de 'Fare'")
plt.show()

# Comentario:
# Observa el boxplot y determina si existen valores atípicos (outliers) en la columna 'Fare'.
# Puedes optar por:
# - Eliminar outliers utilizando el método del rango intercuartílico (IQR)
# - O conservarlos si consideras que aportan información relevante.
#
# Por ahora, no modificaremos el DataFrame; simplemente observa y reflexiona.


In [None]:
# Paso 5: Testeo de la solución de limpieza

# Este bloque de código verificará lo siguiente:
# 1. Que no existan duplicados en df_titanic_clean.
# 2. Que las columnas 'Age' y 'Embarked' no tengan valores nulos.
# 3. Que la columna 'Cabin' ya no exista en el DataFrame.

# Test 1: Verificar duplicados
assert df_titanic_clean.duplicated().sum() == 0, "Existen duplicados en el DataFrame después de la limpieza."

# Test 2: Verificar que 'Age' y 'Embarked' no tengan valores nulos
assert df_titanic_clean['Age'].isnull().sum() == 0, "La columna 'Age' aún contiene valores nulos."
assert df_titanic_clean['Embarked'].isnull().sum() == 0, "La columna 'Embarked' aún contiene valores nulos."

# Test 3: Verificar que la columna 'Cabin' ha sido eliminada
assert 'Cabin' not in df_titanic_clean.columns, "La columna 'Cabin' no ha sido eliminada del DataFrame."

print("Todos los tests se han pasado correctamente. La limpieza y validación de datos se realizó como se esperaba. Buen trabajo!")


## Reflexión Final

1. ¿Qué métodos empleaste para decidir imputar los valores faltantes en las columnas 'Age' y 'Embarked'?  
2. ¿Por qué decidiste eliminar la columna 'Cabin' en lugar de imputarla?  
3. ¿Qué criterios utilizarías para definir y tratar outliers en un análisis de datos?  
4. ¿Cómo crees que la limpieza de datos afecta la calidad y precisión de un modelo de Machine Learning?

_Responde estas preguntas en una celda Markdown adicional o en un comentario._
