# Pr√°ctica: Limpieza de Datos del Titanic

## 1. Carga de Datos Reales (Desde URL)
Usaremos el dataset oficial del Titanic alojado en GitHub.
Para cumplir con el requisito de practicar "Duplicados", simularemos un error de carga duplicando intencionalmente las primeras 5 filas (algo muy com√∫n en bases de datos reales).

In [4]:
import pandas as pd
import numpy as np

# URL directa al archivo CSV real (Raw)
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"

# Leemos el archivo real
df = pd.read_csv(url)

# SIMULACI√ìN DE ERROR: Duplicamos las primeras 5 filas para tener qu√© limpiar
# (Imagina que el sistema carg√≥ dos veces los primeros registros)
df = pd.concat([df, df.head(5)], ignore_index=True)

print("--- Dataset Titanic Cargado ---")
print(f"Dimensiones: {df.shape}")
display(df.head())

--- Dataset Titanic Cargado ---
Dimensiones: (896, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 2. Diagn√≥stico de Salud de los Datos
Analizamos cu√°ntos registros est√°n repetidos y qu√© columnas tienen informaci√≥n faltante (`NaN`).

In [None]:
# 1. Detecci√≥n de Duplicados
duplicados = df.duplicated().sum()
print(f"‚ö†Ô∏è Filas duplicadas detectadas: {duplicados}")

# 2. Detecci√≥n de Nulos
print("\n‚ö†Ô∏è Conteo de Valores Nulos por columna:")
# Filtramos solo las columnas que tienen nulos para ver mejor
nulos = df.isnull().sum()
print(nulos[nulos > 0])

## 3. Eliminaci√≥n de Duplicados
Primero eliminamos las filas repetidas para no sesgar los c√°lculos estad√≠sticos posteriores.

In [None]:
# Eliminamos duplicados
df_limpio = df.drop_duplicates().copy()

print(f"Filas antes: {len(df)}")
print(f"Filas despu√©s: {len(df_limpio)}")

# Verificaci√≥n
assert df_limpio.duplicated().sum() == 0, "Error: A√∫n quedan duplicados"

## 4. Tratamiento de Valores Nulos
Tenemos dos casos reales:
1.  **Age (Edad):** Es un valor num√©rico. Usaremos el **Promedio (Mean)** para rellenar los huecos, asumiendo que los pasajeros sin edad ten√≠an la edad promedio del barco.
2.  **Cabin (Cabina):** Es texto y faltan muchos datos. Usaremos una constante **"Desconocido"**.

In [None]:
# ESTRATEGIA 1: Num√©rica (Promedio) para 'Age'
promedio_edad = df_limpio['Age'].mean()
print(f"üéÇ Edad promedio calculada: {promedio_edad:.1f} a√±os")

df_limpio['Age'] = df_limpio['Age'].fillna(promedio_edad)


# ESTRATEGIA 2: Categ√≥rica (Valor Fijo) para 'Cabin'
df_limpio['Cabin'] = df_limpio['Cabin'].fillna("Desconocido")

# Verificamos visualmente los cambios
print("\n--- Verificaci√≥n de Imputaci√≥n ---")
# Mostramos filas que antes ten√≠an nulos para ver c√≥mo quedaron
display(df_limpio[['Name', 'Age', 'Cabin']].sample(5))

## üìå Validaci√≥n y Exportaci√≥n
Confirmamos que el dataset est√° limpio (0 nulos cr√≠ticos, 0 duplicados) y listo para usarse.

In [None]:
# Revisi√≥n final
print("Nulos restantes en Edad:", df_limpio['Age'].isnull().sum())
print("Nulos restantes en Cabina:", df_limpio['Cabin'].isnull().sum())
print("Duplicados restantes:", df_limpio.duplicated().sum())

print("\n‚úÖ El dataset del Titanic ha sido limpiado exitosamente.")