In [4]:
# --- 1. Importación de librerías ---
import pandas as pd
import os

# --- 2. Configuración de rutas ---
# Detecta automáticamente si está en Kaggle o en entorno local
if os.path.exists("/kaggle/working"):
    RAW_PATH = "/kaggle/input/titanic/train.csv"
    PROCESSED_PATH = "/kaggle/working/train_clean.csv"
else:
    RAW_PATH = "../data/raw/train.csv"
    PROCESSED_PATH = "../data/processed/train_clean.csv"

# --- 3. Carga del dataset ---
df = pd.read_csv(RAW_PATH)
print("Dimensiones iniciales:", df.shape)
print("Valores nulos iniciales:")
print(df.isnull().sum())

# --- 4. Limpieza de datos ---

# Rellenar edad con la mediana
df["Age"] = df["Age"].fillna(df["Age"].median())

# Rellenar puerto de embarque con el más frecuente
df["Embarked"] = df["Embarked"].fillna(df["Embarked"].mode()[0])

# Rellenar tarifa (Fare) si falta, con la mediana
df["Fare"] = df["Fare"].fillna(df["Fare"].median())

# Eliminar columna Cabin (demasiados nulos)
df = df.drop(columns=["Cabin"])

# --- 5. Verificación final ---
print("\nValores nulos restantes:\n", df.isnull().sum())
print("Dimensiones finales:", df.shape)

# --- 6. Guardar el dataset limpio ---
os.makedirs(os.path.dirname(PROCESSED_PATH), exist_ok=True)
df.to_csv(PROCESSED_PATH, index=False)
print(f"✅ Archivo limpio guardado en {PROCESSED_PATH}")

Dimensiones iniciales: (891, 12)
Valores nulos iniciales:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Valores nulos restantes:
 PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64
Dimensiones finales: (891, 11)
✅ Archivo limpio guardado en /kaggle/working/train_clean.csv
