In [4]:
# --- 1. Importación de librerías ---
import pandas as pd
import os

# --- 2. Configuración de rutas ---
# Detecta automáticamente si está en Kaggle o en entorno local
if os.path.exists("/kaggle/working"):
    RAW_PATH = "/kaggle/input/titanic/gender_submission.csv"
    PROCESSED_PATH = "/kaggle/working/gender_submission_clean.csv"
else:
    RAW_PATH = "../data/raw/gender_submission.csv"
    PROCESSED_PATH = "../data/processed/gender_submission_clean.csv"

# --- 3. Cargar dataset ---
df = pd.read_csv(RAW_PATH)
print("✅ Dataset cargado correctamente\n")
print("Dimensiones iniciales:", df.shape)
display(df.head())

# --- 4. Inspección de tipos de datos ---
print("\nTipos de datos:")
print(df.dtypes)

# --- 5. Verificación de valores nulos ---
print("\nValores nulos iniciales:")
print(df.isnull().sum())

# --- 6. Validaciones básicas ---
# Verificar que PassengerId sea único
if df["PassengerId"].is_unique:
    print("\n✅ PassengerId es único.")
else:
    print("\n⚠️ PassengerId tiene duplicados.")

# Asegurar que Survived solo tenga valores 0 o 1
if set(df["Survived"].unique()).issubset({0, 1}):
    print("✅ Columna 'Survived' solo contiene 0 y 1.")
else:
    print("⚠️ Se detectaron valores inesperados en 'Survived'.")

# --- 7. Guardar dataset limpio ---
os.makedirs(os.path.dirname(PROCESSED_PATH), exist_ok=True)
df.to_csv(PROCESSED_PATH, index=False)

print(f"\n✅ Archivo limpio guardado en {PROCESSED_PATH}")
print("Dimensiones finales:", df.shape)

✅ Dataset cargado correctamente

Dimensiones iniciales: (418, 2)


Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1
2,894,0
3,895,0
4,896,1



Tipos de datos:
PassengerId    int64
Survived       int64
dtype: object

Valores nulos iniciales:
PassengerId    0
Survived       0
dtype: int64

✅ PassengerId es único.
✅ Columna 'Survived' solo contiene 0 y 1.

✅ Archivo limpio guardado en /kaggle/working/gender_submission_clean.csv
Dimensiones finales: (418, 2)
