In [1]:
import pandas as pd
from pathlib import Path

def main():
    root = Path.cwd().parent
    data_path = root / "data"

    df = pd.read_csv(data_path / "visitantes.csv")

    print("🔍 Registros iniciales:", len(df))

    # Eliminar duplicados
    df = df.drop_duplicates()

    # Rellenar valores nulos
    df["medio_transporte"] = df["medio_transporte"].fillna("Desconocido").replace("NA", "Desconocido")
    df["destino"] = df["destino"].fillna("Sin especificar")

    # Formatear fechas
    df["fecha_visita"] = pd.to_datetime(df["fecha_visita"], errors="coerce")

    # Validar tipos
    df["edad"] = df["edad"].astype(int)
    df["dias_estadia"] = df["dias_estadia"].astype(int)
    df["gasto_total"] = df["gasto_total"].astype(float)

    # Guardar limpio
    clean_csv = data_path / "visitantes_clean.csv"
    df.to_csv(clean_csv, index=False)

    print(f"✅ Datos limpios guardados en: {clean_csv}")
    print("📊 Registros finales:", len(df))

if __name__ == "__main__":
    main()


🔍 Registros iniciales: 3000
✅ Datos limpios guardados en: c:\Users\mmond\documents\TurismoDigitalB_E1\data\visitantes_clean.csv
📊 Registros finales: 3000
