In [2]:
import pandas as pd
from pathlib import Path

# ==============================
# 1️⃣ Definir rutas de archivos
# ==============================
data_path = Path.cwd().parent / "data"
db_path = Path.cwd().parent / "database"
db_path.mkdir(parents=True, exist_ok=True)

archivo_entrada = data_path / "visitantes.csv"
archivo_salida = db_path / "visitantes_clean.csv"

# ==============================
# 2️⃣ Cargar los datos originales
# ==============================
df = pd.read_csv(archivo_entrada)
print("✅ Datos cargados correctamente.")
print("Registros originales:", len(df))

# ==============================
# 3️⃣ Eliminar duplicados
# ==============================
df = df.drop_duplicates()
print("📛 Duplicados eliminados. Total registros:", len(df))

# ==============================
# 4️⃣ Rellenar valores nulos
# ==============================
df["destino"] = df["destino"].fillna("Sin destino")
df["medio_transporte"] = df["medio_transporte"].fillna("Desconocido")

# ==============================
# 5️⃣ Formatear columnas de fecha
# ==============================
df["fecha_visita"] = pd.to_datetime(df["fecha_visita"], errors="coerce")
df = df.dropna(subset=["fecha_visita"])  # eliminar si hay fechas inválidas

# ==============================
# 6️⃣ Validar tipos de datos
# ==============================
df["edad"] = df["edad"].astype(int)
df["dias_estadia"] = df["dias_estadia"].astype(int)
df["gasto_total"] = df["gasto_total"].astype(float)

# ==============================
# 7️⃣ Exportar datos limpios
# ==============================
df.to_csv(archivo_salida, index=False, encoding="utf-8")
print("✅ Archivo limpio exportado:", archivo_salida)

✅ Datos cargados correctamente.
Registros originales: 3000
📛 Duplicados eliminados. Total registros: 3000
✅ Archivo limpio exportado: c:\Users\JOEL-LLA\documents\turismoInteligente2025\database\visitantes_clean.csv
