In [4]:
import pandas as pd
from pathlib import Path

# 1️⃣ Definir rutas
data_path = Path.cwd() / "../data"
database_path = Path.cwd() / "../database"
database_path.mkdir(parents=True, exist_ok=True)

# Archivos de entrada y salida
input_file = data_path / "visitantes.csv"
output_file = database_path / "visitantes_clean.csv"

# 2️⃣ Leer el archivo CSV original
df = pd.read_csv(input_file)

# 3️⃣ Mostrar cantidad de valores nulos antes de la limpieza
print("🔍 Valores nulos antes de la limpieza:")
print(df.isnull().sum())
print(f"Total de registros antes: {len(df)}")

# 4️⃣ Limpieza según los requisitos del examen

# a) Eliminar duplicados
df.drop_duplicates(inplace=True)

# b) Rellenar valores nulos en 'medio_transporte' y 'destino'
df["medio_transporte"] = df["medio_transporte"].fillna("Desconocido")
df["destino"] = df["destino"].fillna("No especificado")

# c) Rellenar 'pais_origen': si es nulo o "NA", asumimos "Perú" (o puedes usar "Desconocido")
df["pais_origen"] = df["pais_origen"].fillna("Perú")
df["pais_origen"] = df["pais_origen"].replace("NA", "Perú")  # En caso de que "NA" sea string

# c) Formatear y validar fechas
df["fecha_visita"] = pd.to_datetime(df["fecha_visita"], errors="coerce")

# d) Eliminar filas con fecha inválida o gasto_total nulo (críticos)
df = df.dropna(subset=["fecha_visita", "gasto_total"])

# e) Asegurar tipos numéricos y rellenar nulos en 'edad' y 'dias_estadia'
df["edad"] = pd.to_numeric(df["edad"], errors="coerce")
df["dias_estadia"] = pd.to_numeric(df["dias_estadia"], errors="coerce")

# Rellenar edad con la mediana (solo si hay nulos)
if df["edad"].isnull().any():
    df["edad"].fillna(df["edad"].median(), inplace=True)

# Rellenar días de estadía con 1 (mínimo razonable)
df["dias_estadia"].fillna(1, inplace=True)

# Convertir a enteros
df["edad"] = df["edad"].astype(int)
df["dias_estadia"] = df["dias_estadia"].astype(int)

# 5️⃣ Mostrar resumen después de la limpieza
print("\n✅ Valores nulos después de la limpieza:")
print(df.isnull().sum())
print(f"Total de registros después: {len(df)}")

# 6️⃣ Guardar el archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\n📁 Archivo limpio guardado en: {output_file}")

🔍 Valores nulos antes de la limpieza:
id_visitante          0
pais_origen         333
edad                 60
genero                0
destino               0
region                0
fecha_visita          0
dias_estadia        166
gasto_total         166
medio_transporte    856
dtype: int64
Total de registros antes: 3000

✅ Valores nulos después de la limpieza:
id_visitante        0
pais_origen         0
edad                0
genero              0
destino             0
region              0
fecha_visita        0
dias_estadia        0
gasto_total         0
medio_transporte    0
dtype: int64
Total de registros después: 2834

📁 Archivo limpio guardado en: d:\AcutalCiclo\Topicos en sistemas inteligentes\TurismoDigitalB_E1Yoel\scripts\..\database\visitantes_clean.csv


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["edad"].fillna(df["edad"].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["dias_estadia"].fillna(1, inplace=True)
