In [2]:
import pandas as pd
from pathlib import Path

# 📂 Rutas
data_path = Path.cwd().parent / "data"
database_path = Path.cwd().parent / "database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "visitantes.csv"
output_file = database_path / "visitantes_clean.csv"

# 🧾 Leer CSV original
df = pd.read_csv(input_file)

print("📊 Registros originales:", len(df))
print("\nVista previa:")
print(df.head())

# 🧼 1. Eliminar duplicados
df.drop_duplicates(inplace=True)
print("\n✅ Después de eliminar duplicados:", len(df))

# 🧽 2. Rellenar valores nulos o 'NA' en medio_transporte y destino
df["medio_transporte"] = df["medio_transporte"].fillna("Desconocido")
df["medio_transporte"].replace("NA", "Desconocido", inplace=True)

df["destino"] = df["destino"].fillna("Destino no especificado")
df["destino"].replace("NA", "Destino no especificado", inplace=True)

# 🗓️ 3. Asegurar formato de fecha
df["fecha_visita"] = pd.to_datetime(df["fecha_visita"], errors="coerce").dt.strftime("%Y-%m-%d")

# 🧮 4. Validar tipos de datos numéricos
df["edad"] = pd.to_numeric(df["edad"], errors="coerce")
df["dias_estadia"] = pd.to_numeric(df["dias_estadia"], errors="coerce")
df["gasto_total"] = pd.to_numeric(df["gasto_total"], errors="coerce")

# 🧹 5. Eliminar filas con valores esenciales nulos
df.dropna(subset=["id_visitante", "pais_origen", "fecha_visita"], inplace=True)

# 📝 6. Mostrar resumen final
print("\n✅ Registros limpios:", len(df))
print(df.head())

# 💾 7. Guardar archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\n📁 Archivo limpio guardado en: {output_file}")


📊 Registros originales: 3000

Vista previa:
  id_visitante pais_origen  edad genero          destino    region  \
0        V0001      EE.UU.    20      F       Huacachina       Ica   
1        V0002   Argentina    62      M    Lago Titicaca      Puno   
2        V0003    Alemania    79      F     Machu Picchu     Cusco   
3        V0004    Colombia    62      M  Líneas de Nazca       Ica   
4        V0005     Francia    22      M            Colca  Arequipa   

  fecha_visita  dias_estadia  gasto_total medio_transporte  
0   2025-09-22            14       278.94            Avión  
1   2025-02-13            15      4136.12              Bus  
2   2025-09-07             6      1034.03  Auto particular  
3   2025-03-27             4      1456.56            Avión  
4   2025-04-01             3      3145.38              Bus  

✅ Después de eliminar duplicados: 3000


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["medio_transporte"].replace("NA", "Desconocido", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["destino"].replace("NA", "Destino no especificado", inplace=True)



✅ Registros limpios: 3000
  id_visitante pais_origen  edad genero          destino    region  \
0        V0001      EE.UU.    20      F       Huacachina       Ica   
1        V0002   Argentina    62      M    Lago Titicaca      Puno   
2        V0003    Alemania    79      F     Machu Picchu     Cusco   
3        V0004    Colombia    62      M  Líneas de Nazca       Ica   
4        V0005     Francia    22      M            Colca  Arequipa   

  fecha_visita  dias_estadia  gasto_total medio_transporte  
0   2025-09-22            14       278.94            Avión  
1   2025-02-13            15      4136.12              Bus  
2   2025-09-07             6      1034.03  Auto particular  
3   2025-03-27             4      1456.56            Avión  
4   2025-04-01             3      3145.38              Bus  

📁 Archivo limpio guardado en: c:\Users\VALDIVIA\Desktop\UNC 2025-II\TOPICOS EN INTELIGENCIA DE NEGOCIOS\MINCETUR\database\visitantes_clean.csv
