In [1]:
import pandas as pd
from pathlib import Path

# Definir rutas
base_path = Path.cwd().parent
input_file = base_path / "data" / "visitantes.csv"
output_file = base_path / "database" / "visitantes_clean.csv"

# Leer el CSV
df = pd.read_csv(input_file)
print(f"Datos cargados. Filas iniciales: {len(df)}")
print("\nValores nulos ANTES de la limpieza:")
print(df.isnull().sum())

# 1. Eliminar duplicados
df.drop_duplicates(inplace=True)
print(f"\nFilas después de eliminar duplicados: {len(df)}")

# 2. Rellenar valores nulos
# Para 'medio_transporte', usamos el valor más común (moda)
mode_transporte = df['medio_transporte'].mode()[0]
df['medio_transporte'].fillna(mode_transporte, inplace=True)

# 3. Formatear fechas
df['fecha_visita'] = pd.to_datetime(df['fecha_visita'])

# 4. Validar tipos de datos (Pandas usualmente los infiere bien, pero es buena práctica)
df['edad'] = df['edad'].astype(int)
df['dias_estadia'] = df['dias_estadia'].astype(int)
df['gasto_total'] = df['gasto_total'].astype(float)

print("\nValores nulos DESPUÉS de la limpieza:")
print(df.isnull().sum())

# Guardar el archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\nArchivo limpio guardado en: {output_file}")

Datos cargados. Filas iniciales: 3050

Valores nulos ANTES de la limpieza:
id_visitante          0
pais_origen           0
edad                  0
genero                0
destino               0
region                0
fecha_visita          0
dias_estadia          0
gasto_total           0
medio_transporte    625
dtype: int64

Filas después de eliminar duplicados: 3000

Valores nulos DESPUÉS de la limpieza:
id_visitante        0
pais_origen         0
edad                0
genero              0
destino             0
region              0
fecha_visita        0
dias_estadia        0
gasto_total         0
medio_transporte    0
dtype: int64

Archivo limpio guardado en: /Users/aldairmanosalva/Documents/TurismoDigitalB_E/database/visitantes_clean.csv


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['medio_transporte'].fillna(mode_transporte, inplace=True)
