In [1]:
import pandas as pd
import numpy as np
from pathlib import Path
import random
from datetime import datetime, timedelta

# ==============================
# 1️⃣ Definir rutas y estructura
# ==============================
data_path = Path.cwd().parent / "data"
data_path.mkdir(parents=True, exist_ok=True)
archivo_csv = data_path / "visitantes.csv"

# ==============================
# 2️⃣ Listas base para generar datos
# ==============================
paises = ["Perú", "Chile", "Ecuador", "Colombia", "Argentina", "Brasil", "EEUU", "España", "Francia"]
generos = ["M", "F"]
destinos = ["Machu Picchu", "Lago Titicaca", "Líneas de Nazca", "Chan Chan", "Amazonas", "Caral", "Cajamarca"]
regiones = ["Cusco", "Puno", "Ica", "La Libertad", "Loreto", "Lima", "Cajamarca"]
transportes = ["Avión", "Bus", "Auto", "Tren", np.nan]

# ==============================
# 3️⃣ Generar 3000 registros aleatorios
# ==============================
num_registros = 3000
data = []

for i in range(1, num_registros + 1):
    id_visitante = f"V{i:04d}"
    pais = random.choice(paises)
    edad = random.randint(18, 70)
    genero = random.choice(generos)
    destino = random.choice(destinos)
    region = random.choice(regiones)
    fecha_visita = datetime(2025, random.randint(1, 12), random.randint(1, 28))
    dias_estadia = random.randint(1, 10)
    gasto_total = random.randint(300, 5000)
    medio_transporte = random.choice(transportes)
    
    # Introducimos algunos valores nulos o NA
    if random.random() < 0.03:
        destino = np.nan
    if random.random() < 0.02:
        medio_transporte = np.nan
    
    data.append([id_visitante, pais, edad, genero, destino, region, fecha_visita.strftime("%Y-%m-%d"),
                 dias_estadia, gasto_total, medio_transporte])

# ==============================
# 4️⃣ Crear DataFrame y exportar
# ==============================
df = pd.DataFrame(data, columns=[
    "id_visitante", "pais_origen", "edad", "genero", "destino", 
    "region", "fecha_visita", "dias_estadia", "gasto_total", "medio_transporte"
])

df.to_csv(archivo_csv, index=False, encoding="utf-8")
print("✅ Archivo 'visitantes.csv' generado correctamente con 3000 registros.")

✅ Archivo 'visitantes.csv' generado correctamente con 3000 registros.
