In [1]:
from pathlib import Path
import csv
import random
from datetime import datetime, timedelta
import numpy as np

# Ruta de la carpeta de datos
data_path = Path.cwd().parent / "data"
csv_file = data_path / "visitantes.csv"

# Datos base para la simulación
paises = ["Perú", "Chile", "Argentina", "Colombia", "EE.UU.", "España", "Brasil", "México", "Francia", "Alemania"]
regiones_destinos = {
    "Cusco": ["Machu Picchu", "Valle Sagrado", "Montaña 7 Colores"],
    "Puno": ["Lago Titicaca", "Islas Uros", "Sillustani"],
    "Arequipa": ["Cañón del Colca", "Monasterio de Santa Catalina", "Plaza de Armas"],
    "Lima": ["Centro Histórico", "Miraflores", "Barranco"],
    "Ica": ["Líneas de Nazca", "Huacachina", "Islas Ballestas"]
}
transportes = ["Avión", "Bus", "Auto", "Tren", np.nan] # Incluimos nulos

# Función para generar fechas aleatorias
def generar_fecha():
    start_date = datetime(2023, 1, 1)
    end_date = datetime(2025, 10, 1)
    delta = end_date - start_date
    random_days = random.randint(0, delta.days)
    return start_date + timedelta(days=random_days)

# Generar 3000 registros
registros = []
for i in range(1, 3001):
    id_visitante = f"V{str(i).zfill(4)}"
    pais_origen = random.choices(paises, weights=[0.4, 0.1, 0.05, 0.05, 0.1, 0.1, 0.05, 0.05, 0.025, 0.025], k=1)[0]
    edad = random.randint(18, 70)
    genero = random.choice(["M", "F"])
    region = random.choice(list(regiones_destinos.keys()))
    destino = random.choice(regiones_destinos[region])
    fecha_visita = generar_fecha()
    dias_estadia = random.randint(1, 15)
    gasto_total = round(random.uniform(200, 3000) * (1 if pais_origen == "Perú" else 1.5), 2)
    medio_transporte = random.choice(transportes)

    registros.append([
        id_visitante, pais_origen, edad, genero, destino, region,
        fecha_visita.strftime("%Y-%m-%d"), dias_estadia, gasto_total, medio_transporte
    ])

# Añadir algunos duplicados para limpiar después
for _ in range(50):
    registros.append(random.choice(registros))

# Escribir en el archivo CSV
headers = ["id_visitante", "pais_origen", "edad", "genero", "destino", "region", "fecha_visita", "dias_estadia", "gasto_total", "medio_transporte"]
with open(csv_file, mode="w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(headers)
    writer.writerows(registros)

print(f"Archivo 'visitantes.csv' generado con {len(registros)} registros en: {csv_file}")

Archivo 'visitantes.csv' generado con 3050 registros en: /Users/aldairmanosalva/Documents/TurismoDigitalB_E/data/visitantes.csv
