# Generando datos para turismo

In [4]:
# 3_generar_data_turismo.py
from pathlib import Path
import csv, random
from datetime import datetime, timedelta

def rand_date(y1=2024, y2=2025):
    ini = datetime(y1,1,1); fin = datetime(y2,12,31)
    return (ini + timedelta(days=random.randint(0, (fin-ini).days))).date().isoformat()

# Rutas a nivel del proyecto
data_path = (Path.cwd() / "../data").resolve()
data_path.mkdir(parents=True, exist_ok=True)
out_csv = data_path / "visitantes.csv"

# Catálogos
PAISES = ["Perú","Chile","USA","Argentina","Colombia","Brasil","Ecuador","España","Francia","Alemania","México","Bolivia"]
REGIONES_DESTINOS = {
    "Cusco": ["Machu Picchu","Cusco Ciudad"],
    "Puno": ["Lago Titicaca"],
    "Lima": ["Centro Histórico","Miraflores"],
    "Arequipa": ["Valle del Colca"],
    "La Libertad": ["Chan Chan"],
    "Ica": ["Huacachina"],
    "Loreto": ["Iquitos"]
}
GENEROS = ["M","F","O",""]
TRANSP = ["Avión","Bus","Auto","Tren","Barco","NA",""]

# Encabezado exacto
HEADER = ["id_visitante","pais_origen","edad","genero","destino","region","fecha_visita","dias_estadia","gasto_total","medio_transporte"]

# Generación
N = 3000
rows = []
for i in range(1, N+1):
    vid = f"V{str(i).zfill(4)}"
    pais = random.choices(PAISES, weights=[30,6,5,7,10,5,4,2,2,2,15,2])[0]
    edad = random.choice([random.randint(15,75), None, None])  # nulos
    genero = random.choice(GENEROS + [None])
    region = random.choice(list(REGIONES_DESTINOS.keys()))
    destino = random.choice(REGIONES_DESTINOS[region])
    fecha  = random.choice([rand_date(2024,2025), "NA", None])
    dias   = random.choice([random.randint(1,14), None])
    gasto  = random.choice([round(random.uniform(50,5000),2), None])
    medio  = random.choice(TRANSP)

    row = [vid,pais,edad,genero,destino,region,fecha,dias,gasto,medio]
    rows.append(row)
    if random.random() < 0.01:  # ~1% duplicados
        rows.append(row)

with out_csv.open("w", newline="", encoding="utf-8") as f:
    w = csv.writer(f)
    w.writerow(HEADER)
    w.writerows(rows)

print(f"✅ visitantes.csv generado en: {out_csv} (filas: {len(rows)})")


✅ visitantes.csv generado en: D:\TurismoDigitalB_E1\data\visitantes.csv (filas: 3031)
