
# 📊 3_Generar_Data_Turismo.ipynb
 Proyecto: TurismoDigitalB_E1
### Descripción:
   Genera un archivo CSV (visitantes.csv) con 3000 registros simulados
  representando visitantes nacionales y extranjeros al Perú.
   Incluye algunos valores nulos (None, NA) para simular datos reales.



In [None]:

!pip install faker --quiet

import pandas as pd
import numpy as np
from faker import Faker
from pathlib import Path
import random

# Usamos español de España (es_ES) para evitar errores de locale no soportado
fake = Faker("es_ES")

def main():
    # 📁 Ir a la raíz del proyecto (una carpeta arriba de /scripts)
    root = Path.cwd().parent
    data_path = root / "data"
    data_path.mkdir(parents=True, exist_ok=True)

    # 🌎 Listas de datos posibles
    paises = ["Perú", "Chile", "Argentina", "Brasil", "Ecuador", "Colombia", "México", "EE.UU."]
    generos = ["M", "F"]
    destinos = ["Machu Picchu", "Lago Titicaca", "Chan Chan", "Líneas de Nazca", "Cañón del Colca", "Huacachina"]
    regiones = ["Cusco", "Puno", "La Libertad", "Ica", "Arequipa"]
    transportes = ["Avión", "Bus", "Auto", "Tren", None, "NA"]

    # 📊 Lista para almacenar los registros
    data = []

    for i in range(3000):
        data.append({
            "id_visitante": f"V{i+1:04d}",
            "pais_origen": random.choice(paises),
            "edad": random.randint(18, 70),
            "genero": random.choice(generos),
            "destino": random.choice(destinos),
            "region": random.choice(regiones),
            "fecha_visita": fake.date_between(start_date="-1y", end_date="today"),
            "dias_estadia": random.randint(1, 10),
            "gasto_total": round(random.uniform(300, 5000), 2),
            "medio_transporte": random.choice(transportes)
        })

    # 📁 Convertir a DataFrame y guardar en CSV
    df = pd.DataFrame(data)
    csv_path = data_path / "visitantes.csv"
    df.to_csv(csv_path, index=False, encoding="utf-8-sig")

    print(f"✅ Archivo generado correctamente con {len(df)} registros.")
    print(f"📂 Ubicación: {csv_path}")

    # 🧾 Vista previa de los primeros registros
    display(df.head(10))

if __name__ == "__main__":
    main()


✅ Archivo generado correctamente con 3000 registros.
📂 Ubicación: c:\Users\mmond\documents\TurismoDigitalB_E1\data\visitantes.csv


Unnamed: 0,id_visitante,pais_origen,edad,genero,destino,region,fecha_visita,dias_estadia,gasto_total,medio_transporte
0,V0001,Brasil,18,F,Machu Picchu,La Libertad,2025-06-24,4,3998.88,
1,V0002,Argentina,69,M,Machu Picchu,Ica,2025-04-23,3,3777.25,
2,V0003,Argentina,37,F,Cañón del Colca,Arequipa,2025-06-09,5,856.93,
3,V0004,Ecuador,57,M,Cañón del Colca,Puno,2025-06-14,5,4808.62,
4,V0005,Perú,19,M,Líneas de Nazca,Ica,2025-07-13,7,4497.06,
5,V0006,Perú,58,F,Lago Titicaca,Puno,2025-03-31,9,3494.71,Bus
6,V0007,Chile,59,F,Huacachina,Cusco,2024-12-02,3,2917.5,Avión
7,V0008,México,55,F,Huacachina,Ica,2025-05-30,6,3469.93,Tren
8,V0009,Colombia,67,M,Chan Chan,Ica,2025-09-13,1,4455.91,
9,V0010,Perú,44,F,Machu Picchu,Arequipa,2025-02-05,1,2363.5,
