In [None]:
import pandas as pd
import numpy as np

# Listas de barrios según los distritos
barrios = {
    'Centro': ['Palacio', 'Embajadores', 'Cortes', 'Justicia', 'Universidad', 'Sol'],
    'Arganzuela': ['Imperial', 'Acacias', 'Chopera', 'Legazpi', 'Delicias', 'Palos de Moguer', 'Atocha'],
    'Retiro': ['Pacífico', 'Adelfas', 'Estrella', 'Ibiza', 'Jerónimos', 'Niño Jesús'],
    'Salamanca': ['Recoletos', 'Goya', 'Fuente del Berro', 'Guindalera', 'Lista', 'Castellana'],
    'Chamartín': ['El Viso', 'Prosperidad', 'Ciudad Jardín', 'Hispanoamérica', 'Nueva España', 'Castilla'],
    'Tetuán': ['Bellas Vistas', 'Cuatro Caminos', 'Castillejos', 'Almenara', 'Valdeacederas', 'Berruguete'],
    'Chamberí': ['Gaztambide', 'Arapiles', 'Trafalgar', 'Almagro', 'Ríos Rosas', 'Vallehermoso'],
    'Fuencarral-El Pardo': ['El Pardo', 'Fuentelarreina', 'Peñagrande', 'El Pilar', 'La Paz', 'Valverde', 'Mirasierra', 'El Goloso'],
    'Moncloa-Aravaca': ['Casa de Campo', 'Argüelles', 'Ciudad Universitaria', 'Valdezarza', 'Valdemarín', 'El Plantío', 'Aravaca'],
    'Latina': ['Los Cármenes', 'Puerta del Ángel', 'Lucero', 'Aluche', 'Campamento', 'Cuatro Vientos', 'Las Águilas'],
    'Carabanchel': ['Comillas', 'Opañel', 'San Isidro', 'Vista Alegre', 'Puerta Bonita', 'Buenavista', 'Abrantes'],
    'Usera': ['Orcasitas', 'Orcasur', 'San Fermín', 'Almendrales', 'Moscardó', 'Zofío', 'Pradolongo'],
    'Puente de Vallecas': ['Entrevías', 'San Diego', 'Palomeras Bajas', 'Palomeras Sureste', 'Portazgo', 'Numancia'],
    'Moratalaz': ['Pavones', 'Horcajo', 'Marroquina', 'Media Legua', 'Fontarrón', 'Vinateros'],
    'Ciudad Lineal': ['Ventas', 'Pueblo Nuevo', 'Quintana', 'Concepción', 'San Pascual', 'San Juan Bautista', 'Colina', 'Atalaya', 'Costillares'],
    'Hortaleza': ['Palomas', 'Piovera', 'Canillas', 'Pinar del Rey', 'Apóstol Santiago', 'Valdefuentes'],
    'Villaverde': ['Villaverde Alto – Casco Histórico de Villaverde', 'San Cristóbal', 'Butarque', 'Los Rosales', 'Ángeles'],
    'Villa de Vallecas': ['Casco Histórico de Vallecas', 'Santa Eugenia', 'Ensache de Vallecas'],
    'Vicálvaro': ['Casco Histórico de Vicálvaro', 'Valdebernardo', 'Valderribas', 'Cañaveral'],
    'San Blas-Canillejas': ['Simancas', 'Hellín', 'Amposta', 'Arcos', 'Rosas', 'Rejas', 'Canillejas', 'Salvador'],
    'Barajas': ['Alameda de Osuna', 'Aeropuerto', 'Casco Histórico de Barajas', 'Timón', 'Corralejos'],
}

# Crear una lista con todos los barrios
all_barrios = [barrio for barrio_list in barrios.values() for barrio in barrio_list]

# Generar valores simulados para las variables del dataset
n = 200000

data = {
    'ID de Viaje': np.arange(1, n+1),
    'Punto de Destino': np.random.choice(all_barrios, size=n),
    'Punto de Salida': np.random.choice(all_barrios, size=n),
    'Tiempo ETA (min)': np.random.randint(5, 60, size=n),
    'Distancia (km)': np.random.uniform(0.5, 15.0, size=n).round(2),
    'Fecha y Hora de Llegada': pd.date_range(start='2024-10-01', periods=n, freq='min'),
    'Fecha': pd.date_range(start='2024-10-01', periods=n, freq='min').date,
    'Hora de Salida': pd.date_range(start='2024-10-01', periods=n, freq='min').time,
    'Tipo de Zona': np.random.choice(['Residencial', 'Comercial', 'Industrial'], size=n),
    'Día de la Semana': np.random.choice(['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes', 'Sábado', 'Domingo'], size=n),
    'Barrio': np.random.choice(all_barrios, size=n),
    'Evento en el barrio (Si/No)': np.random.choice([0, 1], size=n),  # 0 = No, 1 = Sí
    'Densidad Vehicular Actual en el barrio': np.random.randint(50, 500, size=n),
    'Número de reportes de plazas disponibles en ese barrio': np.random.randint(0, 10, size=n),
    'He Aparcado (Si/No)': np.random.choice([0, 1], size=n),  # 0 = No, 1 = Sí
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Mostrar las primeras filas del dataset
print(df.head())