# An√°lisis de Siniestros Viales - Av. Sim√≥n Bol√≠var
## Simulaci√≥n GAMA vs Datos Reales AMT

Este notebook compara los resultados de la simulaci√≥n con datos reales de la Agencia Metropolitana de Tr√°nsito (AMT).

**Objetivos:**
- Cargar y procesar datos de simulaci√≥n (CSV de GAMA)
- Cargar datos reales de AMT (Excel)
- Generar gr√°ficos comparativos
- Analizar variaci√≥n de par√°metros (lluvia, velocidad, densidad)

In [4]:
# Instalar librer√≠as necesarias
%pip install pandas numpy matplotlib seaborn openpyxl -q

# Importar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo de gr√°ficos
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("‚úÖ Librer√≠as importadas correctamente")


[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.
‚úÖ Librer√≠as importadas correctamente


## 1. Cargar Datos de Simulaci√≥n GAMA

In [5]:
# Cargar CSV generado por GAMA
# Ajusta el mes que quieres analizar
mes = 3  # Marzo

ruta_csv = f'../results/siniestros_mes_{mes}.csv'

try:
    df_simulacion = pd.read_csv(ruta_csv)
    print(f"‚úÖ Datos de simulaci√≥n cargados: {len(df_simulacion)} accidentes")
    print("\nPrimeras filas:")
    display(df_simulacion.head())
    print("\nColumnas:", df_simulacion.columns.tolist())
    print("\nResumen:")
    display(df_simulacion.describe())
except FileNotFoundError:
    print(f"‚ùå Archivo no encontrado: {ruta_csv}")
    print("Aseg√∫rate de ejecutar la simulaci√≥n en GAMA primero")

‚úÖ Datos de simulaci√≥n cargados: 14 accidentes

Primeras filas:


Unnamed: 0,'mes','dia','hora','tipo_vehiculo','causa_accidente','x','y'
0,mes,dia,hora,tipo_vehiculo,causa_accidente,x,y
1,3,0,16,Auto,Clima,9397,19123
2,3,0,23,Auto,Clima,9508,17706
3,3,2,10,Auto,Clima,6489,24247
4,3,3,1,Auto,Distancia,4087,25930



Columnas: ["'mes'", "'dia'", "'hora'", "'tipo_vehiculo'", "'causa_accidente'", "'x'", "'y'"]

Resumen:


Unnamed: 0,'mes','dia','hora','tipo_vehiculo','causa_accidente','x','y'
count,14,14,14,14,14,14,14
unique,2,10,12,4,5,14,14
top,3,8,23,Auto,Clima,x,y
freq,13,3,2,10,9,1,1


## 2. Cargar Datos Reales de AMT

In [6]:
# Cargar datos reales del Excel
# Ajusta la ruta seg√∫n donde est√© tu archivo Excel
ruta_excel = '../includes/completo_siniestros.xlsx'  # O .xls

try:
    # Leer Excel (ajusta el nombre de la hoja si es necesario)
    df_real = pd.read_excel(ruta_excel, sheet_name=0)
    
    print(f"‚úÖ Datos reales cargados: {len(df_real)} registros")
    print("\nPrimeras filas:")
    display(df_real.head())
    print("\nColumnas disponibles:")
    print(df_real.columns.tolist())
    
except FileNotFoundError:
    print(f"‚ùå Archivo no encontrado: {ruta_excel}")
    print("Coloca el archivo Excel en la carpeta 'includes'")
except Exception as e:
    print(f"‚ùå Error al leer Excel: {e}")

‚ùå Archivo no encontrado: ../includes/completo_siniestros.xlsx
Coloca el archivo Excel en la carpeta 'includes'


## 3. An√°lisis de Causas de Accidentes

In [None]:
# Gr√°fico de Pie: Causas de accidentes (Simulaci√≥n vs Real)

fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Simulaci√≥n
causas_sim = df_simulacion['causa_accidente'].value_counts()
colors_sim = ['#3498db', '#87ceeb', '#ff9800', '#9e9e9e', '#4caf50']
axes[0].pie(causas_sim.values, labels=causas_sim.index, autopct='%1.1f%%', 
            colors=colors_sim, startangle=90)
axes[0].set_title('Causas de Accidentes - SIMULACI√ìN', fontsize=14, fontweight='bold')

# Real (ajusta el nombre de la columna seg√∫n tu Excel)
# Ejemplo: si tu columna se llama 'CAUSA_PROBABLE'
# causas_real = df_real['CAUSA_PROBABLE'].value_counts().head(5)
# axes[1].pie(causas_real.values, labels=causas_real.index, autopct='%1.1f%%', 
#             colors=colors_sim, startangle=90)
# axes[1].set_title('Causas de Accidentes - DATOS REALES', fontsize=14, fontweight='bold')

# Por ahora solo simulaci√≥n (ajusta cuando tengas el Excel)
axes[1].text(0.5, 0.5, 'Esperando datos reales\nAjusta nombre de columna', 
             ha='center', va='center', fontsize=12)
axes[1].axis('off')

plt.tight_layout()
plt.show()

print("\nDistribuci√≥n de causas (Simulaci√≥n):")
print(causas_sim)

## 4. Horario de Siniestros

In [None]:
# Distribuci√≥n de accidentes por hora del d√≠a

plt.figure(figsize=(14, 5))

# Agrupar por hora
accidentes_por_hora = df_simulacion.groupby('hora').size()

# Crear rangos horarios como en las im√°genes de AMT
rangos_horarios = {
    '00H00-01H00': range(0, 1),
    '01H00-02H00': range(1, 2),
    '02H00-03H00': range(2, 3),
    '03H00-04H00': range(3, 4),
    '04H00-05H00': range(4, 5),
    '05H00-06H00': range(5, 6),
    '06H00-07H00': range(6, 7),
    '07H00-08H00': range(7, 8),
    '08H00-09H00': range(8, 9),
    '09H00-10H00': range(9, 10),
    '10H00-11H00': range(10, 11),
    '11H00-12H00': range(11, 12),
    '12H00-13H00': range(12, 13),
    '13H00-14H00': range(13, 14),
    '14H00-15H00': range(14, 15),
    '15H00-16H00': range(15, 16),
    '16H00-17H00': range(16, 17),
    '17H00-18H00': range(17, 18),
    '18H00-19H00': range(18, 19),
    '19H00-20H00': range(19, 20),
    '20H00-21H00': range(20, 21),
    '21H00-22H00': range(21, 22),
    '22H00-23H00': range(22, 23),
    '23H00-00H00': range(23, 24),
}

# Colorear seg√∫n intensidad (estilo AMT)
colores = []
for hora in accidentes_por_hora.index:
    if accidentes_por_hora[hora] >= accidentes_por_hora.quantile(0.75):
        colores.append('#d32f2f')  # Rojo
    elif accidentes_por_hora[hora] >= accidentes_por_hora.quantile(0.5):
        colores.append('#ff9800')  # Naranja
    elif accidentes_por_hora[hora] >= accidentes_por_hora.quantile(0.25):
        colores.append('#ffc107')  # Amarillo
    else:
        colores.append('#4caf50')  # Verde

plt.bar(accidentes_por_hora.index, accidentes_por_hora.values, color=colores, edgecolor='black')
plt.xlabel('Hora del D√≠a', fontsize=12)
plt.ylabel('N√∫mero de Siniestros', fontsize=12)
plt.title('Distribuci√≥n de Siniestros por Hora - Simulaci√≥n', fontsize=14, fontweight='bold')
plt.xticks(range(0, 24), rotation=45)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print("\nTop 5 horas con m√°s accidentes:")
print(accidentes_por_hora.sort_values(ascending=False).head())

## 5. Tipo de Veh√≠culos Involucrados

In [None]:
# Gr√°fico de barras: Tipos de veh√≠culos

plt.figure(figsize=(10, 6))

vehiculos = df_simulacion['tipo_vehiculo'].value_counts()

plt.barh(vehiculos.index, vehiculos.values, color=['#2196f3', '#ff9800', '#4caf50', '#9c27b0', '#f44336', '#607d8b'])
plt.xlabel('N√∫mero de Accidentes', fontsize=12)
plt.ylabel('Tipo de Veh√≠culo', fontsize=12)
plt.title('Accidentes por Tipo de Veh√≠culo - Simulaci√≥n', fontsize=14, fontweight='bold')
plt.grid(axis='x', alpha=0.3)

# A√±adir valores en las barras
for i, v in enumerate(vehiculos.values):
    plt.text(v + 1, i, str(v), va='center', fontsize=10, fontweight='bold')

plt.tight_layout()
plt.show()

print("\nDistribuci√≥n de veh√≠culos:")
print(vehiculos)
print(f"\n% respecto al total:")
print((vehiculos / vehiculos.sum() * 100).round(1))

## 6. Mapa de Calor de Accidentes

In [None]:
# Mapa de puntos de accidentes (scatter plot)

plt.figure(figsize=(12, 8))

# Scatter plot con densidad de color
plt.scatter(df_simulacion['x'], df_simulacion['y'], 
           c='red', alpha=0.6, s=100, edgecolors='black', linewidth=0.5)

plt.xlabel('Coordenada X', fontsize=12)
plt.ylabel('Coordenada Y', fontsize=12)
plt.title('Ubicaci√≥n Geogr√°fica de Accidentes - Av. Sim√≥n Bol√≠var', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)

# Marcar puntos cr√≠ticos (seg√∫n tu c√≥digo GAMA)
puntos_criticos = {
    'Int. Rumi√±ahui': (6391.94, 24177.32),
    'J.B. Aguirre': (4820.37, 24729.05),
    'Interoce√°nica': (9644.12, 18905.70)
}

for nombre, (x, y) in puntos_criticos.items():
    plt.scatter(x, y, c='yellow', s=300, marker='*', edgecolors='black', linewidth=2, label=nombre)
    plt.text(x, y-500, nombre, ha='center', fontsize=10, fontweight='bold')

plt.legend()
plt.tight_layout()
plt.show()

print(f"\nTotal de accidentes graficados: {len(df_simulacion)}")

## 7. An√°lisis de Par√°metros (Experimentaci√≥n)

Aqu√≠ puedes comparar m√∫ltiples simulaciones con diferentes par√°metros:
- Factor de lluvia
- Factor de velocidad
- Densidad de tr√°fico

In [None]:
# Ejemplo: Comparar diferentes simulaciones
# Ejecuta varias simulaciones en GAMA con diferentes par√°metros y guarda los CSV

# Supongamos que tienes 3 simulaciones:
# - Base: factor_lluvia=1.0, factor_velocidad=1.0
# - M√°s lluvia: factor_lluvia=1.5, factor_velocidad=1.0
# - M√°s velocidad: factor_lluvia=1.0, factor_velocidad=1.3

# Cargar m√∫ltiples CSVs (ajusta las rutas)
simulaciones = {
    'Base (Normal)': '../results/siniestros_mes_3.csv',
    # 'M√°s Lluvia': '../results/siniestros_mes_3_lluvia.csv',
    # 'M√°s Velocidad': '../results/siniestros_mes_3_velocidad.csv',
}

resultados = {}
for nombre, ruta in simulaciones.items():
    try:
        df = pd.read_csv(ruta)
        resultados[nombre] = len(df)
    except:
        resultados[nombre] = 0

# Gr√°fico comparativo
plt.figure(figsize=(10, 6))
plt.bar(resultados.keys(), resultados.values(), color=['#2196f3', '#ff9800', '#f44336'])
plt.xlabel('Escenario de Simulaci√≥n', fontsize=12)
plt.ylabel('Total de Accidentes', fontsize=12)
plt.title('Comparaci√≥n de Escenarios - Variaci√≥n de Par√°metros', fontsize=14, fontweight='bold')
plt.xticks(rotation=15)
plt.grid(axis='y', alpha=0.3)

for i, (k, v) in enumerate(resultados.items()):
    plt.text(i, v + 2, str(v), ha='center', fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

print("\nResultados de simulaciones:")
for k, v in resultados.items():
    print(f"  {k}: {v} accidentes")

## 8. Resumen y Conclusiones

In [None]:
# Resumen estad√≠stico

print("="*60)
print("RESUMEN EJECUTIVO - SIMULACI√ìN AV. SIM√ìN BOL√çVAR")
print("="*60)
print(f"\nüìÖ Mes simulado: {mes}")
print(f"üöó Total de accidentes: {len(df_simulacion)}")
print(f"üìä Promedio por d√≠a: {len(df_simulacion) / 30:.1f}")

print("\nüîù Top 3 causas:")
top_causas = df_simulacion['causa_accidente'].value_counts().head(3)
for causa, cantidad in top_causas.items():
    porcentaje = (cantidad / len(df_simulacion) * 100)
    print(f"   ‚Ä¢ {causa}: {cantidad} ({porcentaje:.1f}%)")

print("\nüöô Top 3 veh√≠culos involucrados:")
top_vehiculos = df_simulacion['tipo_vehiculo'].value_counts().head(3)
for vehiculo, cantidad in top_vehiculos.items():
    porcentaje = (cantidad / len(df_simulacion) * 100)
    print(f"   ‚Ä¢ {vehiculo}: {cantidad} ({porcentaje:.1f}%)")

print("\n‚è∞ Horario m√°s peligroso:")
hora_peligrosa = df_simulacion['hora'].mode()[0]
accidentes_hora = df_simulacion[df_simulacion['hora'] == hora_peligrosa].shape[0]
print(f"   ‚Ä¢ {hora_peligrosa}:00 hrs ({accidentes_hora} accidentes)")

print("\n" + "="*60)