In [20]:
# cargar librerías
import pandas as pd
import plotly.express as px
import datetime as dt
from dash import Dash, dcc, html, Input, Output

In [2]:
# definir funciones
def load_data(file_path):
    try:
        data = pd.read_excel(file_path, header = 3)
        return data
    except Exception as e:
        print(f"Error loading data from {file_path}: {e}")
        return None

In [3]:
# copiar ruta de los archivos
siniestros_path = 'C:/Users/User_001/Documents/PACD/proyecto/BBDD ONSV - SINIESTROS 2021-2023.xlsx'
vehiculos_path = 'C:/Users/User_001/Documents/PACD/proyecto/BBDD ONSV - VEHICULOS 2021-2023.xlsx'

# cargar datos
siniestros = load_data(siniestros_path)
vehiculos = load_data(vehiculos_path)

# limpiar siniestros 'CÓDIGO SINIESTRO'
siniestros = siniestros.drop_duplicates(subset = 'CÓDIGO SINIESTRO', keep = 'first')
print(siniestros.shape)
print(vehiculos.columns)

(6718, 28)
Index(['CÓDIGO SINIESTRO', 'CÓDIGO VEHICULO', 'DEPARTAMENTO', 'PROVINCIA',
       'DISTRITO', 'SITUACIÓN VEHÍCULO', 'ESTADO MODALIDAD',
       'MODALIDAD DE TRANSPORTE', 'ELEMENTO TRANSPORTADO', 'AMBITO SERVICIO',
       'POSEE SEGURO', 'ESTADO SOAT', 'TIPO SEGURO', 'COMPAÑIA SEGURO',
       'POSEE CITV', 'ESTADO CITV', 'LUGAR IMPACTO VEHÍCULO', 'VEHÍCULO',
       'TIPO SINIESTRO', 'FECHA', 'AÑO', 'MES', 'DÍA', 'HORA',
       'CÓDIGO DE CARRETERA', 'TIPO DE VÍA'],
      dtype='object')


In [4]:
siniestros = siniestros[['CÓDIGO SINIESTRO', 'FECHA SINIESTRO', 'HORA SINIESTRO', 'CLASE SINIESTRO', 'DEPARTAMENTO', 'PROVINCIA', 'DISTRITO', 'TIPO DE VÍA', 'COORDENADAS LATITUD', 'COORDENADAS  LONGITUD', 'CONDICIÓN CLIMÁTICA', 'SUPERFICIE DE CALZADA', 'CAUSA FACTOR PRINCIPAL']]
vehiculos = vehiculos[['CÓDIGO SINIESTRO', 'VEHÍCULO', 'MES', 'DÍA', 'HORA', 'AÑO']]

In [5]:
print(f'Siniestros does have a size of: {siniestros.shape}')
print(f'Vehiculos does have a size of: {vehiculos.shape}')
print(f'{siniestros['CÓDIGO SINIESTRO'].nunique()} unique siniestros found.')
print(f'{vehiculos['CÓDIGO SINIESTRO'].nunique()} unique siniestros found in vehiculos.')

Siniestros does have a size of: (6718, 13)
Vehiculos does have a size of: (9451, 6)
6718 unique siniestros found.
6718 unique siniestros found in vehiculos.


In [6]:
#print(siniestros)

In [7]:
vehiculos_siniestros = pd.merge(siniestros, vehiculos, on = 'CÓDIGO SINIESTRO', how = 'inner')
print(vehiculos_siniestros.shape)

(9451, 18)


In [8]:
vehiculos_siniestros.head(10)

Unnamed: 0,CÓDIGO SINIESTRO,FECHA SINIESTRO,HORA SINIESTRO,CLASE SINIESTRO,DEPARTAMENTO,PROVINCIA,DISTRITO,TIPO DE VÍA,COORDENADAS LATITUD,COORDENADAS LONGITUD,CONDICIÓN CLIMÁTICA,SUPERFICIE DE CALZADA,CAUSA FACTOR PRINCIPAL,VEHÍCULO,MES,DÍA,HORA,AÑO
0,A-2021-01-23,01/01/2021,04:40,DESPISTE,LIMA,HUARAL,HUARAL,CARRETERA,-11.482879,-77.255547,DESPEJADO,TROCHA,NO IDENTIFICA LA CAUSA,CAMIONETA RURAL,ENERO,VIERNES,4,2021
1,A-2021-01-248,01/01/2021,05:45,DESPISTE,LIMA,LIMA,PACHACAMAC,AVENIDA,-12.2294,-76.859412,DESPEJADO,ASFALTADA,IMPRUDENCIA DEL CONDUCTOR,TRIMOTO PASAJERO,ENERO,VIERNES,5,2021
2,A-2021-01-38,01/01/2021,06:00,ATROPELLO FUGA,LA LIBERTAD,VIRU,VIRU,CARRETERA,-8.414865,-78.754544,DESPEJADO,ASFALTADA,NO IDENTIFICA LA CAUSA,VEHICULO NO IDENTIFICADO,ENERO,VIERNES,6,2021
3,A-2021-01-39,01/01/2021,07:00,CHOQUE,LA LIBERTAD,VIRU,VIRU,CARRETERA,-8.432617,-78.772242,DESPEJADO,ASFALTADA,IMPRUDENCIA DEL CONDUCTOR,MOTOCICLETA,ENERO,VIERNES,7,2021
4,A-2021-01-39,01/01/2021,07:00,CHOQUE,LA LIBERTAD,VIRU,VIRU,CARRETERA,-8.432617,-78.772242,DESPEJADO,ASFALTADA,IMPRUDENCIA DEL CONDUCTOR,MOTOCICLETA,ENERO,VIERNES,7,2021
5,A-2021-01-254,01/01/2021,14:00,ATROPELLO,LIMA,LIMA,VILLA MARIA DEL TRIUNFO,AVENIDA,-12.164406,-76.953426,DESPEJADO,ASFALTADA,IMPRUDENCIA DEL CONDUCTOR,MOTOCICLETA,ENERO,VIERNES,14,2021
6,A-2021-01-22,01/01/2021,17:45,CHOQUE,SAN MARTIN,RIOJA,RIOJA,JIRÓN,-6.063829,-77.171368,LLUVIOSO,CONCRETO,IMPRUDENCIA DEL CONDUCTOR,MOTOCICLETA,ENERO,VIERNES,17,2021
7,A-2021-01-22,01/01/2021,17:45,CHOQUE,SAN MARTIN,RIOJA,RIOJA,JIRÓN,-6.063829,-77.171368,LLUVIOSO,CONCRETO,IMPRUDENCIA DEL CONDUCTOR,MOTOCICLETA,ENERO,VIERNES,17,2021
8,A-2021-01-67,01/01/2021,21:00,CHOQUE CON OBJETO FIJO,LAMBAYEQUE,LAMBAYEQUE,LAMBAYEQUE,CARRETERA,-6.680472,-79.903582,DESPEJADO,ASFALTADA,NO IDENTIFICA LA CAUSA,MOTOCICLETA,ENERO,VIERNES,21,2021
9,A-2022-01-221,01/01/2022,04:30,CHOQUE,CUSCO,ESPINAR,ALTO PICHIGUA,CARRETERA,-14.737231,-71.326314,NUBLADO,ASFALTADA,IMPRUDENCIA DEL CONDUCTOR,CAMIÓN,ENERO,SÁBADO,4,2022


In [9]:
print(vehiculos_siniestros.columns)

Index(['CÓDIGO SINIESTRO', 'FECHA SINIESTRO', 'HORA SINIESTRO',
       'CLASE SINIESTRO', 'DEPARTAMENTO', 'PROVINCIA', 'DISTRITO',
       'TIPO DE VÍA', 'COORDENADAS LATITUD', 'COORDENADAS  LONGITUD',
       'CONDICIÓN CLIMÁTICA', 'SUPERFICIE DE CALZADA',
       'CAUSA FACTOR PRINCIPAL', 'VEHÍCULO', 'MES', 'DÍA', 'HORA', 'AÑO'],
      dtype='object')


In [10]:
new_siniestros = vehiculos_siniestros.dropna()
print(f'New siniestros does have a size of: {new_siniestros.shape}')

New siniestros does have a size of: (8647, 18)


In [14]:
# gráfico de barras de condición climática
siniestros_by_weather = new_siniestros.groupby('CONDICIÓN CLIMÁTICA')['CÓDIGO SINIESTRO'].count().reset_index().sort_values(by = 'CÓDIGO SINIESTRO', ascending = False)
print(siniestros_by_weather)

fig = px.bar(siniestros_by_weather, x='CONDICIÓN CLIMÁTICA', y='CÓDIGO SINIESTRO', title='Siniestros por Condición Climática')
fig.show()

# extraer top 5 condiciones climáticas más frecuentes
top_condiciones = siniestros_by_weather['CONDICIÓN CLIMÁTICA'].head(5)
print(top_condiciones)

  CONDICIÓN CLIMÁTICA  CÓDIGO SINIESTRO
0           DESPEJADO              7672
6             SOLEADO               425
2            LLUVIOSO               257
5             NUBLADO               248
4              NIEBLA                33
7           VENTARRÓN                 6
1           GRANIZADO                 4
3              NEVADO                 2


0    DESPEJADO
6      SOLEADO
2     LLUVIOSO
5      NUBLADO
4       NIEBLA
Name: CONDICIÓN CLIMÁTICA, dtype: object


In [19]:
# siniestros por clase
siniestros_por_condición = vehiculos_siniestros.groupby(['CONDICIÓN CLIMÁTICA', 'CLASE SINIESTRO'])['CÓDIGO SINIESTRO'].count()
print(siniestros_por_condición)
siniestros_por_condición = siniestros_por_condición.loc[top_condiciones].reset_index()
print(siniestros_por_condición)

# gráfico de barras de siniestros por clase y condición climática
fig2 = px.bar(siniestros_por_condición, x='CONDICIÓN CLIMÁTICA', y='CÓDIGO SINIESTRO', color='CLASE SINIESTRO', title='Siniestros por Clase y Condición Climática')
fig2.show()

CONDICIÓN CLIMÁTICA  CLASE SINIESTRO       
DESPEJADO            ATROPELLO                 1236
                     ATROPELLO FUGA             584
                     CAÍDA DE PASAJERO           69
                     CHOQUE                    3897
                     CHOQUE CON OBJETO FIJO      94
                     CHOQUE FUGA                331
                     DESPISTE                  1529
                     ESPECIAL                    58
                     FERROVIARIO                  4
                     INCENDIO                     1
                     VOLCADURA                  197
GRANIZADO            CHOQUE                       2
                     DESPISTE                     2
LLUVIOSO             ATROPELLO                   14
                     ATROPELLO FUGA              18
                     CAÍDA DE PASAJERO            1
                     CHOQUE                     112
                     CHOQUE CON OBJETO FIJO       2
                    

In [31]:
# mapa de calor siniestros por departamento según la hora del día
vehiculos_siniestros['HORA SINIESTRO'] = pd.to_datetime(vehiculos_siniestros['HORA SINIESTRO'], format='%H:%M', errors='coerce')
vehiculos_siniestros['HORA SINIESTRO'] = vehiculos_siniestros['HORA SINIESTRO'].dt.hour
siniestros_por_departamento_hora = vehiculos_siniestros.groupby(['DEPARTAMENTO', 'HORA SINIESTRO'])['CÓDIGO SINIESTRO'].count().reset_index()

# pivoteamos
matriz_por_dep_hora = siniestros_por_departamento_hora.pivot(index = 'DEPARTAMENTO', columns = 'HORA SINIESTRO', values = 'CÓDIGO SINIESTRO').fillna(0)

# gráfico de mapa de calor
fig3 = px.imshow(matriz_por_dep_hora, text_auto = True, color_continuous_scale = 'Viridis', title='Mapa de Calor de Siniestros por Departamento y Hora del Día')

fig3.show()

In [11]:
siniestros_by_mes = vehiculos_siniestros.groupby('CLASE SINIESTRO')
siniestros_by_mes = siniestros_by_mes['CLASE SINIESTRO'].nunique()
print(siniestros_by_mes)

CLASE SINIESTRO
ATROPELLO                 1
ATROPELLO FUGA            1
CAÍDA DE PASAJERO         1
CHOQUE                    1
CHOQUE CON OBJETO FIJO    1
CHOQUE FUGA               1
DESPISTE                  1
ESPECIAL                  1
FERROVIARIO               1
INCENDIO                  1
VOLCADURA                 1
Name: CLASE SINIESTRO, dtype: int64


In [12]:
siniestros_por_ubi = vehiculos_siniestros.groupby(['COORDENADAS LATITUD', 'COORDENADAS  LONGITUD'])['CÓDIGO SINIESTRO'].count().reset_index()
print(siniestros_por_ubi)

      COORDENADAS LATITUD  COORDENADAS  LONGITUD  CÓDIGO SINIESTRO
0              -18.305434             -70.320481                 1
1              -18.299647             -70.315496                 1
2              -18.292291             -70.316267                 1
3              -18.284340             -70.437300                 1
4              -18.282521             -70.440696                 1
...                   ...                    ...               ...
6710            -3.485154             -80.266345                 1
6711            -3.484335             -80.259209                 2
6712            -3.483976             -80.258383                 1
6713            -3.483398             -80.286884                 1
6714            -3.482921             -80.254404                 1

[6715 rows x 3 columns]


In [17]:
# visualización base de siniestros por ubicación
fig = px.density_map(siniestros_por_ubi, lat = 'COORDENADAS LATITUD', lon = 'COORDENADAS  LONGITUD', z = 'CÓDIGO SINIESTRO', radius = 10, title = 'Siniestros por ubicación')
fig.show()

In [None]:
app = Dash()

app.layout = [html.Div([html.H1('Dashbaord de siniestros y vehículos')]),
              dcc.Graph(figure = px.density_map(siniestros_por_ubi, lat = siniestros_por_ubi['COORDENADAS LATITUD'], lon = siniestros_por_ubi['COORDENADAS  LONGITUD'], z = siniestros_por_ubi['CÓDIGO SINIESTRO'], radius = 10, title = 'Siniestros por ubicación'))]

if __name__ == '__main__':
    app.run(debug=True)

In [16]:
siniestros_por_via = vehiculos_siniestros.groupby('TIPO DE VÍA')['CÓDIGO SINIESTRO'].count().reset_index()
fig = px.pie(siniestros_por_via, names='TIPO DE VÍA', values='CÓDIGO SINIESTRO', title='Siniestros por tipo de vía')
fig.show()

In [19]:
siniestros_por_calzada = vehiculos_siniestros.groupby('SUPERFICIE DE CALZADA')['CÓDIGO SINIESTRO'].count().reset_index()
fig = px.pie(siniestros_por_calzada, names='SUPERFICIE DE CALZADA', values='CÓDIGO SINIESTRO', title='Siniestros por siuperficie de calzada')
fig.show()