In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly_express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

In [None]:
df = pd.read_pickle('accidentes.pkl')

In [None]:
df['dia_semana'] = df['fecha'].dt.dayofweek
df['dia_mes'] = df['fecha'].dt.day
df['mes'] = df['fecha'].dt.month
df['año'] = df['fecha'].dt.year

In [None]:
df['rango_horario'] = pd.to_timedelta(df['rango_horario'])
df['hora'] = df['rango_horario'].dt.components['hours']
df.loc[df['hora'] == 0, 'hora'] = 24

In [None]:
df.head()

In [None]:
df.shape

- **accidente_id:** Identificador único para cada accidente.
- **fecha_completa:** Fecha y hora completa del accidente.
- **fecha:** Fecha del accidente.
- **rango_horario:** Fango horario en el que ocurrió el accidente.
- **localizacion:** Ubicación específica del accidente.
- **numero:** Número asociado con la ubicación del accidente.
- **distrito:** Distrito donde ocurrió el accidente.
- **coordenada_x:** Coordenada X de la ubicación del accidente.
- **coordenada_y:** Coordenada Y de la ubicación del accidente.
- **condicion:** Condiciones en las que ocurrió el accidente (favorable o desfavorable).
- **lesividad:** Nivel de lesión resultante del accidente.
- **persona_implicada:** Persona implicada en el accidente (conductor, pasajero, etc.).
- **positiva_alcohol:** Si la persona implicada dio positivo por alcohol.
- **positiva_droga:** Si la persona implicada dio positivo por drogas.
- **rango_edad:** Rango de edad de la persona implicada.
- **sexo:** Sexo de la persona implicada.
- **tipo_accidente:** Tipo de accidente (colisión doble, colisión múltiple, etc.).
- **tipo_vehiculo:** Tipo de vehículo involucrado en el accidente.
- **victimas:** Número de víctimas involucradas en el accidente.

In [None]:
df.columns

In [None]:
df.info()

In [None]:
fig = px.imshow(df.isna(), 
                labels = dict(x = "Columnas", y = "Filas"), 
                x      = df.columns, 
                y      = df.index)

fig.update_layout(
title = 'Visualización de NaNs')

fig.show()

Se observsa una gran cantidad de valores Nan's en algunas de las columnas debido a la heterogeneidad de la recogida de muestras entre el rango 2010-2018 y 2019-2024.

In [None]:
df.describe()

# ACCIDENTE ID 

In [None]:
df["accidente_id"].nunique()

In [None]:
n_accidentes_distrito_año = df.groupby(['distrito', 'año'])['accidente_id'].nunique().reset_index()
n_accidentes_distrito_año

In [None]:
n_total_partes_distrito_año = df.groupby(['distrito', 'año'])['accidente_id'].size().reset_index(name='total_accidentes')
n_total_partes_distrito_año = pd.DataFrame(n_total_partes_distrito_año)

In [None]:
fig = px.bar(n_total_partes_distrito_año,
             x      = 'distrito',
             y      = 'total_accidentes',  
             color  = 'año',
             title  = 'Número total de partes por año por distritos',
             height = 700
            )
fig.update_layout(xaxis = {'categoryorder' : 'total descending'}, title_x=0.5)
fig.show()

El número de accidentes es muy bajo en algunos distritos, como Vicalvaro o Barajas, lo cual, hace pensar que quizás no se reportan de forma adecuada todos los accidentes.

In [None]:
numero_accidentes_año = df.groupby(['año'])['accidente_id'].nunique().reset_index()
numero_accidentes_año

In [None]:
fig= px.bar(data_frame = numero_accidentes_año,
       x          = "año",
       y          = "accidente_id",
       opacity     = 0.5,
       title = "Nº total de accidentes por año",
       height = 700,
       color_discrete_sequence= ['blue']
      )
fig.update_layout(xaxis = {'categoryorder' : 'total descending'}, title_x=0.5)

Se observa dos patrones de comportamiento diferentes en la accidentalidad entre los rangos 2010-2018 y 2019-2024.
- Puede que en el segundo rango se comenzara a recoger los detos de diferente manera
- En el 2020 se ve un decrecimiento, potencialmente debido al cofinamiento durante la pandemia.
- Los datos del 2024 (año actual) son muy escasos, por eso su baja accidentalidad

In [None]:
n_accidentes_dia_semana = df.groupby(['dia_semana'])['accidente_id'].nunique().reset_index()
n_accidentes_dia_semana

In [None]:
fig = px.bar(data_frame=n_accidentes_dia_semana,
             x        =  "dia_semana",
             y        =  "accidente_id",
             opacity  =  0.5,
             title    =  "Nº total de accidentes por día de la semana",
             height   =  700,
             color_discrete_sequence=['magenta']
            )

fig.update_layout(xaxis={'title': 'Día de la semana', 
                         'tickmode': 'array', 
                         'tickvals': [0, 1, 2, 3, 4, 5, 6], 
                         'ticktext': ['lunes', 'martes', 'miércoles', 'jueves', 'viernes', 'sábado', 'domingo']},
                  title_x=0.5)

fig.show()

Se observa una mayor accidentalidad los viernes y una menor los domingos. Hecho lógicos, los viernes las personas salen de fiesta y los domingos hay menos tráfico.

In [None]:
n_accidentes_hora = df.groupby(['hora'])['accidente_id'].nunique().reset_index(name = 'num_accidentes')
n_accidentes_hora

In [None]:
fig= px.bar(data_frame = n_accidentes_hora,
            x          = "hora",
            y          = "num_accidentes",
            opacity    = 0.5,
            title      = "Nº total de accidentes por hora",
            height     = 700,
            color_discrete_sequence = ['salmon'])

fig.update_layout(xaxis={'title'    : 'Hora', 
                         'tickmode' : 'array', 
                         'tickvals' : list(range(25)), 
                         'ticktext' : [f"{hour:02d}:00" for hour in range(25)]},
                  title_x=0.5)

Datos no muy relevantes, muestras efectivamente que a altas horas de la madrugada es cuando occuren menos accidentes, y en hora punta es cuando ocurren más.

In [None]:
n_accidentes_mes = df.groupby(['mes'])['accidente_id'].nunique().reset_index()
n_accidentes_mes

In [None]:
fig = px.bar(data_frame     =  n_accidentes_mes,
             x              =  "mes",
             y              =  "accidente_id",
             opacity        =  0.5,
             title          =  "Nº total de accidentes por mes",
             height         =   700,
             color_discrete_sequence = ['orange']
            )

fig.update_layout(xaxis={'title': 'Mes',
                         'tickmode': 'array',
                         'tickvals': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
                         'ticktext': ["enero", "febrero", "marzo", "abril", "mayo", "junio", "julio", "agosto", "septiembre", "octubre", "noviembre", "diciembre"]},
                  title_x=0.5)

fig.show()

La accidentalidad posee cierta homogeneidad en los meses del año, a excepción de Agosto, lo cual, tiene sentido al ser mes vacacional y Madrid estará algo más vacia.

In [None]:
# Días del mes con mayor número de accidentes

n_accidentes_dia_mes = df.groupby(['mes', "dia_mes"])['accidente_id'].nunique().reset_index().sort_values(by=['accidente_id'], ascending=False)
top_15_accidentes_dia_mes= n_accidentes_dia_mes.head(15)
top_15_accidentes_dia_mes

In [None]:
top_15_accidentes_dia_mes['fecha'] = top_15_accidentes_dia_mes['dia_mes'].astype(str) + '/' + top_15_accidentes_dia_mes['mes'].astype(str)
top_15_accidentes_dia_mes

In [None]:
fig = px.bar(data_frame  =  top_15_accidentes_dia_mes,
             x           =  "fecha",
             y           =  "accidente_id",
             opacity     =  0.7,
             title       =  "15 fechas con más accidentes",
             height      =  700,
             color_discrete_sequence=['plum'])

fig.update_layout(title_x=0.5)
fig.show()

In [None]:
n_total_partes_distrito_año = df.groupby(['distrito', 'año'])['accidente_id'].nunique().reset_index(name='total_accidentes')
n_total_partes_distrito_año = pd.DataFrame(n_total_partes_distrito_año)
n_total_partes_distrito_año

In [None]:
# Cambiamos año a string para poder iterar sobre los años en el gráfico

n_accidentes_distrito_año["año"] = n_accidentes_distrito_año["año"].astype(str)

In [None]:
fig = px.bar(n_accidentes_distrito_año,
             x      = 'distrito',
             y      = 'accidente_id',  
             color  = 'año',
             title  = 'Número de accidentes por año por distritos',
             height = 700
            )
fig.update_layout(xaxis = {'categoryorder' : 'total descending'}, title_x=0.5)
fig.show()

Mismo gráfico que el de más arriba, no aporta más información. Solo nos permite observar los diferentes rangos de accidentalidad por fechas y distritos.

# DROGAS Y ALCOHOL

In [None]:
df.columns

In [None]:
nan_drogas = df["positiva_droga"].isna().sum()
realizado_test_droga = df.shape[0] - df["positiva_droga"].isna().sum()

print("Número de NaN en drogas:", nan_drogas)
print("Número de veces que se realizó el test de drogas:", realizado_test_droga)

In [None]:
df["positiva_droga"].unique()

In [None]:
df["positiva_alcohol"].unique()

Se empezó a registrar desde 2019 hasta 2024 los positivos

In [None]:
# los valores totales de positivos, negativos y nan en alcohol teniendo en cuenta todos los años

n_valores_alcohol_totales = df["positiva_alcohol"].value_counts(dropna=False)
n_valores_alcohol_totales

In [None]:
# Cuando empieza a haber registros de alcohol y drogas, a contemplarse esa variable 

df_con_alcohol = df[df['año'] >= 2019]
numero_valores_alcohol = df_con_alcohol["positiva_alcohol"].value_counts(dropna=False)
numero_valores_alcohol

In [None]:
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'pie'}, {'type':'pie'}]], subplot_titles=("Antes del registro", "Desde que hay registros"))

fig.add_trace(
    go.Pie(values=n_valores_alcohol_totales, labels=n_valores_alcohol_totales.index, name="Antes del registro"),
    row=1, col=1)

fig.add_trace(
    go.Pie(values=numero_valores_alcohol, labels=numero_valores_alcohol.index, name="Desde que hay registros", rotation = 90),
    row=1, col=2)

fig.update_layout(title="Porcentajes de positivos en alcohol", title_x=0.5)
fig.show()


In [None]:
positivo_droga_sexo = df[df["positiva_droga"] == 1].groupby(["sexo"]).size()
positivo_droga_sexo

In [None]:
positivo_alcohol_sexo = df[df["positiva_alcohol"] == 1].groupby(["sexo"]).size()
positivo_alcohol_sexo

In [None]:
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'pie'}, {'type':'pie'}]], subplot_titles=("Droga", "Alcohol"))

fig.add_trace(
    go.Pie(values=positivo_droga_sexo, labels=positivo_droga_sexo.index, name="Droga"),
    row=1, col=1)

fig.add_trace(
    go.Pie(values=positivo_alcohol_sexo, labels=positivo_alcohol_sexo.index, name="Alcohol"),
    row=1, col=2)

fig.update_layout(title="Porcentajes positivos por sexo", title_x=0.5)
fig.show()
