# Accidentalidad de bicicletas - Madrid 2019-2024

Jorge Galeano Maté

Este repositorio contiene el código y los datos necesarios para reproducir el análisis de accidentalidad de bicicletas en Madrid entre 2019 y 2024.

---

### 1. Cargar todos los CSV en un único dataframe. ¿Cuántas filas se obtienen?

Primero, pasamos cada CSV a dataframe con Pandas.

Luego, usamos la función `concat()` para unir los dataframe en uno solo.

Con el método `.shape` obtenemos una tupla que indica el número de filas y columnas. Mostramos solo las filas.

In [1]:
import pandas as pd

datos_2019 = pd.read_csv("2019_Accidentalidad.csv", sep=";")

datos_2020 = pd.read_csv("2020_Accidentalidad.csv", sep=";")

datos_2021 = pd.read_csv("2021_Accidentalidad.csv", sep=";")

datos_2022 = pd.read_csv("2022_Accidentalidad.csv", sep=";")

datos_2023 = pd.read_csv("2023_Accidentalidad.csv", sep=";")

datos_2024 = pd.read_csv("2024_Accidentalidad.csv", sep=";")

df = pd.concat(
    [datos_2019, datos_2020, datos_2021, datos_2022, datos_2023, datos_2024], axis=0)

print(f"El dataframe contiene {df.shape[0]} filas.")

El dataframe contiene 262075 filas.


Antes de continuar, comprobamos los dtype del dataframe para evitar problemas futuros.

In [2]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 262075 entries, 0 to 40164
Data columns (total 19 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   num_expediente        262075 non-null  object 
 1   fecha                 262075 non-null  object 
 2   hora                  262075 non-null  object 
 3   localizacion          262075 non-null  object 
 4   numero                262067 non-null  object 
 5   cod_distrito          262067 non-null  float64
 6   distrito              262067 non-null  object 
 7   tipo_accidente        262068 non-null  object 
 8   estado_meteorológico  233670 non-null  object 
 9   tipo_vehiculo         260810 non-null  object 
 10  tipo_persona          262072 non-null  object 
 11  rango_edad            262075 non-null  object 
 12  sexo                  262075 non-null  object 
 13  cod_lesividad         143678 non-null  float64
 14  lesividad             143678 non-null  object 
 15  coorde

Modificamos el dtype de "fecha" y "cod_lesividad" ("num_expediente" y "numero" no se pasan porque contienen letras, y "hora" lo dejamos porque no se puede transformar sin mostrar una fecha). Aprovechamos para modificar los valores de "positiva_alcohol" y "positiva_droga" a True/False, ya que se trata de valores que son positivos o negativos, y puede resultar más práctico usarlos de esta forma.

Aquí también pasaríamos las columnas de "positiva_alcohol" y "positiva_droga" a dtype bool, pero al hacerlo resulta que Pandas transforma los valores nulos en True, así que lo dejamos como dtype object por el momento.

In [3]:
df["fecha"] = pd.to_datetime(df["fecha"], format=r"%d/%m/%Y")

df["cod_lesividad"] = pd.to_numeric(df["cod_lesividad"])

df["positiva_alcohol"] = df["positiva_alcohol"].replace("S", True)
df["positiva_alcohol"] = df["positiva_alcohol"].replace("N", False)
df["positiva_droga"] = df["positiva_droga"].replace(1, True)

df.head()

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
0,2018S017842,2019-02-04,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1.0,CENTRO,Colisión lateral,Despejado,Motocicleta > 125cc,Conductor,De 45 a 49 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068.0,4475679.0,False,
1,2018S017842,2019-02-04,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1.0,CENTRO,Colisión lateral,Despejado,Turismo,Conductor,De 30 a 34 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,440068.0,4475679.0,False,
2,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,,Furgoneta,Conductor,De 40 a 44 años,Hombre,,,439139.0,4470836.0,True,
3,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,,Turismo,Conductor,De 40 a 44 años,Mujer,,,439139.0,4470836.0,False,
4,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,,Turismo,Conductor,De 45 a 49 años,Mujer,,,439139.0,4470836.0,False,


### 2. Borrar todas las columnas referidas a coordenadas.

Usamos la función `drop()` para seleccionar las columnas y borrarlas en el propio dataframe. Mostramos la cabecera para comprobar.

In [4]:
df.drop(["coordenada_x_utm", "coordenada_y_utm"], axis=1, inplace=True)

df.head()

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,positiva_alcohol,positiva_droga
0,2018S017842,2019-02-04,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1.0,CENTRO,Colisión lateral,Despejado,Motocicleta > 125cc,Conductor,De 45 a 49 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,False,
1,2018S017842,2019-02-04,9:10:00,"CALL. ALBERTO AGUILERA, 1",1,1.0,CENTRO,Colisión lateral,Despejado,Turismo,Conductor,De 30 a 34 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,False,
2,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,,Furgoneta,Conductor,De 40 a 44 años,Hombre,,,True,
3,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,,Turismo,Conductor,De 40 a 44 años,Mujer,,,False,
4,2019S000001,2019-01-01,3:45:00,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,,Turismo,Conductor,De 45 a 49 años,Mujer,,,False,


### 3. Reestructurar columna "tipo de vehículo" para obtener las siguientes categorías.

- Turismo
- Motocicleta
- Furgoneta
- Bicicleta
- Camión
- Autobús
- Otro vehículo.

__Los valores nulos se incluyen en la categoría "otro vehículo".__

__Mostrar el número de categorías nuevas junto con su frecuencia y porcentaje.__



Primero, obtenemos los valores únicos de la columna para conocer todos los tipos que hay que reestructurar.

In [5]:
df["tipo_vehiculo"].unique()

array(['Motocicleta > 125cc', 'Turismo', 'Furgoneta', 'Autobús',
       'Ciclomotor', 'Motocicleta hasta 125cc', 'Todo terreno',
       'Bicicleta', 'Camión rígido', 'Maquinaria de obras',
       'Tractocamión', nan, 'Cuadriciclo no ligero',
       'Vehículo articulado', 'Autobús articulado',
       'Otros vehículos con motor', 'Autocaravana', 'Patinete', 'Ciclo',
       'Cuadriciclo ligero', 'VMU eléctrico', 'Semiremolque',
       'Microbús <= 17 plazas', 'Sin especificar', 'Autobus EMT',
       'Remolque', 'Tranvía', 'Caravana', 'Camión de bomberos',
       'Otros vehículos sin motor', 'Bicicleta EPAC (pedaleo asistido)',
       'Moto de tres ruedas > 125cc', 'Tren/metro', 'Ambulancia SAMUR',
       'Moto de tres ruedas hasta 125cc',
       'Ciclomotor de dos ruedas L1e-B', 'Maquinaria agrícola',
       'Autobús articulado EMT', 'Ciclomotor de tres ruedas',
       'Ciclo de motor L1e-A', 'Patinete no eléctrico'], dtype=object)

La reestructuración se realizará de la siguiente forma:
- __Turismo:__ Turismo, Todo terreno, Cuadriciclo no ligero, Autocaravana, Cuadriciclo ligero.

- __Motocicleta:__ Motocicleta > 125cc, Ciclomotor, Motocicleta hasta 125cc, Moto de tres ruedas > 125cc, Moto de tres ruedas hasta 125cc, Ciclomotor de dos ruedas L1e-B, Ciclomotor de tres ruedas, Ciclo de motor L1e-A.

- __Furgoneta:__ Furgoneta, Ambulancia SAMUR.

- __Bicicleta:__ Bicicleta, Ciclo, Bicicleta EPAC (pedaleo asistido).

- __Camión:__ Camión rígido, Tractocamión, Camión de bomberos, Semiremolque, Remolque.

- __Autobús:__ Autobús, Autobús articulado, Microbús <= 17 plazas, Autobus EMT, Autobús articulado EMT.

- __Otro vehículo:__ Maquinaria de obras, Vehículo articulado, Otros vehículos con motor, Patinete, VMU eléctrico, Sin especificar, Tranvía, Caravana, Otros vehículos sin motor, Tren/metro, Maquinaria agrícola, Patinete no eléctrico, valores nulos (nan).

Al usar `replace()`, modificamos los valores por los nuevos. Se podría usar el argumento `inplace=True`, pero lo hacemos haciendo una igualdad porque se muestra un aviso de que dejará de usarse en Pandas 3.0.

Utilizando un diccionario con los datos nuevos en las claves y los datos antiguos en los valores, a través de un bucle, aplicamos el método `.replace()` a la columna de "tipo_vehiculo".

In [6]:
valores_nuevos = {
    "Turismo": ["Turismo", "Todo terreno", "Cuadriciclo no ligero", "Autocaravana", "Cuadriciclo ligero"],
    "Motocicleta": ["Motocicleta > 125cc", "Ciclomotor", "Motocicleta hasta 125cc", "Moto de tres ruedas > 125cc",
                    "Moto de tres ruedas hasta 125cc", "Ciclomotor de dos ruedas L1e-B", "Ciclomotor de tres ruedas",
                    "Ciclo de motor L1e-A"],
    "Furgoneta": ["Furgoneta", "Ambulancia SAMUR"],
    "Bicicleta": ["Bicicleta", "Ciclo", "Bicicleta EPAC (pedaleo asistido)"],
    "Camión": ["Camión rígido", "Tractocamión", "Camión de bomberos", "Semiremolque", "Remolque"],
    "Autobús": ["Autobús", "Autobús articulado", "Microbús <= 17 plazas", "Autobus EMT", "Autobús articulado EMT"],
    "Otro vehículo": ["Maquinaria de obras", "Vehículo articulado", "Otros vehículos con motor", "Patinete",
                      "VMU eléctrico", "Sin especificar", "Tranvía", "Caravana", "Otros vehículos sin motor",
                      "Tren/metro", "Maquinaria agrícola", "Patinete no eléctrico"]
}

for valor_nuevo, valor_antiguo in valores_nuevos.items():
    df["tipo_vehiculo"] = df["tipo_vehiculo"].replace(valor_antiguo, valor_nuevo)

df["tipo_vehiculo"] = df["tipo_vehiculo"].fillna("Otro vehículo")

Mostramos las nuevas categorías.

Para mostrar las frecuencias y los porcentajes, optamos por un diagrama de barras para las frecuencias y un gráfico circular para los porcentajes. Para ello, utilizamos plotly, concretamente la librería de graph_objects (go) y la librería de subplots para juntar las dos gráficas en una visualización.

Al tener dos gráficas distintas, hay que indicar en las especificaciones que una es de tipo barras y otra de tipo circular, y añadimos los títulos.

Posteriormente, creamos cada gráfica con go. Como no se pueden pasar a los gráficos series ni dataframes, usamos los métodos `.index` y `.values` para obtener los valores que deseamos.

Una vez configuradas las gráficas, las visualizamos.

In [7]:
print(f"Nuevas categorías: {df["tipo_vehiculo"].unique()}")

from plotly.subplots import make_subplots
import plotly.graph_objects as go
from plotly.express import colors

fig = make_subplots(rows=1, cols=2, subplot_titles=("Frecuencias", "Porcentajes"),
                    specs=[[{"type": "bar"}, {"type": "pie"}]]) # Creación de los subplots.

frecuencias = go.Bar(
    x=df["tipo_vehiculo"].value_counts().index,
    y=df["tipo_vehiculo"].value_counts().values,
    name="Cantidad",
    marker=dict(color="green")
) # Diagrama de barras.

fig.add_trace(frecuencias, row=1, col=1)

porcentajes = go.Pie(
    labels=df["tipo_vehiculo"].value_counts().index,
    values=(df["tipo_vehiculo"].value_counts().values / df["tipo_vehiculo"].value_counts().values.sum() * 100),
    name="Porcentaje",
    marker=dict(colors=colors.qualitative.Dark2)
) # Gráfico circular.

fig.add_trace(porcentajes, row=1, col=2)

fig.update_layout(
    title="Frecuencias y porcentajes"
)

fig.show() # Visualización de los gráficos.

Nuevas categorías: ['Motocicleta' 'Turismo' 'Furgoneta' 'Autobús' 'Bicicleta' 'Camión'
 'Otro vehículo']


### 4. Análisis de valores nulos de todas las columnas.

- Revisa si hay columnas que son íntegramente valores nulos, si esto ocurre, borra esas columnas.
- Para la columna positivo droga, rellena los nulos con 0.
- Para la columna positivo alcohol, rellena los nulos con "N".
- Para las columnas referidas a lesividad, rellenaremos los datos faltantes con "Sin atención sanitaria" (en código lesividad, pondremos valor 0).
- Para el estado meteorológico emplearemos la categoría ya existente "Se desconoce".
- El resto de valores nulos los eliminaremos del conjunto de datos.
- ¿Cuántas filas y columnas tienes ahora?

Realizamos un bucle para comprobar si cada columna contiene todo valores nulos y, en tal caso, la elimina.

Para las columnas "positiva_droga" y "positiva_alcohol", como lo hemos transformado a booleanos, en vez de sustituir por 0 y "N", sustituimos por False. Además, ahora que hemos transformado los valores nulos, aprovechamos para pasar el dtype a bool, ya que antes no podíamos hacerlo.

In [8]:
# Este bucle revisa si cada columna tiene todo valores nulos y la borra, avisándolo.
for columna in df.columns:
    if all(df[columna].isna()):
        df.drop([columna], axis=1, inplace=True)
        print(f"Columna {columna} eliminada.")

# Transformación de nulos de alcohol y droga en False.
df["positiva_droga"] = df["positiva_droga"].fillna(False)
df["positiva_alcohol"] = df["positiva_alcohol"].fillna(False)

# Columnas a dtype bool.
df["positiva_droga"] = df["positiva_droga"].astype("bool")
df["positiva_alcohol"] = df["positiva_alcohol"].astype("bool")

# Transformación de nulos de lesividad a 0 y "Sin atención sanitaria".
df["lesividad"] = df["lesividad"].fillna("Sin atención sanitaria")
df["cod_lesividad"] = df["cod_lesividad"].fillna(0)

# Transformación de nulos de estado meteorológico a "Se desconoce".
df["estado_meteorológico"] = df["estado_meteorológico"].fillna("Se desconoce")

# Eliminación de filas con valores nulos.
df = df.dropna()


print(f"El dataframe ahora tiene {df.shape[0]} filas x {df.shape[1]} columnas.")


Downcasting object dtype arrays on .fillna, .ffill, .bfill is deprecated and will change in a future version. Call result.infer_objects(copy=False) instead. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`


Downcasting object dtype arrays on .fillna, .ffill, .bfill is deprecated and will change in a future version. Call result.infer_objects(copy=False) instead. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`



El dataframe ahora tiene 262057 filas x 17 columnas.


### 5. Genera una nueva categoría llamada "Otro accidente" para todas aquellas categorías que tengan un porcentaje inferior al 10% en la columna "tipo_accidente".

Mostramos primero una gráfica para poder ver claramente qué categorías tienen un porcentaje inferior al 10%.

Después, aplicamos un filtro booleano para hacer el reemplazo de las categorías inferiores al 10% por "Otro accidente".

In [9]:
porcentajes_acc = df["tipo_accidente"].value_counts().values / df["tipo_accidente"].value_counts().values.sum() * 100

# Visualización.
trace = go.Pie(
    labels=df["tipo_accidente"].value_counts().index,
    values=(porcentajes_acc),
    marker=dict(colors=colors.qualitative.Dark2)
)

layout = go.Layout(
    title="Porcentajes de cada categoría de accidente"
)

fig = go.Figure(
    data=trace,
    layout=layout
)

fig.show()


# Reemplazo de categorías.
filtro = df["tipo_accidente"].unique()[porcentajes_acc < 10]

df["tipo_accidente"] = df["tipo_accidente"].replace(filtro, "Otro accidente")

print(f"Categorías actuales: {df["tipo_accidente"].unique()}")

Categorías actuales: ['Colisión lateral' 'Alcance' 'Choque contra obstáculo fijo'
 'Colisión fronto-lateral' 'Otro accidente']


### 6. ¿Hay algún accidente en donde los implicados dieran positivo en la prueba de alcohol y también en la prueba de drogas? Muestra el número de implicados, así como el número de expedientes diferentes.

Creamos un filtro que seleccione únicamente las filas que incluyan valores True tanto en "positiva_alcohol" como en "positiva_droga". Con ese filtro, hacemos la suma del conteo de sus valores para extraer el número de casos.

Sacando de ese mismo filtro la cantidad de números de expediente únicos (es decir, que no se repitan), obtenemos el número de expediente diferentes. Al ser menor que el número de implicados, esto indica que en un mismo accidente varias personas dieron positivo para las dos variables.

In [10]:
doble_positivo = df[(df["positiva_alcohol"] == True)
                    & (df["positiva_droga"] == True)]

print(f"Número de implicados: {doble_positivo.value_counts().sum()}")

print(f"Número de expedientes diferentes: {len(doble_positivo["num_expediente"].unique())}")

Número de implicados: 185
Número de expedientes diferentes: 181


### 7. ¿Cuál es el tipo de accidente más común para aquellos implicados que habían dado positivo en alcohol? ¿Y para aquellos implicados que no dieron positivo en la prueba de alcohol? ¿Qué diferencias observas?

Realizamos de nuevo un filtro para obtener solo las filas con positivo en alcohol, y otro para las filas que dieron negativo.

Para ambos casos, sacamos la moda de la columna "tipo_accidente".

In [11]:
positivo_alcohol = df[df["positiva_alcohol"] == True]
negativo_alcohol = df[df["positiva_alcohol"] == False]

print(f"""Accidentes más comunes:
    - Positivo en alcohol: {positivo_alcohol["tipo_accidente"].mode().values[0]}
    - Negativo en alcohol: {negativo_alcohol["tipo_accidente"].mode().values[0]}
""")

Accidentes más comunes:
    - Positivo en alcohol: Choque contra obstáculo fijo
    - Negativo en alcohol: Colisión fronto-lateral



Como diferencia, en los accidentes donde los implicados dieron negativo en alcohol, es más común que estén involucrados otros vehículos. Esto indica que las causas del accidente pueden ser diversas, incluyendo causas ajenas al conductor.

Sin embargo, los implicados que dieron positivo en alcohol suelen colisionar contra obstáculos fijos. Esto indica que probablemente iban tan ciegos que ni vieron el muro que tenían delante, haciendo que la causa del accidente esté más directamente asociada al conductor que a otras causas.

### 8. Para cada tipo de vehículo, muestra visualmente el número de accidentes en función del estado meteorológico.

**Nota: En este apartado tomaremos cada fila como un accidente, es decir, no tienes por qué agrupar por número de expediente.**

En este caso, usamos plotly express para elaborar la gráfica, ya que graph objects lo hace más complejo.

Optamos por un gráfico de barras apiladas, ya que es muy semejante a un diagrama de mosaico, pero más sencillo de generar.

Creamos un df que se llame "cantidad" para agrupar por estado meteorológico y tipo de vehículo, creando una columna que indique la cantidad de accidentes de cada tipo de vehículo por estado meteorológico.

Una vez hecho esto, creamos el diagrama de barras apiladas, en donde la _x_ representa el tipo de vehículo, la _y_ la cantidad, y los colores el estado meteorológico. Ajustamos parámetros de visualización, como los nombres o los colores para intentar representarlo de forma más comprensible.

In [12]:
import plotly.express as px

cantidad = (
    df.groupby(['estado_meteorológico', 'tipo_vehiculo'])
    .size()
    .reset_index(name='cantidad')
)

fig = px.bar(
    cantidad,
    x="tipo_vehiculo",
    y="cantidad",
    color="estado_meteorológico",
    title="Accidentes según estado meteorológico",
    labels={
        "estado_meteorológico": "Estado meteorológico",
        "tipo_vehiculo": "Tipo de vehículo",
        "cantidad": "Cantidad"
    },
    category_orders={
        "tipo_vehiculo": ["Turismo", "Motocicleta", "Furgoneta", "Autobús", "Camión", "Bicicleta", "Otro vehículo"]
    },
    color_discrete_map={
        "Despejado": "gold",
        "Granizando": "maroon",
        "LLuvia intensa": "rebeccapurple",
        "Lluvia débil": "lightskyblue",
        "Nevando": "snow",
        "Nublado": "grey",
        "Se desconoce": "sienna"
    }
)

fig.show()

### 9. Agrupa el dataframe por el número de expediente, vamos a analizar si hay accidentes múltiples. De la agrupación anterior obtén todos aquellos números de expediente que tengan involucrados mayor o igual que 5 tipos distintos de vehículos.
- ¿Cuántos números de expediente aparecen?
- ¿Qué cantidad de implicados hay en cada expediente?
- ¿Qué tipos de vehículos diferentes aparecen en cada número de expediente?

Realizamos un groupby para agrupar por número de expediente, y con la función `nunique()` sacamos el número de vehículos distintos en cada uno de esos expedientes.

Con un filtro, obtenemos los expedientes que tengan 5 o más vehículos distintos involucrados.

Una vez hecho esto, podemos filtrar por los números de expediente que hemos obtenido en el dataframe original y así sacar los involucrados y los diferentes tipos de vehículos.

In [13]:
expedientes = df.groupby("num_expediente")["tipo_vehiculo"].nunique()

expedientes_5_tipos = expedientes[expedientes >= 5]

print(f"Hay {len(expedientes_5_tipos)} expediente(s) con 5 o más tipos de vehículo distintos involucrados.")

for exp in expedientes_5_tipos.index:
    print(f"""Involucrados y vehículos diferentes por expediente:
    - Expediente {exp}: {len(df[df["num_expediente"] == exp])} involucrados \
y {len(df[df["num_expediente"] == exp]["tipo_vehiculo"].unique())} tipos de vehículos.
""")

Hay 1 expediente(s) con 5 o más tipos de vehículo distintos involucrados.
Involucrados y vehículos diferentes por expediente:
    - Expediente 2022S022123: 10 involucrados y 5 tipos de vehículos.



### 10. Toma la columna hora y quédate solamente con la hora, es decir, de 09:10:00 solo obtener 09. Tras ello, muestra gráficamente cuáles son las horas más peligrosas para circular en Madrid.

Transformamos la columna "hora" a datetime, para luego usar `strftime()` y quedarnos solo con la hora.

In [14]:
# Para la hora, primero pasamos a datetime para poder luego usar el método .dt.strftime().
df["hora"] = pd.to_datetime(df["hora"], format=r"%H:%M:%S").dt.strftime(date_format=r"%H")

df.head()

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,positiva_alcohol,positiva_droga
0,2018S017842,2019-02-04,9,"CALL. ALBERTO AGUILERA, 1",1,1.0,CENTRO,Colisión lateral,Despejado,Motocicleta,Conductor,De 45 a 49 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,False,False
1,2018S017842,2019-02-04,9,"CALL. ALBERTO AGUILERA, 1",1,1.0,CENTRO,Colisión lateral,Despejado,Turismo,Conductor,De 30 a 34 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,False,False
2,2019S000001,2019-01-01,3,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,Se desconoce,Furgoneta,Conductor,De 40 a 44 años,Hombre,0.0,Sin atención sanitaria,True,False
3,2019S000001,2019-01-01,3,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,Se desconoce,Turismo,Conductor,De 40 a 44 años,Mujer,0.0,Sin atención sanitaria,False,False
4,2019S000001,2019-01-01,3,PASEO. SANTA MARIA DE LA CABEZA / PLAZA. ELIPTICA,168,11.0,CARABANCHEL,Alcance,Se desconoce,Turismo,Conductor,De 45 a 49 años,Mujer,0.0,Sin atención sanitaria,False,False


Para representar las horas más peligrosas, optamos por algo semejante a un heat map, pero en una barra. De esta forma, se puede ver muy claramente en un gradiente de color las horas más peligrosas y las menos peligrosas.

Para ello, utilizamos plotly express. Creamos la gráfica indicando los valores y ajustamos otras configuraciones.

In [15]:
accidentes_por_hora = df['hora'].value_counts().sort_index()

fig = px.imshow(
    [accidentes_por_hora],
    color_continuous_scale="Reds",
    labels={"color": "Accidentes"},
    x=accidentes_por_hora.index,
    height=350
)

fig.update_layout(
    title="Horas más peligrosas para circular por Madrid",
    xaxis_title="Hora del día",
    yaxis_visible=False,
    coloraxis_showscale=True
)

fig.show()