# Limpieza de datos de accidentes en la ciudad de Barcelona (2015-2022)

El siguiente notebook tiene como objetivo crear una base de datos con todos los accidentes de tráfico que se han producido en la ciudad de Barcelona entre los años 2015 y 2022, a partir de datos obtenidos del portal de datos abiertos del Ayunutamiento de Barcelona.

En primer lugar, se importa la librería pandas. Si no está instalada en este equipo, hay que descomentar la primera línea de código e instalar pandas:

In [134]:
# pip install pandas
import pandas as pd

# pip install numpy
import numpy as np

Importo las bases de datos en formato CSV que he descargado en la carpeta 'accidentes_15-22'. Las bases de datos las he descarrgado de la [web de datos abiertos del Ayuntamiento de Barcelona](https://opendata-ajuntament.barcelona.cat/data/es/dataset/accidents-gu-bcn).

Los datos los importo con el encoding 'latin-1' porque 'utf-8' no reconoce algunos de los caracteres de esta tabla.

In [135]:
accidentes_2015 = pd.read_csv("accidentes_15-22/2015_accidents_gu_bcn.csv", sep=';', encoding = 'latin-1')
accidentes_2016 = pd.read_csv("accidentes_15-22/2016_accidents_gu_bcn.csv", encoding = 'latin-1')
accidentes_2017 = pd.read_csv("accidentes_15-22/2017_accidents_gu_bcn.csv", encoding = 'latin-1')
accidentes_2018 = pd.read_csv("accidentes_15-22/2018_accidents_gu_bcn.csv", encoding = 'latin-1')
accidentes_2019 = pd.read_csv("accidentes_15-22/2019_accidents_gu_bcn.csv", encoding = 'latin-1')
accidentes_2020 = pd.read_csv("accidentes_15-22/2020_accidents_gu_bcn.csv", encoding = 'latin-1')
accidentes_2021 = pd.read_csv("accidentes_15-22/2021_accidents_gu_bcn.csv", encoding = 'latin-1')
accidentes_2022 = pd.read_csv("accidentes_15-22/2022_accidents_gu_bcn.csv", encoding = 'latin-1')

Los dataframes importados son distintos para cada año, puesto que tienen datos distintos y columnas con nombres distintos. Para poder concatenar los dataframes en uno solo, primero hay que estandarizar las tablas, de manera que todas tengan los mismo datos y las columnas tengan los mismos nombres.

Antes de poder unir todos los dataframes en un solo dataframe, modifico los dataframes para que todos tengan las mismas columnas y con los mismos nombres.

También elimino algunas columnas que no aportan información relevante.

Las columnas 'Dia setmana', 'Descripció tipus dia' i 'Nom mes' las elimino porque aportan información que ya aparece en otras columnas o se puede deducir de ellas:
1. La columna 'Dia setmana' ofrece el día de la semana en qué se han producido los accidentes, pero de forma abreviada. La columna 'Descripció dia setmana' ofrece el día de la semana en qué se han producido los accidentes, pero sin abreviar.
2. 'Descripció tipus día' ofrece información sobre si los días son días de diario o fin de semana, pero vemos que es un campo que no se ha rellenado correctamente en la mayoría de los casos y por eso lo elimino.
3. El campo 'Nom mes' ofrece el nombre del mes en qué se ha producido el accidente. La columna 'Mes de any' ofrece la misma información, pero con el número del mes. Me quedo con esta segunda columna.

Repito este proceso para los dataframes de cada año.

###Glosario de términos

Los nombres de las columnas originales están en catalán y los he mantenido en catalán. A continuación ofrezco un glosario de las columnas del dataframe_

- expedient: número de expediente 
- codi_districte: código del distrito
- nom_districte: nombre del distrito
- codi_barri: código del barrio
- nom_barri: nombre del barrio
- codi_carrer: código de la calle
- nom_carrer: nombre de la calle
- num_postal: número postal (número de calle)
- dia_set: día de la semana
- any: año
- mes: mes
- dia_mes: día del mes
- hora: hora
- torn: turno
- causa: causa
- morts: víctimas mortales
- lleus: heridos leves
- greus: heridos graves
- victimes: número total de víctimas
- vehicles_implicats: vehículos implicados
- UTM_Y: coordenada UTM Y
- UTM_X: coordenada UTM X
- Longitud: longitud
- Latitud: latitud
- v_vmp: Vehículos de Mobilidad Personal implicados
- v_altres: Otros vehículos implicados
- v_ambulancia: ambulancias implicadas
- v_autocar: autocares implicados
- v_bici: bicis implicadas
- v_bus: autobuses implicadas
- v_camio: camiones implicades
- v_caravana: caravanas implicadas
- v_cotxe: coches implicados
- v_desconegut: vehículo desconocido implicado
- v_furgoneta: furgonetas implicadas
- v_microbus: microbús implicado
- v_moto: motos implicadas
- v_taxi: taxis implicados
- v_tram_tren: tranvías o trenes implicados
- v_tricicle: triciclos implicados
- c_alcoholemia: causa alcoholemia
- c_mal_estat_calcada: causa mal estado de la calzada
- c_drogues_medicaments: causa ingesta de drogas o medicamentos
- c_mal_estat_senyalitzacio: causa señalización en mal estado
- c_exces_velocitat: causa exceso de velocidad
- c_factors_meteo: causa factores meteorológicos
- c_sense_causa_mediata: sin causa mediata
- c_obj_a_calcada: causa objetos en la calzada

In [136]:
accidentes_2015 = accidentes_2015.rename(columns={'Número d expedient':'expedient',
                                                 'Codi districte':'codi_districte',
                                                 'Nom districte':'nom_districte',
                                                 'Codi barri':'codi_barri',
                                                 'Nom barri':'nom_barri',
                                                 'Codi carrer':'codi_carrer',
                                                 'Nom carrer':'nom_carrer',
                                                 'Num postal caption':'num_postal',
                                                 'Descripció dia setmana':'dia_set',
                                                 'NK Any':'any',
                                                 'Mes de any':'mes',
                                                 'Dia de mes':'dia_mes',
                                                 'Hora de dia':'hora',
                                                 'Descripció torn':'torn',
                                                 'Descripció causa vianant':'causa',
                                                 'Número de morts':'morts',
                                                 'Número de lesionats lleus':'lleus',
                                                  'Número de lesionats greus':'greus',
                                                  'Número de víctimes':'victimes',
                                                  'Número de vehicles implicats':'vehicles_implicats',
                                                 'Coordenada UTM (Y)':'UTM_Y',
                                                 'Coordenada UTM (X)':'UTM_X'})

In [137]:
accidentes_2015 = accidentes_2015.drop(columns=['Dia setmana', 'Descripció tipus dia', 'Nom mes'])

In [138]:
accidentes_2016 = accidentes_2016.rename(columns={'Numero_expedient':'expedient',
                                                 'Codi_districte':'codi_districte',
                                                 'Nom_districte':'nom_districte',
                                                 'Codi_barri':'codi_barri',
                                                 'Nom_barri':'nom_barri',
                                                 'Codi_carrer':'codi_carrer',
                                                 'Nom_carrer':'nom_carrer',
                                                 'Num_postal':'num_postal',
                                                 'Descripcio_dia_setmana':'dia_set',
                                                 'Any':'any',
                                                 'Mes_any':'mes',
                                                 'Dia_mes':'dia_mes',
                                                 'Hora_dia':'hora',
                                                 'Descripcio_torn':'torn',
                                                 'Descripcio_causa_vianant':'causa',
                                                 'Numero_morts':'morts',
                                                 'Numero_lesionats_lleus':'lleus',
                                                  'Numero_lesionats_greus':'greus',
                                                  'Numero_victimes':'victimes',
                                                  'Numero_vehicles_implicats':'vehicles_implicats',
                                                 'Coordenada_UTM_X':'UTM_X',
                                                 'Coordenada_UTM_Y':'UTM_Y',
                                                 'Longitud':'longitud',
                                                  'Latitud':'latitud'})

In [139]:
accidentes_2016 = accidentes_2016.drop(columns=['Dia_setmana', 'Descripcio_tipus_dia', 'Nom_mes'])

In [140]:
accidentes_2017 = accidentes_2017.rename(columns={'Numero_expedient':'expedient',
                                                 'Codi_districte':'codi_districte',
                                                 'Nom_districte':'nom_districte',
                                                 'Codi_barri':'codi_barri',
                                                 'Nom_barri':'nom_barri',
                                                 'Codi_carrer':'codi_carrer',
                                                 'Nom_carrer':'nom_carrer',
                                                 'Num_postal':'num_postal',
                                                 'Descripcio_dia_setmana':'dia_set',
                                                 'Any':'any',
                                                 'Mes_any':'mes',
                                                 'Dia_mes':'dia_mes',
                                                 'Hora_dia':'hora',
                                                 'Descripcio_torn':'torn',
                                                 'Descripcio_causa_vianant':'causa',
                                                 'Numero_morts':'morts',
                                                 'Numero_lesionats_lleus':'lleus',
                                                  'Numero_lesionats_greus':'greus',
                                                  'Numero_victimes':'victimes',
                                                  'Numero_vehicles_implicats':'vehicles_implicats',
                                                 'Coordenada_UTM_X':'UTM_X',
                                                 'Coordenada_UTM_Y':'UTM_Y',
                                                 'Longitud':'longitud',
                                                  'Latitud':'latitud'})

In [141]:
accidentes_2017 = accidentes_2017.drop(columns=['Dia_setmana', 'Descripcio_tipus_dia', 'Nom_mes'])

In [142]:
accidentes_2018 = accidentes_2018.rename(columns={'Numero_expedient':'expedient',
                                                 'Codi_districte':'codi_districte',
                                                 'Nom_districte':'nom_districte',
                                                 'Codi_barri':'codi_barri',
                                                 'Nom_barri':'nom_barri',
                                                 'Codi_carrer':'codi_carrer',
                                                 'Nom_carrer':'nom_carrer',
                                                 'Num_postal ':'num_postal',
                                                 'Descripcio_dia_setmana':'dia_set',
                                                 'Any':'any',
                                                 'Mes_any':'mes',
                                                 'Dia_mes':'dia_mes',
                                                 'Hora_dia':'hora',
                                                 'Descripcio_torn':'torn',
                                                 'Descripcio_causa_vianant':'causa',
                                                 'Numero_morts':'morts',
                                                 'Numero_lesionats_lleus':'lleus',
                                                  'Numero_lesionats_greus':'greus',
                                                  'Numero_victimes':'victimes',
                                                  'Numero_vehicles_implicats':'vehicles_implicats',
                                                 'Coordenada_UTM_X':'UTM_X',
                                                 'Coordenada_UTM_Y':'UTM_Y',
                                                 'Longitud':'longitud',
                                                  'Latitud':'latitud'})

In [143]:
accidentes_2018 = accidentes_2018.drop(columns=['Nom_mes', 'Descripcio_tipus_dia', 'Dia_setmana'])

In [144]:
accidentes_2019 = accidentes_2019.rename(columns={'Numero_expedient':'expedient',
                                                 'Codi_districte':'codi_districte',
                                                 'Nom_districte':'nom_districte',
                                                 'Codi_barri':'codi_barri',
                                                 'Nom_barri':'nom_barri',
                                                 'Codi_carrer':'codi_carrer',
                                                 'Nom_carrer':'nom_carrer',
                                                 'Num_postal_caption':'num_postal',
                                                 'Descripcio_dia_setmana':'dia_set',
                                                 'Any':'any',
                                                 'Mes_any':'mes',
                                                 'Dia_mes':'dia_mes',
                                                 'Hora_dia':'hora',
                                                 'Descripcio_torn':'torn',
                                                 'Descripcio_causa_vianant':'causa',
                                                 'Numero_morts':'morts',
                                                 'Numero_lesionats_lleus':'lleus',
                                                  'Numero_lesionats_greus':'greus',
                                                  'Numero_victimes':'victimes',
                                                  'Numero_vehicles_implicats':'vehicles_implicats',
                                                 'Coordenada_UTM_X':'UTM_X',
                                                 'Coordenada_UTM_Y':'UTM_Y',
                                                 'Longitud':'longitud',
                                                  'Latitud':'latitud'})

In [145]:
accidentes_2019 = accidentes_2019.drop(columns=['Dia_setmana', 'Descripcio_tipus_dia', 'Nom_mes'])

In [146]:
accidentes_2019 = accidentes_2019.rename(columns={'NK_Any':'any'})

In [147]:
accidentes_2020 = accidentes_2020.rename(columns={'Numero_expedient':'expedient',
                                                 'Codi_districte':'codi_districte',
                                                 'Nom_districte':'nom_districte',
                                                 'Codi_barri':'codi_barri',
                                                 'Nom_barri':'nom_barri',
                                                 'Codi_carrer':'codi_carrer',
                                                 'Nom_carrer':'nom_carrer',
                                                 'Num_postal_caption':'num_postal',
                                                 'Descripcio_dia_setmana':'dia_set',
                                                 'NK_Any':'any',
                                                 'Mes_any':'mes',
                                                 'Dia_mes':'dia_mes',
                                                 'Hora_dia':'hora',
                                                 'Descripcio_torn':'torn',
                                                 'Descripcio_causa_vianant':'causa',
                                                 'Numero_morts':'morts',
                                                 'Numero_lesionats_lleus':'lleus',
                                                  'Numero_lesionats_greus':'greus',
                                                  'Numero_victimes':'victimes',
                                                  'Numero_vehicles_implicats':'vehicles_implicats',
                                                 'Coordenada_UTM_X':'UTM_X',
                                                 'Coordenada_UTM_Y':'UTM_Y',
                                                 'Longitud':'longitud',
                                                  'Latitud':'latitud'})

In [148]:
accidentes_2020 = accidentes_2020.drop(columns=['Dia_setmana', 'Descripcio_tipus_dia', 'Nom_mes'])

La columna 'codi_barri' del dataframe de 2020 está mal codificada, de manera que el código real del barrio es la cifra que aparece detrás del último guion. He limpiado la columna para que solo aparezca la última cifra, que es la que me interesa para el análisis de los datos.

In [149]:
accidentes_2020['codi_barri'] = accidentes_2020['codi_barri'].str.split('-').str[-1]

In [150]:
accidentes_2021.columns

Index(['Numero_expedient', 'Codi_districte', 'Nom_districte', 'Codi_barri',
       'Nom_barri', 'Codi_carrer', 'Nom_carrer', 'Num_postal_caption',
       'Descripcio_dia_setmana', 'NK_Any', 'Mes_any', 'Nom_mes', 'Dia_mes',
       'Hora_dia', 'Descripcio_torn', 'Descripcio_causa_vianant',
       'Numero_morts', 'Numero_lesionats_lleus', 'Numero_lesionats_greus',
       'Numero_victimes', 'Numero_vehicles_implicats', 'Coordenada_UTM_X_ED50',
       'Coordenada_UTM_Y_ED50', 'Longitud_WGS84', 'Latitud_WGS84'],
      dtype='object')

In [151]:
accidentes_2021 = accidentes_2021.rename(columns={'Numero_expedient':'expedient',
                                                 'Codi_districte':'codi_districte',
                                                 'Nom_districte':'nom_districte',
                                                 'Codi_barri':'codi_barri',
                                                 'Nom_barri':'nom_barri',
                                                 'Codi_carrer':'codi_carrer',
                                                 'Nom_carrer':'nom_carrer',
                                                 'Num_postal_caption':'num_postal',
                                                 'Descripcio_dia_setmana':'dia_set',
                                                 'NK_Any':'any',
                                                 'Mes_any':'mes',
                                                 'Dia_mes':'dia_mes',
                                                 'Hora_dia':'hora',
                                                 'Descripcio_torn':'torn',
                                                 'Descripcio_causa_vianant':'causa',
                                                 'Numero_morts':'morts',
                                                 'Numero_lesionats_lleus':'lleus',
                                                  'Numero_lesionats_greus':'greus',
                                                  'Numero_victimes':'victimes',
                                                  'Numero_vehicles_implicats':'vehicles_implicats',
                                                 'Coordenada_UTM_X_ED50':'UTM_X',
                                                 'Coordenada_UTM_Y_ED50':'UTM_Y',
                                                 'Longitud_WGS84':'longitud',
                                                  'Latitud_WGS84':'latitud'})

In [152]:
accidentes_2021 = accidentes_2021.drop(columns=['Nom_mes'])

In [153]:
accidentes_2022.columns

Index(['Numero_expedient', 'Codi_districte', 'Nom_districte', 'Codi_barri',
       'Nom_barri', 'Codi_carrer', 'Nom_carrer', 'Num_postal_caption',
       'Descripcio_dia_setmana', 'NK_Any', 'Mes_any', 'Nom_mes', 'Dia_mes',
       'Hora_dia', 'Descripcio_torn', 'Descripcio_causa_vianant',
       'Numero_morts', 'Numero_lesionats_lleus', 'Numero_lesionats_greus',
       'Numero_victimes', 'Numero_vehicles_implicats', 'Coordenada_UTM_X_ED50',
       'Coordenada_UTM_Y_ED50', 'Longitud', 'Latitud'],
      dtype='object')

In [154]:
accidentes_2022 = accidentes_2022.rename(columns={'Numero_expedient':'expedient',
                                                 'Codi_districte':'codi_districte',
                                                 'Nom_districte':'nom_districte',
                                                 'Codi_barri':'codi_barri',
                                                 'Nom_barri':'nom_barri',
                                                 'Codi_carrer':'codi_carrer',
                                                 'Nom_carrer':'nom_carrer',
                                                 'Num_postal_caption':'num_postal',
                                                 'Descripcio_dia_setmana':'dia_set',
                                                 'NK_Any':'any',
                                                 'Mes_any':'mes',
                                                 'Dia_mes':'dia_mes',
                                                 'Hora_dia':'hora',
                                                 'Descripcio_torn':'torn',
                                                 'Descripcio_causa_vianant':'causa',
                                                 'Numero_morts':'morts',
                                                 'Numero_lesionats_lleus':'lleus',
                                                  'Numero_lesionats_greus':'greus',
                                                  'Numero_victimes':'victimes',
                                                  'Numero_vehicles_implicats':'vehicles_implicats',
                                                 'Coordenada_UTM_X_ED50':'UTM_X',
                                                 'Coordenada_UTM_Y_ED50':'UTM_Y',
                                                 'Longitud':'longitud',
                                                  'Latitud':'latitud'})

In [155]:
accidentes_2022 = accidentes_2022.drop(columns=['Nom_mes'])

Para comprobar si todos los dataframes tienen las mismas columnas, voy a crear una función compare los nombres de las columnas.
Compararé todos los dataframes excepto 'accidentes_2015', porque ya sé de antemano que tiene dos columnas menos que el resto de dataframes (concretamente no tiene las columnas de latitud y longitud).

In [156]:
dataframes = [accidentes_2016, accidentes_2017, accidentes_2018, accidentes_2019, accidentes_2020, accidentes_2021, accidentes_2022]

# Creo una lista vacía que después llenaré con los nombres de las columnas
nombres_columnas = []

# Extraigo los nombres de las columnas de cada dataframe
for df in dataframes:
    nombres_columnas.append(set(df.columns))

# Compruebo si todas las columnas tienen el mismo nombre y especifico un texto que me va a devolver la función en caso de que las columnas tengan el mismo nnombre y en caso de que no sea así.
if all(names == nombres_columnas[0] for names in nombres_columnas):
    print("Todas las tablas tienen las mismas columnas")
else:
    print("Las tablas tienen columnas diferentes")

Todas las tablas tienen las mismas columnas


Una vez ya he igualado todos los dataframes para que tengan las mismas columnas y he comprobado que el resultado es correcto, los concateno en un mismo dataframe que contenga todos los registros de accidentes entre 2015 y 2022.

In [157]:
accidentes_todo = pd.concat([accidentes_2015, accidentes_2016, accidentes_2017, accidentes_2018, accidentes_2019, accidentes_2020, accidentes_2021, accidentes_2022])

In [158]:
accidentes_todo

Unnamed: 0,expedient,codi_districte,nom_districte,codi_barri,nom_barri,codi_carrer,nom_carrer,num_postal,dia_set,any,...,causa,morts,lleus,greus,victimes,vehicles_implicats,UTM_Y,UTM_X,longitud,latitud
0,2015S005807,-1.0,Desconegut,-1.0,Desconegut,-1.0,Desconegut,Desconegut,Dimarts,2015.0,...,No és causa del vianant,0.0,2.0,0.0,2.0,2.0,-1,-1,,
1,2015S007685,10.0,Sant Martí,64.0,el Camp de l'Arpa del Clot,134801.0,Freser,0208 0208,Dimarts,2015.0,...,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,458542058,43177916,,
2,2015S001364,10.0,Sant Martí,64.0,el Camp de l'Arpa del Clot,161407.0,Indústria,0336 0336,Dissabte,2015.0,...,No és causa del vianant,0.0,1.0,0.0,1.0,1.0,458555586,43191365,,
3,2015S004325,10.0,Sant Martí,64.0,el Camp de l'Arpa del Clot,226400.0,Las Navas de Tolosa,0343 0343,Divendres,2015.0,...,No és causa del vianant,0.0,1.0,0.0,1.0,2.0,458556544,43194645,,
4,2015S005540,10.0,Sant Martí,64.0,el Camp de l'Arpa del Clot,95506.0,Conca,0032 0034,Divendres,2015.0,...,No és causa del vianant,0.0,2.0,0.0,2.0,1.0,458526016,43153084,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7994,2022S001034,8.0,Nou Barris,45,Porta,282650.0,Rio de Janeiro ...,0055 0055,Dilluns,2022.0,...,No Ã©s causa del vianant,0.0,1.0,0.0,1.0,2.0,4587650.14,431569.96,2.179801,41.435662
7995,2022S007475,8.0,Nou Barris,44,Vilapicina i la Torre Llobeta,119003.0,Arnau d'Oms / Fabra i Puig ...,0181 0181,Dilluns,2022.0,...,No Ã©s causa del vianant,0.0,1.0,0.0,1.0,2.0,4587054.3,431360.13,2.177357,41.430277
7996,2022S005805,8.0,Nou Barris,45,Porta,256401.0,Meridiana / Pintor Alsamora ...,0001 0001,Dimarts,2022.0,...,No Ã©s causa del vianant,0.0,1.0,0.0,1.0,2.0,4587477.65,431890.58,2.183658,41.434136
7997,2022S007892,8.0,Nou Barris,45,Porta,700021.0,Andreu Nin ...,0011 0011,Dissabte,2022.0,...,No Ã©s causa del vianant,0.0,1.0,0.0,1.0,2.0,4587413.97,431683.1,2.181182,41.433544


El dataframe resultante tiene 72377 filas, pero vemos que hay un valor que nos da problemas porque no tiene datos en ninguna de las columnas y, si los tiene, no se corresponden con el campo correspondiente a la columna.

Comprobamos de qué fila se trata:

In [159]:
f = accidentes_todo.codi_barri.isnull()
accidentes_todo[f]

Unnamed: 0,expedient,codi_districte,nom_districte,codi_barri,nom_barri,codi_carrer,nom_carrer,num_postal,dia_set,any,...,causa,morts,lleus,greus,victimes,vehicles_implicats,UTM_Y,UTM_X,longitud,latitud
10008,10/02/2016,,,,,,,,1,,...,,,,,,,,,,


A continuación, elimino esta columna:

In [160]:
accidentes_todo.dropna(subset=['codi_barri'], inplace=True)

In [161]:
accidentes_todo

Unnamed: 0,expedient,codi_districte,nom_districte,codi_barri,nom_barri,codi_carrer,nom_carrer,num_postal,dia_set,any,...,causa,morts,lleus,greus,victimes,vehicles_implicats,UTM_Y,UTM_X,longitud,latitud
0,2015S005807,-1.0,Desconegut,-1.0,Desconegut,-1.0,Desconegut,Desconegut,Dimarts,2015.0,...,No és causa del vianant,0.0,2.0,0.0,2.0,2.0,-1,-1,,
1,2015S007685,10.0,Sant Martí,64.0,el Camp de l'Arpa del Clot,134801.0,Freser,0208 0208,Dimarts,2015.0,...,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,458542058,43177916,,
2,2015S001364,10.0,Sant Martí,64.0,el Camp de l'Arpa del Clot,161407.0,Indústria,0336 0336,Dissabte,2015.0,...,No és causa del vianant,0.0,1.0,0.0,1.0,1.0,458555586,43191365,,
3,2015S004325,10.0,Sant Martí,64.0,el Camp de l'Arpa del Clot,226400.0,Las Navas de Tolosa,0343 0343,Divendres,2015.0,...,No és causa del vianant,0.0,1.0,0.0,1.0,2.0,458556544,43194645,,
4,2015S005540,10.0,Sant Martí,64.0,el Camp de l'Arpa del Clot,95506.0,Conca,0032 0034,Divendres,2015.0,...,No és causa del vianant,0.0,2.0,0.0,2.0,1.0,458526016,43153084,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7994,2022S001034,8.0,Nou Barris,45,Porta,282650.0,Rio de Janeiro ...,0055 0055,Dilluns,2022.0,...,No Ã©s causa del vianant,0.0,1.0,0.0,1.0,2.0,4587650.14,431569.96,2.179801,41.435662
7995,2022S007475,8.0,Nou Barris,44,Vilapicina i la Torre Llobeta,119003.0,Arnau d'Oms / Fabra i Puig ...,0181 0181,Dilluns,2022.0,...,No Ã©s causa del vianant,0.0,1.0,0.0,1.0,2.0,4587054.3,431360.13,2.177357,41.430277
7996,2022S005805,8.0,Nou Barris,45,Porta,256401.0,Meridiana / Pintor Alsamora ...,0001 0001,Dimarts,2022.0,...,No Ã©s causa del vianant,0.0,1.0,0.0,1.0,2.0,4587477.65,431890.58,2.183658,41.434136
7997,2022S007892,8.0,Nou Barris,45,Porta,700021.0,Andreu Nin ...,0011 0011,Dissabte,2022.0,...,No Ã©s causa del vianant,0.0,1.0,0.0,1.0,2.0,4587413.97,431683.1,2.181182,41.433544


Vuelvo a cargar el dataframe, que en este caso tiene una fila menos.

Un problema que detecto en el dataframe es que muchos campos que deberían ser enteros son del tipo float64 y contienen un decimal .0 al final. Tengo que convertir estos campos en enteros, eliminando el .0, para poder trabajar mejor con el dataframe resultante.

Con la siguiente línea de código, convierto todos los valores de la columna 'codi_barri' en enteros:

In [162]:
accidentes_todo['codi_barri'] = accidentes_todo['codi_barri'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [163]:
accidentes_todo['codi_districte'] = accidentes_todo['codi_districte'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [164]:
accidentes_todo['codi_carrer'] = accidentes_todo['codi_carrer'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [165]:
accidentes_todo['any'] = accidentes_todo['any'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [166]:
accidentes_todo['mes'] = accidentes_todo['mes'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [167]:
accidentes_todo['dia_mes'] = accidentes_todo['dia_mes'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [168]:
accidentes_todo['hora'] = accidentes_todo['hora'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [169]:
accidentes_todo['morts'] = accidentes_todo['morts'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [170]:
accidentes_todo['lleus'] = accidentes_todo['lleus'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [171]:
accidentes_todo['greus'] = accidentes_todo['greus'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [172]:
accidentes_todo['victimes'] = accidentes_todo['victimes'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [173]:
accidentes_todo['vehicles_implicats'] = accidentes_todo['vehicles_implicats'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [174]:
accidentes_todo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 72376 entries, 0 to 7998
Data columns (total 24 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   expedient           72376 non-null  object 
 1   codi_districte      72376 non-null  int64  
 2   nom_districte       72376 non-null  object 
 3   codi_barri          72376 non-null  int64  
 4   nom_barri           72376 non-null  object 
 5   codi_carrer         72376 non-null  int64  
 6   nom_carrer          72374 non-null  object 
 7   num_postal          67573 non-null  object 
 8   dia_set             72376 non-null  object 
 9   any                 72376 non-null  int64  
 10  mes                 72376 non-null  int64  
 11  dia_mes             72376 non-null  int64  
 12  hora                72376 non-null  int64  
 13  torn                72376 non-null  object 
 14  causa               72376 non-null  object 
 15  morts               72376 non-null  int64  
 16  lleus

In [175]:
accidentes_todo

Unnamed: 0,expedient,codi_districte,nom_districte,codi_barri,nom_barri,codi_carrer,nom_carrer,num_postal,dia_set,any,...,causa,morts,lleus,greus,victimes,vehicles_implicats,UTM_Y,UTM_X,longitud,latitud
0,2015S005807,-1,Desconegut,-1,Desconegut,-1,Desconegut,Desconegut,Dimarts,2015,...,No és causa del vianant,0,2,0,2,2,-1,-1,,
1,2015S007685,10,Sant Martí,64,el Camp de l'Arpa del Clot,134801,Freser,0208 0208,Dimarts,2015,...,Desobeir el senyal del semàfor,0,1,0,1,1,458542058,43177916,,
2,2015S001364,10,Sant Martí,64,el Camp de l'Arpa del Clot,161407,Indústria,0336 0336,Dissabte,2015,...,No és causa del vianant,0,1,0,1,1,458555586,43191365,,
3,2015S004325,10,Sant Martí,64,el Camp de l'Arpa del Clot,226400,Las Navas de Tolosa,0343 0343,Divendres,2015,...,No és causa del vianant,0,1,0,1,2,458556544,43194645,,
4,2015S005540,10,Sant Martí,64,el Camp de l'Arpa del Clot,95506,Conca,0032 0034,Divendres,2015,...,No és causa del vianant,0,2,0,2,1,458526016,43153084,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7994,2022S001034,8,Nou Barris,45,Porta,282650,Rio de Janeiro ...,0055 0055,Dilluns,2022,...,No Ã©s causa del vianant,0,1,0,1,2,4587650.14,431569.96,2.179801,41.435662
7995,2022S007475,8,Nou Barris,44,Vilapicina i la Torre Llobeta,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,Dilluns,2022,...,No Ã©s causa del vianant,0,1,0,1,2,4587054.3,431360.13,2.177357,41.430277
7996,2022S005805,8,Nou Barris,45,Porta,256401,Meridiana / Pintor Alsamora ...,0001 0001,Dimarts,2022,...,No Ã©s causa del vianant,0,1,0,1,2,4587477.65,431890.58,2.183658,41.434136
7997,2022S007892,8,Nou Barris,45,Porta,700021,Andreu Nin ...,0011 0011,Dissabte,2022,...,No Ã©s causa del vianant,0,1,0,1,2,4587413.97,431683.1,2.181182,41.433544


Las columnas 'nom_barri' y 'nom_districte' presentan un problema: los nombres de los barrios y distritos no son consistentes, de manera que podemos tener problemas después a la hora de analizar los datos.
Lo que sí se mantiene consistente es la columna 'codi_barri'. He usado esta columna, junto con las claves que relacionan cada código con su barrio correspondiente, para reasignar los nombres de barrio y distrito y lograr que se mantengan consistentes en todo el dataframe.

Para hacerlo, he descargado dos archivos csv en los que se relaciona cada código de barrio y distrito con su barrio o distrito correspondiente. He obtenido los datos de la [web de datos abiertos del Ayuntamiento de Barcelona](https://opendata-ajuntament.barcelona.cat/data/es/dataset/20170706-districtes-barris)

In [176]:
barris_bcn = pd.read_csv('barrios_distritos_bcn/BarcelonaCiutat_Barris.csv')
districtes_bcn = pd.read_csv('barrios_distritos_bcn/BarcelonaCiutat_Districtes.csv')

In [177]:
barris_bcn

Unnamed: 0,codi_districte,nom_districte,codi_barri,nom_barri,geometria_etrs89,geometria_wgs84
0,1,Ciutat Vella,1,el Raval,"POLYGON ((430164.372950341 4581940.39758424, 4...","POLYGON ((2.16473952857229 41.3859611263672, 2..."
1,1,Ciutat Vella,2,el Barri Gòtic,"POLYGON ((431192.082442968 4581854.86907373, 4...","POLYGON ((2.17703981017875 41.3852793578426, 2..."
2,1,Ciutat Vella,3,la Barceloneta,"POLYGON ((432800.888667699 4582084.69046333, 4...","POLYGON ((2.1962542114702 41.3874852975771, 2...."
3,1,Ciutat Vella,4,"Sant Pere, Santa Caterina i la Ribera","POLYGON ((431735.899600634 4582445.23444175, 4...","POLYGON ((2.18347683856251 41.390642940051, 2...."
4,2,Eixample,5,el Fort Pienc,"POLYGON ((431743.977580732 4582629.06573617, 4...","POLYGON ((2.18355273505655 41.3922993404645, 2..."
...,...,...,...,...,...,...
68,10,Sant Martí,69,Diagonal Mar i el Front Marítim del Poblenou,"POLYGON ((434228.873282652 4584678.5490042, 43...","POLYGON ((2.21305050684114 41.4109655883131, 2..."
69,10,Sant Martí,70,el Besòs i el Maresme,"POLYGON ((434093.743891643 4585871.79499967, 4...","POLYGON ((2.21130382869618 41.4217017644346, 2..."
70,10,Sant Martí,71,Provençals del Poblenou,"POLYGON ((432760.615644181 4584099.69680979, 4...","POLYGON ((2.19554880988141 41.4056305449051, 2..."
71,10,Sant Martí,72,Sant Martí de Provençals,"POLYGON ((432902.229521415 4584707.96513488, 4...","POLYGON ((2.19717547409715 41.4111208750969, 2..."


In [178]:
merged_df = accidentes_todo.merge(barris_bcn[['codi_barri', 'nom_barri']], on='codi_barri', how='left')
merged_df = merged_df.merge(districtes_bcn[['codi_districte', 'nom_districte']], on='codi_districte', how='left')
merged_df

Unnamed: 0,expedient,codi_districte,nom_districte_x,codi_barri,nom_barri_x,codi_carrer,nom_carrer,num_postal,dia_set,any,...,lleus,greus,victimes,vehicles_implicats,UTM_Y,UTM_X,longitud,latitud,nom_barri_y,nom_districte_y
0,2015S005807,-1,Desconegut,-1,Desconegut,-1,Desconegut,Desconegut,Dimarts,2015,...,2,0,2,2,-1,-1,,,,
1,2015S007685,10,Sant Martí,64,el Camp de l'Arpa del Clot,134801,Freser,0208 0208,Dimarts,2015,...,1,0,1,1,458542058,43177916,,,el Camp de l'Arpa del Clot,Sant Martí
2,2015S001364,10,Sant Martí,64,el Camp de l'Arpa del Clot,161407,Indústria,0336 0336,Dissabte,2015,...,1,0,1,1,458555586,43191365,,,el Camp de l'Arpa del Clot,Sant Martí
3,2015S004325,10,Sant Martí,64,el Camp de l'Arpa del Clot,226400,Las Navas de Tolosa,0343 0343,Divendres,2015,...,1,0,1,2,458556544,43194645,,,el Camp de l'Arpa del Clot,Sant Martí
4,2015S005540,10,Sant Martí,64,el Camp de l'Arpa del Clot,95506,Conca,0032 0034,Divendres,2015,...,2,0,2,1,458526016,43153084,,,el Camp de l'Arpa del Clot,Sant Martí
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72371,2022S001034,8,Nou Barris,45,Porta,282650,Rio de Janeiro ...,0055 0055,Dilluns,2022,...,1,0,1,2,4587650.14,431569.96,2.179801,41.435662,Porta,Nou Barris
72372,2022S007475,8,Nou Barris,44,Vilapicina i la Torre Llobeta,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,Dilluns,2022,...,1,0,1,2,4587054.3,431360.13,2.177357,41.430277,Vilapicina i la Torre Llobeta,Nou Barris
72373,2022S005805,8,Nou Barris,45,Porta,256401,Meridiana / Pintor Alsamora ...,0001 0001,Dimarts,2022,...,1,0,1,2,4587477.65,431890.58,2.183658,41.434136,Porta,Nou Barris
72374,2022S007892,8,Nou Barris,45,Porta,700021,Andreu Nin ...,0011 0011,Dissabte,2022,...,1,0,1,2,4587413.97,431683.1,2.181182,41.433544,Porta,Nou Barris


Una vez añadidos los nombres de barrio, comprueba si hay elementos nulos y los sustituyo por 'Desconegut'.

In [179]:
merged_df['nom_barri_y'].isna().sum()

185

In [180]:
f2 = accidentes_todo['codi_barri']==-1

In [181]:
merged_df['nom_barri_y'].fillna('Desconegut', inplace=True)

In [182]:
merged_df['nom_barri_y'].isna().sum()

0

In [183]:
merged_df

Unnamed: 0,expedient,codi_districte,nom_districte_x,codi_barri,nom_barri_x,codi_carrer,nom_carrer,num_postal,dia_set,any,...,lleus,greus,victimes,vehicles_implicats,UTM_Y,UTM_X,longitud,latitud,nom_barri_y,nom_districte_y
0,2015S005807,-1,Desconegut,-1,Desconegut,-1,Desconegut,Desconegut,Dimarts,2015,...,2,0,2,2,-1,-1,,,Desconegut,
1,2015S007685,10,Sant Martí,64,el Camp de l'Arpa del Clot,134801,Freser,0208 0208,Dimarts,2015,...,1,0,1,1,458542058,43177916,,,el Camp de l'Arpa del Clot,Sant Martí
2,2015S001364,10,Sant Martí,64,el Camp de l'Arpa del Clot,161407,Indústria,0336 0336,Dissabte,2015,...,1,0,1,1,458555586,43191365,,,el Camp de l'Arpa del Clot,Sant Martí
3,2015S004325,10,Sant Martí,64,el Camp de l'Arpa del Clot,226400,Las Navas de Tolosa,0343 0343,Divendres,2015,...,1,0,1,2,458556544,43194645,,,el Camp de l'Arpa del Clot,Sant Martí
4,2015S005540,10,Sant Martí,64,el Camp de l'Arpa del Clot,95506,Conca,0032 0034,Divendres,2015,...,2,0,2,1,458526016,43153084,,,el Camp de l'Arpa del Clot,Sant Martí
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72371,2022S001034,8,Nou Barris,45,Porta,282650,Rio de Janeiro ...,0055 0055,Dilluns,2022,...,1,0,1,2,4587650.14,431569.96,2.179801,41.435662,Porta,Nou Barris
72372,2022S007475,8,Nou Barris,44,Vilapicina i la Torre Llobeta,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,Dilluns,2022,...,1,0,1,2,4587054.3,431360.13,2.177357,41.430277,Vilapicina i la Torre Llobeta,Nou Barris
72373,2022S005805,8,Nou Barris,45,Porta,256401,Meridiana / Pintor Alsamora ...,0001 0001,Dimarts,2022,...,1,0,1,2,4587477.65,431890.58,2.183658,41.434136,Porta,Nou Barris
72374,2022S007892,8,Nou Barris,45,Porta,700021,Andreu Nin ...,0011 0011,Dissabte,2022,...,1,0,1,2,4587413.97,431683.1,2.181182,41.433544,Porta,Nou Barris


Una vez ya he comprobado que las columnas se han creado correctamente, elimino las columnas anteriores, que contenían inconsistencias:

In [184]:
merged_df.drop(["nom_districte_x", "nom_barri_x"], axis=1, inplace = True)

Con la siguiente línea de código, creo una columna 'data' (fecha), a partir de las columnas 'dia_mes', 'mes' i 'any'.

In [185]:
merged_df['data'] = pd.to_datetime({'day': merged_df['dia_mes'],
                'month': merged_df['mes'],
                'year': merged_df['any']})

In [186]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 72376 entries, 0 to 72375
Data columns (total 25 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   expedient           72376 non-null  object        
 1   codi_districte      72376 non-null  int64         
 2   codi_barri          72376 non-null  int64         
 3   codi_carrer         72376 non-null  int64         
 4   nom_carrer          72374 non-null  object        
 5   num_postal          67573 non-null  object        
 6   dia_set             72376 non-null  object        
 7   any                 72376 non-null  int64         
 8   mes                 72376 non-null  int64         
 9   dia_mes             72376 non-null  int64         
 10  hora                72376 non-null  int64         
 11  torn                72376 non-null  object        
 12  causa               72376 non-null  object        
 13  morts               72376 non-null  int64     

In [187]:
merged_df

Unnamed: 0,expedient,codi_districte,codi_barri,codi_carrer,nom_carrer,num_postal,dia_set,any,mes,dia_mes,...,greus,victimes,vehicles_implicats,UTM_Y,UTM_X,longitud,latitud,nom_barri_y,nom_districte_y,data
0,2015S005807,-1,-1,-1,Desconegut,Desconegut,Dimarts,2015,7,28,...,0,2,2,-1,-1,,,Desconegut,,2015-07-28
1,2015S007685,10,64,134801,Freser,0208 0208,Dimarts,2015,10,13,...,0,1,1,458542058,43177916,,,el Camp de l'Arpa del Clot,Sant Martí,2015-10-13
2,2015S001364,10,64,161407,Indústria,0336 0336,Dissabte,2015,2,21,...,0,1,1,458555586,43191365,,,el Camp de l'Arpa del Clot,Sant Martí,2015-02-21
3,2015S004325,10,64,226400,Las Navas de Tolosa,0343 0343,Divendres,2015,6,5,...,0,1,2,458556544,43194645,,,el Camp de l'Arpa del Clot,Sant Martí,2015-06-05
4,2015S005540,10,64,95506,Conca,0032 0034,Divendres,2015,7,17,...,0,2,1,458526016,43153084,,,el Camp de l'Arpa del Clot,Sant Martí,2015-07-17
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72371,2022S001034,8,45,282650,Rio de Janeiro ...,0055 0055,Dilluns,2022,2,21,...,0,1,2,4587650.14,431569.96,2.179801,41.435662,Porta,Nou Barris,2022-02-21
72372,2022S007475,8,44,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,Dilluns,2022,12,5,...,0,1,2,4587054.3,431360.13,2.177357,41.430277,Vilapicina i la Torre Llobeta,Nou Barris,2022-12-05
72373,2022S005805,8,45,256401,Meridiana / Pintor Alsamora ...,0001 0001,Dimarts,2022,9,27,...,0,1,2,4587477.65,431890.58,2.183658,41.434136,Porta,Nou Barris,2022-09-27
72374,2022S007892,8,45,700021,Andreu Nin ...,0011 0011,Dissabte,2022,12,24,...,0,1,2,4587413.97,431683.1,2.181182,41.433544,Porta,Nou Barris,2022-12-24


En la siguiente línea de código reordeno las columnas para agruparlas según el tipo.

In [188]:
merged_df = merged_df[['expedient', 'data', 'codi_districte', 'nom_districte_y', 'codi_barri', 'nom_barri_y', 'codi_carrer', 'nom_carrer', 'num_postal', 'any', 'mes', 'dia_mes', 'dia_set', 'hora', 'torn', 'causa', 'vehicles_implicats', 'victimes', 'morts', 'greus', 'lleus', 'UTM_X', 'UTM_Y', 'longitud', 'latitud']]

In [189]:
merged_df

Unnamed: 0,expedient,data,codi_districte,nom_districte_y,codi_barri,nom_barri_y,codi_carrer,nom_carrer,num_postal,any,...,causa,vehicles_implicats,victimes,morts,greus,lleus,UTM_X,UTM_Y,longitud,latitud
0,2015S005807,2015-07-28,-1,,-1,Desconegut,-1,Desconegut,Desconegut,2015,...,No és causa del vianant,2,2,0,0,2,-1,-1,,
1,2015S007685,2015-10-13,10,Sant Martí,64,el Camp de l'Arpa del Clot,134801,Freser,0208 0208,2015,...,Desobeir el senyal del semàfor,1,1,0,0,1,43177916,458542058,,
2,2015S001364,2015-02-21,10,Sant Martí,64,el Camp de l'Arpa del Clot,161407,Indústria,0336 0336,2015,...,No és causa del vianant,1,1,0,0,1,43191365,458555586,,
3,2015S004325,2015-06-05,10,Sant Martí,64,el Camp de l'Arpa del Clot,226400,Las Navas de Tolosa,0343 0343,2015,...,No és causa del vianant,2,1,0,0,1,43194645,458556544,,
4,2015S005540,2015-07-17,10,Sant Martí,64,el Camp de l'Arpa del Clot,95506,Conca,0032 0034,2015,...,No és causa del vianant,1,2,0,0,2,43153084,458526016,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72371,2022S001034,2022-02-21,8,Nou Barris,45,Porta,282650,Rio de Janeiro ...,0055 0055,2022,...,No Ã©s causa del vianant,2,1,0,0,1,431569.96,4587650.14,2.179801,41.435662
72372,2022S007475,2022-12-05,8,Nou Barris,44,Vilapicina i la Torre Llobeta,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,2022,...,No Ã©s causa del vianant,2,1,0,0,1,431360.13,4587054.3,2.177357,41.430277
72373,2022S005805,2022-09-27,8,Nou Barris,45,Porta,256401,Meridiana / Pintor Alsamora ...,0001 0001,2022,...,No Ã©s causa del vianant,2,1,0,0,1,431890.58,4587477.65,2.183658,41.434136
72374,2022S007892,2022-12-24,8,Nou Barris,45,Porta,700021,Andreu Nin ...,0011 0011,2022,...,No Ã©s causa del vianant,2,1,0,0,1,431683.1,4587413.97,2.181182,41.433544


En la columna 'causa', diversos strings contienen errores de lectura de caracteres especiales.
Cambio los nombres de las columnas con errores de lectura para que se lean correctamente y los valores sean consistentes en toda la columna:

In [190]:
merged_df['causa'].unique()

array(['No és causa del  vianant', 'Desobeir el senyal del semàfor',
       'Creuar per fora pas de vianants', 'Altres',
       'Transitar a peu per la calçada', 'Desobeir altres senyals',
       'No Ã©s causa del  vianant', 'Transitar a peu per la calÃ§ada',
       'Desobeir el senyal del semÃ\xa0for', 'Desconegut'], dtype=object)

In [191]:
merged_df.loc[merged_df['causa'] == 'No Ã©s causa del  vianant', 'causa'] = 'No és causa del vianant'

In [192]:
merged_df.loc[merged_df['causa'] == 'No és causa del  vianant', 'causa'] = 'No és causa del vianant'

In [193]:
merged_df.loc[merged_df['causa'] == 'Transitar a peu per la calÃ§ada', 'causa'] = 'Transitar a peu per la calçada'

In [194]:
merged_df.loc[merged_df['causa'] == 'Desobeir el senyal del semÃ\xa0for', 'causa'] = 'Desobeir el senyal del semàfor'

In [195]:
merged_df['causa'].value_counts()

No és causa del vianant            62002
Desconegut                          5887
Desobeir el senyal del semàfor      1665
Creuar per fora pas de vianants     1550
Altres                               913
Transitar a peu per la calçada       338
Desobeir altres senyals               21
Name: causa, dtype: int64

Lo mismo sucede con la columna 'torn':

In [196]:
merged_df['torn'].value_counts()

Tarda    35884
MatÃ­    24121
Nit       8361
Matí      4010
Name: torn, dtype: int64

In [197]:
merged_df.loc[merged_df['torn'] == 'MatÃ\xad', 'torn'] = 'Matí'

In [198]:
merged_df['torn'].value_counts()

Tarda    35884
Matí     28131
Nit       8361
Name: torn, dtype: int64

In [199]:
merged_df

Unnamed: 0,expedient,data,codi_districte,nom_districte_y,codi_barri,nom_barri_y,codi_carrer,nom_carrer,num_postal,any,...,causa,vehicles_implicats,victimes,morts,greus,lleus,UTM_X,UTM_Y,longitud,latitud
0,2015S005807,2015-07-28,-1,,-1,Desconegut,-1,Desconegut,Desconegut,2015,...,No és causa del vianant,2,2,0,0,2,-1,-1,,
1,2015S007685,2015-10-13,10,Sant Martí,64,el Camp de l'Arpa del Clot,134801,Freser,0208 0208,2015,...,Desobeir el senyal del semàfor,1,1,0,0,1,43177916,458542058,,
2,2015S001364,2015-02-21,10,Sant Martí,64,el Camp de l'Arpa del Clot,161407,Indústria,0336 0336,2015,...,No és causa del vianant,1,1,0,0,1,43191365,458555586,,
3,2015S004325,2015-06-05,10,Sant Martí,64,el Camp de l'Arpa del Clot,226400,Las Navas de Tolosa,0343 0343,2015,...,No és causa del vianant,2,1,0,0,1,43194645,458556544,,
4,2015S005540,2015-07-17,10,Sant Martí,64,el Camp de l'Arpa del Clot,95506,Conca,0032 0034,2015,...,No és causa del vianant,1,2,0,0,2,43153084,458526016,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72371,2022S001034,2022-02-21,8,Nou Barris,45,Porta,282650,Rio de Janeiro ...,0055 0055,2022,...,No és causa del vianant,2,1,0,0,1,431569.96,4587650.14,2.179801,41.435662
72372,2022S007475,2022-12-05,8,Nou Barris,44,Vilapicina i la Torre Llobeta,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,2022,...,No és causa del vianant,2,1,0,0,1,431360.13,4587054.3,2.177357,41.430277
72373,2022S005805,2022-09-27,8,Nou Barris,45,Porta,256401,Meridiana / Pintor Alsamora ...,0001 0001,2022,...,No és causa del vianant,2,1,0,0,1,431890.58,4587477.65,2.183658,41.434136
72374,2022S007892,2022-12-24,8,Nou Barris,45,Porta,700021,Andreu Nin ...,0011 0011,2022,...,No és causa del vianant,2,1,0,0,1,431683.1,4587413.97,2.181182,41.433544


La columna 'expediente' es un valor único para cada accidente. Para poderlo utilizar como tal, hay que comprobar que efectivamente cada valor aparece una sola vez en el dataframe y no hay duplicados:

In [200]:
duplicados = merged_df[merged_df.duplicated('expedient', keep=False)]

In [201]:
print(duplicados)

             expedient       data  codi_districte nom_districte_y  codi_barri  \
20232  2017S008856     2017-10-26              10      Sant Martí          71   
23227  2017S003750     2017-04-27               2        Eixample           7   
25370  2017S004447     2017-05-19              10      Sant Martí          69   
25947  2017S003286     2017-04-10               3  Sants-Montjuïc          13   
25948  2017S003286     2017-04-10               3  Sants-Montjuïc          13   
...                ...        ...             ...             ...         ...   
70515  2022S003249     2022-05-28              10      Sant Martí          71   
70775  2022S000411     2022-01-24               2        Eixample           6   
70865  2022S007743     2022-12-16               2        Eixample           5   
71542  2022S000209     2022-01-14               1    Ciutat Vella           2   
71543  2022S000209     2022-01-14               1    Ciutat Vella           2   

                           

Veo que sí que hay duplicados en la columna 'expediente', en aquellos casos en los que el accidente ha tenido más de una causa por parte de un peatón (por ejemplo, ha cruzado la calle por fuera del paso de peatones y ha desobedecido otros señales). 

In [202]:
duplicados.sort_values(by='expedient')

Unnamed: 0,expedient,data,codi_districte,nom_districte_y,codi_barri,nom_barri_y,codi_carrer,nom_carrer,num_postal,any,...,causa,vehicles_implicats,victimes,morts,greus,lleus,UTM_X,UTM_Y,longitud,latitud
25947,2017S003286,2017-04-10,3,Sants-Montjuïc,13,la Marina de Port,109906,Energia ...,0001X0001X,2017,...,Creuar per fora pas de vianants,1,1,0,0,1,42787929,45790069,2.136744,41.357598
25948,2017S003286,2017-04-10,3,Sants-Montjuïc,13,la Marina de Port,109906,Energia ...,0001X0001X,2017,...,Transitar a peu per la calçada,1,1,0,0,1,42787929,45790069,2.136744,41.357598
23227,2017S003750,2017-04-27,2,Eixample,7,la Dreta de l'Eixample,357001,Bergara ...,0014 0014,2017,...,Altres,1,1,0,0,1,43060134,458217948,2.168836,41.386306
27127,2017S003750,2017-04-27,2,Eixample,7,la Dreta de l'Eixample,357001,Bergara ...,0014 0014,2017,...,Desobeir el senyal del semàfor,1,1,0,0,1,43060134,458217948,2.168836,41.386306
25370,2017S004447,2017-05-19,10,Sant Martí,69,Diagonal Mar i el Front Marítim del Poblenou,701278,Taulat ...,0136 0136,2017,...,Creuar per fora pas de vianants,1,1,0,0,1,43404353,458391396,2.209813,41.402218
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
66603,2022S007071,2022-11-18,2,Eixample,9,la Nova Esquerra de l'Eixample,54509,CalÃ bria / DiputaciÃ³ ...,0115 0117,2022,...,Altres,1,2,0,0,2,429347.93,4581549.1,2.153920,41.380520
69852,2022S007743,2022-12-16,2,Eixample,5,el Fort Pienc,197302,Marina ...,0191 0191,2022,...,Creuar per fora pas de vianants,1,1,0,0,1,431503.37,4583708.04,2.179451,41.400151
70865,2022S007743,2022-12-16,2,Eixample,5,el Fort Pienc,197302,Marina ...,0191 0191,2022,...,Desobeir altres senyals,1,1,0,0,1,431503.37,4583708.04,2.179451,41.400151
64627,2022S007820,2022-12-21,2,Eixample,8,l'Antiga Esquerra de l'Eixample,349706,Comte d'Urgell / SarriÃ ...,0217 0223,2022,...,Creuar per fora pas de vianants,1,1,0,0,1,428885.89,4582593.13,2.148272,41.389882


Voy a crear un dataframe que no incluya las causas por peatón, para que expediente sea un valor único.

Antes, la columna 'causa' la guardaré en otro dataframe **causa_vianant**, junto a su expediente correspondiente, para después poder añadir el dato como booleano en el dataframe.

In [203]:
causa_vianant = merged_df[['expedient', 'causa']]

In [204]:
causa_vianant

Unnamed: 0,expedient,causa
0,2015S005807,No és causa del vianant
1,2015S007685,Desobeir el senyal del semàfor
2,2015S001364,No és causa del vianant
3,2015S004325,No és causa del vianant
4,2015S005540,No és causa del vianant
...,...,...
72371,2022S001034,No és causa del vianant
72372,2022S007475,No és causa del vianant
72373,2022S005805,No és causa del vianant
72374,2022S007892,No és causa del vianant


Una vez guardadas las causas por peatón en la columna 'causa_vianant', elimino la columna causa del dataframe original y elimino los duplicados, para obtener un datafra **datos_accidentes**, en los que solo aparezcan los números de expediente de cada accidente y los datos referentes al momento y al lugar en el que ha tenido lugar el accidente.

In [205]:
datos_accidentes = merged_df.drop(columns=['causa'])

In [206]:
datos_accidentes

Unnamed: 0,expedient,data,codi_districte,nom_districte_y,codi_barri,nom_barri_y,codi_carrer,nom_carrer,num_postal,any,...,torn,vehicles_implicats,victimes,morts,greus,lleus,UTM_X,UTM_Y,longitud,latitud
0,2015S005807,2015-07-28,-1,,-1,Desconegut,-1,Desconegut,Desconegut,2015,...,Matí,2,2,0,0,2,-1,-1,,
1,2015S007685,2015-10-13,10,Sant Martí,64,el Camp de l'Arpa del Clot,134801,Freser,0208 0208,2015,...,Tarda,1,1,0,0,1,43177916,458542058,,
2,2015S001364,2015-02-21,10,Sant Martí,64,el Camp de l'Arpa del Clot,161407,Indústria,0336 0336,2015,...,Tarda,1,1,0,0,1,43191365,458555586,,
3,2015S004325,2015-06-05,10,Sant Martí,64,el Camp de l'Arpa del Clot,226400,Las Navas de Tolosa,0343 0343,2015,...,Matí,2,1,0,0,1,43194645,458556544,,
4,2015S005540,2015-07-17,10,Sant Martí,64,el Camp de l'Arpa del Clot,95506,Conca,0032 0034,2015,...,Tarda,1,2,0,0,2,43153084,458526016,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72371,2022S001034,2022-02-21,8,Nou Barris,45,Porta,282650,Rio de Janeiro ...,0055 0055,2022,...,Matí,2,1,0,0,1,431569.96,4587650.14,2.179801,41.435662
72372,2022S007475,2022-12-05,8,Nou Barris,44,Vilapicina i la Torre Llobeta,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,2022,...,Tarda,2,1,0,0,1,431360.13,4587054.3,2.177357,41.430277
72373,2022S005805,2022-09-27,8,Nou Barris,45,Porta,256401,Meridiana / Pintor Alsamora ...,0001 0001,2022,...,Nit,2,1,0,0,1,431890.58,4587477.65,2.183658,41.434136
72374,2022S007892,2022-12-24,8,Nou Barris,45,Porta,700021,Andreu Nin ...,0011 0011,2022,...,Tarda,2,1,0,0,1,431683.1,4587413.97,2.181182,41.433544


In [207]:
duplicados = datos_accidentes[merged_df.duplicated('expedient', keep=False)]

In [208]:
print(duplicados['expedient'].values)

['2017S008856    ' '2017S003750    ' '2017S004447    ' '2017S003286    '
 '2017S003286    ' '2017S008856    ' '2017S003750    ' '2017S004447    '
 '2018S003156    ' '2018S003156    ' '2018S002285    ' '2018S002285    '
 '2018S002968    ' '2018S002968    ' '2018S009504    ' '2018S009504    '
 '2018S005992    ' '2018S005992    ' '2018S001774    ' '2018S001774    '
 '2018S000261    ' '2018S000261    ' '2018S002344    ' '2018S002344    '
 '2018S001500    ' '2018S001500    ' '2018S000183    ' '2018S000183    '
 '2020S000638    ' '2020S000638    ' '2020S000778    ' '2020S000778    '
 '2020S000956    ' '2020S000956    ' '2020S003665    ' '2020S003665    '
 '2020S004479    ' '2020S004479    ' '2020S004590    ' '2020S004590    '
 '2020S005294    ' '2020S005294    ' '2021S000847    ' '2021S000395    '
 '2021S001951    ' '2021S002982    ' '2021S005130    ' '2021S000395    '
 '2021S000847    ' '2021S001332    ' '2021S001332    ' '2021S002982    '
 '2021S001951    ' '2021S005130    ' '2022S007820  

In [209]:
datos_accidentes_sin_duplicados = datos_accidentes.drop_duplicates()

In [210]:
datos_accidentes_sin_duplicados

Unnamed: 0,expedient,data,codi_districte,nom_districte_y,codi_barri,nom_barri_y,codi_carrer,nom_carrer,num_postal,any,...,torn,vehicles_implicats,victimes,morts,greus,lleus,UTM_X,UTM_Y,longitud,latitud
0,2015S005807,2015-07-28,-1,,-1,Desconegut,-1,Desconegut,Desconegut,2015,...,Matí,2,2,0,0,2,-1,-1,,
1,2015S007685,2015-10-13,10,Sant Martí,64,el Camp de l'Arpa del Clot,134801,Freser,0208 0208,2015,...,Tarda,1,1,0,0,1,43177916,458542058,,
2,2015S001364,2015-02-21,10,Sant Martí,64,el Camp de l'Arpa del Clot,161407,Indústria,0336 0336,2015,...,Tarda,1,1,0,0,1,43191365,458555586,,
3,2015S004325,2015-06-05,10,Sant Martí,64,el Camp de l'Arpa del Clot,226400,Las Navas de Tolosa,0343 0343,2015,...,Matí,2,1,0,0,1,43194645,458556544,,
4,2015S005540,2015-07-17,10,Sant Martí,64,el Camp de l'Arpa del Clot,95506,Conca,0032 0034,2015,...,Tarda,1,2,0,0,2,43153084,458526016,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72371,2022S001034,2022-02-21,8,Nou Barris,45,Porta,282650,Rio de Janeiro ...,0055 0055,2022,...,Matí,2,1,0,0,1,431569.96,4587650.14,2.179801,41.435662
72372,2022S007475,2022-12-05,8,Nou Barris,44,Vilapicina i la Torre Llobeta,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,2022,...,Tarda,2,1,0,0,1,431360.13,4587054.3,2.177357,41.430277
72373,2022S005805,2022-09-27,8,Nou Barris,45,Porta,256401,Meridiana / Pintor Alsamora ...,0001 0001,2022,...,Nit,2,1,0,0,1,431890.58,4587477.65,2.183658,41.434136
72374,2022S007892,2022-12-24,8,Nou Barris,45,Porta,700021,Andreu Nin ...,0011 0011,2022,...,Tarda,2,1,0,0,1,431683.1,4587413.97,2.181182,41.433544


El dataframe **datos_accidentes_sin_duplicados** contiene todos los accidentes que se han registrado en la ciudad de Barcelona entre 2015 y 2022, así como la información de localización, momento del accidente, implicados y gravedad de los accidentes.

Renombro las columnas 'nom_districte_y' y 'nom_barri_y', para eliminar la 'y' final, que después de haber eliminado las columnas anteriores de nombre de distrito y barrio, ya no tienen sentido.

In [211]:
datos_accidentes_sin_duplicados = datos_accidentes_sin_duplicados.rename(columns={'nom_districte_y': 'nom_districte', 'nom_barri_y': 'nom_barri'})

In [212]:
datos_accidentes_sin_duplicados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 72339 entries, 0 to 72375
Data columns (total 24 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   expedient           72339 non-null  object        
 1   data                72339 non-null  datetime64[ns]
 2   codi_districte      72339 non-null  int64         
 3   nom_districte       72136 non-null  object        
 4   codi_barri          72339 non-null  int64         
 5   nom_barri           72339 non-null  object        
 6   codi_carrer         72339 non-null  int64         
 7   nom_carrer          72337 non-null  object        
 8   num_postal          67540 non-null  object        
 9   any                 72339 non-null  int64         
 10  mes                 72339 non-null  int64         
 11  dia_mes             72339 non-null  int64         
 12  dia_set             72339 non-null  object        
 13  hora                72339 non-null  int64     

Las columnas 'UTM_X' y 'UTM_Y' presentan dos problemas: por un lado, algunas cifras representan los decimales con una coma y no con un punto y, por otro lado, la columna está catalogada como object y tendría que ser float64.

Para solucionarlo, convierto toda la columna a tipo string, sustituyo las comas por puntos y vuelvo a convertir la columna a tipo float64.

In [213]:
datos_accidentes_sin_duplicados['UTM_X'] = datos_accidentes_sin_duplicados['UTM_X'].astype(str)
datos_accidentes_sin_duplicados['UTM_X'] = datos_accidentes_sin_duplicados['UTM_X'].str.replace(',', '.', regex=True)
datos_accidentes_sin_duplicados['UTM_X'] = pd.to_numeric(datos_accidentes_sin_duplicados['UTM_X'], errors='coerce')

In [214]:
datos_accidentes_sin_duplicados['UTM_Y'] = datos_accidentes_sin_duplicados['UTM_Y'].astype(str)
datos_accidentes_sin_duplicados['UTM_Y'] = datos_accidentes_sin_duplicados['UTM_Y'].str.replace(',', '.', regex=True)
datos_accidentes_sin_duplicados['UTM_Y'] = pd.to_numeric(datos_accidentes_sin_duplicados['UTM_Y'], errors='coerce')

In [215]:
datos_accidentes_sin_duplicados

Unnamed: 0,expedient,data,codi_districte,nom_districte,codi_barri,nom_barri,codi_carrer,nom_carrer,num_postal,any,...,torn,vehicles_implicats,victimes,morts,greus,lleus,UTM_X,UTM_Y,longitud,latitud
0,2015S005807,2015-07-28,-1,,-1,Desconegut,-1,Desconegut,Desconegut,2015,...,Matí,2,2,0,0,2,-1.00,-1.00,,
1,2015S007685,2015-10-13,10,Sant Martí,64,el Camp de l'Arpa del Clot,134801,Freser,0208 0208,2015,...,Tarda,1,1,0,0,1,431779.16,4585420.58,,
2,2015S001364,2015-02-21,10,Sant Martí,64,el Camp de l'Arpa del Clot,161407,Indústria,0336 0336,2015,...,Tarda,1,1,0,0,1,431913.65,4585555.86,,
3,2015S004325,2015-06-05,10,Sant Martí,64,el Camp de l'Arpa del Clot,226400,Las Navas de Tolosa,0343 0343,2015,...,Matí,2,1,0,0,1,431946.45,4585565.44,,
4,2015S005540,2015-07-17,10,Sant Martí,64,el Camp de l'Arpa del Clot,95506,Conca,0032 0034,2015,...,Tarda,1,2,0,0,2,431530.84,4585260.16,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72371,2022S001034,2022-02-21,8,Nou Barris,45,Porta,282650,Rio de Janeiro ...,0055 0055,2022,...,Matí,2,1,0,0,1,431569.96,4587650.14,2.179801,41.435662
72372,2022S007475,2022-12-05,8,Nou Barris,44,Vilapicina i la Torre Llobeta,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,2022,...,Tarda,2,1,0,0,1,431360.13,4587054.30,2.177357,41.430277
72373,2022S005805,2022-09-27,8,Nou Barris,45,Porta,256401,Meridiana / Pintor Alsamora ...,0001 0001,2022,...,Nit,2,1,0,0,1,431890.58,4587477.65,2.183658,41.434136
72374,2022S007892,2022-12-24,8,Nou Barris,45,Porta,700021,Andreu Nin ...,0011 0011,2022,...,Tarda,2,1,0,0,1,431683.10,4587413.97,2.181182,41.433544


In [216]:
datos_accidentes_sin_duplicados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 72339 entries, 0 to 72375
Data columns (total 24 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   expedient           72339 non-null  object        
 1   data                72339 non-null  datetime64[ns]
 2   codi_districte      72339 non-null  int64         
 3   nom_districte       72136 non-null  object        
 4   codi_barri          72339 non-null  int64         
 5   nom_barri           72339 non-null  object        
 6   codi_carrer         72339 non-null  int64         
 7   nom_carrer          72337 non-null  object        
 8   num_postal          67540 non-null  object        
 9   any                 72339 non-null  int64         
 10  mes                 72339 non-null  int64         
 11  dia_mes             72339 non-null  int64         
 12  dia_set             72339 non-null  object        
 13  hora                72339 non-null  int64     

La columna 'expediente' tiene muchos valores con espacios en blanco al final, que pueden hacer que después la opción merge nos dé error o resultados no deseados. Por esta razón, voy a usar la función strip() para eliminar los espacios en blanco al final de cada línea.

In [217]:
datos_accidentes_sin_duplicados['expedient'] = datos_accidentes_sin_duplicados['expedient'].str.strip()

In [218]:
datos_accidentes_sin_duplicados

Unnamed: 0,expedient,data,codi_districte,nom_districte,codi_barri,nom_barri,codi_carrer,nom_carrer,num_postal,any,...,torn,vehicles_implicats,victimes,morts,greus,lleus,UTM_X,UTM_Y,longitud,latitud
0,2015S005807,2015-07-28,-1,,-1,Desconegut,-1,Desconegut,Desconegut,2015,...,Matí,2,2,0,0,2,-1.00,-1.00,,
1,2015S007685,2015-10-13,10,Sant Martí,64,el Camp de l'Arpa del Clot,134801,Freser,0208 0208,2015,...,Tarda,1,1,0,0,1,431779.16,4585420.58,,
2,2015S001364,2015-02-21,10,Sant Martí,64,el Camp de l'Arpa del Clot,161407,Indústria,0336 0336,2015,...,Tarda,1,1,0,0,1,431913.65,4585555.86,,
3,2015S004325,2015-06-05,10,Sant Martí,64,el Camp de l'Arpa del Clot,226400,Las Navas de Tolosa,0343 0343,2015,...,Matí,2,1,0,0,1,431946.45,4585565.44,,
4,2015S005540,2015-07-17,10,Sant Martí,64,el Camp de l'Arpa del Clot,95506,Conca,0032 0034,2015,...,Tarda,1,2,0,0,2,431530.84,4585260.16,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72371,2022S001034,2022-02-21,8,Nou Barris,45,Porta,282650,Rio de Janeiro ...,0055 0055,2022,...,Matí,2,1,0,0,1,431569.96,4587650.14,2.179801,41.435662
72372,2022S007475,2022-12-05,8,Nou Barris,44,Vilapicina i la Torre Llobeta,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,2022,...,Tarda,2,1,0,0,1,431360.13,4587054.30,2.177357,41.430277
72373,2022S005805,2022-09-27,8,Nou Barris,45,Porta,256401,Meridiana / Pintor Alsamora ...,0001 0001,2022,...,Nit,2,1,0,0,1,431890.58,4587477.65,2.183658,41.434136
72374,2022S007892,2022-12-24,8,Nou Barris,45,Porta,700021,Andreu Nin ...,0011 0011,2022,...,Tarda,2,1,0,0,1,431683.10,4587413.97,2.181182,41.433544


# Unir al dataframe las causas de los accidentes

### Creación dataframe con los códigos de accidente y los vehículos implicados en cada accidente

In [219]:
# Leer los archivos .csv que tengo guardados en el subdirectorio 'accidents_tipus_vehicle'

veh_impl_2015 = pd.read_csv('accidents_tipus_vehicle/2015_accidents_vehicles_gu_bcn.csv', usecols=[0, 17], encoding='latin-1')
veh_impl_2016 = pd.read_csv('accidents_tipus_vehicle/2016_accidents_vehicles_gu_bcn.csv', usecols=[0, 17], encoding='latin-1')
veh_impl_2017 = pd.read_csv('accidents_tipus_vehicle/2017_accidents_vehicles_gu_bcn.csv', usecols=[0, 17], encoding='latin-1')
veh_impl_2018 = pd.read_csv('accidents_tipus_vehicle/2018_accidents_vehicles_gu_bcn.csv', usecols=[0, 18], encoding='latin-1')
veh_impl_2019 = pd.read_csv('accidents_tipus_vehicle/2019_accidents_vehicles_gu_bcn.csv', usecols=[0, 18], encoding='latin-1')
veh_impl_2020 = pd.read_csv('accidents_tipus_vehicle/2020_accidents_vehicles_gu_bcn.csv', usecols=[0, 18], encoding='latin-1')
veh_impl_2021 = pd.read_csv('accidents_tipus_vehicle/2021_accidents_vehicles_gu_bcn.csv', usecols=[0, 16], encoding='latin-1')
veh_impl_2022 = pd.read_csv('accidents_tipus_vehicle/2022_accidents_vehicles_gu_bcn.csv', usecols=[0, 16], encoding='latin-1')

In [220]:
# Para concatenar los dataframes, antes doy el mismo nombre de columna a todos los dataframes mediante un bucle

nombres_columnas_2 = ['expedient', 'descripcio_tipus_vehicle']
dataframes_2 = [veh_impl_2015, veh_impl_2016, veh_impl_2017, veh_impl_2018, veh_impl_2019, veh_impl_2020, veh_impl_2021, veh_impl_2022]

for df in dataframes_2:
    df.columns = nombres_columnas_2

In [221]:
# Concatenación de los dataframes

veh_impl = pd.concat([veh_impl_2015, veh_impl_2016, veh_impl_2017, veh_impl_2018, veh_impl_2019, veh_impl_2020, veh_impl_2021, veh_impl_2022])

In [222]:
# El dataframe resultante tiene 137.511 filas y dos columnas

veh_impl

Unnamed: 0,expedient,descripcio_tipus_vehicle
0,2015S004912,Turismo
1,2015S002169,Turismo
2,2015S003045,Turismo
3,2015S002476,Turismo
4,2015S009751,Motocicleta
...,...,...
14901,2022S002610,Motocicleta
14902,2022S002610,Turisme
14903,2022S005252,Turisme
14904,2022S005252,Turisme


In [223]:
veh_impl['descripcio_tipus_vehicle'].unique()

array(['Turismo', 'Motocicleta', 'Taxi', 'Autobús', 'Furgoneta',
       'Bicicleta', 'Ciclomotor', 'Microbus <=17 plazas',
       'Tranvía o tren', 'Camión <= 3,5 Tm', 'Camión > 3,5 Tm',
       'Otros vehíc. a motor', 'Tractocamión', 'Autocar',
       'Cuadriciclo <75cc', 'Autocaravana', 'Autobús articulado',
       'Todo terreno', 'Maquinaria de obras', 'Cuadriciclo >=75cc',
       'Carro', 'CamiÃ³n > 3,5 Tm', 'CamiÃ³n <= 3,5 Tm', 'AutobÃºs',
       'TranvÃ\xada o tren', 'TractocamiÃ³n', 'Otros vehÃ\xadc. a motor',
       'AutobÃºs articulado', nan, 'Turisme',
       'CamiÃ³ rÃ\xadgid <= 3,5 tones', 'AutobÃºs articulat',
       'CamiÃ³ rÃ\xadgid > 3,5 tones', 'Tractor camiÃ³',
       'Altres vehicles sense motor', 'Altres vehicles amb motor',
       "MaquinÃ\xa0ria d'obres i serveis", 'Tren o tramvia',
       'Tot terreny', 'Quadricicle > 75 cc', 'Quadricicle < 75 cc',
       'Desconegut', 'Microbus <= 17',
       'Veh. mobilitat personal amb motor', 'MicrobÃºs <= 17',
       'Veh. mo

In [224]:
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Turismo', 'descripcio_tipus_vehicle'] = 'cotxe'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Motocicleta', 'descripcio_tipus_vehicle'] = 'moto'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Taxi', 'descripcio_tipus_vehicle'] = 'taxi'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Autobús', 'descripcio_tipus_vehicle'] = 'bus'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Furgoneta', 'descripcio_tipus_vehicle'] = 'furgoneta'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Bicicleta', 'descripcio_tipus_vehicle'] = 'bici'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Ciclomotor', 'descripcio_tipus_vehicle'] = 'moto'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Microbus <=17 plazas', 'descripcio_tipus_vehicle'] = 'bus'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Tranvía o tren', 'descripcio_tipus_vehicle'] = 'tram_tren'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Camión <= 3,5 Tm', 'descripcio_tipus_vehicle'] = 'camio'

In [225]:
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Camión > 3,5 Tm', 'descripcio_tipus_vehicle'] = 'camio'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Otros vehíc. a motor', 'descripcio_tipus_vehicle'] = 'altres'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Tractocamión', 'descripcio_tipus_vehicle'] = 'camio'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Autocar', 'descripcio_tipus_vehicle'] = 'autocar'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Cuadriciclo <75cc', 'descripcio_tipus_vehicle'] = 'cotxe'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Autocaravana', 'descripcio_tipus_vehicle'] = 'caravana'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Autobús articulado', 'descripcio_tipus_vehicle'] = 'bus'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Todo terreno', 'descripcio_tipus_vehicle'] = 'cotxe'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Maquinaria de obras', 'descripcio_tipus_vehicle'] = 'altres'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Cuadriciclo >=75cc', 'descripcio_tipus_vehicle'] = 'cotxe'

In [226]:
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Carro', 'descripcio_tipus_vehicle'] = 'altres'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'CamiÃ³n > 3,5 Tm', 'descripcio_tipus_vehicle'] = 'camio'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'CamiÃ³n <= 3,5 Tm', 'descripcio_tipus_vehicle'] = 'camio'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'AutobÃºs', 'descripcio_tipus_vehicle'] = 'bus'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'TranvÃ\xada o tren', 'descripcio_tipus_vehicle'] = 'tram_tren'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'TractocamiÃ³n', 'descripcio_tipus_vehicle'] = 'camio'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Otros vehÃ\xadc. a motor', 'descripcio_tipus_vehicle'] = 'altres'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'AutobÃºs articulado', 'descripcio_tipus_vehicle'] = 'bus'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Turisme', 'descripcio_tipus_vehicle'] = 'cotxe'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'CamiÃ³ rÃ\xadgid <= 3,5 tones', 'descripcio_tipus_vehicle'] = 'camio'

In [227]:
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'AutobÃºs articulat', 'descripcio_tipus_vehicle'] = 'bus'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'CamiÃ³ rÃ\xadgid > 3,5 tones', 'descripcio_tipus_vehicle'] = 'camio'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Tractor camiÃ³', 'descripcio_tipus_vehicle'] = 'camio'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Altres vehicles sense motor', 'descripcio_tipus_vehicle'] = 'altres'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Altres vehicles amb motor', 'descripcio_tipus_vehicle'] = 'altres'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'MaquinÃ\xa0ria d\'obres i serveis', 'descripcio_tipus_vehicle'] = 'altres'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Tren o tramvia', 'descripcio_tipus_vehicle'] = 'tram_tren'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Tot terreny', 'descripcio_tipus_vehicle'] = 'cotxe'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Quadricicle > 75 cc', 'descripcio_tipus_vehicle'] = 'cotxe'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Quadricicle < 75 cc', 'descripcio_tipus_vehicle'] = 'cotxe'

In [228]:
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Desconegut', 'descripcio_tipus_vehicle'] = 'desconegut'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Microbus <= 17', 'descripcio_tipus_vehicle'] = 'microbus'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Veh. mobilitat personal amb motor', 'descripcio_tipus_vehicle'] = 'VMP'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'MicrobÃºs <= 17', 'descripcio_tipus_vehicle'] = 'microbus'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Veh. mobilitat personal sense motor', 'descripcio_tipus_vehicle'] = 'VMP'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Pick-up', 'descripcio_tipus_vehicle'] = 'cotxe'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'AmbulÃ\xa0ncia', 'descripcio_tipus_vehicle'] = 'ambulancia'
veh_impl.loc[veh_impl['descripcio_tipus_vehicle'] == 'Tricicle', 'descripcio_tipus_vehicle'] = 'tricicle'

In [229]:
veh_impl['descripcio_tipus_vehicle'].value_counts()

cotxe         55102
moto          49810
furgoneta      9118
bici           6225
taxi           5780
bus            4180
camio          3486
VMP            2821
altres          406
desconegut      191
autocar         167
tram_tren       102
ambulancia       72
caravana         18
microbus          8
tricicle          2
Name: descripcio_tipus_vehicle, dtype: int64

In [230]:
veh_impl_bool = pd.get_dummies(veh_impl, columns=['descripcio_tipus_vehicle'])
veh_impl_bool = veh_impl_bool.groupby('expedient').sum()
veh_impl_bool.reset_index(inplace=True)
veh_impl_bool.fillna(0, inplace=True)
print(veh_impl_bool)

             expedient  descripcio_tipus_vehicle_VMP  \
0          2015S000001                             0   
1          2015S000002                             0   
2          2015S000003                             0   
3          2015S000004                             0   
4          2015S000005                             0   
...                ...                           ...   
72255  2022S008011                                 0   
72256  2022S008012                                 0   
72257  2022S008013                                 0   
72258  2023S000004                                 0   
72259  2023S000550                                 0   

       descripcio_tipus_vehicle_altres  descripcio_tipus_vehicle_ambulancia  \
0                                    0                                    0   
1                                    0                                    0   
2                                    0                                    0   
3          

In [231]:
veh_impl_bool

Unnamed: 0,expedient,descripcio_tipus_vehicle_VMP,descripcio_tipus_vehicle_altres,descripcio_tipus_vehicle_ambulancia,descripcio_tipus_vehicle_autocar,descripcio_tipus_vehicle_bici,descripcio_tipus_vehicle_bus,descripcio_tipus_vehicle_camio,descripcio_tipus_vehicle_caravana,descripcio_tipus_vehicle_cotxe,descripcio_tipus_vehicle_desconegut,descripcio_tipus_vehicle_furgoneta,descripcio_tipus_vehicle_microbus,descripcio_tipus_vehicle_moto,descripcio_tipus_vehicle_taxi,descripcio_tipus_vehicle_tram_tren,descripcio_tipus_vehicle_tricicle
0,2015S000001,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0
1,2015S000002,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0
2,2015S000003,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
3,2015S000004,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0
4,2015S000005,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72255,2022S008011,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0
72256,2022S008012,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0
72257,2022S008013,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0
72258,2023S000004,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0


In [232]:
veh_impl_bool['expedient'] = veh_impl_bool['expedient'].str.strip()

In [233]:
datos_accidentes_sin_duplicados = pd.merge(datos_accidentes_sin_duplicados, veh_impl_bool, on='expedient', how='left')

In [234]:
datos_accidentes_sin_duplicados

Unnamed: 0,expedient,data,codi_districte,nom_districte,codi_barri,nom_barri,codi_carrer,nom_carrer,num_postal,any,...,descripcio_tipus_vehicle_camio,descripcio_tipus_vehicle_caravana,descripcio_tipus_vehicle_cotxe,descripcio_tipus_vehicle_desconegut,descripcio_tipus_vehicle_furgoneta,descripcio_tipus_vehicle_microbus,descripcio_tipus_vehicle_moto,descripcio_tipus_vehicle_taxi,descripcio_tipus_vehicle_tram_tren,descripcio_tipus_vehicle_tricicle
0,2015S005807,2015-07-28,-1,,-1,Desconegut,-1,Desconegut,Desconegut,2015,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
1,2015S007685,2015-10-13,10,Sant Martí,64,el Camp de l'Arpa del Clot,134801,Freser,0208 0208,2015,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
2,2015S001364,2015-02-21,10,Sant Martí,64,el Camp de l'Arpa del Clot,161407,Indústria,0336 0336,2015,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2015S004325,2015-06-05,10,Sant Martí,64,el Camp de l'Arpa del Clot,226400,Las Navas de Tolosa,0343 0343,2015,...,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,2015S005540,2015-07-17,10,Sant Martí,64,el Camp de l'Arpa del Clot,95506,Conca,0032 0034,2015,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72334,2022S001034,2022-02-21,8,Nou Barris,45,Porta,282650,Rio de Janeiro ...,0055 0055,2022,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
72335,2022S007475,2022-12-05,8,Nou Barris,44,Vilapicina i la Torre Llobeta,119003,Arnau d'Oms / Fabra i Puig ...,0181 0181,2022,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
72336,2022S005805,2022-09-27,8,Nou Barris,45,Porta,256401,Meridiana / Pintor Alsamora ...,0001 0001,2022,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
72337,2022S007892,2022-12-24,8,Nou Barris,45,Porta,700021,Andreu Nin ...,0011 0011,2022,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0


In [235]:
veh_impl_bool.columns

Index(['expedient', 'descripcio_tipus_vehicle_VMP',
       'descripcio_tipus_vehicle_altres',
       'descripcio_tipus_vehicle_ambulancia',
       'descripcio_tipus_vehicle_autocar', 'descripcio_tipus_vehicle_bici',
       'descripcio_tipus_vehicle_bus', 'descripcio_tipus_vehicle_camio',
       'descripcio_tipus_vehicle_caravana', 'descripcio_tipus_vehicle_cotxe',
       'descripcio_tipus_vehicle_desconegut',
       'descripcio_tipus_vehicle_furgoneta',
       'descripcio_tipus_vehicle_microbus', 'descripcio_tipus_vehicle_moto',
       'descripcio_tipus_vehicle_taxi', 'descripcio_tipus_vehicle_tram_tren',
       'descripcio_tipus_vehicle_tricicle'],
      dtype='object')

In [236]:
datos_accidentes_sin_duplicados[['descripcio_tipus_vehicle_VMP', 'descripcio_tipus_vehicle_altres','descripcio_tipus_vehicle_ambulancia',
                                'descripcio_tipus_vehicle_autocar', 'descripcio_tipus_vehicle_bici', 'descripcio_tipus_vehicle_bus',
                                'descripcio_tipus_vehicle_camio', 'descripcio_tipus_vehicle_caravana', 'descripcio_tipus_vehicle_cotxe',
                                'descripcio_tipus_vehicle_desconegut', 'descripcio_tipus_vehicle_furgoneta', 'descripcio_tipus_vehicle_microbus',
                                'descripcio_tipus_vehicle_moto', 'descripcio_tipus_vehicle_taxi', 'descripcio_tipus_vehicle_tram_tren', 'descripcio_tipus_vehicle_tricicle']] = datos_accidentes_sin_duplicados[['descripcio_tipus_vehicle_VMP', 'descripcio_tipus_vehicle_altres','descripcio_tipus_vehicle_ambulancia',
                                'descripcio_tipus_vehicle_autocar', 'descripcio_tipus_vehicle_bici', 'descripcio_tipus_vehicle_bus',
                                'descripcio_tipus_vehicle_camio', 'descripcio_tipus_vehicle_caravana', 'descripcio_tipus_vehicle_cotxe',
                                'descripcio_tipus_vehicle_desconegut', 'descripcio_tipus_vehicle_furgoneta', 'descripcio_tipus_vehicle_microbus',
                                'descripcio_tipus_vehicle_moto', 'descripcio_tipus_vehicle_taxi', 'descripcio_tipus_vehicle_tram_tren', 'descripcio_tipus_vehicle_tricicle']].fillna(0)

In [237]:
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_VMP'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_VMP'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_altres'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_altres'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_ambulancia'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_ambulancia'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_autocar'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_autocar'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_bici'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_bici'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_bus'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_bus'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_camio'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_camio'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_caravana'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_caravana'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_cotxe'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_cotxe'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_desconegut'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_desconegut'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_furgoneta'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_furgoneta'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_microbus'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_microbus'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_moto'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_moto'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_taxi'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_taxi'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_tram_tren'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_tram_tren'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)
datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_tricicle'] = datos_accidentes_sin_duplicados['descripcio_tipus_vehicle_tricicle'].map(lambda x: int(x) if type(x) == float or type(x) == str else x)

In [238]:
datos_accidentes_sin_duplicados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 72339 entries, 0 to 72338
Data columns (total 40 columns):
 #   Column                               Non-Null Count  Dtype         
---  ------                               --------------  -----         
 0   expedient                            72339 non-null  object        
 1   data                                 72339 non-null  datetime64[ns]
 2   codi_districte                       72339 non-null  int64         
 3   nom_districte                        72136 non-null  object        
 4   codi_barri                           72339 non-null  int64         
 5   nom_barri                            72339 non-null  object        
 6   codi_carrer                          72339 non-null  int64         
 7   nom_carrer                           72337 non-null  object        
 8   num_postal                           67540 non-null  object        
 9   any                                  72339 non-null  int64         
 10  mes       

### Creación dataframe con los códigos de accidente y la causa mediata

*La causa mediata es aquella que no provoca directamente el accidente pero lo facilita. Por ejemplo, conducir con una tasa de alcoholemia por encima del máximo permitido o superar el límite de velocidad.

In [239]:
# Leer los archivos .csv que tengo guardados en el subdirectorio 'accidentes_causa_med'

causa_med_2015 = pd.read_csv('accidentes_causa_med/2015_ACCIDENTS_CAUSES_GU_BCN_2015.csv', usecols=[0, 17], encoding='latin-1')
causa_med_2016 = pd.read_csv('accidentes_causa_med/2016_accidents_causes_gu_bcn_.csv', usecols=[0, 17], encoding='latin-1')
causa_med_2017 = pd.read_csv('accidentes_causa_med/2017_accidents_causes_gu_bcn_.csv', usecols=[0, 17], encoding='latin-1')
causa_med_2018 = pd.read_csv('accidentes_causa_med/2018_accidents_causes_gu_bcn_.csv', usecols=[0, 17], encoding='latin-1')
causa_med_2019 = pd.read_csv('accidentes_causa_med/2019_accidents_causes_gu_bcn_.csv', usecols=[0, 17], encoding='latin-1')
causa_med_2020 = pd.read_csv('accidentes_causa_med/2020_accidents_causes_gu_bcn_.csv', usecols=[0, 17], encoding='latin-1')
causa_med_2021 = pd.read_csv('accidentes_causa_med/2021_accidents_causes_gu_bcn_.csv', usecols=[0, 15], encoding='latin-1')
causa_med_2022 = pd.read_csv('accidentes_causa_med/2022_accidents_causes_gu_bcn_.csv', usecols=[0, 15], encoding='latin-1')

In [240]:
# Para concatenar los dataframes, antes doy el mismo nombre de columna a todos los dataframes mediante un bucle

nombres_columnas_3 = ['expedient', 'descripcio_causa_mediata']
dataframes_3 = [causa_med_2015, causa_med_2016, causa_med_2017, causa_med_2018, causa_med_2019, causa_med_2020, causa_med_2021, causa_med_2022]

for df in dataframes_3:
    df.columns = nombres_columnas_3

In [241]:
# Concatenación de los dataframes

causa_med = pd.concat([causa_med_2015, causa_med_2016, causa_med_2017, causa_med_2018, causa_med_2019, causa_med_2020, causa_med_2021, causa_med_2022])

In [242]:
# El dataframe resultante tiene 72.377 filas y dos columnas

causa_med

Unnamed: 0,expedient,descripcio_causa_mediata
0,2015S005022,No hi ha causa mediata
1,2015S000390,No hi ha causa mediata
2,2015S001866,No hi ha causa mediata
3,2015S004932,No hi ha causa mediata
4,2015S007776,No hi ha causa mediata
...,...,...
7984,2022S004703,No hi ha causa mediata
7985,2022S002165,AlcoholÃ¨mia
7986,2022S004308,No hi ha causa mediata
7987,2022S004988,No hi ha causa mediata


In [243]:
causa_med['descripcio_causa_mediata'].unique()

array(['No hi ha causa mediata', 'Excés de velocitat o inadequada',
       'Alcoholèmia', 'Calçada en mal estat', 'Drogues o medicaments',
       'Estat de la senyalització', 'AlcoholÃ¨mia',
       'ExcÃ©s de velocitat o inadequada', 'CalÃ§ada en mal estat',
       'Estat de la senyalitzaciÃ³', 'Factors meteorolÃ²gics',
       'Objectes o animals a la calÃ§ada'], dtype=object)

In [244]:
causa_med.loc[causa_med['descripcio_causa_mediata'] == 'AlcoholÃ¨mia', 'descripcio_causa_mediata'] = 'Alcoholèmia'

In [245]:
causa_med.loc[causa_med['descripcio_causa_mediata'] == 'ExcÃ©s de velocitat o inadequada', 'descripcio_causa_mediata'] = 'Excés de velocitat o inadequada'

In [246]:
causa_med.loc[causa_med['descripcio_causa_mediata'] == 'CalÃ§ada en mal estat', 'descripcio_causa_mediata'] = 'Calçada en mal estat'

In [247]:
causa_med.loc[causa_med['descripcio_causa_mediata'] == 'Estat de la senyalitzaciÃ³', 'descripcio_causa_mediata'] = 'Estat de la senyalització'

In [248]:
causa_med.loc[causa_med['descripcio_causa_mediata'] == 'Factors meteorolÃ²gics', 'descripcio_causa_mediata'] = 'Factors meteorològics'

In [249]:
causa_med.loc[causa_med['descripcio_causa_mediata'] == 'Objectes o animals a la calÃ§ada', 'descripcio_causa_mediata'] = 'Objectes o animals a la calçada'

In [250]:
causa_med['descripcio_causa_mediata'].value_counts()

No hi ha causa mediata             67883
Alcoholèmia                         3166
Calçada en mal estat                 554
Excés de velocitat o inadequada      455
Drogues o medicaments                157
Objectes o animals a la calçada       88
Factors meteorològics                 42
Estat de la senyalització             32
Name: descripcio_causa_mediata, dtype: int64

Eliminar espacios en blanco en los valores de la columna expediente, si los hay.

In [251]:
causa_med['expedient'] = causa_med['expedient'].str.strip()

In [252]:
causa_med

Unnamed: 0,expedient,descripcio_causa_mediata
0,2015S005022,No hi ha causa mediata
1,2015S000390,No hi ha causa mediata
2,2015S001866,No hi ha causa mediata
3,2015S004932,No hi ha causa mediata
4,2015S007776,No hi ha causa mediata
...,...,...
7984,2022S004703,No hi ha causa mediata
7985,2022S002165,Alcoholèmia
7986,2022S004308,No hi ha causa mediata
7987,2022S004988,No hi ha causa mediata


Para eliminar los duplicados y quedarme solo con las causas mediatas que me interesan para el análisis, crearé una tabla en la que me aparezca, para cada expediente, si cumplen con cada causa mediata o no (las columnas serán de tipo booleano).
1. En primer lugar, con la función 'get_dummies' convierto la columna 'Descripcio_causa_mediata' en diversas columnas de tipo booleano para cada posible causa.
2. Después, agrupo las filas por el valor de la columna 'expedient' y sumo los valores de cada columna.
3. Reseteo el índice del dataframe
4. Relleno con un 0 los espacios donde no hay ningún valor (casos en los que 

In [253]:
causa_med_bool = pd.get_dummies(causa_med, columns=['descripcio_causa_mediata'])
causa_med_bool = causa_med_bool.groupby('expedient').sum()
causa_med_bool.reset_index(inplace=True)
causa_med_bool.fillna(0, inplace=True)
print(causa_med_bool)

         expedient  descripcio_causa_mediata_Alcoholèmia  \
0      2015S000001                                     0   
1      2015S000002                                     0   
2      2015S000003                                     0   
3      2015S000004                                     0   
4      2015S000005                                     0   
...            ...                                   ...   
72335  2022S008011                                     0   
72336  2022S008012                                     0   
72337  2022S008013                                     0   
72338  2023S000004                                     0   
72339  2023S000550                                     0   

       descripcio_causa_mediata_Calçada en mal estat  \
0                                                  0   
1                                                  0   
2                                                  0   
3                                                  0   

In [254]:
causa_med_bool.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72340 entries, 0 to 72339
Data columns (total 9 columns):
 #   Column                                                    Non-Null Count  Dtype 
---  ------                                                    --------------  ----- 
 0   expedient                                                 72340 non-null  object
 1   descripcio_causa_mediata_Alcoholèmia                      72340 non-null  uint8 
 2   descripcio_causa_mediata_Calçada en mal estat             72340 non-null  uint8 
 3   descripcio_causa_mediata_Drogues o medicaments            72340 non-null  uint8 
 4   descripcio_causa_mediata_Estat de la senyalització        72340 non-null  uint8 
 5   descripcio_causa_mediata_Excés de velocitat o inadequada  72340 non-null  uint8 
 6   descripcio_causa_mediata_Factors meteorològics            72340 non-null  uint8 
 7   descripcio_causa_mediata_No hi ha causa mediata           72340 non-null  uint8 
 8   descripcio_causa_mediata_Ob

In [255]:
causa_med_bool['descripcio_causa_mediata_Calçada en mal estat'].value_counts()

0    71786
1      554
Name: descripcio_causa_mediata_Calçada en mal estat, dtype: int64

In [256]:
causa_med_bool = causa_med_bool.rename(columns={'descripcio_causa_mediata_Alcoholèmia': 'alcoholemia',
                                                'descripcio_causa_mediata_Calçada en mal estat': 'mal_estat_calcada',
                                               'descripcio_causa_mediata_Drogues o medicaments': 'drogues_medicaments',
                                               'descripcio_causa_mediata_Estat de la senyalització': 'mal_estat_senyalitzacio',
                                               'descripcio_causa_mediata_Excés de velocitat o inadequada': 'exces_velocitat',
                                               'descripcio_causa_mediata_Factors meteorològics': 'factors_meteo',
                                               'descripcio_causa_mediata_No hi ha causa mediata': 'sense_causa_mediata',
                                               'descripcio_causa_mediata_Objectes o animals a la calçada': 'obj_a_calcada',})

In [257]:
causa_med_bool

Unnamed: 0,expedient,alcoholemia,mal_estat_calcada,drogues_medicaments,mal_estat_senyalitzacio,exces_velocitat,factors_meteo,sense_causa_mediata,obj_a_calcada
0,2015S000001,0,0,0,0,0,0,1,0
1,2015S000002,0,0,0,0,0,0,1,0
2,2015S000003,0,0,0,0,0,0,1,0
3,2015S000004,0,0,0,0,0,0,1,0
4,2015S000005,0,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...
72335,2022S008011,0,0,0,0,0,0,1,0
72336,2022S008012,0,0,0,0,0,0,1,0
72337,2022S008013,0,0,0,0,0,0,1,0
72338,2023S000004,0,0,0,0,0,0,1,0


Ahora voy a unir el dataframe 'datos_accidentes_sin_duplicados' con el dataframe 'causa_med_bool'.

Antes de hacer el merge entre las dos columnas 'expediente' para comprobar que son iguales.
1. Concateno las dos columnas 'expediente' en una sola columna
2. Calculo cuantas veces aparece cada valor de expediente
3. Busco os expedientes que no aparezcan dos veces. Los que aparezcan una vez signfica que solo están en un dataframe. Si apaecen más de dos veces, significa que el expediente está duplicado.

In [258]:
expedient_comb = pd.concat([causa_med_bool['expedient'], datos_accidentes_sin_duplicados['expedient']])
cuenta_filas = expedient_comb.value_counts()
cuenta_filas[cuenta_filas != 2]

2019S009536    1
Name: expedient, dtype: int64

Vemos que solo hay un valor duplicado, que fue el que se eliminó de la base de datos general porque no contenía ninguna información. En este caso, tampoco contiene ninguna causa mediata, por lo que también la podemos eliminar.

In [259]:
causa_med_bool[causa_med_bool['expedient'] == '2019S009536']

Unnamed: 0,expedient,alcoholemia,mal_estat_calcada,drogues_medicaments,mal_estat_senyalitzacio,exces_velocitat,factors_meteo,sense_causa_mediata,obj_a_calcada
49922,2019S009536,0,0,0,0,0,0,1,0


In [260]:
causa_med_bool = causa_med_bool.drop(49922)

Una vez tenemos los dos dataframes con las mismas filas, ya podemos hacer el merge.

In [261]:
datos_accidentes_sin_duplicados = pd.merge(datos_accidentes_sin_duplicados, causa_med_bool, how='left')

In [262]:
datos_accidentes_sin_duplicados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 72339 entries, 0 to 72338
Data columns (total 48 columns):
 #   Column                               Non-Null Count  Dtype         
---  ------                               --------------  -----         
 0   expedient                            72339 non-null  object        
 1   data                                 72339 non-null  datetime64[ns]
 2   codi_districte                       72339 non-null  int64         
 3   nom_districte                        72136 non-null  object        
 4   codi_barri                           72339 non-null  int64         
 5   nom_barri                            72339 non-null  object        
 6   codi_carrer                          72339 non-null  int64         
 7   nom_carrer                           72337 non-null  object        
 8   num_postal                           67540 non-null  object        
 9   any                                  72339 non-null  int64         
 10  mes       

In [263]:
datos_accidentes_sin_duplicados = datos_accidentes_sin_duplicados.rename(columns={'descripcio_tipus_vehicle_VMP':'v_vmp',
                                               'descripcio_tipus_vehicle_altres':'v_altres',
                                               'descripcio_tipus_vehicle_ambulancia':'v_ambulancia',
                                               'descripcio_tipus_vehicle_autocar':'v_autocar',
                                               'descripcio_tipus_vehicle_bici':'v_bici',
                                               'descripcio_tipus_vehicle_bus':'v_bus',
                                               'descripcio_tipus_vehicle_camio':'v_camio',
                                               'descripcio_tipus_vehicle_caravana':'v_caravana',
                                               'descripcio_tipus_vehicle_cotxe':'v_cotxe',
                                               'descripcio_tipus_vehicle_desconegut':'v_desconegut',
                                               'descripcio_tipus_vehicle_furgoneta':'v_furgoneta',
                                               'descripcio_tipus_vehicle_microbus':'v_microbus',
                                               'descripcio_tipus_vehicle_moto':'v_moto',
                                               'descripcio_tipus_vehicle_taxi':'v_taxi',
                                               'descripcio_tipus_vehicle_tram_tren':'v_tram_tren',
                                               'descripcio_tipus_vehicle_tricicle':'v_tricicle',
                                               'alcoholemia':'c_alcoholemia',
                                               'mal_estat_calcada':'c_mal_estat_calcada',
                                               'drogues_medicaments':'c_drogues_medicaments',
                                               'mal_estat_senyalitzacio':'c_mal_estat_senyalitzacio',
                                               'exces_velocitat':'c_exces_velocitat',
                                               'factors_meteo':'c_factors_meteo',
                                               'sense_causa_mediata':'c_sense_causa_mediata',
                                               'obj_a_calcada':'c_obj_a_calcada'})

In [264]:
datos_accidentes_sin_duplicados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 72339 entries, 0 to 72338
Data columns (total 48 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   expedient                  72339 non-null  object        
 1   data                       72339 non-null  datetime64[ns]
 2   codi_districte             72339 non-null  int64         
 3   nom_districte              72136 non-null  object        
 4   codi_barri                 72339 non-null  int64         
 5   nom_barri                  72339 non-null  object        
 6   codi_carrer                72339 non-null  int64         
 7   nom_carrer                 72337 non-null  object        
 8   num_postal                 67540 non-null  object        
 9   any                        72339 non-null  int64         
 10  mes                        72339 non-null  int64         
 11  dia_mes                    72339 non-null  int64         
 12  dia_

In [266]:
datos_accidentes_sin_duplicados['UTM_X'].value_counts()

-1.00         176
 433366.47     67
 432229.00     56
 432229.70     53
 433010.80     49
             ... 
 428699.92      1
 428439.31      1
 428126.98      1
 428542.63      1
 431658.90      1
Name: UTM_X, Length: 32321, dtype: int64

In [268]:
datos_accidentes_sin_duplicados['UTM_Y'].value_counts()

-1.00          176
 4585249.15     67
 4584196.97     56
 4584197.87     53
 4584901.86     49
              ... 
 4588479.43      1
 4587152.26      1
 4587147.07      1
 4589754.06      1
 4587321.70      1
Name: UTM_Y, Length: 32351, dtype: int64

In [267]:
datos_accidentes_sin_duplicados['UTM_X'] = datos_accidentes_sin_duplicados['UTM_X'].replace(-1.00, np.nan)

In [269]:
datos_accidentes_sin_duplicados['UTM_Y'] = datos_accidentes_sin_duplicados['UTM_Y'].replace(-1.00, np.nan)

In [270]:
datos_accidentes_sin_duplicados.to_csv('datos_accidentes.csv')