## This file must onlycontain imports, pandas, matplotlib, requests,... and calls to your src/utils/* modules.

In [40]:
import pandas as pd
import os
import sys
import utils.folders_tb as fo
import utils.mining_data_tb as mi

En el afán de demostrar la hipótesis planteada, se comienza a realizar el tratamiento de los datos recopilados para poder trabajar con ellos posteriormente. Para esto, se crean las correspondientes listas de dataframes, con los datasets de cada año (desde el 2011 hasta el 2020).

De esta manera, se tendrá una lista 

In [43]:
lista_df_gu = fo.enlistar_dataframes('_ACCIDENTS_GU_BCN_')

In [None]:
mi.info_df_enlistado(lista_df_gu)

In [None]:
mi.comparar_columnas(lista_df_gu)

In [None]:
mi.mostrar_columnas(lista_df_gu)

In [None]:
mi.nombre_cada_columna(lista_df_gu)

Como se puede observar, no todos los dataframes contenidos en la lista poseen el mismo número de columnas.

In [None]:
mi.ver_ultimas_columnas(lista_df_gu)

Vemos que las últimas 2 columnas de los dataframes que contienen 27, hacen referencia a la latitud y longitud. De momento, podemos prescindir de ellas, por lo que serán eliminadas.

In [None]:
mi.eliminar_columnas_finales(lista_df_gu)

Podemos apreciar además, que las columnas que hacen referencia a las coordenadas, no sólo tienen nombres diferentes, sino que no se corresponden en posición, es decir, en algunas figura en primer lugar la coordeneda UTM Y o X y viceversa. Se procede a acomodar las columnas para luego unificar nombres de las mismas.

In [None]:
mi.ordenar_columnas_finales(lista_df_gu)

In [None]:
mi.nombre_cada_columna(lista_df_gu)

Una vez organizadas las columnas, se homogenizan los nombres de las mismas para unir los dataframes en uno solo.

In [None]:
nombres_columnas_gu = ['NUMERO EXPEDIENTE', 'CODIGO DISTRITO', 'DISTRITO', 'CODIGO BARRIO', 'BARRIO', 'CODIGO CALLE', 'CALLE', 'NUMERO POSTAL', 'DIA SEMANA', 'DIA SEMANA (NUMERICO)', 'TIPO DE DIA', 'ANO', 'MES (NUMERICO)', 'MES', 'DIA', 'HORA', 'TURNO', 'CAUSA', 'FALLECIDOS', 'LESIONADOS LEVE', 'LESIONADOS GRAVE', 'CANTIDAD VICTIMAS', 'CANTIDAD VEHICULOS', 'COORDENADA UTM X', 'COORDENADA UTM Y']

In [None]:
mi.renombrar_columnas(lista_df_gu, nombres_columnas_gu)

In [None]:
mi.nombre_cada_columna(lista_df_gu)

Ya todos los dataframes de la lista tienen el mismo nombre para cada columna. Se procede a unirlos en un único dataframe.

In [None]:
df_accidentes_gu = mi.unificar_lista_dataframe(lista_df_gu)

In [None]:
df_accidentes_gu

### Ahora, nuestra variable **``df_accidentes_gu``** representa todos los accidentes registrados por la Guardia Urbana de la Ciudad de Barcelona, entre los años 2011 y 2020.

---

De igual manera, procedemos a trabajar sobre los datasets de **causas** de accidentes.

# ACA ARRANCA CAUSASSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS 

In [None]:
lista_df_causas = fo.enlistar_dataframes('_ACCIDENTS_CAUSES_GU_BCN_')

In [None]:
mi.comparar_columnas(lista_df_causas)

In [None]:
mi.mostrar_columnas(lista_df_causas)

Haciendo una comparación entre los dataframes de ``lista_df_causas`` y los de ``lista_df_gu``, se observa que tienen en común la mayoría de sus columnas.

Se pondrán a prueba los dataframes basándonos en su **número de expediente**, la cual, en la previa, se estima que podría ser la clave primaria.

In [None]:
lista_df_gu[0].tail(3)

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 0, '2011S002900', 'NUMERO EXPEDIENTE').unstack()

In [None]:
mi.datos_por_numero_expediente(lista_df_causas, 0,'2011S002900',"Número d expedient").unstack()

Se puede ver que los datos coinciden cuando se los evalúa en función del número de expediente, para el dataframe en posición 0.

Haciendo la misma evaluación para dataframes en distintas posiciones:

In [None]:
lista_df_gu[8].head(2)

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 8, '2019S000001', 'NUMERO EXPEDIENTE').unstack()

Aquí se aprecia que la búsqueda para este nuevo número de expediente no es correcta. Indagando en el motivo entontramos lo siguiente:

In [None]:
lista_df_gu[8].iloc[0,0]

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 8, '2019S000001    ', 'NUMERO EXPEDIENTE').unstack()

Comparándolo con el mismo número de expediente en otra lista de dataframes:

In [None]:
mi.datos_por_numero_expediente(lista_df_causas, 8, '2019S000001    ', 'Numero_expedient').unstack()

La correlación por número de expediente continúa siendo correcta, a pesar que en éste caso, el valor contenga espacios en blanco al final del string. Se solucionará éste inconveniente más adelante, cuando se disponga del dataframe completo con todos los datos de los correspondientes datasets.

---

De momento, se tomará la decisión de mantener las columnas de la lista_df_causas que aporten valor a los datos, sin estar repetidas (a excepción de la columna de números de expediente). De esta manera, permaneceran en los dataframes las columnas siguientes relacionadas con los siguientes datos:
- Número de expediente
- Descrición de causa

In [None]:
df_accidentes_causas = mi.crear_df_causas(lista_df_causas)

In [None]:
df_accidentes_causas

### Ahora, nuestra variable **``df_accidentes_causas``** representa la descripción de los causales de todos los accidentes registrados por la Guardia Urbana de la Ciudad de Barcelona, entre los años 2011 y 2020, con su correspondiente número de expediente.

---

De igual manera, procedemos a trabajar sobre los datasets de **personas** implicadas en accidentes.

# ACA ARRANCA PERSONASSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

In [None]:
lista_df_personas = fo.enlistar_dataframes('_ACCIDENTS_PERSONES_GU_BCN_')

In [None]:
mi.comparar_columnas(lista_df_personas)

In [None]:
mi.mostrar_columnas(lista_df_personas)

Haciendo nuevamente la comparación, ahora entre los dataframes de ``lista_df_personas`` y los de ``lista_df_gu``, se observa que, efectivamente, tienen en común la mayoría de sus columnas.

Se vuelve a realizar la prueba sobre los dataframes basándonos en su **número de expediente** (clave primaria).

In [None]:
lista_df_gu[3].head(3)

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 3, '2014S003380', 'NUMERO EXPEDIENTE').unstack()

In [None]:
mi.datos_por_numero_expediente(lista_df_personas, 3, '2014S003380', 'Número d\'expedient').unstack()

Efectivamente, como era de esperar, están relacionados por su clave primaria.

En este caso, se tomarán como columnas con datos relevantes para nuestro estudio las siguientes:
- Número de expediente
- Tipo de persona
- Edad
- Sexo

In [None]:
df_accidentes_personas = mi.crear_df_personas(lista_df_personas)

In [None]:
df_accidentes_personas

### Ahora, nuestra variable **``df_accidentes_personas``** representa la descripción de las personas involucradas en los accidentes registrados por la Guardia Urbana de la Ciudad de Barcelona, entre los años 2011 y 2020, con su correspondiente número de expediente.

---

De igual manera, procedemos a trabajar sobre los datasets de **vehículos** implicados en accidentes.

# ACA ARRANCA VEHICULOSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

In [None]:
lista_df_vehiculos = fo.enlistar_dataframes('_accidents_vehicles_gu_bcn_')

In [None]:
mi.comparar_columnas(lista_df_vehiculos)

In [None]:
mi.mostrar_columnas(lista_df_vehiculos)

Se comparan los dataframes de ``lista_df_vehiculos`` y los de ``lista_df_gu``. Nuevamente cuentan con muchas columnas en común que no será necesario duplicar.

Verificamos el cumplimiento de nuestra clave primaria "número de expediente".

In [None]:
lista_df_gu[4].head(3)

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 4, '2015S007685', 'NUMERO EXPEDIENTE').unstack()

In [None]:
mi.datos_por_numero_expediente(lista_df_vehiculos, 4, '2015S007685', 'Codi d\'expedient').unstack()

Nuevamente se cumple la relación. Se definen ahora las columnas de interés para el estudio:
- Número de expediente
- Tipo de vehículo
- Modelo de vehículo
- Marca de vehículo
- Color de vehículo
- Tipo de carnet
- Antigüedad de carnet
- Causa del peatón

In [None]:
df_accidentes_vehiculos = mi.crear_df_vehiculos(lista_df_vehiculos)

In [None]:
df_accidentes_vehiculos

### La variable **``df_accidentes_vehiculos``** representa la descripción de los distintos vehículos involucradas en los accidentes registrados por la Guardia Urbana de la Ciudad de Barcelona, entre los años 2011 y 2020, con su correspondiente número de expediente.

---

Por último, se procede a trabajar sobre los datasets de **tipos** de accidentes.

# ACAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA ARRAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAANCA TIPOSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

In [None]:
lista_df_tipos = fo.enlistar_dataframes('_ACCIDENTS_TIPUS_GU_BCN_')

In [None]:
mi.comparar_columnas(lista_df_tipos)

In [None]:
mi.mostrar_columnas(lista_df_tipos)

Se comparan los dataframes de ``lista_df_tipos`` y los de ``lista_df_gu``, los cuales poseen muchas columnas en común.

Verificamos nuevamente el cumplimiento de nuestra clave primaria "número de expediente".

In [None]:
lista_df_gu[5].head(3)

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 5, '2016S001896', 'NUMERO EXPEDIENTE').unstack()

In [None]:
mi.datos_por_numero_expediente(lista_df_tipos, 5, '2016S001896', 'Numero_expedient').unstack()

Se presenta nuevamente el inconveniente de encontrar caracteres en blanco en el string de número de expediente. De momento se realiza la comprobación de la correlatividad y más tarde se corregirá el problema.

In [None]:
lista_df_gu[5].iloc[0,0]

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 5, '2016S001896    ', 'NUMERO EXPEDIENTE').unstack()

In [None]:
mi.datos_por_numero_expediente(lista_df_tipos, 5, '2016S001896    ', 'Numero_expedient').unstack()

Una vez verificada la relación por número de expediente, se seleccionan las columnas de interés para los datasets de "tipo de accidente", evitando duplicados. La selección será:
- Número de expediente
- Tipo de accidente

In [None]:
df_accidentes_tipos = mi.crear_df_tipos(lista_df_tipos)

In [None]:
df_accidentes_tipos

---

Una vez que se cuenta con todos los dataframes acomodados, son guardados en archivos .csv para su rápida utilización.

In [None]:
lista_df_post_wrangling = [df_accidentes_gu, df_accidentes_causas, df_accidentes_personas, df_accidentes_vehiculos, df_accidentes_tipos]

In [None]:
lista_nombres_csv = ['accidentes_gu.csv', 'accidentes_causas.csv', 'accidentes_personas.csv', 'accidentes_vehiculos.csv', 'accidentes_tipos.csv']

In [None]:
fo.guardar_csv_post_wrangling(lista_df_post_wrangling, lista_nombres_csv)

De esta manera, contamos con 5 archivos .csv (uno para cada tipo de dataset), ubicados en la carpeta /data/DATA_POST_WRANGLING, listos para trabajar con ellos.

Se procede a unificar todos los dataframes. Para esto, hacemos la lectura de dichos CSV's para poder trabajar con ellos inmediatamente, sin tener que realizar la ejecución de la totalidad del código, la cual demora un tiempo razonable en finalizar.

Para esto, se llama a la función ``leer_csv_post_wrangling()``, y se le pasa por parámetro los nombres deseados para cada dataframe.

In [2]:
df_gu, df_causas, df_personas, df_vehiculos, df_tipos = mi.leer_csv_post_wrangling()

  if (await self.run_code(code, result,  async_=asy)):


Aplicando la siguiente función se quitarán los caracteres en blanco al princpio y al final de los strings.

In [None]:
df_gu.iloc[50221,0]

In [4]:
mi.quitar_espacios(df_gu, df_causas, df_personas, df_vehiculos, df_tipos)

In [11]:
df_gu.iloc[50221,0]

'2017S000110'

In [27]:
df_personas

Unnamed: 0,NUMERO EXPEDIENTE,TIPO PERSONA,EDAD,SEXO
0,2011S000321,Conductor,33,Home
1,2011S000324,Conductor,19,Home
2,2011S000004,Conductor,26,Home
3,2011S000011,Passatger,22,Home
4,2011S000013,Conductor,29,Home
...,...,...,...,...
117626,2020S006276,Conductor,48,Home
117627,2020S006276,Conductor,16,Home
117628,2020S006277,Passatger,56,Dona
117629,2020S006277,Conductor,64,Home


In [35]:
df_gu[df_gu['NUMERO EXPEDIENTE'] == '2012S000075']

Unnamed: 0,NUMERO EXPEDIENTE,CODIGO DISTRITO,DISTRITO,CODIGO BARRIO,BARRIO,CODIGO CALLE,CALLE,NUMERO POSTAL,DIA SEMANA,DIA SEMANA (NUMERICO),...,HORA,TURNO,CAUSA,FALLECIDOS,LESIONADOS LEVE,LESIONADOS GRAVE,CANTIDAD VICTIMAS,CANTIDAD VEHICULOS,COORDENADA UTM X,COORDENADA UTM Y
5853,2012S000075,10.0,Sant Martí,103-10-71,Provençals del Poblenou,115603.0,Espronceda,0201 0201,Dimecres,3,...,14.0,Tarda,Desconegut,0.0,3.0,0.0,3.0,2.0,43299863,458456725


In [36]:
df_vehiculos[df_vehiculos['NUMERO EXPEDIENTE'] == '2012S000075']

Unnamed: 0,NUMERO EXPEDIENTE,TIPO VEHICULO,MODELO VEHICULO,MARCA VEHICULO,COLOR VEHICULO,TIPO CARNET,ANTIGUEDAD CARNET,CAUSA PEATON
16995,2012S000075,Motocicleta,BURGMAN,SUZUKI,Blau,B,6,No és causa del vianant
17055,2012S000075,Turismo,CORSA,OPEL,Gris,B,12,No és causa del vianant


In [37]:
df_personas[df_personas['NUMERO EXPEDIENTE'] == '2012S000075']

Unnamed: 0,NUMERO EXPEDIENTE,TIPO PERSONA,EDAD,SEXO
12399,2012S000075,Conductor,30,Home
20042,2012S000075,Passatger,22,Home
20733,2012S000075,Conductor,24,Home


In [26]:
df_vehiculos

Unnamed: 0,NUMERO EXPEDIENTE,TIPO VEHICULO,MODELO VEHICULO,MARCA VEHICULO,COLOR VEHICULO,TIPO CARNET,ANTIGUEDAD CARNET,CAUSA PEATON
0,2011S000833,Turismo,206,PEUGEOT,Blanc,B,9,No és causa del vianant
1,2011S000835,Ciclomotor,CY50,YAMAHA,Negre,B,22,No és causa del vianant
2,2011S002871,Turismo,318,BMW,Negre,B,7,No és causa del vianant
3,2011S000825,Motocicleta,SH 100,HONDA,Verd,B,6,No és causa del vianant
4,2011S000830,Ciclomotor,LIBERTY 50,PIAGGIO,Gris,B,2,No és causa del vianant
...,...,...,...,...,...,...,...,...
179901,2020S006276,Motocicleta,AGILITY CITY 125,KYMCO,Desconegut,B,16,No és causa del vianant
179902,2020S006276,Veh. mobilitat personal amb motor,Desconegut,Desconegut,Negre,Desconegut,Desconegut,No és causa del vianant
179903,2020S006277,Motocicleta,SH 150,HONDA,Vermell,A,25,No és causa del vianant
179904,2020S006278,Turisme,CLIO,RENAULT,Blanc,Desconegut,Desconegut,No és causa del vianant


In [25]:
df_gu

Unnamed: 0,NUMERO EXPEDIENTE,CODIGO DISTRITO,DISTRITO,CODIGO BARRIO,BARRIO,CODIGO CALLE,CALLE,NUMERO POSTAL,DIA SEMANA,DIA SEMANA (NUMERICO),...,HORA,TURNO,CAUSA,FALLECIDOS,LESIONADOS LEVE,LESIONADOS GRAVE,CANTIDAD VICTIMAS,CANTIDAD VEHICULOS,COORDENADA UTM X,COORDENADA UTM Y
0,2012S005688,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,209900.0,Meridiana,0203 0205,Dissabte,6,...,16.0,Tarda,Desconegut,0.0,1.0,0.0,1.0,2.0,43202272,458517854
1,2012S005343,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,226400.0,Las Navas de Tolosa,0337 0337,Diumenge,7,...,21.0,Tarda,Desconegut,0.0,1.0,0.0,1.0,2.0,43186084,458535236
2,2012S002291,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,161407.0,Indústria,0288 0288,Dijous,4,...,15.0,Tarda,Desconegut,0.0,1.0,0.0,1.0,2.0,43155672,458510228
3,2012S005379,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,297001.0,Sant Antoni Maria Claret,0356 0356,Dimarts,2,...,10.0,Matí,Creuar per fora pas de vianants,0.0,2.0,0.0,2.0,1.0,43155273,458526601
4,2012S004837,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,297001.0,Sant Antoni Maria Claret,0270 0270,Dimarts,2,...,14.0,Tarda,Desconegut,0.0,2.0,0.0,2.0,1.0,43118043,458489892
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
85104,2020S006274,7.0,Horta-Guinardó,73-7-37,el Carmel,182600.0,Lluís Marià Vidal,0025 0025,Dijous,4,...,17.0,Tarda,Desconegut,0.0,0.0,0.0,0.0,1.0,4586412.97,429662.8
85105,2020S006275,2.0,Eixample,21-2-10,Sant Antoni,323203.0,Sepúlveda,0186 0186,Dijous,4,...,20.0,Tarda,Desconegut,0.0,2.0,0.0,2.0,2.0,4581881.31,430125.99
85106,2020S006276,1.0,Ciutat Vella,12-1-2,el Barri Gòtic,701266.0,Litoral (Llobregat),1070000,Dijous,4,...,13.0,Matí,Desconegut,0.0,2.0,0.0,2.0,2.0,4581077.37,431410.4
85107,2020S006277,2.0,Eixample,22-2-9,la Nova Esquerra de l'Eixample,18505.0,Aragó,0127 0127,Dijous,4,...,21.0,Tarda,Desconegut,0.0,2.0,0.0,2.0,1.0,4581954.15,429362.84


In [22]:
df_vehiculos[df_vehiculos['NUMERO EXPEDIENTE'] == '2017S008856']

Unnamed: 0,NUMERO EXPEDIENTE,TIPO VEHICULO,MODELO VEHICULO,MARCA VEHICULO,COLOR VEHICULO,TIPO CARNET,ANTIGUEDAD CARNET,CAUSA PEATON
126485,2017S008856,Taxi,Altea,SEAT,Negre/Groc,B,9,Altres
126486,2017S008856,Taxi,Altea,SEAT,Negre/Groc,B,9,Desobeir el senyal del semàfor


In [23]:
df_causas[df_causas['NUMERO EXPEDIENTE'] == '2017S008856']

Unnamed: 0,NUMERO EXPEDIENTE,DESCRIPCION CAUSA
59969,2017S008856,No hi ha causa mediata


In [24]:
df_gu[df_gu['NUMERO EXPEDIENTE'] == '2017S008856']

Unnamed: 0,NUMERO EXPEDIENTE,CODIGO DISTRITO,DISTRITO,CODIGO BARRIO,BARRIO,CODIGO CALLE,CALLE,NUMERO POSTAL,DIA SEMANA,DIA SEMANA (NUMERICO),...,HORA,TURNO,CAUSA,FALLECIDOS,LESIONADOS LEVE,LESIONADOS GRAVE,CANTIDAD VICTIMAS,CANTIDAD VEHICULOS,COORDENADA UTM X,COORDENADA UTM Y
48623,2017S008856,10.0,Sant Martí,,Provençals del Poblenou,30409.0,Diagonal / Bac de Roda,0100 0108,Dijous,Dj,...,8.0,Matí,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,43353688,458455754
55031,2017S008856,10.0,Sant Martí,,Provençals del Poblenou,30409.0,Diagonal / Bac de Roda,0100 0108,Dijous,Dj,...,8.0,Matí,Altres,0.0,1.0,0.0,1.0,1.0,43353688,458455754


In [None]:
df_causas[df_causas['DESCRIPCION CAUSA'] != 'No hi ha causa mediata']

In [17]:
print('GU:' , df_gu.shape)
print('CAUSAS:' , df_causas.shape)
print('PERSONAS:' , df_personas.shape)
print('VEHICULOS:' , df_vehiculos.shape)
print('TIPOS:' , df_tipos.shape)

GU: (85109, 25)
CAUSAS: (94033, 2)
PERSONAS: (117631, 4)
VEHICULOS: (179906, 8)
TIPOS: (99188, 2)


In [18]:
print('Cantidad de filas duplicadas de df_gu:' , df_gu.duplicated().sum())
print('Cantidad de filas duplicadas de df_causas:' , df_causas.duplicated().sum())
print('Cantidad de filas duplicadas de df_personas:' , df_personas.duplicated().sum())
print('Cantidad de filas duplicadas de df_vehiculos:' , df_vehiculos.duplicated().sum())
print('Cantidad de filas duplicadas de df_tipos:' , df_tipos.duplicated().sum())

Cantidad de filas duplicadas de df_gu: 0
Cantidad de filas duplicadas de df_causas: 0
Cantidad de filas duplicadas de df_personas: 294
Cantidad de filas duplicadas de df_vehiculos: 12
Cantidad de filas duplicadas de df_tipos: 0


In [15]:
print('Cantidad de números de expediente duplicados en df_gu:' , df_gu['NUMERO EXPEDIENTE'].duplicated().sum())
print('Cantidad de números de expediente duplicados en df_causas:' , df_causas['NUMERO EXPEDIENTE'].duplicated().sum())
print('Cantidad de números de expediente duplicados en df_personas:' , df_personas['NUMERO EXPEDIENTE'].duplicated().sum())
print('Cantidad de números de expediente duplicados en df_vehiculos:' , df_vehiculos['NUMERO EXPEDIENTE'].duplicated().sum())
print('Cantidad de números de expediente duplicados en df_tipos:' , df_tipos['NUMERO EXPEDIENTE'].duplicated().sum())

Cantidad de números de expediente duplicados en df_gu: 21
Cantidad de números de expediente duplicados en df_causas: 133
Cantidad de números de expediente duplicados en df_personas: 31294
Cantidad de números de expediente duplicados en df_vehiculos: 86062
Cantidad de números de expediente duplicados en df_tipos: 5283


In [39]:
df_causas.loc[df_causas['NUMERO EXPEDIENTE'].duplicated(keep = False), :].head(50)

Unnamed: 0,NUMERO EXPEDIENTE,DESCRIPCION CAUSA
44,2011S003275,Alcoholèmia
727,2011S000993,Alcoholèmia
805,2011S005406,Excés de velocitat o inadequada
1588,2011S008258,Alcoholèmia
1635,2011S000050,Alcoholèmia
1813,2011S003653,Alcoholèmia
2289,2011S000610,Alcoholèmia
2691,2011S004199,Excés de velocitat o inadequada
2869,2011S003653,Excés de velocitat o inadequada
2872,2011S001706,Excés de velocitat o inadequada


In [20]:
df_vehiculos.loc[df_vehiculos].duplicated()

ValueError: Cannot index with multidimensional key

In [None]:
df_personas.duplicated().sum()

In [41]:
df_gu.loc[df_gu['NUMERO EXPEDIENTE'].duplicated(keep = False), :]

Unnamed: 0,NUMERO EXPEDIENTE,CODIGO DISTRITO,DISTRITO,CODIGO BARRIO,BARRIO,CODIGO CALLE,CALLE,NUMERO POSTAL,DIA SEMANA,DIA SEMANA (NUMERICO),...,HORA,TURNO,CAUSA,FALLECIDOS,LESIONADOS LEVE,LESIONADOS GRAVE,CANTIDAD VICTIMAS,CANTIDAD VEHICULOS,COORDENADA UTM X,COORDENADA UTM Y
48623,2017S008856,10.0,Sant Martí,,Provençals del Poblenou,30409.0,Diagonal / Bac de Roda,0100 0108,Dijous,Dj,...,8.0,Matí,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,43353688.0,458455754.0
51618,2017S003750,2.0,Eixample,,la Dreta de l'Eixample,357001.0,Bergara,0014 0014,Dijous,Dj,...,16.0,Tarda,Altres,0.0,1.0,0.0,1.0,1.0,43060134.0,458217948.0
53761,2017S004447,10.0,Sant Martí,,Diagonal Mar i el Front Marítim del Poblenou,701278.0,Taulat,0136 0136,Divendres,Dv,...,20.0,Tarda,Creuar per fora pas de vianants,0.0,1.0,0.0,1.0,1.0,43404353.0,458391396.0
54338,2017S003286,3.0,Sants-Montjuïc,,la Marina de Port,109906.0,Energia,0001X0001X,Dilluns,Dl,...,13.0,Matí,Creuar per fora pas de vianants,0.0,1.0,0.0,1.0,1.0,42787929.0,45790069.0
54339,2017S003286,3.0,Sants-Montjuïc,,la Marina de Port,109906.0,Energia,0001X0001X,Dilluns,Dl,...,13.0,Matí,Transitar a peu per la calçada,0.0,1.0,0.0,1.0,1.0,42787929.0,45790069.0
55031,2017S008856,10.0,Sant Martí,,Provençals del Poblenou,30409.0,Diagonal / Bac de Roda,0100 0108,Dijous,Dj,...,8.0,Matí,Altres,0.0,1.0,0.0,1.0,1.0,43353688.0,458455754.0
55518,2017S003750,2.0,Eixample,,la Dreta de l'Eixample,357001.0,Bergara,0014 0014,Dijous,Dj,...,16.0,Tarda,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,43060134.0,458217948.0
57750,2017S004447,10.0,Sant Martí,,Diagonal Mar i el Front Marítim del Poblenou,701278.0,Taulat,0136 0136,Divendres,Dv,...,20.0,Tarda,Transitar a peu per la calçada,0.0,1.0,0.0,1.0,1.0,43404353.0,458391396.0
59192,2018S003156,3.0,Sants-Montjuïc,,la Bordeta,169409.0,Corts Catalanes,111-119,Dimarts,Dm,...,9.0,Matí,Altres,0.0,1.0,0.0,1.0,1.0,427647.5,4579751.39
59194,2018S003156,3.0,Sants-Montjuïc,,la Bordeta,169409.0,Corts Catalanes,111-119,Dimarts,Dm,...,9.0,Matí,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,427647.5,4579751.39


In [None]:
gu_causas = pd.merge(df_gu, df_causas, on = 'NUMERO EXPEDIENTE', how = 'outer')

In [None]:
causas_gu = pd.merge(df_causas, df_gu, on = 'NUMERO EXPEDIENTE', how = 'outer')

In [None]:
df_vehiculos[df_vehiculos['NUMERO EXPEDIENTE'] == '2012S009089']

In [None]:
df_gu[df_gu['CAUSA'] != 'Desconegut']

In [None]:
df_causas[df_causas['DESCRIPCION CAUSA'] != 'No hi ha causa mediata']

In [None]:
gu_causas.shape

In [None]:
gu_causas

In [None]:
causas_gu

In [None]:
df_causas[df_causas['NUMERO EXPEDIENTE'].str.contains('2018S003625    ')]

In [None]:
df_gu['NUMERO EXPEDIENTE'].nunique()

In [None]:
df_gu['NUMERO EXPEDIENTE'].duplicated().sum()

In [None]:
df_gu.loc[df_gu.duplicated(), :]

In [None]:
df_gu.loc[df_gu['NUMERO EXPEDIENTE'].duplicated(keep = False), :]

In [None]:
df_gu[df_gu['NUMERO EXPEDIENTE']]