## This file must onlycontain imports, pandas, matplotlib, requests,... and calls to your src/utils/* modules.

In [1]:
import pandas as pd
import os
import sys
import utils.folders_tb as fo
import utils.mining_data_tb as mi

In [None]:
lista_df_gu = fo.enlistar_dataframes('_ACCIDENTS_GU_BCN_')

In [None]:
mi.info_df_enlistado(lista_df_gu)

In [None]:
mi.comparar_columnas(lista_df_gu)

In [None]:
mi.mostrar_columnas(lista_df_gu)

In [None]:
mi.nombre_cada_columna(lista_df_gu)

Como se puede observar, no todos los dataframes contenidos en la lista poseen el mismo número de columnas.

In [None]:
mi.ver_ultimas_columnas(lista_df_gu)

Vemos que las últimas 2 columnas de los dataframes que contienen 27, hacen referencia a la latitud y longitud. De momento, podemos prescindir de ellas, por lo que serán eliminadas.

In [None]:
mi.eliminar_columnas_finales(lista_df_gu)

Podemos apreciar además, que las columnas que hacen referencia a las coordenadas, no sólo tienen nombres diferentes, sino que no se corresponden en posición, es decir, en algunas figura en primer lugar la coordeneda UTM Y o X y viceversa. Se procede a acomodar las columnas para luego unificar nombres de las mismas.

In [None]:
mi.ordenar_columnas_finales(lista_df_gu)

In [None]:
mi.nombre_cada_columna(lista_df_gu)

Una vez organizadas las columnas, se homogenizan los nombres de las mismas para unir los dataframes en uno solo.

In [None]:
nombres_columnas_gu = ['NUMERO EXPEDIENTE', 'CODIGO DISTRITO', 'DISTRITO', 'CODIGO BARRIO', 'BARRIO', 'CODIGO CALLE', 'CALLE', 'NUMERO POSTAL', 'DIA SEMANA', 'DIA SEMANA (NUMERICO)', 'TIPO DE DIA', 'ANO', 'MES (NUMERICO)', 'MES', 'DIA', 'HORA', 'TURNO', 'CAUSA', 'FALLECIDOS', 'LESIONADOS LEVE', 'LESIONADOS GRAVE', 'CANTIDAD VICTIMAS', 'CANTIDAD VEHICULOS', 'COORDENADA UTM X', 'COORDENADA UTM Y']

In [None]:
mi.renombrar_columnas(lista_df_gu, nombres_columnas_gu)

In [None]:
mi.nombre_cada_columna(lista_df_gu)

Ya todos los dataframes de la lista tienen el mismo nombre para cada columna. Se procede a unirlos en un único dataframe.

In [None]:
df_accidentes_gu = mi.unificar_lista_dataframe(lista_df_gu)

In [None]:
df_accidentes_gu

### Ahora, nuestra variable **``df_accidentes_gu``** representa todos los accidentes registrados por la Guardia Urbana de la Ciudad de Barcelona, entre los años 2011 y 2020.

---

De igual manera, procedemos a trabajar sobre los datasets de **causas** de accidentes.

# ACA ARRANCA CAUSASSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS 

In [None]:
lista_df_causas = fo.enlistar_dataframes('_ACCIDENTS_CAUSES_GU_BCN_')

In [None]:
mi.comparar_columnas(lista_df_causas)

In [None]:
mi.mostrar_columnas(lista_df_causas)

Haciendo una comparación entre los dataframes de ``lista_df_causas`` y los de ``lista_df_gu``, se observa que tienen en común la mayoría de sus columnas.

Se pondrán a prueba los dataframes basándonos en su **número de expediente**, la cual, en la previa, se estima que podría ser la clave primaria.

In [None]:
lista_df_gu[0].tail(3)

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 0, '2011S002900', 'NUMERO EXPEDIENTE').unstack()

In [None]:
mi.datos_por_numero_expediente(lista_df_causas, 0,'2011S002900',"Número d expedient").unstack()

Se puede ver que los datos coinciden cuando se los evalúa en función del número de expediente, para el dataframe en posición 0.

Haciendo la misma evaluación para dataframes en distintas posiciones:

In [None]:
lista_df_gu[8].head(2)

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 8, '2019S000001', 'NUMERO EXPEDIENTE').unstack()

Aquí se aprecia que la búsqueda para este nuevo número de expediente no es correcta. Indagando en el motivo entontramos lo siguiente:

In [None]:
lista_df_gu[8].iloc[0,0]

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 8, '2019S000001    ', 'NUMERO EXPEDIENTE').unstack()

Comparándolo con el mismo número de expediente en otra lista de dataframes:

In [None]:
mi.datos_por_numero_expediente(lista_df_causas, 8, '2019S000001    ', 'Numero_expedient').unstack()

La correlación por número de expediente continúa siendo correcta, a pesar que en éste caso, el valor contenga espacios en blanco al final del string. Se solucionará éste inconveniente más adelante, cuando se disponga del dataframe completo con todos los datos de los correspondientes datasets.

---

De momento, se tomará la decisión de mantener las columnas de la lista_df_causas que aporten valor a los datos, sin estar repetidas (a excepción de la columna de números de expediente). De esta manera, permaneceran en los dataframes las columnas siguientes relacionadas con los siguientes datos:
- Número de expediente
- Descrición de causa

In [None]:
df_accidentes_causas = mi.crear_df_causas(lista_df_causas)

In [None]:
df_accidentes_causas

### Ahora, nuestra variable **``df_accidentes_causas``** representa la descripción de los causales de todos los accidentes registrados por la Guardia Urbana de la Ciudad de Barcelona, entre los años 2011 y 2020, con su correspondiente número de expediente.

---

De igual manera, procedemos a trabajar sobre los datasets de **personas** implicadas en accidentes.

# ACA ARRANCA PERSONASSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

In [None]:
lista_df_personas = fo.enlistar_dataframes('_ACCIDENTS_PERSONES_GU_BCN_')

In [None]:
mi.comparar_columnas(lista_df_personas)

In [None]:
mi.mostrar_columnas(lista_df_personas)

Haciendo nuevamente la comparación, ahora entre los dataframes de ``lista_df_personas`` y los de ``lista_df_gu``, se observa que, efectivamente, tienen en común la mayoría de sus columnas.

Se vuelve a realizar la prueba sobre los dataframes basándonos en su **número de expediente** (clave primaria).

In [None]:
lista_df_gu[3].head(3)

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 3, '2014S003380', 'NUMERO EXPEDIENTE').unstack()

In [None]:
mi.datos_por_numero_expediente(lista_df_personas, 3, '2014S003380', 'Número d\'expedient').unstack()

Efectivamente, como era de esperar, están relacionados por su clave primaria.

En este caso, se tomarán como columnas con datos relevantes para nuestro estudio las siguientes:
- Número de expediente
- Tipo de persona
- Edad
- Sexo

In [None]:
df_accidentes_personas = mi.crear_df_personas(lista_df_personas)

In [None]:
df_accidentes_personas

### Ahora, nuestra variable **``df_accidentes_personas``** representa la descripción de las personas involucradas en los accidentes registrados por la Guardia Urbana de la Ciudad de Barcelona, entre los años 2011 y 2020, con su correspondiente número de expediente.

---

De igual manera, procedemos a trabajar sobre los datasets de **vehículos** implicados en accidentes.

# ACA ARRANCA VEHICULOSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

In [None]:
lista_df_vehiculos = fo.enlistar_dataframes('_accidents_vehicles_gu_bcn_')

In [None]:
mi.comparar_columnas(lista_df_vehiculos)

In [None]:
mi.mostrar_columnas(lista_df_vehiculos)

Se comparan los dataframes de ``lista_df_vehiculos`` y los de ``lista_df_gu``. Nuevamente cuentan con muchas columnas en común que no será necesario duplicar.

Verificamos el cumplimiento de nuestra clave primaria "número de expediente".

In [None]:
lista_df_gu[4].head(3)

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 4, '2015S007685', 'NUMERO EXPEDIENTE').unstack()

In [None]:
mi.datos_por_numero_expediente(lista_df_vehiculos, 4, '2015S007685', 'Codi d\'expedient').unstack()

Nuevamente se cumple la relación. Se definen ahora las columnas de interés para el estudio:
- Número de expediente
- Tipo de vehículo
- Modelo de vehículo
- Marca de vehículo
- Color de vehículo
- Tipo de carnet
- Antigüedad de carnet
- Causa del peatón

In [None]:
df_accidentes_vehiculos = mi.crear_df_vehiculos(lista_df_vehiculos)

In [None]:
df_accidentes_vehiculos

### La variable **``df_accidentes_vehiculos``** representa la descripción de los distintos vehículos involucradas en los accidentes registrados por la Guardia Urbana de la Ciudad de Barcelona, entre los años 2011 y 2020, con su correspondiente número de expediente.

---

Por último, se procede a trabajar sobre los datasets de **tipos** de accidentes.

# ACAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA ARRAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAANCA TIPOSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

In [None]:
lista_df_tipos = fo.enlistar_dataframes('_ACCIDENTS_TIPUS_GU_BCN_')

In [None]:
mi.comparar_columnas(lista_df_tipos)

In [None]:
mi.mostrar_columnas(lista_df_tipos)

Se comparan los dataframes de ``lista_df_tipos`` y los de ``lista_df_gu``, los cuales poseen muchas columnas en común.

Verificamos nuevamente el cumplimiento de nuestra clave primaria "número de expediente".

In [None]:
lista_df_gu[5].head(3)

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 5, '2016S001896', 'NUMERO EXPEDIENTE').unstack()

In [None]:
mi.datos_por_numero_expediente(lista_df_tipos, 5, '2016S001896', 'Numero_expedient').unstack()

Se presenta nuevamente el inconveniente de encontrar caracteres en blanco en el string de número de expediente. De momento se realiza la comprobación de la correlatividad y más tarde se corregirá el problema.

In [None]:
lista_df_gu[5].iloc[0,0]

In [None]:
mi.datos_por_numero_expediente(lista_df_gu, 5, '2016S001896    ', 'NUMERO EXPEDIENTE').unstack()

In [None]:
mi.datos_por_numero_expediente(lista_df_tipos, 5, '2016S001896    ', 'Numero_expedient').unstack()

Una vez verificada la relación por número de expediente, se seleccionan las columnas de interés para los datasets de "tipo de accidente", evitando duplicados. La selección será:
- Número de expediente
- Tipo de accidente

In [None]:
df_accidentes_tipos = mi.crear_df_tipos(lista_df_tipos)

In [None]:
df_accidentes_tipos

---

Una vez que se cuenta con todos los dataframes acomodados, son guardados en archivos .csv para su rápida utilización.

In [None]:
lista_df_post_wrangling = [df_accidentes_gu, df_accidentes_causas, df_accidentes_personas, df_accidentes_vehiculos, df_accidentes_tipos]

In [None]:
lista_nombres_csv = ['accidentes_gu.csv', 'accidentes_causas.csv', 'accidentes_personas.csv', 'accidentes_vehiculos.csv', 'accidentes_tipos.csv']

In [None]:
fo.guardar_csv_post_wrangling(lista_df_post_wrangling, lista_nombres_csv)

De esta manera, contamos con 5 archivos .csv (uno para cada tipo de dataset), ubicados en la carpeta /data/DATA_POST_WRANGLING, listos para trabajar con ellos.

Se procede a unificar todos los dataframes. Para esto, hacemos la lectura de dichos CSV's para poder trabajar con ellos inmediatamente, sin tener que realizar la ejecución de la totalidad del código, la cual demora un tiempo razonable en finalizar.

Para esto, se llama a la función ``leer_csv_post_wrangling()``, y se le pasa por parámetro los nombres deseados para cada dataframe.

In [2]:
df_gu, df_causas, df_personas, df_vehiculos, df_tipos = mi.leer_csv_post_wrangling()

  if (await self.run_code(code, result,  async_=asy)):


Ahora se puede proceder a realizar la unión y posterior limpieza de los dataframes.

In [6]:
print('GU:' ,df_gu.shape)
print('CAUSAS:' ,df_causas.shape)
print('PERSONAS:' ,df_personas.shape)
print('VEHICULOS:' ,df_vehiculos.shape)
print('TIPOS:' ,df_tipos.shape)

GU: (85109, 26)
CAUSAS: (94033, 3)
PERSONAS: (117631, 5)
VEHICULOS: (179906, 9)
TIPOS: (99188, 3)


In [77]:
print('Cantidad de filas duplicadas de df_gu:' , df_gu.duplicated().sum())
print('Cantidad de filas duplicadas de df_causas:' , df_causas.duplicated().sum())
print('Cantidad de filas duplicadas de df_personas:' , df_personas.duplicated().sum())
print('Cantidad de filas duplicadas de df_vehiculos:' , df_vehiculos.duplicated().sum())
print('Cantidad de filas duplicadas de df_tipos:' , df_tipos.duplicated().sum())

Cantidad de filas duplicadas de df_gu: 0
Cantidad de filas duplicadas de df_causas: 0
Cantidad de filas duplicadas de df_personas: 0
Cantidad de filas duplicadas de df_vehiculos: 0
Cantidad de filas duplicadas de df_tipos: 0


In [79]:
print('Cantidad de números de expediente duplicados en df_gu:' , df_gu['NUMERO EXPEDIENTE'].duplicated().sum())
print('Cantidad de números de expediente duplicados en df_causas:' , df_causas['NUMERO EXPEDIENTE'].duplicated().sum())
print('Cantidad de números de expediente duplicados en df_personas:' , df_personas['NUMERO EXPEDIENTE'].duplicated().sum())
print('Cantidad de números de expediente duplicados en df_vehiculos:' , df_vehiculos['NUMERO EXPEDIENTE'].duplicated().sum())
print('Cantidad de números de expediente duplicados en df_tipos:' , df_tipos['NUMERO EXPEDIENTE'].duplicated().sum())

Cantidad de números de expediente duplicados en df_gu: 21
Cantidad de números de expediente duplicados en df_causas: 133
Cantidad de números de expediente duplicados en df_personas: 31294
Cantidad de números de expediente duplicados en df_vehiculos: 86062
Cantidad de números de expediente duplicados en df_tipos: 5283


In [75]:
df_personas.duplicated().sum()

0

In [19]:
gu_causas = pd.merge(df_gu, df_causas, on = 'NUMERO EXPEDIENTE', how = 'outer')

In [21]:
causas_gu = pd.merge(df_causas, df_gu, on = 'NUMERO EXPEDIENTE', how = 'outer')

In [93]:
df_vehiculos[df_vehiculos['NUMERO EXPEDIENTE'] == '2012S009089']

Unnamed: 0.1,Unnamed: 0,NUMERO EXPEDIENTE,TIPO VEHICULO,MODELO VEHICULO,MARCA VEHICULO,COLOR VEHICULO,TIPO CARNET,ANTIGUEDAD CARNET,CAUSA PEATON
34540,34540,2012S009089,Turismo,C 220,MERCEDES,Blau,B,7,Altres


In [89]:
df_gu[df_gu['CAUSA'] != 'Desconegut']

Unnamed: 0.1,Unnamed: 0,NUMERO EXPEDIENTE,CODIGO DISTRITO,DISTRITO,CODIGO BARRIO,BARRIO,CODIGO CALLE,CALLE,NUMERO POSTAL,DIA SEMANA,...,HORA,TURNO,CAUSA,FALLECIDOS,LESIONADOS LEVE,LESIONADOS GRAVE,CANTIDAD VICTIMAS,CANTIDAD VEHICULOS,COORDENADA UTM X,COORDENADA UTM Y
3,3,2012S005379,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,297001.0,Sant Antoni Maria Claret,0356 0356,Dimarts,...,10.0,Matí,Creuar per fora pas de vianants,0.0,2.0,0.0,2.0,1.0,43155273,458526601
32,32,2012S004196,10.0,Sant Martí,103-10-71,Provençals del Poblenou,701414.0,C-31,020740000,Dilluns,...,17.0,Tarda,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,43320157,458497551
56,56,2012S004063,10.0,Sant Martí,105-10-66,el Parc i la Llacuna del Poblenou,330107.0,Tànger,0037 0037,Dimecres,...,19.0,Tarda,Creuar per fora pas de vianants,0.0,1.0,0.0,1.0,1.0,43226801,458351810
65,65,2012S009089,1.0,Ciutat Vella,11-1-1,el Raval,277809.0,Reina Amàlia,0033A0033A,Diumenge,...,3.0,Nit,Altres,0.0,1.0,0.0,1.0,1.0,43039200,458091274
77,77,2012S001755,1.0,Ciutat Vella,12-1-2,el Barri Gòtic,34308.0,Rambla,0012 0012,Divendres,...,17.0,Tarda,Creuar per fora pas de vianants,0.0,1.0,0.0,1.0,1.0,43113186,458101457
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
84983,84983,2020S006153,8.0,Nou Barris,83-8-52,la Prosperitat,282650.0,Rio de Janeiro,0131 0135,Dimecres,...,20.0,Tarda,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,4588441.18,432055.04
85023,85023,2020S006193,8.0,Nou Barris,83-8-51,Verdun,174307.0,Júlia,0007 0009,Dijous,...,18.0,Tarda,Creuar per fora pas de vianants,0.0,1.0,0.0,1.0,2.0,4588067.48,431186.87
85028,85028,2020S006198,7.0,Horta-Guinardó,74-7-35,el Guinardó,194406.0,Maragall,0219 0219,Dijous,...,19.0,Tarda,Creuar per fora pas de vianants,0.0,1.0,0.0,1.0,1.0,4586499.91,431247.93
85060,85060,2020S006230,3.0,Sants-Montjuïc,33-3-16,la Bordeta,222603.0,Moianès,0001 0001,Dilluns,...,21.0,Tarda,Desobeir el senyal del semàfor,0.0,2.0,0.0,2.0,1.0,4580420.26,428362.5


In [87]:
df_causas[df_causas['DESCRIPCION CAUSA'] != 'No hi ha causa mediata']

Unnamed: 0.1,Unnamed: 0,NUMERO EXPEDIENTE,DESCRIPCION CAUSA
21,21,2011S007033,Excés de velocitat o inadequada
44,44,2011S003275,Alcoholèmia
58,58,2011S005866,Calçada en mal estat
63,63,2011S007817,Alcoholèmia
65,65,2011S006637,Excés de velocitat o inadequada
...,...,...,...
93958,93958,2020S006204,Alcoholèmia
93966,93966,2020S006212,Excés de velocitat o inadequada
93985,93985,2020S006231,Objectes o animals a la calçada
94013,94013,2020S006259,Alcoholèmia


In [26]:
gu_causas.shape

(94073, 28)

In [30]:
gu_causas

Unnamed: 0,Unnamed: 0_x,NUMERO EXPEDIENTE,CODIGO DISTRITO,DISTRITO,CODIGO BARRIO,BARRIO,CODIGO CALLE,CALLE,NUMERO POSTAL,DIA SEMANA,...,CAUSA,FALLECIDOS,LESIONADOS LEVE,LESIONADOS GRAVE,CANTIDAD VICTIMAS,CANTIDAD VEHICULOS,COORDENADA UTM X,COORDENADA UTM Y,Unnamed: 0_y,DESCRIPCION CAUSA
0,0.0,2012S005688,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,209900.0,Meridiana,0203 0205,Dissabte,...,Desconegut,0.0,1.0,0.0,1.0,2.0,43202272,458517854,14620.0,No hi ha causa mediata
1,1.0,2012S005343,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,226400.0,Las Navas de Tolosa,0337 0337,Diumenge,...,Desconegut,0.0,1.0,0.0,1.0,2.0,43186084,458535236,11212.0,No hi ha causa mediata
2,2.0,2012S002291,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,161407.0,Indústria,0288 0288,Dijous,...,Desconegut,0.0,1.0,0.0,1.0,2.0,43155672,458510228,14624.0,No hi ha causa mediata
3,3.0,2012S005379,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,297001.0,Sant Antoni Maria Claret,0356 0356,Dimarts,...,Creuar per fora pas de vianants,0.0,2.0,0.0,2.0,1.0,43155273,458526601,11214.0,No hi ha causa mediata
4,4.0,2012S004837,10.0,Sant Martí,101-10-64,el Camp de l'Arpa del Clot,297001.0,Sant Antoni Maria Claret,0270 0270,Dimarts,...,Desconegut,0.0,2.0,0.0,2.0,1.0,43118043,458489892,8855.0,No hi ha causa mediata
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
94068,,2011S000420,,,,,,,,,...,,,,,,,,,8848.0,No hi ha causa mediata
94069,,2011S008673,,,,,,,,,...,,,,,,,,,8849.0,No hi ha causa mediata
94070,,2011S007057,,,,,,,,,...,,,,,,,,,8850.0,No hi ha causa mediata
94071,,2011S008313,,,,,,,,,...,,,,,,,,,8851.0,Alcoholèmia


In [31]:
causas_gu

Unnamed: 0,Unnamed: 0_x,NUMERO EXPEDIENTE,DESCRIPCION CAUSA,Unnamed: 0_y,CODIGO DISTRITO,DISTRITO,CODIGO BARRIO,BARRIO,CODIGO CALLE,CALLE,...,HORA,TURNO,CAUSA,FALLECIDOS,LESIONADOS LEVE,LESIONADOS GRAVE,CANTIDAD VICTIMAS,CANTIDAD VEHICULOS,COORDENADA UTM X,COORDENADA UTM Y
0,0.0,2011S006646,No hi ha causa mediata,,,,,,,,...,,,,,,,,,,
1,1.0,2011S003333,No hi ha causa mediata,,,,,,,,...,,,,,,,,,,
2,2.0,2011S006833,No hi ha causa mediata,,,,,,,,...,,,,,,,,,,
3,3.0,2011S002662,No hi ha causa mediata,,,,,,,,...,,,,,,,,,,
4,4.0,2011S008311,No hi ha causa mediata,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
94068,,2014S001703,,25648.0,5.0,Sarrià-Sant Gervasi,53-5-25,Sant Gervasi - la Bonanova,101008.0,Tibidabo,...,18.0,Tarda,Desconegut,0.0,1.0,0.0,1.0,2.0,42773725,458531806
94069,,2014S007660,,27160.0,8.0,Nou Barris,84-8-46,el Turó de la Peira,119003.0,Fabra i Puig,...,10.0,Matí,Desconegut,0.0,0.0,0.0,0.0,2.0,43108799,458707598
94070,,2014S003625,,27223.0,-1.0,Desconegut,-1--1--1,Desconegut,-1.0,Desconegut,...,6.0,Matí,Desconegut,0.0,0.0,0.0,0.0,1.0,-1,-1
94071,,2014S008479,,28290.0,8.0,Nou Barris,84-8-45,Porta,351901.0,Valldaura,...,21.0,Tarda,Desconegut,0.0,0.0,0.0,0.0,2.0,43143156,458798593


In [56]:
df_causas[df_causas['NUMERO EXPEDIENTE'].str.contains('2018S003625    ')]

Unnamed: 0.1,Unnamed: 0,NUMERO EXPEDIENTE,DESCRIPCION CAUSA
74581,74581,2018S003625,No hi ha causa mediata


In [59]:
df_gu['NUMERO EXPEDIENTE'].nunique()

85088

In [67]:
df_gu['NUMERO EXPEDIENTE'].duplicated().sum()

21

In [65]:
df_gu.loc[df_gu.duplicated(), :]

Unnamed: 0.1,Unnamed: 0,NUMERO EXPEDIENTE,CODIGO DISTRITO,DISTRITO,CODIGO BARRIO,BARRIO,CODIGO CALLE,CALLE,NUMERO POSTAL,DIA SEMANA,...,HORA,TURNO,CAUSA,FALLECIDOS,LESIONADOS LEVE,LESIONADOS GRAVE,CANTIDAD VICTIMAS,CANTIDAD VEHICULOS,COORDENADA UTM X,COORDENADA UTM Y


In [70]:
df_gu.loc[df_gu['NUMERO EXPEDIENTE'].duplicated(keep = False), :]

Unnamed: 0.1,Unnamed: 0,NUMERO EXPEDIENTE,CODIGO DISTRITO,DISTRITO,CODIGO BARRIO,BARRIO,CODIGO CALLE,CALLE,NUMERO POSTAL,DIA SEMANA,...,HORA,TURNO,CAUSA,FALLECIDOS,LESIONADOS LEVE,LESIONADOS GRAVE,CANTIDAD VICTIMAS,CANTIDAD VEHICULOS,COORDENADA UTM X,COORDENADA UTM Y
48623,48623,2017S008856,10.0,Sant Martí,71.0,Provençals del Poblenou,30409.0,Diagonal / Bac de Roda ...,0100 0108,Dijous,...,8.0,Matí,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,43353688.0,458455754.0
51618,51618,2017S003750,2.0,Eixample,7.0,la Dreta de l'Eixample,357001.0,Bergara ...,0014 0014,Dijous,...,16.0,Tarda,Altres,0.0,1.0,0.0,1.0,1.0,43060134.0,458217948.0
53761,53761,2017S004447,10.0,Sant Martí,69.0,Diagonal Mar i el Front Marítim del Poblenou,701278.0,Taulat ...,0136 0136,Divendres,...,20.0,Tarda,Creuar per fora pas de vianants,0.0,1.0,0.0,1.0,1.0,43404353.0,458391396.0
54338,54338,2017S003286,3.0,Sants-Montjuïc,13.0,la Marina de Port,109906.0,Energia ...,0001X0001X,Dilluns,...,13.0,Matí,Creuar per fora pas de vianants,0.0,1.0,0.0,1.0,1.0,42787929.0,45790069.0
54339,54339,2017S003286,3.0,Sants-Montjuïc,13.0,la Marina de Port,109906.0,Energia ...,0001X0001X,Dilluns,...,13.0,Matí,Transitar a peu per la calçada,0.0,1.0,0.0,1.0,1.0,42787929.0,45790069.0
55031,55031,2017S008856,10.0,Sant Martí,71.0,Provençals del Poblenou,30409.0,Diagonal / Bac de Roda ...,0100 0108,Dijous,...,8.0,Matí,Altres,0.0,1.0,0.0,1.0,1.0,43353688.0,458455754.0
55518,55518,2017S003750,2.0,Eixample,7.0,la Dreta de l'Eixample,357001.0,Bergara ...,0014 0014,Dijous,...,16.0,Tarda,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,43060134.0,458217948.0
57750,57750,2017S004447,10.0,Sant Martí,69.0,Diagonal Mar i el Front Marítim del Poblenou,701278.0,Taulat ...,0136 0136,Divendres,...,20.0,Tarda,Transitar a peu per la calçada,0.0,1.0,0.0,1.0,1.0,43404353.0,458391396.0
59192,59192,2018S003156,3.0,Sants-Montjuïc,16.0,la Bordeta,169409.0,Corts Catalanes ...,111-119,Dimarts,...,9.0,Matí,Altres,0.0,1.0,0.0,1.0,1.0,427647.5,4579751.39
59194,59194,2018S003156,3.0,Sants-Montjuïc,16.0,la Bordeta,169409.0,Corts Catalanes ...,111-119,Dimarts,...,9.0,Matí,Desobeir el senyal del semàfor,0.0,1.0,0.0,1.0,1.0,427647.5,4579751.39


In [66]:
df_gu[df_gu['NUMERO EXPEDIENTE']]

Unnamed: 0.1,Unnamed: 0,NUMERO EXPEDIENTE,CODIGO DISTRITO,DISTRITO,CODIGO BARRIO,BARRIO,CODIGO CALLE,CALLE,NUMERO POSTAL,DIA SEMANA,...,HORA,TURNO,CAUSA,FALLECIDOS,LESIONADOS LEVE,LESIONADOS GRAVE,CANTIDAD VICTIMAS,CANTIDAD VEHICULOS,COORDENADA UTM X,COORDENADA UTM Y
