<a href="https://colab.research.google.com/github/JotaMTB/Python_exercises/blob/master/Operaciones_Dataset_accidentes_bici_Madrid_2018.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Dataset Accidentes de bicicleta en la ciudad de Madrid en 2018
Se muestran a continuación algunas operaciones de limpieza y filtrado del dataset.

A modo de ejercicio, el reultado esperado es mostrar por pantalla la cantidad de accidentes por día.

In [2]:
import pandas as pd

#El lugar desde el que se leén los datos:
url_data_2018 = "https://datos.madrid.es/egob/catalogo/300110-2-accidentes-bicicleta.csv"

#Generación del dataset
data_2018 = pd.read_csv(url_data_2018, encoding = "ISO-8859-1", sep = ";")

#Limpieza de posibles líneas totalmente vacías (no tienen porqué existir, es solo una verificación):
###print(f"El número de líneas antes de la limpieza es {data_2018.shape[0]}.")
data_2018 = data_2018.dropna(axis = 0, how = "all")
###print(f"El número de líneas después de la limpieza es {data_2018.shape[0]}.")

#Filtro el dataset con las columnas que quiero/necesito analizar.
#Con el siguiente método eliminos todas las columnas que no quiero.
#Será de ayuda hacer un >data_2018.columns.values< para tener el array con el nombre de las columnas.
data_2018_filter = data_2018.drop(['FECHA', 'RANGO HORARIO', 'LUGAR ACCIDENTE', 'Nº', 'Nº PARTE', 'CPFA Granizo',
        'CPFA Hielo', 'CPFA Lluvia', 'CPFA Niebla', 'CPFA Seco', 'CPFA Nieve', 'CPSV Mojada', 'CPSV Aceite',
        'CPSV Barro', 'CPSV Grava Suelta', 'CPSV Hielo', 'CPSV Seca Y Limpia', 'TIPO ACCIDENTE', 'Tipo Vehiculo',
        'TIPO PERSONA', 'LESIVIDAD'], axis = 1)

num_victimas = data_2018_filter['* Nº VICTIMAS'].values.ravel().sum()
print(f"En un total de {data_2018.shape[0]} accidentes en 2018, las víctimas de diversa consideración han sido {num_victimas}.")

#Creación de una agrupación de los datos por día de la semana. Con esto vamos a ver qué día fue el de mayor siniestralidad:
data_2018_dias = data_2018_filter.groupby(['DIA SEMANA'])
print("Nº de accidentes en lunes:", data_2018_dias.get_group("LUNES").shape[0])
print("Nº de accidentes en martes:",data_2018_dias.get_group("MARTES").shape[0])
print("Nº de accidentes en miércoles:",data_2018_dias.get_group("MIERCOLES").shape[0])
print("Nº de accidentes en jueves:",data_2018_dias.get_group("JUEVES").shape[0])
print("Nº de accidentes en viernes:",data_2018_dias.get_group("VIERNES").shape[0])
print("Nº de accidentes en sábado:",data_2018_dias.get_group("SABADO").shape[0])
print("Nº de accidentes en domingo:",data_2018_dias.get_group("DOMINGO").shape[0])

En un total de 700 accidentes en 2018, las víctimas de diversa consideración han sido 789.
Nº de accidentes en lunes: 91
Nº de accidentes en martes: 106
Nº de accidentes en miércoles: 100
Nº de accidentes en jueves: 117
Nº de accidentes en viernes: 101
Nº de accidentes en sábado: 99
Nº de accidentes en domingo: 86


Apariencia del dataset antes de realizar el filtrado:

In [3]:
data_2018.head()

Unnamed: 0,FECHA,RANGO HORARIO,DIA SEMANA,DISTRITO,LUGAR ACCIDENTE,Nº,Nº PARTE,CPFA Granizo,CPFA Hielo,CPFA Lluvia,CPFA Niebla,CPFA Seco,CPFA Nieve,CPSV Mojada,CPSV Aceite,CPSV Barro,CPSV Grava Suelta,CPSV Hielo,CPSV Seca Y Limpia,* Nº VICTIMAS,TIPO ACCIDENTE,Tipo Vehiculo,TIPO PERSONA,SEXO,LESIVIDAD,Tramo Edad
0,01/01/2018,DE 13:00 A 13:59,LUNES,ARGANZUELA,CALLE DE ANCORA - PASEO DE LAS DELICIAS ...,0,2018/25,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO,SI,1,COLISIÓN DOBLE,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 30 A 34 ANOS
1,01/01/2018,DE 15:00 A 15:59,LUNES,CENTRO,CALLE DE ALCALA NUM ...,44,2018/76,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO,SI,2,ATROPELLO,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 25 A 29 AÑOS
2,02/01/2018,DE 12:00 A 12:59,MARTES,SALAMANCA,CALLE DE SERRANO - CALLE DEL CONDE DE ARANDA ...,0,2018/30,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO,SI,2,ATROPELLO,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 40 A 44 AÑOS
3,03/01/2018,DE 13:00 A 13:59,MIERCOLES,SALAMANCA,PLAZA DE LA INDEPENDENCIA NUM ...,5,2018/94,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO,SI,1,COLISIÓN DOBLE,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 50 A 54 AÑOS
4,03/01/2018,DE 15:00 A 15:59,MIERCOLES,CIUDAD LINEAL,CALLE DE RAMIREZ DE ARELLANO NUM ...,35,2018/361,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO,SI,1,COLISIÓN DOBLE,BICICLETA,CONDUCTOR,HOMBRE,HL,DE 25 A 29 AÑOS


Apariencia del dataset después de filtrarlo:

In [4]:
data_2018_filter.head()

Unnamed: 0,DIA SEMANA,DISTRITO,* Nº VICTIMAS,SEXO,Tramo Edad
0,LUNES,ARGANZUELA,1,HOMBRE,DE 30 A 34 ANOS
1,LUNES,CENTRO,2,HOMBRE,DE 25 A 29 AÑOS
2,MARTES,SALAMANCA,2,HOMBRE,DE 40 A 44 AÑOS
3,MIERCOLES,SALAMANCA,1,HOMBRE,DE 50 A 54 AÑOS
4,MIERCOLES,CIUDAD LINEAL,1,HOMBRE,DE 25 A 29 AÑOS


Consulta del nombre de las columnas del dataset sin filtar:

In [5]:
data_2018.columns.values

array(['FECHA', 'RANGO HORARIO', 'DIA SEMANA', 'DISTRITO',
       'LUGAR ACCIDENTE', 'Nº', 'Nº PARTE', 'CPFA Granizo', 'CPFA Hielo',
       'CPFA Lluvia', 'CPFA Niebla', 'CPFA Seco', 'CPFA Nieve',
       'CPSV Mojada', 'CPSV Aceite', 'CPSV Barro', 'CPSV Grava Suelta',
       'CPSV Hielo', 'CPSV Seca Y Limpia', '* Nº VICTIMAS',
       'TIPO ACCIDENTE', 'Tipo Vehiculo', 'TIPO PERSONA', 'SEXO',
       'LESIVIDAD', 'Tramo Edad'], dtype=object)