## Módulo 1: Análisis de datos en el accidentes Python


##### Análisis de accidentes de tráfica de la ciudad de Madrid

##### Accidentes de tráfico en la Ciudad de Madrid registrados por la Policía Municipal. 
Gracias a la **web de [Datos Abiertos del Ayuntamiento de Madrid](https://datos.madrid.es/portal/site/egob/menuitem.400a817358ce98c34e937436a8a409a0/?vgnextoid=eba412b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextchannel=eba412b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)** . Los datos de accidentes se incluye **un registro por persona implicada en el accidente en el año 2019 y posteriores.**




In [None]:
# importamos las librerías necesarias 
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

In [None]:
# Modificamos los parámetros de los gráficos en matplotlib
from matplotlib.pyplot import rcParams

rcParams['figure.figsize'] = 12, 6 # el primer dígito es el ancho y el segundo el alto
rcParams["font.weight"] = "bold"
rcParams["font.size"] = 10
rcParams["axes.labelweight"] = "bold"

### Cargar los datospara el modelo

In [None]:
# Cargar el dataset desde un archivo
df_accidentes = pd.read_csv('../data/2023-2019_Accidentalidad.csv',delimiter=';',on_bad_lines='skip')

In [None]:
# Consultar los resgistro de DataFrame
df_accidentes

In [None]:
# Contar datos perdidio/fantantes
df_accidentes.isna().sum()

In [None]:
# La información útil sobre los datos guardados en formato dataFrame
df_accidentes.info()

In [None]:
# Consultar los datos perdido/nulo
df_accidentes['estado_meteorológico'].isna()

In [None]:
#Contar los valores nulos para este campo

df_accidentes['positiva_droga'].isna().sum()

In [None]:
#Mostrar los valores nulos de este campo
df_accidentes['positiva_droga'][df_accidentes['positiva_droga'].isna()]

In [None]:
df_accidentes['positiva_droga']= df_accidentes['positiva_droga'].fillna(0)

In [None]:
df_accidentes

In [None]:
#Consulta los registro que tienen algun valor nulo
df_accidentes.drop(df_accidentes.dropna().index)

In [None]:
# El tamanio esperado para el dataset limpio
df_accidentes.shape[0]-63167

Para evitar problemas posteriores, usamos el método ``dropna()`` para limpiar el tablón de valores perdidos (**missing values**) y reiniciamos el índice. Comprobamos la cantidad de las filas filtradas.

In [90]:
df_accident_filt=df_accidentes.dropna().reset_index(drop=True)
df_accident_filt

Unnamed: 0,num_expediente,fecha,hora,localizacion,numero,cod_distrito,distrito,tipo_accidente,estado_meteorológico,tipo_vehiculo,tipo_persona,rango_edad,sexo,cod_lesividad,lesividad,coordenada_x_utm,coordenada_y_utm,positiva_alcohol,positiva_droga
0,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Conductor,De 55 a 59 años,Mujer,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0
1,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0
2,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Hombre,14.0,Sin asistencia sanitaria,443397166,4478129388,N,0.0
3,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 21 a 24 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0
4,2023S000001,01/01/2023,1:15:00,"AVDA. ALFONSO XIII, 33",33,5.0,CHAMARTÍN,Alcance,Despejado,Todo terreno,Pasajero,De 55 a 59 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,443397166,4478129388,N,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75043,2019S039987,16/11/2019,14:45:00,AVDA. REINA VICTORIA / AVDA. PABLO IGLESIAS,21,7.0,CHAMBERÍ,Atropello a persona,Despejado,Motocicleta hasta 125cc,Conductor,De 25 a 29 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,439961798,4477600669,N,0.0
75044,2019S039987,16/11/2019,14:45:00,AVDA. REINA VICTORIA / AVDA. PABLO IGLESIAS,21,7.0,CHAMBERÍ,Atropello a persona,Despejado,Motocicleta hasta 125cc,Peatón,De 25 a 29 años,Mujer,7.0,Asistencia sanitaria sólo en el lugar del acci...,439961798,4477600669,N,0.0
75045,2019S039993,10/11/2019,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Motocicleta hasta 125cc,Conductor,De 25 a 29 años,Hombre,7.0,Asistencia sanitaria sólo en el lugar del acci...,439115482,4470746354,N,0.0
75046,2019S039993,10/11/2019,11:00:00,PLAZA. ELIPTICA / CALL. MARCELO USERA,1,12.0,USERA,Colisión lateral,Despejado,Turismo,Conductor,De 55 a 59 años,Mujer,14.0,Sin asistencia sanitaria,439115482,4470746354,N,0.0


In [None]:
df_accident_filt.info()
df_accident_filt['positiva_alcohol']

### Analisis

In [None]:
#La caracteristicas de cad columna
df_accident_filt.describe()

In [89]:
#Consultamos el tipo de datos
df_accident_filt.dtypes

num_expediente           object
fecha                    object
hora                     object
localizacion             object
numero                   object
cod_distrito            float64
distrito                 object
tipo_accidente           object
estado_meteorológico     object
tipo_vehiculo            object
tipo_persona             object
rango_edad               object
sexo                     object
cod_lesividad           float64
lesividad                object
coordenada_x_utm         object
coordenada_y_utm         object
positiva_alcohol         object
positiva_droga          float64
dtype: object

Los algoritmos **entienden de números y no otra cosa!**, con lo cual para que el algoritmo pueda trabajar con toda la información del dataset, los datos se tienen que **transformar en valores numéricos**.

In [None]:
#Consultar las variables que son del tipo "string"
df_accident_filt.dtypes[df_accident_filt.dtypes=='object']

Nos interesa el tipo de accidentes, vehiculo ,persona ,levisidad y el positiva de alcohol

In [None]:
#Analizar las tipo de accidentes
df_accident_filt['tipo_accidente'].value_counts()

In [None]:
df_accident_filt['tipo_persona'].value_counts()

In [None]:
df_accident_filt['tipo_vehiculo'].value_counts()

In [None]:
df_accident_filt['positiva_alcohol'].value_counts()

En la lista ``columnas_drop`` definimos las columnas a eliminar del dataset por ser meramente informativas.

In [106]:
columnas_drop = ["num_expediente",
                 "fecha",
                 "hora",
                 "localizacion",
                 "numero",
                 "cod_distrito",
                 "distrito",
                 "sexo",
                 "rango_edad",
                 "coordenada_x_utm",
                 "coordenada_y_utm",
                 "estado_meteorológico"
                 ]

Creamos un nuevo dataset que sea como el tablón anterior, eliminando las columnas de la lista indicada. Utilizamos el método `drop` para _DataFrames_ de _pandas_.

In [107]:
df_accident_filt2 = df_accident_filt.drop(columns=columnas_drop)
print("Tamaño del tablón filtrado: ", df_accident_filt.shape)
print("Tamaño del tablón nuevo: ", df_accident_filt2.shape)

Tamaño del tablón filtrado:  (75048, 19)
Tamaño del tablón nuevo:  (75048, 7)


In [108]:
# Tipología de las variables exsitentes en el nuevo dataset
df_accident_filt2.dtypes.value_counts()

object     5
float64    2
dtype: int64

In [110]:
from sklearn.preprocessing import LabelEncoder
etiquetado = LabelEncoder()
etiquetado.fit(df_accident_filt2['positiva_alcohol'])

In [113]:
# Transformamos el dataset aplicando el mapeado:
etiquetado.transform(df_accident_filt2['positiva_alcohol'])

array([0, 0, 0, ..., 0, 0, 0])