## Preparación de Datos (Accidentes) parte 1: Null observations

Para este notebook el objetivo es evaluar la integridad del dataset "Accidentes.csv". Dado que la variable de interes en este dataset es el sitio exacto del accidente, las tuplas con valor faltante en esta columna serán eliminadas.

### Lectura de los datos

In [1]:
import sys
sys.path.append('../../../resources')
import numpy as np
import pandas as pd
import EDA_framework as EDA

df = pd.read_csv('../../../data/raw/Accidentes.csv')
df.head(10)

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES
0,12/24/2017 12:00:00 AM,2017,12,Dom,09:30:00:PM,Con heridos,Choque,CR 6 CL 94,1.0,,1
1,01/01/2015 12:00:00 AM,2015,1,Jue,02:10:00:PM,Con heridos,Choque,VIA 40 CON 77,1.0,,1
2,01/01/2015 12:00:00 AM,2015,1,Jue,02:15:00:PM,Solo daños,Choque,CALLE 14 CR 13,,,1
3,01/01/2015 12:00:00 AM,2015,1,Jue,02:20:00:PM,Solo daños,Choque,CL 74 CR 38C,,,1
4,01/01/2015 12:00:00 AM,2015,1,Jue,03:30:00:PM,Con heridos,Choque,CL 45 CR 19,2.0,,1
5,01/01/2015 12:00:00 AM,2015,1,Jue,04:20:00:AM,Solo daños,Choque,CRA 15 CLLE 21,,,1
6,01/01/2015 12:00:00 AM,2015,1,Jue,04:40:00:PM,Con heridos,Choque,CRA 14 CLLE 35,2.0,,1
7,01/01/2015 12:00:00 AM,2015,1,Jue,04:50:00:PM,Con heridos,Atropello,CRA 6 CLLE 90,1.0,,1
8,01/01/2015 12:00:00 AM,2015,1,Jue,06:00:00:AM,Solo daños,Choque,CRA 6 CLLE 92,,,1
9,01/01/2015 12:00:00 AM,2015,1,Jue,07:50:00:PM,Solo daños,Choque,CALLE 99 CR 56,,,1


### Reporte de datos faltantes

Para visualizar el estado de integridad de las columnas utilizo el framework para análisis exploratorio de datos (EDA) disponible en [GitHub](https://github.com/Bielos/EDA-Framework).

La función *get_missing_data_table* regresa un objeto DataFrame de Pandas con información de la cantidad de valores null en cada columna, asi como el porcentaje que esa cantidad representa con respecto al total de datos presentes en el dataset.

In [2]:
EDA.get_missing_data_table(df)

Unnamed: 0,TOTAL,PERCENTAGE
AÑO_ACCIDENTE,0,0.0
CANTIDAD_ACCIDENTES,0,0.0
CANT_HERIDOS_EN _SITIO_ACCIDENTE,20996,0.839068
CANT_MUERTOS_EN _SITIO_ACCIDENTE,24874,0.994045
CLASE_ACCIDENTE,0,0.0
DIA_ACCIDENTE,0,0.0
FECHA_ACCIDENTE,0,0.0
GRAVEDAD_ACCIDENTE,0,0.0
HORA_ACCIDENTE,0,0.0
MES_ACCIDENTE,0,0.0


Las columnas *CANT_HERIDOS_EN _SITIO_ACCIDENTE* y *CANT_MUERTOS_EN _SITIO_ACCIDENTE* tienen valores nulos que significan 0 cantidad de heridos y 0 cantidad de muertos, la razon por la que al ser leidos por Pandas son interpretados como nulos es porque el formato de los datos proviene de Excel, donde una columna sin datos toma por defecto el valor de 0.

Para *SITIO_EXACTO_ACCIDENTE* sin embargo, no conocer el sitio exacto de un accidente no permite sacar valor de una observación, dado que la idea final es ubicar cada accidente en una zona de la ciudad, esta observacion debe ser eliminada. Utilizando la funcion *get_null_observations* del framework para EDA obtenemos esta observación.

In [3]:
EDA.get_null_observations(df, 'SITIO_EXACTO_ACCIDENTE')

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES
12435,12/12/2016 12:00:00 AM,2016,12,Lun,04:50:00:PM,Solo daños,Choque,,,,1


El accidente que se obtiene muestra que es del año 2016 y que fue un accidente sin ningun tipo de gravedad, no hubo muertos ni heridos, esto indica que podemos prescindir de él sin ningún problema. Esto se hace mediante la funcion *delete_null_observations* del framework.

In [4]:
df = EDA.delete_null_observations(df, 'SITIO_EXACTO_ACCIDENTE')
EDA.get_missing_data_table(df)

Unnamed: 0,TOTAL,PERCENTAGE
AÑO_ACCIDENTE,0,0.0
CANTIDAD_ACCIDENTES,0,0.0
CANT_HERIDOS_EN _SITIO_ACCIDENTE,20995,0.839062
CANT_MUERTOS_EN _SITIO_ACCIDENTE,24873,0.994045
CLASE_ACCIDENTE,0,0.0
DIA_ACCIDENTE,0,0.0
FECHA_ACCIDENTE,0,0.0
GRAVEDAD_ACCIDENTE,0,0.0
HORA_ACCIDENTE,0,0.0
MES_ACCIDENTE,0,0.0


### Completando valores nulos para *CANT_HERIDOS_EN _SITIO_ACCIDENTE* and *CANT_MUERTOS_EN _SITIO_ACCIDENTE*

Utilizando la funcion *imput_nan_values* del framewrok, se remplazan los valores *null* por *0*.

In [5]:
df = EDA.imput_nan_values(df, 'CANT_HERIDOS_EN _SITIO_ACCIDENTE', 'constant', fill_value=0)
df.head()

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES
0,12/24/2017 12:00:00 AM,2017,12,Dom,09:30:00:PM,Con heridos,Choque,CR 6 CL 94,1.0,,1
1,01/01/2015 12:00:00 AM,2015,1,Jue,02:10:00:PM,Con heridos,Choque,VIA 40 CON 77,1.0,,1
2,01/01/2015 12:00:00 AM,2015,1,Jue,02:15:00:PM,Solo daños,Choque,CALLE 14 CR 13,0.0,,1
3,01/01/2015 12:00:00 AM,2015,1,Jue,02:20:00:PM,Solo daños,Choque,CL 74 CR 38C,0.0,,1
4,01/01/2015 12:00:00 AM,2015,1,Jue,03:30:00:PM,Con heridos,Choque,CL 45 CR 19,2.0,,1


In [6]:
df = EDA.imput_nan_values(df, 'CANT_MUERTOS_EN _SITIO_ACCIDENTE', 'constant', fill_value=0)
df.head()

Unnamed: 0,FECHA_ACCIDENTE,AÑO_ACCIDENTE,MES_ACCIDENTE,DIA_ACCIDENTE,HORA_ACCIDENTE,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SITIO_EXACTO_ACCIDENTE,CANT_HERIDOS_EN _SITIO_ACCIDENTE,CANT_MUERTOS_EN _SITIO_ACCIDENTE,CANTIDAD_ACCIDENTES
0,12/24/2017 12:00:00 AM,2017,12,Dom,09:30:00:PM,Con heridos,Choque,CR 6 CL 94,1.0,0.0,1
1,01/01/2015 12:00:00 AM,2015,1,Jue,02:10:00:PM,Con heridos,Choque,VIA 40 CON 77,1.0,0.0,1
2,01/01/2015 12:00:00 AM,2015,1,Jue,02:15:00:PM,Solo daños,Choque,CALLE 14 CR 13,0.0,0.0,1
3,01/01/2015 12:00:00 AM,2015,1,Jue,02:20:00:PM,Solo daños,Choque,CL 74 CR 38C,0.0,0.0,1
4,01/01/2015 12:00:00 AM,2015,1,Jue,03:30:00:PM,Con heridos,Choque,CL 45 CR 19,2.0,0.0,1


Después de reemplazar los valores faltantes, se comprueba por ultima vez la integridad de los datos con la tabla de la funcion *get_missing_data_table*.

In [7]:
EDA.get_missing_data_table(df)

Unnamed: 0,TOTAL,PERCENTAGE
AÑO_ACCIDENTE,0,0.0
CANTIDAD_ACCIDENTES,0,0.0
CANT_HERIDOS_EN _SITIO_ACCIDENTE,0,0.0
CANT_MUERTOS_EN _SITIO_ACCIDENTE,0,0.0
CLASE_ACCIDENTE,0,0.0
DIA_ACCIDENTE,0,0.0
FECHA_ACCIDENTE,0,0.0
GRAVEDAD_ACCIDENTE,0,0.0
HORA_ACCIDENTE,0,0.0
MES_ACCIDENTE,0,0.0


### Actualización del CSV

In [8]:
df.to_csv('Accidentes_nonull.csv', index=False)