## Preparación de datos (Victimas)
El dataset *Victimas.csv* contiene información detallada de las victimas que desafortunadamente están involucrados en los accidentes de la ciudad de Barranquilla en el periodo de 2015 al 2018. La limpieza de los datos se compone de buscar posibles datos faltantes y completarlos o eliminarlos según corresponda.

### Lectura del dataset

In [1]:
import sys
sys.path.append('../../../resources')
import numpy as np
import pandas as pd

df = pd.read_csv('../../../data/raw/Victimas.csv')
df.head(10)

Unnamed: 0,AÑO_ACCIDENTE,MES_ACCIDENTE,CONDICION_VICTIMA,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SERVICIO_VEHICULO_VICTIMA,CLASE_VEHICULO_VICTIMA,SEXO_VICTIMA,EDAD_VICTIMA,CANTIDAD_VICTIMAS,mes
0,2018,Marzo,Pasajero,herido,Choque,PUBLICO,BUSETA,M,1.0,1,3
1,2018,Junio,Pasajero,herido,Choque,PUBLICO,AUTOMOVIL,F,1.0,1,6
2,2018,Marzo,Acompañante,herido,Choque,PARTICULAR,MOTOCICLETA,M,10.0,1,3
3,2018,Abril,Acompañante,herido,Choque,PARTICULAR,AUTOMOVIL,M,10.0,1,4
4,2018,Mayo,Acompañante,herido,Choque,PARTICULAR,MOTOCICLETA,M,10.0,1,5
5,2018,Junio,Pasajero,herido,Choque,PUBLICO,BUSETA,M,10.0,1,6
6,2018,Enero,Peaton,herido,Atropello,PARTICULAR,MOTOCICLETA,M,11.0,1,1
7,2018,Junio,Ciclista,herido,Choque,OTROS,BICICLETA,M,11.0,1,6
8,2018,Febrero,Motociclista,herido,Choque,PARTICULAR,MOTOCICLETA,M,12.0,1,2
9,2018,Febrero,Peaton,herido,Atropello,PARTICULAR,MOTOCICLETA,M,12.0,1,2


### Evaluando la integridad de los datos
Para visualizar y encontrar de forma más sencilla los datos faltantes se utiliza el framework para análisis exploratorio de datos disponible en [GitHub](https://github.com/Bielos/EDA-Framework).

In [2]:
import EDA_framework as EDA
EDA.get_missing_data_table(df)

Unnamed: 0,TOTAL,PERCENTAGE
AÑO_ACCIDENTE,0,0.0
CANTIDAD_VICTIMAS,0,0.0
CLASE_ACCIDENTE,0,0.0
CLASE_VEHICULO_VICTIMA,0,0.0
CONDICION_VICTIMA,0,0.0
EDAD_VICTIMA,1,0.000283
GRAVEDAD_ACCIDENTE,0,0.0
MES_ACCIDENTE,0,0.0
SERVICIO_VEHICULO_VICTIMA,0,0.0
SEXO_VICTIMA,0,0.0


Los datos solo tienen un dato faltante en la columna *EDAD_VICTIMA* que será eliminado del dataset.

In [3]:
df = EDA.delete_null_observations(df, 'EDAD_VICTIMA')
EDA.get_missing_data_table(df)

Unnamed: 0,TOTAL,PERCENTAGE
AÑO_ACCIDENTE,0,0.0
CANTIDAD_VICTIMAS,0,0.0
CLASE_ACCIDENTE,0,0.0
CLASE_VEHICULO_VICTIMA,0,0.0
CONDICION_VICTIMA,0,0.0
EDAD_VICTIMA,0,0.0
GRAVEDAD_ACCIDENTE,0,0.0
MES_ACCIDENTE,0,0.0
SERVICIO_VEHICULO_VICTIMA,0,0.0
SEXO_VICTIMA,0,0.0


A su vez, el dataset incluye una columna llamada *mes* cuyos valores son la representación numérica de la columna *MES_ACCIDENTE*. Dado que este conjunto de datos se utilizará solo con fines de análisis la columna *mes* no aporta ninguna información valiosa y se elimina del conjunto de datos.

In [4]:
df = df.drop('mes', axis='columns')
df.head(10)

Unnamed: 0,AÑO_ACCIDENTE,MES_ACCIDENTE,CONDICION_VICTIMA,GRAVEDAD_ACCIDENTE,CLASE_ACCIDENTE,SERVICIO_VEHICULO_VICTIMA,CLASE_VEHICULO_VICTIMA,SEXO_VICTIMA,EDAD_VICTIMA,CANTIDAD_VICTIMAS
0,2018,Marzo,Pasajero,herido,Choque,PUBLICO,BUSETA,M,1.0,1
1,2018,Junio,Pasajero,herido,Choque,PUBLICO,AUTOMOVIL,F,1.0,1
2,2018,Marzo,Acompañante,herido,Choque,PARTICULAR,MOTOCICLETA,M,10.0,1
3,2018,Abril,Acompañante,herido,Choque,PARTICULAR,AUTOMOVIL,M,10.0,1
4,2018,Mayo,Acompañante,herido,Choque,PARTICULAR,MOTOCICLETA,M,10.0,1
5,2018,Junio,Pasajero,herido,Choque,PUBLICO,BUSETA,M,10.0,1
6,2018,Enero,Peaton,herido,Atropello,PARTICULAR,MOTOCICLETA,M,11.0,1
7,2018,Junio,Ciclista,herido,Choque,OTROS,BICICLETA,M,11.0,1
8,2018,Febrero,Motociclista,herido,Choque,PARTICULAR,MOTOCICLETA,M,12.0,1
9,2018,Febrero,Peaton,herido,Atropello,PARTICULAR,MOTOCICLETA,M,12.0,1


### Versión final del dataset
Finalmente, los datos son exportados a formato CSV para su posterior uso en la fase de análisis.

In [5]:
df.to_csv('../../../data/processed/Victimas_clean.csv', index=False)