## Preparación de Datos (Vehiculos)
El dataset *Vehiculos.csv* contiene información detallada de los vehiculos involucrados en los accidentes de la ciudad de Barranquilla en el periodo de 2015 al 2018. La limpieza de los datos se compone de buscar posibles datos faltantes y completarlos o eliminarlos según corresponda.

### Importing the dataset

In [1]:
import sys
sys.path.append('../../../resources')
import numpy as np
import pandas as pd

df = pd.read_csv('../../../data/raw/Vehiculos.csv')
df.head(10)

Unnamed: 0,AÑO_ACCIDENTE,MES_ACCIDENTE,CLASE ACCIDENTE,SERVICIO_VEHICULO_ACCIDENTADO,CLASE_VEHICULO_ACCIDENTADO,CANTIDAD_VEHICULOS
0,2015,1,Atropello,PARTICULAR,AUTOMOVIL,3
1,2015,1,Atropello,PARTICULAR,MOTOCICLETA,5
2,2015,1,Atropello,PUBLICO,AUTOMOVIL,2
3,2015,1,Atropello,PUBLICO,BUS,1
4,2015,1,Atropello,PUBLICO,BUSETA,1
5,2015,1,Caida Ocupante,PUBLICO,BUS,1
6,2015,1,Caida Ocupante,PUBLICO,MICROBUS,1
7,2015,1,Choque,DIPLOMATICO,BICICLETA,5
8,2015,1,Choque,DIPLOMATICO,MOTOCICLETA,1
9,2015,1,Choque,OFICIAL,CAMPERO,1


### Evaluando la integridad de los datos
Para visualizar y encontrar mejor los datos faltantes se utiliza el framework para análisis exploratorio de datos disponible en [GitHub](https://github.com/Bielos/EDA-Framework).

In [2]:
import EDA_framework as EDA
EDA.get_missing_data_table(df)

Unnamed: 0,TOTAL,PERCENTAGE
AÑO_ACCIDENTE,0,0.0
CANTIDAD_VEHICULOS,0,0.0
CLASE ACCIDENTE,0,0.0
CLASE_VEHICULO_ACCIDENTADO,20,0.011198
MES_ACCIDENTE,0,0.0
SERVICIO_VEHICULO_ACCIDENTADO,193,0.108063


La tabla anterior nos muestra que hay 20 registros donde hay valores faltantes en la columna *CLASE_VEHICULO_ACCIDENTADO*. Para entender mejor cómo completar estos 20 registros se visualizan los valores que hay en todo el dataset para esta variable.

In [3]:
df['CLASE_VEHICULO_ACCIDENTADO'].unique()

array(['AUTOMOVIL', 'MOTOCICLETA', 'BUS', 'BUSETA', 'MICROBUS',
       'BICICLETA', 'CAMPERO', 'CAMION', 'CAMIONETA', 'MOTOCARRO',
       'TRACCION ANIMAL', 'VOLQUETA', 'TRACTO/CAMION', 'DESCONOCIDA', nan,
       'MAQUINARIA INDUSTRIAL', 'REMOLQUE', 'CUATRIMOTO',
       'RETROEXCAVADORA', 'MAQUINARIA AGRICOLA', 'MOTOTRICICLO',
       'BUS ARTICULADO', 'CICLO TAXI', 'CAMION (RNMA)',
       'DUMPER VOLQUETAARTICULADA', 'CARRETILLA ELEVADORA',
       'SEMIREMOLQUE', 'MONTACARGAS'], dtype=object)

Dado que ya existe una categoría para cuando no se conoce esta variable (llamada *DESCONOCIDA*) los valores faltantes se remplazarán con este valor.

In [4]:
df = EDA.imput_nan_values(df, 'CLASE_VEHICULO_ACCIDENTADO', strateg='constant', fill_value='DESCONOCIDA')
EDA.get_missing_data_table(df)

Unnamed: 0,TOTAL,PERCENTAGE
AÑO_ACCIDENTE,0,0.0
CANTIDAD_VEHICULOS,0,0.0
CLASE ACCIDENTE,0,0.0
CLASE_VEHICULO_ACCIDENTADO,0,0.0
MES_ACCIDENTE,0,0.0
SERVICIO_VEHICULO_ACCIDENTADO,193,0.108063


Igualmente, se visualizan los valores de la variable *SERVICIO_VEHICULO_ACCIDENTADO* en busca de una forma de completar los valores faltantes.

In [5]:
df['SERVICIO_VEHICULO_ACCIDENTADO'].unique()

array(['PARTICULAR', 'PUBLICO', 'DIPLOMATICO', 'OFICIAL', nan,
       'No Aplica', 'ESPECIAL'], dtype=object)

Como puede observarse, no existe una categoria pre-definida para cuando esta variable se desconoce. Por lo tanto (y debido a que la cantidad de datos faltante ocupa un 10% de los datos) se procede a completar los registros faltantes con el valor *DESCONOCIDO*.

In [6]:
df = EDA.imput_nan_values(df, 'SERVICIO_VEHICULO_ACCIDENTADO', strateg='constant', fill_value='DESCONOCIDO')
EDA.get_missing_data_table(df)

Unnamed: 0,TOTAL,PERCENTAGE
AÑO_ACCIDENTE,0,0.0
CANTIDAD_VEHICULOS,0,0.0
CLASE ACCIDENTE,0,0.0
CLASE_VEHICULO_ACCIDENTADO,0,0.0
MES_ACCIDENTE,0,0.0
SERVICIO_VEHICULO_ACCIDENTADO,0,0.0


### Versión final del dataset
Finalmente, la columna *CLASE ACCIDENTE* divide sus dos palabras con un espacio y no con un guión bajo (_) como en el resto del dataset. Se procede entonces a renombrar la columna y exportar el dataset en formato CSV.

In [9]:
df = df.rename(columns={'CLASE ACCIDENTE':'CLASE_ACCIDENTE'})
df.to_csv('../../../data/processed/Vehiculos_clean.csv', index=False)