## Preparación de los datos.

El proposito de este notebook es recolectar los datasets que se utilizaran en este estudio y generar un dataset limpio para realizar analisis.

In [55]:
# Importamos las librerias para el manejo de datasets
import pandas as pd
import numpy as np
import os

### Métodos preparación datos.

In [56]:
MODE_RUN = 'DEV' # Modo de ejecucion del notebook
URL_DATA = 'Data/' # Ruta de data sin procesar 
URL_PREPARED_DATA = 'Prepared_Data/' # Ruta de data procesada

In [57]:
def printmode(value, mode=MODE_RUN):
    if mode == 'DEV':
        print(value)

In [58]:
def uppercasecolumns(dataframe):
    for column in dataframe.columns:
        dataframe.rename(columns = {column:column.upper()}, inplace = True)

In [59]:
def createprimarykey(dataframe):
    lskeys = []
    for index, row in dataframe.iterrows():
        fecha = row['FECHA']
        fechaDate = fecha.to_pydatetime()
        keyid = str(row['IDFORMULARIO']) + str(fechaDate.day) + str(fechaDate.month) + str(fechaDate.year)
        lskeys.append(int(keyid))
    return dataframe.insert(0,"KEYID", lskeys)

In [60]:
def renamecolumn(dataframe,columnName,columnNameChanged):
    dataframe.rename(columns= {columnName: columnNameChanged.upper() }, inplace = True)

In [61]:
def validatecolumns(dfprincipal, dfcomp1, dfcomp2):
    stcolumns = set()
    for column in dfprincipal.columns:
        if column not in dfcomp1.columns:
            stcolumns.add(column)
            printmode(f'Does not Exists {column}')
        else:
            if type(dfprincipal[column]) != type(dfcomp1[column]):
                printmode('Different')
        if column not in dfcomp2.columns:
            stcolumns.add(column)
            printmode(f'Does not Exists {column}')
        else:
            if type(dfprincipal[column]) != type(dfcomp2[column]):
                printmode('Different')
    return stcolumns


In [62]:
def deletecolumnsbyiterable(dataframe,columns):
    for column in columns:
        del dataframe[column]
    return dataframe

### Extracción de datasets a dataframe.

In [63]:
sina2017 = pd.read_excel(URL_DATA+'Base_2017.xlsx',sheet_name ='ACCIDENTES')

In [64]:
sinc2017 = pd.read_excel(URL_DATA+'Base_2017.xlsx',sheet_name ='CONDUCTORES')

In [65]:
sinv2017 = pd.read_excel(URL_DATA+'Base_2017.xlsx',sheet_name ='VICTIMAS')

### Conversión  nombres columnas por dataframe.

In [66]:
# Todos los nombres de las columnas se volveran UPPERCASE
uppercasecolumns(sina2017)
uppercasecolumns(sinc2017)
uppercasecolumns(sinv2017)

Se renombra el campo ID de los dataframes del 2017 para tener un mismo formato para la creacion de las primary keys de los cada dataframe

In [67]:
renamecolumn(sina2017,'ID','IDFORMULARIO')
renamecolumn(sinc2017,'ID','IDFORMULARIO')
renamecolumn(sinv2017,'ID','IDFORMULARIO')

In [68]:
printmode('------------------------ ACCIDENTES 2017 ------------------------')
printmode(sina2017.columns)

------------------------ ACCIDENTES 2017 ------------------------
Index(['IDFORMULARIO', 'DIA', 'FECHA', 'MES_PROCESADO', 'OFICINA',
       'GRAVEDADCOD', 'GRAVEDADNOMBRE', 'CLASECODIGO', 'CLASENOMBRE',
       'CHOQUECODIGO', 'CHOQUENOMBRE', 'OBJETOFIJOCODIGO', 'OBJETOFIJONOMBRE',
       'OTRACLASE', 'NOMBREOTRACLASE', 'LATITUD', 'LONGITUD', 'DIRECCION',
       'TIPOVIA1', 'NUMEROVIA1', 'LETRAVIA1', 'CARDINALVIA1', 'TIPOVIA2',
       'NUMEROVIA2', 'LETRAVIA2', 'CARDINALVIA2', 'COMPLEMENTO', 'MUNICIPIO',
       'LOCALIDAD', 'FECHAOCURRENCIA', 'HORAOCURRENCIA', 'HORA_PROCESADA',
       'AREA', 'SECTOR', 'ZONA', 'TIPODISENNO', 'TIPOTIEMPO', 'COORDENADAX',
       'COORDENADAY', 'CON_BICICLETA', 'CON_CARGA', 'CON_EMBRIAGUEZ',
       'CON_HUECOS', 'CON_MENORES', 'CON_MOTO', 'CON_PEATON',
       'CON_PERSONA_MAYOR', 'CON_RUTAS', 'CON_TPI', 'CON_VELOCIDAD'],
      dtype='object')


In [69]:
printmode('------------------------ CONDUCTORES 2017 ------------------------')
printmode(sinc2017.columns)

------------------------ CONDUCTORES 2017 ------------------------
Index(['IDFORMULARIO', 'FECHA', 'MES_PROCESADO', 'DIA_PROCESADO', 'VEHICULO',
       'EDAD_PROCESADA', 'LLEVACINTURON', 'LLEVACHALECO', 'LLEVACASCO', 'SEXO',
       'GRAVEDAD_PROCESADA', 'CLASEOFICIAL', 'GRADOOFICIAL', 'UNIDADOFICIAL',
       'ESTABASERVICIOOFICIAL', 'PORTALICENCIA', 'CODIGOCATEGORIALICENCIA',
       'CODIGORESTRICCIONLICENCIA', 'FECHAEXPEDICION',
       'OFICINAEXPEDICIONLICENCIA', 'ESPROPIETARIOVEHICULO', 'MODELOVEHICULO',
       'CAPACIDADCARGA', 'CANTIDADPASAJEROS', 'CLASEVEHICULO',
       'SERVICIOVEHICULO', 'MODALIDADVEHICULO', 'RADIOACCION',
       'POSSESEGURORESPONSABILIDAD', 'TIPOFALLA',
       'VEHICULO_VIAJABA_CLASIFICADO', 'CON_BICICLETA', 'CON_CARGA',
       'CON_EMBRIAGUEZ', 'CON_HUECOS', 'CON_MENORES', 'CON_MOTO', 'CON_PEATON',
       'CON_PERSONA_MAYOR', 'CON_RUTAS', 'CON_TPI', 'CON_VELOCIDAD'],
      dtype='object')


In [70]:
printmode('------------------------ VICTIMAS 2017 ------------------------')
printmode(sinv2017.columns)

------------------------ VICTIMAS 2017 ------------------------
Index(['IDFORMULARIO', 'FECHA', 'MES_PROCESADO', 'DIA_PROCESADO', 'NUMERO',
       'EDAD_PROCESADA', 'LLEVACINTURON', 'LLEVACHALECO', 'LLEVACASCO',
       'PEATON_PASAJERO', 'CODIGOVEHICULO', 'SEXO', 'GRAVEDAD_PROCESADA',
       'CLASEOFICIAL', 'GRADOOFICIAL', 'UNIDADOFICIAL', 'ESTABAENSERVICIO',
       'TRASLADADO_EN', 'VEHICULO_VIAJABA', 'VEHICULO_VIAJABA_CLASIFICADO',
       'CON_BICICLETA', 'CON_CARGA', 'CON_EMBRIAGUEZ', 'CON_HUECOS',
       'CON_MENORES', 'CON_MOTO', 'CON_PEATON', 'CON_PERSONA_MAYOR',
       'CON_RUTAS', 'CON_TPI', 'CON_VELOCIDAD'],
      dtype='object')


In [71]:
printmode(sina2017.shape)

(35170, 50)


### Creación primary keyId por dataframe.

In [72]:
createprimarykey(sina2017)

In [73]:
createprimarykey(sinc2017)

In [74]:
createprimarykey(sinv2017)

In [75]:
printmode('------------------------ ACCIDENTES 2017 ------------------------')
printmode(sina2017.columns)

------------------------ ACCIDENTES 2017 ------------------------
Index(['KEYID', 'IDFORMULARIO', 'DIA', 'FECHA', 'MES_PROCESADO', 'OFICINA',
       'GRAVEDADCOD', 'GRAVEDADNOMBRE', 'CLASECODIGO', 'CLASENOMBRE',
       'CHOQUECODIGO', 'CHOQUENOMBRE', 'OBJETOFIJOCODIGO', 'OBJETOFIJONOMBRE',
       'OTRACLASE', 'NOMBREOTRACLASE', 'LATITUD', 'LONGITUD', 'DIRECCION',
       'TIPOVIA1', 'NUMEROVIA1', 'LETRAVIA1', 'CARDINALVIA1', 'TIPOVIA2',
       'NUMEROVIA2', 'LETRAVIA2', 'CARDINALVIA2', 'COMPLEMENTO', 'MUNICIPIO',
       'LOCALIDAD', 'FECHAOCURRENCIA', 'HORAOCURRENCIA', 'HORA_PROCESADA',
       'AREA', 'SECTOR', 'ZONA', 'TIPODISENNO', 'TIPOTIEMPO', 'COORDENADAX',
       'COORDENADAY', 'CON_BICICLETA', 'CON_CARGA', 'CON_EMBRIAGUEZ',
       'CON_HUECOS', 'CON_MENORES', 'CON_MOTO', 'CON_PEATON',
       'CON_PERSONA_MAYOR', 'CON_RUTAS', 'CON_TPI', 'CON_VELOCIDAD'],
      dtype='object')


In [76]:
printmode('------------------------ CONDUCTORES 2017 ------------------------')
printmode(sinc2017.columns)

------------------------ CONDUCTORES 2017 ------------------------
Index(['KEYID', 'IDFORMULARIO', 'FECHA', 'MES_PROCESADO', 'DIA_PROCESADO',
       'VEHICULO', 'EDAD_PROCESADA', 'LLEVACINTURON', 'LLEVACHALECO',
       'LLEVACASCO', 'SEXO', 'GRAVEDAD_PROCESADA', 'CLASEOFICIAL',
       'GRADOOFICIAL', 'UNIDADOFICIAL', 'ESTABASERVICIOOFICIAL',
       'PORTALICENCIA', 'CODIGOCATEGORIALICENCIA', 'CODIGORESTRICCIONLICENCIA',
       'FECHAEXPEDICION', 'OFICINAEXPEDICIONLICENCIA', 'ESPROPIETARIOVEHICULO',
       'MODELOVEHICULO', 'CAPACIDADCARGA', 'CANTIDADPASAJEROS',
       'CLASEVEHICULO', 'SERVICIOVEHICULO', 'MODALIDADVEHICULO', 'RADIOACCION',
       'POSSESEGURORESPONSABILIDAD', 'TIPOFALLA',
       'VEHICULO_VIAJABA_CLASIFICADO', 'CON_BICICLETA', 'CON_CARGA',
       'CON_EMBRIAGUEZ', 'CON_HUECOS', 'CON_MENORES', 'CON_MOTO', 'CON_PEATON',
       'CON_PERSONA_MAYOR', 'CON_RUTAS', 'CON_TPI', 'CON_VELOCIDAD'],
      dtype='object')


In [77]:
printmode('------------------------ VICTIMAS 2017 ------------------------')
printmode(sinv2017.columns)

------------------------ VICTIMAS 2017 ------------------------
Index(['KEYID', 'IDFORMULARIO', 'FECHA', 'MES_PROCESADO', 'DIA_PROCESADO',
       'NUMERO', 'EDAD_PROCESADA', 'LLEVACINTURON', 'LLEVACHALECO',
       'LLEVACASCO', 'PEATON_PASAJERO', 'CODIGOVEHICULO', 'SEXO',
       'GRAVEDAD_PROCESADA', 'CLASEOFICIAL', 'GRADOOFICIAL', 'UNIDADOFICIAL',
       'ESTABAENSERVICIO', 'TRASLADADO_EN', 'VEHICULO_VIAJABA',
       'VEHICULO_VIAJABA_CLASIFICADO', 'CON_BICICLETA', 'CON_CARGA',
       'CON_EMBRIAGUEZ', 'CON_HUECOS', 'CON_MENORES', 'CON_MOTO', 'CON_PEATON',
       'CON_PERSONA_MAYOR', 'CON_RUTAS', 'CON_TPI', 'CON_VELOCIDAD'],
      dtype='object')


### Validación columnas por dataFrame.

Se debe agregar un datframe principal el cual se valide las columnas que debe detener los dataframe nuevos, de no tener las columnas del principal se debene agregar las que falten y eliminar las que sobren., 

modificar "validatecolumns" para que solo aplique una condicion 

### Elimina columnas no existentes por dataframe.

In [294]:
printmode(sina2017.shape)

(35170, 51)


In [295]:
sin17 = sina2017.copy()

In [296]:
printmode(sinc2017.shape)

(67017, 43)


In [297]:
sinc17 = sinc2017.copy()

In [298]:
printmode(sinv2017.shape)

(8602, 32)


In [299]:
sinv17 = sinv2017.copy()

In [300]:
def searchcolumns(dataframe, dfcomparates):
    setdataframe = set()
    for column in dataframe.columns:
         if column not in dfcomparates:
            setdataframe.add(column)
    return setdataframe

In [301]:
listcond = ['KEYID','GRAVEDADCOD', 'CLASECODIGO', 'CHOQUECODIGO', 'DIRECCION','LOCALIDAD', 'HORA_PROCESADA', 'TIPODISENNO']

In [302]:
accident = ['KEYID' ,'DIA','FECHA', 'MES_PROCESADO', 'OFICINA',
            'GRAVEDADCOD', 'GRAVEDADNOMBRE', 'CLASECODIGO', 'CLASENOMBRE',
            'CHOQUECODIGO','CHOQUENOMBRE','OBJETOFIJOCODIGO','OBJETOFIJONOMBRE',
            'OTRACLASE','NOMBREOTRACLASE','LATITUD','LONGITUD','DIRECCION','TIPOVIA1',
            'NUMEROVIA1','LETRAVIA1', 'CARDINALVIA1', 'TIPOVIA2','NUMEROVIA2','LETRAVIA2',
            'CARDINALVIA2', 'COMPLEMENTO', 'MUNICIPIO','LOCALIDAD', 'FECHAOCURRENCIA', 
            'HORAOCURRENCIA', 'HORA_PROCESADA','AREA', 'SECTOR', 'ZONA','TIPODISENNO', 
            'TIPOTIEMPO', 'COORDENADAX','COORDENADAY', 'CON_EMBRIAGUEZ','CON_HUECOS',
            'CON_PEATON']

In [303]:
victi = ['KEYID','VICTIMAS']

In [304]:
setsinm = searchcolumns(sin17,accident)

In [305]:
setcond = searchcolumns(sinc17,listcond)

In [307]:
setvic = searchcolumns(sinv17,victi)

In [308]:
setsinm

{'CON_BICICLETA',
 'CON_CARGA',
 'CON_MENORES',
 'CON_MOTO',
 'CON_PERSONA_MAYOR',
 'CON_RUTAS',
 'CON_TPI',
 'CON_VELOCIDAD',
 'IDFORMULARIO'}

In [309]:
setcond

{'CANTIDADPASAJEROS',
 'CAPACIDADCARGA',
 'CLASEOFICIAL',
 'CLASEVEHICULO',
 'CODIGOCATEGORIALICENCIA',
 'CODIGORESTRICCIONLICENCIA',
 'CON_BICICLETA',
 'CON_CARGA',
 'CON_EMBRIAGUEZ',
 'CON_HUECOS',
 'CON_MENORES',
 'CON_MOTO',
 'CON_PEATON',
 'CON_PERSONA_MAYOR',
 'CON_RUTAS',
 'CON_TPI',
 'CON_VELOCIDAD',
 'DIA_PROCESADO',
 'EDAD_PROCESADA',
 'ESPROPIETARIOVEHICULO',
 'ESTABASERVICIOOFICIAL',
 'FECHA',
 'FECHAEXPEDICION',
 'GRADOOFICIAL',
 'GRAVEDAD_PROCESADA',
 'IDFORMULARIO',
 'LLEVACASCO',
 'LLEVACHALECO',
 'LLEVACINTURON',
 'MES_PROCESADO',
 'MODALIDADVEHICULO',
 'MODELOVEHICULO',
 'OFICINAEXPEDICIONLICENCIA',
 'PORTALICENCIA',
 'POSSESEGURORESPONSABILIDAD',
 'RADIOACCION',
 'SERVICIOVEHICULO',
 'SEXO',
 'TIPOFALLA',
 'UNIDADOFICIAL',
 'VEHICULO',
 'VEHICULO_VIAJABA_CLASIFICADO'}

In [310]:
setvic

{'CLASEOFICIAL',
 'CODIGOVEHICULO',
 'CON_BICICLETA',
 'CON_CARGA',
 'CON_EMBRIAGUEZ',
 'CON_HUECOS',
 'CON_MENORES',
 'CON_MOTO',
 'CON_PEATON',
 'CON_PERSONA_MAYOR',
 'CON_RUTAS',
 'CON_TPI',
 'CON_VELOCIDAD',
 'DIA_PROCESADO',
 'EDAD_PROCESADA',
 'ESTABAENSERVICIO',
 'FECHA',
 'GRADOOFICIAL',
 'GRAVEDAD_PROCESADA',
 'IDFORMULARIO',
 'LLEVACASCO',
 'LLEVACHALECO',
 'LLEVACINTURON',
 'MES_PROCESADO',
 'NUMERO',
 'PEATON_PASAJERO',
 'SEXO',
 'TRASLADADO_EN',
 'UNIDADOFICIAL',
 'VEHICULO_VIAJABA',
 'VEHICULO_VIAJABA_CLASIFICADO'}

In [278]:
def deletecolumnstrahs(dataframe, columns):
    for column in columns:
        del dataframe[column]
    return dataframe

In [316]:
result =  deletecolumnstrahs(sinc17, setcond)

In [317]:
result

Unnamed: 0,KEYID
0,295737112017
1,295737112017
2,295737112017
3,333599122017
4,333599122017
...,...
67012,1463112017
67013,1555112017
67014,1468112017
67015,1379112017
