## Preparación de los datos.

El proposito de este notebook es recolectar los datasets que se utilizaran en este estudio y generar un dataset limpio para realizar analisis.

In [None]:
# Importamos las librerias para el manejo de datasets
import pandas as pd
import numpy as np
import os

### Métodos preparación datos.

In [None]:
MODE_RUN = 'DEV' # Modo de ejecucion del notebook
URL_DATA = 'Data/' # Ruta de data sin procesar 
URL_PREPARED_DATA = 'Prepared_Data/' # Ruta de data procesada

In [None]:
def printmode(value, mode=MODE_RUN):
    if mode == 'DEV':
        print(value)

In [None]:
def uppercasecolumns(dataframe):
    for column in dataframe.columns:
        dataframe.rename(columns = {column:column.upper()}, inplace = True)

In [None]:
def createprimarykey(dataframe):
    lskeys = []
    for index, row in dataframe.iterrows():
        fecha = row['FECHA']
        fechaDate = fecha.to_pydatetime()
        keyid = str(row['IDFORMULARIO']) + str(fechaDate.day) + str(fechaDate.month) + str(fechaDate.year)
        lskeys.append(int(keyid))
    return dataframe.insert(0,"KEYID", lskeys)

In [None]:
def renamecolumn(dataframe,columnName,columnNameChanged):
    dataframe.rename(columns= {columnName: columnNameChanged.upper() }, inplace = True)

In [None]:
def validatecolumns(dfprincipal, dfcomp1, dfcomp2):
    stcolumns = set()
    for column in dfprincipal.columns:
        if column not in dfcomp1.columns:
            stcolumns.add(column)
            printmode(f'Does not Exists {column}')
        else:
            if type(dfprincipal[column]) != type(dfcomp1[column]):
                printmode('Different')
        if column not in dfcomp2.columns:
            stcolumns.add(column)
            printmode(f'Does not Exists {column}')
        else:
            if type(dfprincipal[column]) != type(dfcomp2[column]):
                printmode('Different')
    return stcolumns

In [None]:
def deletecolumnsbyiterable(dataframe,columns):
    for column in columns:
        del dataframe[column]
    return dataframe

### Extracción de datasets a dataframe.

In [None]:
# !wget -O siniestros_2017.xlsx https://datosabiertos.bogota.gov.co/dataset/8aa2f79c-5d32-4e6a-8eb3-a5af0ac4c172/resource/072931b0-38fb-4a29-92dd-c7302d930be3/download/base_2018.xlsx

In [None]:
#sina2017 = pd.read_excel('https://datosabiertos.bogota.gov.co/dataset/8aa2f79c-5d32-4e6a-8eb3-a5af0ac4c172/resource/236065f3-93e0-43f1-a1ba-e25d5529cbed/download/base_2017.xlsx', sheet_name ='ACCIDENTES')
sina2017 = pd.read_excel(URL_DATA+'Base_2017.xlsx',sheet_name ='ACCIDENTES')

In [None]:
#sinc2017 = pd.read_excel('https://datosabiertos.bogota.gov.co/dataset/8aa2f79c-5d32-4e6a-8eb3-a5af0ac4c172/resource/236065f3-93e0-43f1-a1ba-e25d5529cbed/download/base_2017.xlsx', sheet_name ='CONDUCTORES]')
sinc2017 = pd.read_excel(URL_DATA+'Base_2017.xlsx',sheet_name ='CONDUCTORES')

In [None]:
#sinv2017 = pd.read_excel('https://datosabiertos.bogota.gov.co/dataset/8aa2f79c-5d32-4e6a-8eb3-a5af0ac4c172/resource/236065f3-93e0-43f1-a1ba-e25d5529cbed/download/base_2017.xlsx', sheet_name ='VICTIMAS')
sinv2017 = pd.read_excel(URL_DATA+'Base_2017.xlsx',sheet_name ='VICTIMAS')

In [None]:
#sina2018 = pd.read_excel('https://datosabiertos.bogota.gov.co/dataset/8aa2f79c-5d32-4e6a-8eb3-a5af0ac4c172/resource/072931b0-38fb-4a29-92dd-c7302d930be3/download/base_2018.xlsx', sheet_name ='ACCIDENTES')
sina2018 = pd.read_excel(URL_DATA+'Base_2018.xlsx',sheet_name ='ACCIDENTES')

In [None]:
#sinc2018 = pd.read_excel('https://datosabiertos.bogota.gov.co/dataset/8aa2f79c-5d32-4e6a-8eb3-a5af0ac4c172/resource/072931b0-38fb-4a29-92dd-c7302d930be3/download/base_2018.xlsx', sheet_name ='CONDUCTORES')
sinc2018 = pd.read_excel(URL_DATA+'Base_2018.xlsx',sheet_name ='CONDUCTORES')

In [None]:
#sinv2018 = pd.read_excel('https://datosabiertos.bogota.gov.co/dataset/8aa2f79c-5d32-4e6a-8eb3-a5af0ac4c172/resource/072931b0-38fb-4a29-92dd-c7302d930be3/download/base_2018.xlsx', sheet_name ='VICTIMAS')
sinv2018 = pd.read_excel(URL_DATA+'Base_2018.xlsx',sheet_name ='VICTIMAS')

In [None]:
sina2019 = pd.read_excel(URL_DATA+'Base_2019.xlsx',sheet_name ='ACCIDENTES')

In [None]:
sinc2019 = pd.read_excel(URL_DATA+'Base_2019.xlsx',sheet_name ='CONDUCTORES')

In [None]:
sinv2019 = pd.read_excel(URL_DATA+'Base_2019.xlsx',sheet_name ='VICTIMAS')

### Conversión  nombres columnas por dataframe.

In [None]:
# Todos los nombres de las columnas se volveran UPPERCASE
uppercasecolumns(sina2017)
uppercasecolumns(sinc2017)
uppercasecolumns(sinv2017)

In [None]:
# Todos los nombres de las columnas se volveran UPPERCASE
uppercasecolumns(sina2018)
uppercasecolumns(sinc2018)
uppercasecolumns(sinv2018)

In [None]:
# Todos los nombres de las columnas se volveran UPPERCASE
uppercasecolumns(sina2019)
uppercasecolumns(sinc2019)
uppercasecolumns(sinv2019)

Se renombra el campo ID de los dataframes del 2017 para tener un mismo formato para la creacion de las primary keys de los cada dataframe

In [None]:
renamecolumn(sina2017,'ID','IDFORMULARIO')
renamecolumn(sinc2017,'ID','IDFORMULARIO')
renamecolumn(sinv2017,'ID','IDFORMULARIO')

In [None]:
printmode('------------------------ ACCIDENTES 2017 ------------------------')
printmode(sina2017.columns)
printmode('------------------------ ACCIDENTES 2018 ------------------------')
printmode(sina2018.columns)
printmode('------------------------ ACCIDENTES 2019 ------------------------')
printmode(sina2019.columns)

In [None]:
printmode('------------------------ CONDUCTORES 2017 ------------------------')
printmode(sinc2017.columns)
printmode('------------------------ CONDUCTORES 2018 ------------------------')
printmode(sinc2018.columns)
printmode('------------------------ CONDUCTORES 2019 ------------------------')
printmode(sinc2019.columns)

In [None]:
printmode('------------------------ VICTIMAS 2017 ------------------------')
printmode(sinv2017.columns)
printmode('------------------------ VICTIMAS 2018 ------------------------')
printmode(sinv2018.columns)
printmode('------------------------ VICTIMAS 2019 ------------------------')
printmode(sinv2019.columns)

In [None]:
"""del sina2017['KEYID']
del sinc2017['KEYID']
del sinv2017['KEYID']
del sina2018['KEYID']
del sinc2018['KEYID']
del sinv2018['KEYID']
del sina2019['KEYID']
del sinc2019['KEYID']
del sinv2019['KEYID']"""

In [None]:
printmode(sina2017.shape)
printmode(sina2018.shape)
printmode(sina2019.shape)

### Creación primary keyId por dataframe.

In [None]:
createprimarykey(sina2017)
createprimarykey(sina2018)
createprimarykey(sina2019)

In [None]:
createprimarykey(sinc2017)
createprimarykey(sinc2018)
createprimarykey(sinc2019)

In [None]:
createprimarykey(sinv2017)
createprimarykey(sinv2018)
createprimarykey(sinv2019)

In [None]:
printmode('------------------------ ACCIDENTES 2017 ------------------------')
printmode(sina2017.columns)
printmode('------------------------ ACCIDENTES 2018 ------------------------')
printmode(sina2018.columns)
printmode('------------------------ ACCIDENTES 2019 ------------------------')
printmode(sina2019.columns)

In [None]:
printmode('------------------------ CONDUCTORES 2017 ------------------------')
printmode(sinc2017.columns)
printmode('------------------------ CONDUCTORES 2018 ------------------------')
printmode(sinc2018.columns)
printmode('------------------------ CONDUCTORES 2019 ------------------------')
printmode(sinc2019.columns)

In [None]:
printmode('------------------------ VICTIMAS 2017 ------------------------')
printmode(sinv2017.columns)
printmode('------------------------ VICTIMAS 2018 ------------------------')
printmode(sinv2018.columns)
printmode('------------------------ VICTIMAS 2019 ------------------------')
printmode(sinv2019.columns)

### Validación columnas por dataFrame.

In [None]:
diccolumn = dict()

In [None]:
#valida las columnas que no los otros data
diccolumn['2017a'] = validatecolumns(sina2017, sina2018, sina2019)
diccolumn['2018a'] = validatecolumns(sina2018, sina2017, sina2019)
diccolumn['2019a'] = validatecolumns(sina2019, sina2017, sina2018)

In [None]:
diccolumn['2017c'] = validatecolumns(sinc2017, sinc2018, sinc2019)
diccolumn['2018c'] = validatecolumns(sinc2018, sinc2017, sinc2019)
diccolumn['2019c'] = validatecolumns(sinc2019, sinc2017, sinc2018)

In [None]:
diccolumn['2017v'] = validatecolumns(sinv2017, sinv2018, sinv2019)
diccolumn['2018v'] = validatecolumns(sinv2018, sinv2017, sinv2019)
diccolumn['2019v'] = validatecolumns(sinv2019, sinv2017, sinv2018)

In [None]:
printmode(diccolumn)

### Elimina columnas no existentes por dataframe.

In [None]:
printmode(sina2017.shape)
printmode(sina2018.shape)
printmode(sina2019.shape)

In [None]:
sin17 = sina2017.copy()
sin18 = sina2018.copy()
sin19 = sina2019.copy()

In [None]:
for key,value in diccolumn.items():
    if len(value) != 0:
        if key == '2017a':
            sina2017 = deletecolumnsbyiterable(sina2017,value)
        if key == '2018a':
            sina2018 = deletecolumnsbyiterable(sina2018,value)
        if key == '2019a':
            sina2019 = deletecolumnsbyiterable(sina2019,value)

In [None]:
printmode(sina2017.shape)
printmode(sina2018.shape)
printmode(sina2019.shape)

### Se unen dataframe por año y tipo

In [None]:
siniacci = pd.concat([sina2017,sina2018,sina2019])

In [None]:
sinicond = pd.concat([sinc2017,sinc2018,sinc2019])

In [None]:
sinivict = pd.concat([sinv2017,sinv2018,sinv2019])

In [None]:
printmode(siniacci.shape)
printmode(sinicond.shape)
printmode(sinivict.shape)

### Unificacion de columnas al dataframe principal

##### Se crea un nuevo dataframe con las columnas que integran al dataframe de sinicond

In [None]:
siniaccichild = siniacci[['KEYID','GRAVEDADCOD','CLASECODIGO','CHOQUECODIGO','DIRECCION','LOCALIDAD','HORA_PROCESADA','TIPODISENNO']]

In [None]:
printmode(siniaccichild.shape)

In [None]:
for index, row in sinicond.iterrows():
    if row['KEYID'] not in siniaccichild['KEYID'].values:
        siniaccichild.drop([siniaccichild[siniaccichild['KEYID'] == row['KEYID']]].index, inplace=True)

In [None]:
printmode(siniaccichild.shape)

In [None]:
"""
lsnewdata = []
for index,row in sinicond.iterrows():
    lsnewdata.append(siniaccichild[siniaccichild['KEYID']==row['KEYID']]['GRAVEDADCOD'].values[0])
"""

##### Se agrega las columnas necesarias del dataframe de accidentes a conductores 

In [None]:
sinicond.insert(len(sinicond.columns),'GRAVEDADCOD',[siniaccichild[siniaccichild['KEYID']==row['KEYID']]['GRAVEDADCOD'].values[0] for index,row in sinicond.iterrows()])

In [None]:
sinicond.insert(len(sinicond.columns),'CLASECODIGO',[siniaccichild[siniaccichild['KEYID']==row['KEYID']]['CLASECODIGO'].values[0] for index,row in sinicond.iterrows()])

In [None]:
sinicond.insert(len(sinicond.columns),'CHOQUECODIGO',[siniaccichild[siniaccichild['KEYID']==row['KEYID']]['CHOQUECODIGO'].values[0] for index,row in sinicond.iterrows()])

In [None]:
sinicond.insert(len(sinicond.columns),'DIRECCION',[siniaccichild[siniaccichild['KEYID']==row['KEYID']]['DIRECCION'].values[0] for index,row in sinicond.iterrows()])

In [None]:
sinicond.insert(len(sinicond.columns),'LOCALIDAD',[siniaccichild[siniaccichild['KEYID']==row['KEYID']]['LOCALIDAD'].values[0] for index,row in sinicond.iterrows()])

In [None]:
sinicond.insert(len(sinicond.columns),'HORA_PROCESADA',[siniaccichild[siniaccichild['KEYID']==row['KEYID']]['HORA_PROCESADA'].values[0] for index,row in sinicond.iterrows()])

In [None]:
sinicond.insert(len(sinicond.columns),'TIPODISENNO',[siniaccichild[siniaccichild['KEYID']==row['KEYID']]['TIPODISENNO'].values[0] for index,row in sinicond.iterrows()])

In [None]:
for column in ['GRAVEDADCOD','CLASECODIGO','CHOQUECODIGO','DIRECCION','LOCALIDAD','HORA_PROCESADA','TIPODISENNO']:
    count = sinicond[column].value_counts(dropna=False)
    printmode(count)

In [None]:
sinicond.columns

In [None]:
#siniacci.insert(0,"CANT_CONDUCTORES",  [ sinicondgpcount[sinicondgpcount['KEYID'] == row['KEYID']].values[0] for index, row in siniacci.iterrows() if row['KEYID'] in sinicondgpcount['KEYID'].values])

In [None]:
siniacci[siniacci['KEYID']== 3695130122018]['TIPODISENNO'].values[0]

In [None]:
nanpruebabcinto = sinicond["LLEVACINTURON"].value_counts(dropna=False)
printmode(nanpruebabcinto)

In [None]:
nanpruebachaleco = sinicond["LLEVACHALECO"].value_counts(dropna=False)
printmode(nanpruebachaleco)

In [None]:
nanpruebacasco = sinicond["LLEVACASCO"].value_counts(dropna=False)
printmode(nanpruebacasco)

In [None]:
#Se agrupa los conductores por primarykey
sinivgpcount = sinivict.groupby(['KEYID']).size().reset_index(name='VICTIMAS')
printmode(sinivgpcount)

In [None]:
printmode(sinivgpcount.describe())

In [None]:
key = sinivgpcount[sinivgpcount['VICTIMAS']==64]
printmode(key)

In [None]:
printmode(sinivict[sinivict['KEYID'] == 3103119112019])

In [None]:
sinicond.insert(len(sinicond.columns),'VICTIMAS',[sinivgpcount[sinivgpcount['KEYID'] == row['KEYID']]['VICTIMAS'].values[0] if len(sinivgpcount[sinivgpcount['KEYID'] == row['KEYID']]['VICTIMAS'].values) != 0 else 0 for index, row in sinicond.iterrows() ])

In [None]:
printmode(sinicond[['KEYID', 'VICTIMAS']])

In [None]:
printmode(sinicond.columns)

In [None]:
printmode(sinicond.shape)

### Se exporta el dataframe con la preparacion de datos lista.

In [None]:
sinicond.to_csv(URL_PREPARED_DATA+'siniestros-pre-delete.csv')

#### Se eliminan columnas no necesarias para el analisis o ml

Estas columnas son eliminadas teniendo en cuenta valores del modelo se que tendra en el futuro y que no generan valor ni para el analisis ni el modelo.

##### sinicond['CLASEOFICINA']
Oficina a la corresponde el oficial de trancito encargado de registrar el siniestro por lo cual se elimina la columna ya que no es un dato relevante para el producto de datos.

In [None]:
del sinicond['CLASEOFICINA']

##### sinicond['CLASEOFICINA']
Oficina a la corresponde el oficial de trancito encargado de registrar el siniestro por lo cual se elimina la columna ya que no es un dato relevante para el producto de datos.

In [None]:
del sinicond['CLASEOFICINA']

##### sinicond['GRADOOFICIAL']
Grado del oficial que conduce el vehiculo lo cual al ser un dato tan especifico no serive para el producto de datos que se esta desarrollando por lo tanto se elimina esta columna.

In [None]:
del sinicond['GRADOOFICIAL']

#### sinicond['UNIDADOFICIAL']
Corresponde a un vehiculo que es utilizado por alguna entidad publica, ya que es un dato tan especifico no sirve para el producto de datos que se esta desarrollando por lo tanto se elimina esta columna.

In [None]:
del sinicond['UNIDADOFICIAL']

#### sinicond['IDFORMULARIO']
El id del formulario se requiere para identificar los implicados en el siniestro ya que se cuneta con 3 matrices (accidente, condutor y victima) y despues de la inificacion de las matrices no es necesaria por lo tanto se elimina esta columna. 


In [None]:
del sinicond['IDFORMULARIO']

#### sinicond['MES_PROCESADO'] 
El mes procesado es el mes en cual se registro el siniestro ya que existe otra columan con el tipo de dato DateTime no se necesita esta columna por lo tanto se elimina esta columna. 

In [None]:
del sinicond['MES_PROCESADO'] 

#### sinicond['VEHICULO']
Hay dos columnas que identifican el mismo registro pero en diferente tipo de dato por lo cual se elimina ya que no es necesario para el desarrollo del producto de datos.

In [None]:
del sinicond['VEHICULO']

#### sinicond['CODIGORESTRICCIONLICENCIA']
El codigo de restriccion no es necesario de ya que para el producto de dotos solo se necesita el codigo de la licencia y la fecha de expedicion por lo tanto se elemina esta columna para el desarrollo del producto de datos.

In [None]:
del sinicond['CODIGORESTRICCIONLICENCIA']

#### sinicond['OFICINAEXPEDICIONLICENCIA']
La oficina de expedicion de la licencia no es necesario para el desarrollo del producto de datos ya que es un dato que no tiene alguna corelacion para el desarrollo del producto de datos.

In [None]:
del sinicond['OFICINAEXPEDICIONLICENCIA']

#### sinicond['ESPROPIETARIOVEHICULO'] 
El propietario del vehiculo no es un campo que represente valor alguno para el desarollo del producto de datos ya que no tiene correlacion que se identifique con la gravedad del siniestro.

In [None]:
del sinicond['ESPROPIETARIOVEHICULO'] 

#### sinicond['CAPACIDADCARGA']
No cuenta con la cantidad necesaria de variabilidad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos por lo tan se elimina esta columna.

In [None]:
del sinicond['CAPACIDADCARGA']

#### sinicond['CANTIDADPASAJEROS']
En la unificacion de las matrices las vitimas al vehiculo implicado por lo tanto la cantidad de pasajeros no es necesaria que se cuenta con este dato en otra columna por lo cual se elimina esta columna.

In [None]:
del sinicond['CANTIDADPASAJEROS']

#### sinicond['MODALIDADVEHICULO']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

In [None]:
del sinicond['MODALIDADVEHICULO']

#### sinicond['RADIOACCION']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

In [None]:
del sinicond['RADIOACCION']

#### sinicond['CON_CARGA']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

In [None]:
del sinicond['CON_CARGA']

#### sinicond['CON_MENORES']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

In [None]:
del sinicond['CON_MENORES']

#### sinicond['CON_MOTO']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

In [None]:
del sinicond['CON_MOTO']

#### sinicond['CON_PERSONA_MAYOR']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

In [None]:
del sinicond['CON_PERSONA_MAYOR']

#### sinicond['CON_RUTAS']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

In [None]:
del sinicond['CON_RUTAS']

#### sinicond['CON_TPI']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

In [None]:
del sinicond['CON_TPI']

#### sinicond['CON_VELOCIDAD']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

In [None]:
del sinicond['CON_VELOCIDAD']

#### sinicond['CON_BICICLETA']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

In [None]:
del sinicond['CON_BICICLETA']

#### sinicond['ESTABASERVICIOOFICIAL']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.


In [None]:
del sinicond['ESTABASERVICIOOFICIAL']

#### de
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.

#### sinicond['TIPOFALLA']
No cuenta con la cantidad necearia de variabiliad en los registro para que esta columna pueda ser usada en el desarrollo del producto de datos ya que la mayotia de registros se encuentran null.


#### Eliminación Columna ```'KEYID'```
Esta columna se utiliza para tener un control en la unificacion de las matrices depues de este no tiene ninguna funcion mas por lo tanto se elimina esta columna.


In [None]:
printmode(sinicond.shape)

In [None]:
printmode('Finalizo Ejecucion del Script 01_Preparacion_Datos_Siniestros_Viales')