# Limpieza de datos - Proyecto W

El objetivo de este notebook es limpiar los datos de las bases de datos del año 2019 y 2020 del proyecto W, las cuales
provienen de diferentes archivos de Excel, de tal manera que las dos fuentes de datos puedan combinarse en un solo archivo, el cuál sera con el cual se migrará la informaación a la base de datos de la aplicación 'Proyecto W' diseñada para gestionar
esta información a partir del momento de la migración. La clave está, en que, la información debe coincidir de tal manera que
la misma pueda ser visualizada sin problema en la aplicación.

Este notebook se desarrollará en tres partes:

<b>Parte 1:</b>Sincronizando cantidad de features y nombres de los features.

<b>Parte 2:</b> Revisión de tipos de datos de los features para garantizar que coincidan con la base de datos de la aplicación a la cuál se van a migrar.

<b>Parte 3:</b> Garantizar que existan valores únicos para los features categorícos, y que los mismos sean coincidentes con los 
estandarizados en la aplicación.

<b>Finalización:</b> En esta parte se creará el archivo de Excel en el cuál se tendrá la base de datos limpia y lista
para realizar la migración. En este punto el Notebook termina.

Como resultado de este ejercicio, se tendran los siguientes productos:

a. Archivo en Excel (xlsx) que contendrá una base de datos limpia lista para migrar.

b. Archivo en Excel (xlsx) para cada feature que requiera verificarse manualmente, que contendrán registros que requieren ser revisados, para garantizar una óptima migración.

Como insumos para este ejercicio se tiene:

a. Base de datos 2019, llamada chubb_2019.xlsx

b. Base de datos 2020, llamada chubb_2020.xlsx

c. Diccionario de columnas chubb, llamado diccionario_columnas_chubb.csv, el cuál contendrá el nombre de los campos de la aplicación así como el tipo de datos que deberá contener. Este diccionario de manera simultanea con el desarrollo de la parte 1 del ejercicio.



In [244]:
#Importo librerias base con las cuales se realizará tratamiento de datos.
import numpy as np
import pandas as pd

In [245]:
#Cargo la información contenida en los archivos de excel como un dataframe.
df_w_2019 = pd.read_excel(open('chubb_2019.xlsx', 'rb'),sheet_name=1)
df_w_2020 = pd.read_excel(open('chubb_2020.xlsx', 'rb'),sheet_name=1)

In [246]:
#Exploramos la forma de estos dataframes, como primer indicador de poder unir los dos datasets en un sólo archivo.
print(df_w_2019.shape)
print(df_w_2020.shape)

(1208, 51)
(501, 51)


## PARTE I - Sincronizando cantidad de features y nombres de los features.

Objetivos:
1. Establecer un número de features coincidente, que permita combinar la información en un sólo archivo.
1. Establecer nombres de columnas uniformes.

In [247]:
#Genero un dataframe que me permita comparar visualmente si las columnas están organizadas de manera simetrica
columns_2019 = pd.DataFrame(df_w_2019.columns)
columns_2020 = pd.DataFrame(df_w_2020.columns)
columns_2020['2019'] = columns_2019[0]
columns_2020

Unnamed: 0,0,2019
0,ITEM,Q
1,CANTIDAD DE POLIZAS,ITEM
2,No POLIZA,CANTIDAD DE POLIZAS
3,No ZONIC,No POLIZA
4,CIUDAD OCURRENCIA,No ZONIC
5,DEPARTAMENTO,CIUDAD OCURRENCIA
6,DIRECCION,DEPARTAMENTO
7,ASEGURADO,DIRECCION
8,CEDULA DE CIUDADANIA,ASEGURADO
9,PRODUCTO,CC ASEGURADO


In [248]:
#Dado que no están organizadas simetricamente, y basado en el análisis visual, 
#se van a eliminar, de la columna 2020, las columnas que corresponden a los indices 0 y 51

df_w_2020.drop([df_w_2020.columns[50]], axis=1, inplace=True)
df_w_2019.drop([df_w_2019.columns[0]],axis=1,inplace = True)

In [249]:
#Genero un dataframe que me permita comparar visualmente si las columnas están organizadas de manera simetrica.
columns_2019 = pd.DataFrame(df_w_2019.columns)
columns_2020 = pd.DataFrame(df_w_2020.columns)
columns_2020['2019'] = columns_2019[0]
columns_2020

Unnamed: 0,0,2019
0,ITEM,ITEM
1,CANTIDAD DE POLIZAS,CANTIDAD DE POLIZAS
2,No POLIZA,No POLIZA
3,No ZONIC,No ZONIC
4,CIUDAD OCURRENCIA,CIUDAD OCURRENCIA
5,DEPARTAMENTO,DEPARTAMENTO
6,DIRECCION,DIRECCION
7,ASEGURADO,ASEGURADO
8,CEDULA DE CIUDADANIA,CC ASEGURADO
9,PRODUCTO,PRODUCTO


#### OBJETIVO 1 - CUMPLIDO
Aunque los nombres de columnas no son los mismos, los respectivos dataframes están organizados de manera simetrica.
En este punto empiezo a realizar una revisión manual, entre los campos de la base de datos de la aplicación, y los features
ya ordenados en este notebook, de tal manera que se pueda crear un diccionario con base en la posición de las columnas
en el dataframe. Como resultado de esta revisión se obtuvieron los siguientes resultados:

a. No se encuentra coincidencia de campo en base de datos original para fecha_confirmacion_siniestro.
b. El campo número de contacto se mapea como telefono_asegurado.
c. El campo hecho, se mapea como descripcion_siniestro
d. No existe campo asociado a razón objeción.
e. No existe campo asociado con reconsideración.
f. No existe campo asociado con fecha de respuesta.

In [250]:
#Importo el mapeo de features vs nombres de los campos que realice previamente, de tal manera, que pueda
#crear un diccionario con el cual poder renombrar las columnas de los archivos de excel que se están limpiando.

#importo el archivo csv que contiene el diccionario, creo el dataframe y lo llamo df_columnas
df_columnas = pd.read_csv('diccionario_columnas_chubb.csv')


In [251]:

#reordenar el dataframe df_columnas, por la columna posicion_bd_originals.
df_columnas.sort_values('posicion_bd_originales', inplace=True)

#descarto los valores nan, de la columna posicion_bd_originales, puesto que hubieron columnas en la base de datos, que
#no se mapearon contra los features de los archivos que son objeto de esta limpieza.

mascara = df_columnas.posicion_bd_originales.notna()
df_columnas = df_columnas[mascara]

#Establezco la columna 'posicion_bd_originals' como el index en el dataframe, de tal manera que me facilite unir
#este dataframe, con el de columns_2020
df_columnas.set_index('posicion_bd_originales',inplace=True)
df_columnas

Unnamed: 0_level_0,nombre_campo,tipo_dato
posicion_bd_originales,Unnamed: 1_level_1,Unnamed: 2_level_1
0.0,Item_no,float64
1.0,cantidad_polizas,float64
2.0,no_poliza,object
3.0,numero_zonic,object
4.0,ciudad_asegurado,object
5.0,departamento_asegurado,object
6.0,direccion_asegurado,object
7.0,nombre_asegurado,object
8.0,cedula_asegurado,object
9.0,producto_poliza,object


In [252]:
#Creo un nuevo dataframe con el cual puedo establecer el nombre de las columnas definitivas.
df_columnas_definitivas = columns_2020.join(df_columnas, lsuffix='_caller', rsuffix='_other')
df_columnas_definitivas


Unnamed: 0,0,2019,nombre_campo,tipo_dato
0,ITEM,ITEM,Item_no,float64
1,CANTIDAD DE POLIZAS,CANTIDAD DE POLIZAS,cantidad_polizas,float64
2,No POLIZA,No POLIZA,no_poliza,object
3,No ZONIC,No ZONIC,numero_zonic,object
4,CIUDAD OCURRENCIA,CIUDAD OCURRENCIA,ciudad_asegurado,object
5,DEPARTAMENTO,DEPARTAMENTO,departamento_asegurado,object
6,DIRECCION,DIRECCION,direccion_asegurado,object
7,ASEGURADO,ASEGURADO,nombre_asegurado,object
8,CEDULA DE CIUDADANIA,CC ASEGURADO,cedula_asegurado,object
9,PRODUCTO,PRODUCTO,producto_poliza,object


In [253]:
#identifico las columnas que voy a descartar al realizar la migración
mascara_columnas_a_descartar = df_columnas_definitivas['nombre_campo'].isna()
columnas_descartar = list(df_columnas_definitivas[mascara_columnas_a_descartar].index)

In [254]:
#Eliminamos las columnas en los dataset originales, que no se mapearon.
df_w_2019.drop(df_w_2019.iloc[:,columnas_descartar], inplace = True, axis = 1)
df_w_2020.drop(df_w_2020.iloc[:,columnas_descartar], inplace = True, axis = 1)

In [255]:
#Revisamos el número de columnas resultante. Evidenemnete se eliminaron las columnas que se indicaron, pasando de 50 a 44.
print(df_w_2019.shape)
print(df_w_2020.shape)

(1208, 44)
(501, 44)


In [256]:
#Ahora reemplazo los nombres de las columnas actuales, por los nombres de los campos en la base de datos a la cuál 
#se va a migrar. Teniendo en cuenta que en el año 2019 y 2020, los nombres varían es necesario crear dos diccionarios.

#Filtro los valores que no son nan, y actualizo el dataframe df_columnas_definitivas con ese resultado.
mascara_diccionario = df_columnas_definitivas.notna()
df_columnas_definitivas = df_columnas_definitivas[mascara_diccionario]

df_columnas_definitivas

Unnamed: 0,0,2019,nombre_campo,tipo_dato
0,ITEM,ITEM,Item_no,float64
1,CANTIDAD DE POLIZAS,CANTIDAD DE POLIZAS,cantidad_polizas,float64
2,No POLIZA,No POLIZA,no_poliza,object
3,No ZONIC,No ZONIC,numero_zonic,object
4,CIUDAD OCURRENCIA,CIUDAD OCURRENCIA,ciudad_asegurado,object
5,DEPARTAMENTO,DEPARTAMENTO,departamento_asegurado,object
6,DIRECCION,DIRECCION,direccion_asegurado,object
7,ASEGURADO,ASEGURADO,nombre_asegurado,object
8,CEDULA DE CIUDADANIA,CC ASEGURADO,cedula_asegurado,object
9,PRODUCTO,PRODUCTO,producto_poliza,object


In [257]:
#creo los diccionarios para cada año, teniendo en cuenta que la información de cada año está en datasets diferentes
diccionario_2019 = dict(zip(df_columnas_definitivas['2019'], df_columnas_definitivas['nombre_campo']))
diccionario_2020 = dict(zip(df_columnas_definitivas[0], df_columnas_definitivas['nombre_campo']))

In [258]:
#Verifico que los diccionarios se hayan creado
diccionario_2019, diccionario_2020

({'ITEM': 'Item_no',
  'CANTIDAD DE POLIZAS': 'cantidad_polizas',
  'No POLIZA': 'no_poliza',
  'No ZONIC': 'numero_zonic',
  'CIUDAD OCURRENCIA': 'ciudad_asegurado',
  'DEPARTAMENTO': 'departamento_asegurado',
  'DIRECCION': 'direccion_asegurado',
  'ASEGURADO': 'nombre_asegurado',
  'CC ASEGURADO': 'cedula_asegurado',
  'PRODUCTO': 'producto_poliza',
  'CATEGORIA ': 'categoria_reclamacion',
  'SINIESTRO': 'siniestro',
  'FECHA DE SINIESTRO': 'fecha_siniestro',
  'FECHA DE CONFIRMACIÓN DE SINIESTRO': nan,
  'FECHA AVISO INGETECH': 'fecha_aviso',
  'FECHA DE APROBACIÓN DE OBJECIÓN Y PAGO': 'fecha_aprobacion_pago',
  'FECHA DE DEFINICIÓN': 'fecha_definicion',
  'FECHA DE FORMALIZACIÓN DEL RECLAMO': 'fecha_aviso_ingetech',
  'SEMÁFORO': nan,
  'MES ': 'mes',
  'FECHA DE INSPECCION': 'fecha_inspeccion',
  'FECHA ENTREGA INFORME FINAL': 'fecha_entrega_informe_final',
  'FECHA ENVÍO INFORME FINAL': 'fecha_informe_final',
  'RESPONSABLE ': 'responsable',
  'VALOR RECLAMO': 'valor_reclamacion

In [259]:
#Renombro las columnas para cada uno de los datasets originales
df_w_2019.rename(columns=diccionario_2019, inplace=True)
df_w_2020.rename(columns=diccionario_2020, inplace=True)

In [260]:
#Verifico que el cambio de nombres de columnas se haya realizado.
df_w_2019.columns, df_w_2020.columns

(Index(['Item_no', 'cantidad_polizas', 'no_poliza', 'numero_zonic',
        'ciudad_asegurado', 'departamento_asegurado', 'direccion_asegurado',
        'nombre_asegurado', 'cedula_asegurado', 'producto_poliza',
        'categoria_reclamacion', 'siniestro', 'fecha_siniestro', 'fecha_aviso',
        'fecha_aprobacion_pago', 'fecha_definicion', 'fecha_aviso_ingetech',
        'mes', 'fecha_inspeccion', 'fecha_entrega_informe_final',
        'fecha_informe_final', 'responsable', 'valor_reclamacion', 'reserva',
        'honorarios', 'causa', 'cobertura', 'estado', 'observacion_1',
        'observacion_2', 'notas', 'factura', 'inspector', 'ajustador',
        'telefono_asegurado', 'coexistencia', 'bienes', 'descripcion_siniestro',
        'credito_poliza', 'vigencia_desde', 'vigencia_hasta', 'banco',
        'numero_cuenta_banco', 'forma_pago'],
       dtype='object'),
 Index(['Item_no', 'cantidad_polizas', 'no_poliza', 'numero_zonic',
        'ciudad_asegurado', 'departamento_asegurado', '

#### Objetivo 2, cumplido.

## Parte 2 - Revisión de tipos de datos de los features para garantizar que coincidan con la base de datos de la aplicación a la cuál se van a migrar.

Objetivos:

1. Crear un único dataframe y garantizar que los valores faltantes que tenga correspondan a la dinámica del negocio, y no
a errores en la limpieza de los datos.
2. Garantizar que los tipos de datos de los campos del nuevo_dataframe sean coincidentes con los tipos de datos de los campos de la aplicación.

In [261]:
df_w_2019['year'] = 2019
df_w_2020['year'] = 2020

In [262]:
df_w_2019['categoria_reclamacion'].value_counts()

NORMAL    509
MASIVO    507
ÚNICO     192
Name: categoria_reclamacion, dtype: int64

In [263]:
df_w_2019.shape, df_w_2020.shape

((1208, 45), (501, 45))

In [264]:
#Creo un dataframe df_migrar que contiene la información de los dos años, y los cuales, tienen los nombres de columna actualizados
df_migrar = pd.concat([df_w_2019, df_w_2020])

In [265]:
#Verifico la forma del nuevo dataframe, y si el número de filas se adicionaron correctamente.
print(df_migrar.shape, df_w_2019.shape, df_w_2020.shape)

(1709, 45) (1208, 45) (501, 45)


In [266]:
df_migrar['categoria_reclamacion'].value_counts()

NORMAL    584
MASIVO    507
ÚNICO     192
Name: categoria_reclamacion, dtype: int64

In [267]:
#Reviso cuántos valores faltantes hay por cada feature.
df_migrar.isna().sum()

Item_no                          0
cantidad_polizas               431
no_poliza                      427
numero_zonic                   432
ciudad_asegurado               425
departamento_asegurado         426
direccion_asegurado            427
nombre_asegurado               425
cedula_asegurado               425
producto_poliza                426
categoria_reclamacion          426
siniestro                      431
fecha_siniestro                426
fecha_aviso                    426
fecha_aprobacion_pago          467
fecha_definicion               483
fecha_aviso_ingetech           452
mes                            426
fecha_inspeccion               692
fecha_entrega_informe_final    457
fecha_informe_final            981
responsable                    426
valor_reclamacion              427
reserva                        447
honorarios                     429
causa                          428
cobertura                      428
estado                         426
observacion_1       


#### Objetivo 1, cumplido

In [268]:
#Reviso los tipos de datos que tiene cada columna, y verificar si hay compatibilidad con el tipo de datos en la
#base de datos de la aplicación. 

#Generos un dataframe con los tipos de datos de cada columna en el dataset actual.

df_migrar_tipos_datos = pd.DataFrame(df_migrar.dtypes)

#Agrego una columna adicional, con la cual visualizar el tipo de dato que se requiere en la base de datos a migrar.

diccionario_tipo_datos = dict(zip(df_columnas_definitivas['nombre_campo'], df_columnas_definitivas['tipo_dato']))
df_migrar_tipos_datos['tipo_dato'] = df_migrar_tipos_datos.index.map(diccionario_tipo_datos)

#identifico los features que no comparten el mismo tipo de datos para examinarlos posteriormente.

mask = df_migrar_tipos_datos[0] != df_migrar_tipos_datos['tipo_dato']
df_migrar_tipos_datos[mask]


Unnamed: 0,0,tipo_dato
Item_no,int64,float64
no_poliza,float64,object
cedula_asegurado,float64,object
valor_reclamacion,object,int32
coexistencia,object,bool
vigencia_desde,object,datetime64[ns]
vigencia_hasta,object,datetime64[ns]
year,int64,


Se identifican 7 features en los cuales los tipos de datos <b>no coinciden.</b>

In [269]:
#Convierto de integer a string (object), el campo no_poliza
print(df_migrar['no_poliza'])
df_migrar['no_poliza'] = df_migrar['no_poliza'].apply(str)
df_migrar['cedula_asegurado'] = df_migrar['cedula_asegurado'].apply(str)

0      2669.0
1      2669.0
2      2669.0
3      2669.0
4      2669.0
        ...  
496       NaN
497       NaN
498       NaN
499       NaN
500       NaN
Name: no_poliza, Length: 1709, dtype: float64


In [270]:
#Convierto de object a datetime, los features que fueron mal tipificados inicialmente.

df_migrar['fecha_inspeccion'] = pd.to_datetime(df_migrar.fecha_inspeccion.fillna(pd.NaT), errors='coerce')
df_migrar['vigencia_desde'] = pd.to_datetime(df_migrar.vigencia_desde.fillna(pd.NaT), errors='coerce')
df_migrar['vigencia_hasta'] = pd.to_datetime(df_migrar.vigencia_hasta.fillna(pd.NaT), errors='coerce')


In [271]:
#Convierto de Object (String) a integer

#Reviso cuales son los valores que hacen que el campo no sea tomado como "Integer". 
df_migrar['valor_reclamacion'].unique()


array(['NO REPORTA', 'NO REPORTA ', 4668980, 926030, 3609900, 1780000,
       614000, 900000, 2000000, 400000, 1820947, 1070000, 1150000, 959500,
       5565500, 1332000, 4000000, 1776000, 5569400, 5896000, 5770000,
       20633000, 35000000, 14000000, 5077000, 11067800, 16066900,
       14933924, 4875000, 6000000, 13499900, 2257500, 20009600, 3000000,
       15794341, 5946800, 7630000, 18929216, 27268700, 6841000, 6914700,
       3483998, 26063000, 11873000, 16000000, 4722500, 5000000, 12562500,
       18000000, 20392000, 18551001, 25117500, 6772000, 16459200,
       54252100, 11124500, 9301366, 18785000, 21459301, 9090000, 7613000,
       12572500, 7183000, 10000000, 19137000, 7400000, 5584000, 14355400,
       2499900, 13338500, 6929000, 5100000, 17348000, 10609550, 14674000,
       10728000, 7897000, 9305200, 7212200, 6925214, 15174851, 4730000,
       1440500, 5348200, 9899700, 5547000, 23388700, 3838500, 7254600,
       10692000, 18577200, 10415000, 15744450, 3268000, 16882000,
 

Se identifican cuatro valores que <b>NO</b> son tomados como integer.

<b>NO REPORTA </b>- De tipo texto (string)

<b>NO REPORTA </b>- De tipo texto (string)

<b>3.959.00 </b>- Aparentemente un número, pero de tipo texto (String), de igual manera el valor hay que revisarlo manualmente, puesto que queda la duda si es 3959 ó 395900

<b> '\xa0$ 2.240.000\xa0' </b> Aparentemente un número, pero de tipo texto (String)

<b>nan</b>- Posiblemente espacios en blanco u otros caracteres que no son reconocidos como número.


In [272]:
#Creo un archivo de excel para entregar de tal manera que se pueda hacer una revisión manual.
mask = np.logical_or(df_migrar['valor_reclamacion'] == '3.959.00' , df_migrar['valor_reclamacion'] == '\xa0$ 2.240.000\xa0')
df_migrar[mask].to_excel('revisar_valor_reclamacion.xlsx')

In [273]:

#convierto a 0 los valores antes mencionados, como forma establecida para imputar.

df_migrar['valor_reclamacion'] = df_migrar['valor_reclamacion'].replace('NO REPORTA',0)
df_migrar['valor_reclamacion'] = df_migrar['valor_reclamacion'].replace('NO REPORTA ',0)
df_migrar['valor_reclamacion'] = df_migrar['valor_reclamacion'].replace('3.959.00',0)
df_migrar['valor_reclamacion'] = df_migrar['valor_reclamacion'].replace('\xa0$ 2.240.000\xa0',2240000)
df_migrar['valor_reclamacion'] = df_migrar['valor_reclamacion'].fillna(0)


In [274]:
#Reviso de nuevo los valores únicos del campo.
df_migrar['valor_reclamacion'].unique()

array([0.0000000e+00, 4.6689800e+06, 9.2603000e+05, 3.6099000e+06,
       1.7800000e+06, 6.1400000e+05, 9.0000000e+05, 2.0000000e+06,
       4.0000000e+05, 1.8209470e+06, 1.0700000e+06, 1.1500000e+06,
       9.5950000e+05, 5.5655000e+06, 1.3320000e+06, 4.0000000e+06,
       1.7760000e+06, 5.5694000e+06, 5.8960000e+06, 5.7700000e+06,
       2.0633000e+07, 3.5000000e+07, 1.4000000e+07, 5.0770000e+06,
       1.1067800e+07, 1.6066900e+07, 1.4933924e+07, 4.8750000e+06,
       6.0000000e+06, 1.3499900e+07, 2.2575000e+06, 2.0009600e+07,
       3.0000000e+06, 1.5794341e+07, 5.9468000e+06, 7.6300000e+06,
       1.8929216e+07, 2.7268700e+07, 6.8410000e+06, 6.9147000e+06,
       3.4839980e+06, 2.6063000e+07, 1.1873000e+07, 1.6000000e+07,
       4.7225000e+06, 5.0000000e+06, 1.2562500e+07, 1.8000000e+07,
       2.0392000e+07, 1.8551001e+07, 2.5117500e+07, 6.7720000e+06,
       1.6459200e+07, 5.4252100e+07, 1.1124500e+07, 9.3013660e+06,
       1.8785000e+07, 2.1459301e+07, 9.0900000e+06, 7.6130000e

In [275]:
#Una vez limpiada la columna valor_reclamacion, procededo a convertirla en tipo integer.
df_migrar['valor_reclamacion'] = df_migrar['valor_reclamacion'].astype(int)

In [276]:
#Convierto de objeto (string) a bool. 

#Reviso cuales son los valores que tiene el feature y que impide que el tipo de datos sea tomado como bool.
df_migrar['coexistencia'].unique()

array(['NO', 'SI', nan], dtype=object)

Los valores que arroja son <b>NO</b>, <b>SI</b>, <b>nan</b>

In [277]:
#Creo un diccionario para mapear los valores string (SI, NO)
diccionario_bool = {"NO":False,"SI":True}

#Reemplazo los valores por True, False respectivamente. Esto convertirá el campo a tipo bool.
df_migrar['coexistencia'] = df_migrar['coexistencia'].map(diccionario_bool)
df_migrar['coexistencia'] = df_migrar['coexistencia'] == True

In [278]:
#Verifico si se hizo la conversión.
df_migrar['coexistencia'].value_counts()

False    1437
True      272
Name: coexistencia, dtype: int64

In [279]:
#Reviso los tipos de datos que tiene cada columna, y verificar si hay compatibilidad con el tipo de datos en la
#base de datos de la aplicación. 

#Generamos un dataframe con los tipos de datos de cada columna en el dataset actual.
df_migrar_tipos_datos = pd.DataFrame(df_migrar.dtypes)

#Agregamos una columna adicional, con la cual visualizar el tipo de dato que se requiere en la base de datos a mnigrar.
diccionario_tipo_datos = dict(zip(df_columnas_definitivas['nombre_campo'], df_columnas_definitivas['tipo_dato']))
df_migrar_tipos_datos['tipo_dato'] = df_migrar_tipos_datos.index.map(diccionario_tipo_datos)

#Vamos a identificar los features que no comparten el mismo tipo de datos para examinarlos posteriormente.

mask = df_migrar_tipos_datos[0] != df_migrar_tipos_datos['tipo_dato']

df_migrar_tipos_datos[mask]

Unnamed: 0,0,tipo_dato
Item_no,int64,float64
year,int64,


#### objetivo 2, cumplido.

## PARTE 3 - Garantizar que existan valores únicos para los features categorícos, y que los mismos sean coincidentes con los estandarizados en la aplicación.

Objetivos:

1. Identificar valores únicos para cada campo categoríco. Los campos categorícos se identificaron con base en la aplicación, y los valores estandar que se manejan para estos campos.

2. Reemplazar los valores no coincidentes por los valores estandar que maneja la aplicación.

In [280]:
#Reviso las columnas que tiene el dataframe df_migrar.
df_migrar.columns

Index(['Item_no', 'cantidad_polizas', 'no_poliza', 'numero_zonic',
       'ciudad_asegurado', 'departamento_asegurado', 'direccion_asegurado',
       'nombre_asegurado', 'cedula_asegurado', 'producto_poliza',
       'categoria_reclamacion', 'siniestro', 'fecha_siniestro', 'fecha_aviso',
       'fecha_aprobacion_pago', 'fecha_definicion', 'fecha_aviso_ingetech',
       'mes', 'fecha_inspeccion', 'fecha_entrega_informe_final',
       'fecha_informe_final', 'responsable', 'valor_reclamacion', 'reserva',
       'honorarios', 'causa', 'cobertura', 'estado', 'observacion_1',
       'observacion_2', 'notas', 'factura', 'inspector', 'ajustador',
       'telefono_asegurado', 'coexistencia', 'bienes', 'descripcion_siniestro',
       'credito_poliza', 'vigencia_desde', 'vigencia_hasta', 'banco',
       'numero_cuenta_banco', 'forma_pago', 'year'],
      dtype='object')

In [281]:
#creo una lista con los campos que tienen valores únicos, y creo la variable diccionario, la cual inicialmente estará vacia.
campos_categoricos = ['departamento_asegurado', 'ciudad_asegurado', 'producto_poliza', 'categoria_reclamacion', 'cobertura', 'bienes', 'estado', 'observacion_1']
diccionario = {}

#Extraigo cada uno de los valores únicos que tienen los campos definidos en la lista campos_categoricos.
for campo in campos_categoricos:
    diccionario[campo] = df_migrar[campo].unique()

#### Objetivo 1, cumplido

In [282]:
#Exploro los valores únicos de 'departamento_asegurado', 
diccionario['departamento_asegurado']


array(['CHOCO', 'VALLE DEL CAUCA', 'ANTIOQUIA', 'CORDOBA', 'PUTUMAYO',
       'BOLIVAR', 'ATLÁNTICO', 'NARIÑO', 'MAGDALENA', 'CAUCA', 'CALDAS',
       'RISARALDA', 'CUNDINAMARCA', 'HUILA', 'TOLIMA ', 'QUINDIO',
       'CESAR', 'GUAJIRA', 'META', 'CAQUETA', 'TOLIMA', 'ARMENIA',
       'HUILA ', 'NORTE DE SANTANDER', 'BOYACÁ', 'SAN JOSE DEL GUAVIARE',
       'GUAVIARE', 'SANTANDER', 'MEDELLIN', 'MANIZALES', 'AMAZONAS',
       'CALDAS ', 'ARAUCA', 'CAQUETÁ', 'QUINDIO ', 'NORTE DE SANTANDER ',
       'CAUCA ', nan], dtype=object)

In [283]:
# creo un diccionario con los valores correctos pra el campo "departamento_asegurado"

d_departamento = {'CHOCO':'Chocó','CHOCÓ':'Chocó','VALLE DEL CAUCA':'Valle del Cauca', 'ANTIOQUIA':'Antioquia', 'CORDOBA':'Córdoba', 
                  'PUTUMAYO':'Putumayo', 'BOLIVAR':'Bolivar', 'ATLÁNTICO':'Atlántico', 'NARIÑO':'Nariño', 'HUILA':'Huila',
                  'RISARALDA':'Risaralda','QUINDIO':'Quindío', 'TOLIMA':'Tolima', 'CALDAS':'Caldas','BOYACÁ':'Boyacá',
                  'MAGDALENA':'Magdalena','CAUCA':'Cauca', 'CUNDINAMARCA':'Cundinamarca', 'CAQUETÁ':'Caquetá','META':'Meta',
                  'CESAR':'Cesar', 'GUAJIRA':'La Guajira','ARMENIA':'Quindío', 'NORTE DE SANTANDER':'Norte de Santander',
                  'SAN JOSE DEL GUAVIARE':'Guaviare','GUAVIARE':'Guaviare', 'SANTANDER':'Santander', 'MEDELLIN':'Antiquía',
                  'MANIZALES':'Caldas','AMAZONAS':'Amazonas', 'CALDAS ':'Caldas', 'ARAUCA':'Arauca', 'NORTE DE SANTANDER ':'Norte de Santander',
                  'CAUCA ':'Cauca'}

#Realizo el reemplazo de los valores
df_migrar['departamento_asegurado'] = df_migrar['departamento_asegurado'].map(d_departamento)

#Reviso de nuevo los valores únicos de este feature para verificar que el cambio se haya dado
df_migrar['departamento_asegurado'].unique()

array(['Chocó', 'Valle del Cauca', 'Antioquia', 'Córdoba', 'Putumayo',
       'Bolivar', 'Atlántico', 'Nariño', 'Magdalena', 'Cauca', 'Caldas',
       'Risaralda', 'Cundinamarca', 'Huila', nan, 'Quindío', 'Cesar',
       'La Guajira', 'Meta', 'Tolima', 'Norte de Santander', 'Boyacá',
       'Guaviare', 'Santander', 'Antiquía', 'Amazonas', 'Arauca',
       'Caquetá'], dtype=object)

El campo <b>departamento_asegurado</b> se encuentra ajustado.

In [284]:
#Exploro los valores únicos de 'ciudad_asegurado', 
diccionario['ciudad_asegurado']


array(['QUIBDO', 'ISTMINA', 'ROLDANILLO', 'APARTADÓ', 'TURBACO', 'TURBO',
       'CAUCASIA', 'LLORO', 'LORICA', 'DOÑA JOSEFA', 'PUERTO ASIS',
       'PUERTO CAICEDO', 'CARTAGENA', 'SEVILLA', 'CAICEDONIA', 'MALAMBO',
       'CALI', 'BORAUDO', 'QUBDO', 'TUMACO', 'COLON', 'SANTA MARTA',
       'BUENOS AIRES', 'MARMATO', 'PEREIRA', 'VERGARA', 'GARZÓN ',
       'PLANADAS', 'PATIA', 'PIENDAMO', 'CHIA', 'POPAYÁN',
       'QUEBRADANEGRA', 'BUENAVENTURA', 'EL TAMBO', 'ARMENIA ',
       'DOSQUEBRADAS', 'PURIFICACIÓN', 'PURACE', 'BOSCONIA', 'RIOBLANCO',
       'VILLAGARZON', 'ORTEGA ', 'SANTANDER DE QUILICHAO',
       'SANTA ROSA DE CABAL', 'PITALITO', 'DIBULLA', 'CARTAGO',
       'PIENDAMO ', 'MARIQUITA', 'ARBOLEDA', 'VILLAVICENCIO',
       'VILLA RICA ', 'CANDELARIA', 'GUACHENE ', 'CAJIBIO', 'FONSECA',
       'ALCALA ', 'ISNOS', 'MONTENEGRO', 'SASAIMA', 'SAN PABLO ',
       'RIONEGRO', 'VILLETA', 'RICAURTE', 'FLORENCIA', 'CHINCHINA',
       'LA VEGA', 'FLANDES ', 'TUQUERRES', 'SAN ANDRES DE TUM

Dada la gran cantidad de valores que son necesarios convertir, es necesario crear un diccionario a partir de la tabla
que codifica los municipios en el sistema de información, de tal manera que se pueda generar un mecanismo para facilitar
el reemplazo del nombre del municipio como está escrito, con el nombre de municipio como debería estar escrito al migrar
a la base de datos de la aplicación.


In [285]:
#Creo un diccionario de municipios.
municipio = pd.read_excel("cod_municipios.xls")
municipio['clave_minuscula'] = municipio["nombre_municipio"].str.replace(" ","").str.lower().apply(str)
municipio['clave_minuscula'] = municipio['clave_minuscula'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

dic_municipios = dict(np.array(municipio[['clave_minuscula','nombre_municipio']]))
dic_municipios



{'belendeumbria': 'Belen de umbria',
 'bello': 'Bello',
 'belmira': 'Belmira',
 'beltran': 'Beltran',
 'berbeo': 'Berbeo',
 'betania': 'Betania',
 'beteitiva': 'Beteitiva',
 'betulia': 'Betulia',
 'bituima': 'Bituima',
 'boavita': 'Boavita',
 'bochalema': 'Bochalema',
 'bogotad.c.': 'Bogotá D.C.',
 'bojaca': 'Bojaca',
 'bojaya(bellavista)': 'Bojaya (bellavista)',
 'bolivar': 'Bolivar',
 'bosa': 'Bosa',
 'bosconia': 'Bosconia',
 'boyaca': 'Boyaca',
 'boyaca-departamento': 'Boyacá - DEPARTAMENTO',
 'briceno': 'Briceño',
 'bucaramanga': 'Bucaramanga',
 'bucarasica': 'Bucarasica',
 'buenaventura': 'Buenaventura',
 'buenavista': 'Buenavista',
 'buenosaires': 'Buenos aires',
 'buesaco': 'Buesaco',
 'buga': 'Buga',
 'bugalagrande': 'Bugalagrande',
 'buritica': 'Buritica',
 'busbanza': 'Busbanza',
 'cabrera': 'Cabrera',
 'cabuyaro': 'Cabuyaro',
 'cacahual': 'Cacahual',
 'caceres': 'Caceres',
 'cachipay': 'Cachipay',
 'cachira': 'Cachira',
 'cacota': 'Cacota',
 'caicedo': 'Caicedo',
 'caicedoni

In [286]:
#Creo una nueva columna que se llame 'municipio_convertido' en el df_migrar. Básicamente, vamos a crear una clave
# a partir de mínusculas, con la cual se pueda generar coincidencias con el diccionario de municipio.

df_migrar['municipio_convertido'] = df_migrar["ciudad_asegurado"].str.replace(" ","").str.lower()

#Garantizo que el campo corresponda a sólo valores texto, y reemplazo los caracteres con tildes
df_migrar['municipio_convertido'] = df_migrar['municipio_convertido'].astype(str)
#Quito tildes y acentos de las minúsculas.
df_migrar['municipio_convertido'] = df_migrar['municipio_convertido'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
df_migrar['municipio_convertido']

0       quibdo
1       quibdo
2       quibdo
3       quibdo
4       quibdo
        ...   
496        nan
497        nan
498        nan
499        nan
500    lebrija
Name: municipio_convertido, Length: 1709, dtype: object

In [287]:
#Revisamos cuales municipios no coinciden con el diccionario de municipios, con el fin de complementar el diccionario.
municipios_df_migrar = list(np.array(df_migrar['municipio_convertido']))
municipios_clave = list(np.array(municipio['clave_minuscula']))
municipios_ok = np.intersect1d(municipios_clave, municipios_df_migrar)
municipios_no_ok = np.setdiff1d(municipios_df_migrar, municipios_ok)
municipios_no_ok

array(['andagoya', 'arboleda', 'bogota', 'boraudo', 'cali', 'donajosefa',
       'guachene', 'isnos', 'mallama', 'pasto', 'patia', 'purace',
       'qubdo', 'quibdo', 'quindio', 'sanandresdetumaco',
       'sanjosedelfragua', 'santamarta'], dtype='<U20')

In [288]:
#creo un diccionario que complemente a dic_municipio con los valores que no se pudieron hacer coincidir.
dic_municipios_definitivos = {'andagoya':'Revisar', 'arboleda':'Arboleda (berruecos)', 'bogota':'Bogotá D.C.', 'boraudo':'Revisar',
                              'cali':'Cali (santiago de cali)', 'donajosefa':'Revisar', 'guachene':'Revisar', 'isnos':'Isnos (san jose de isnos)',
                              'mallama':'Mallama (piedrancha)', 'pasto':'Pasto (san juan de pasto)',
                              'patia':'Patia (el bordo)','purace':'Purace (coconuco)','qubdo':'Quibdo (san francisco de quibdo)', 
                              'quibdo':'Quibdo (san francisco de quibdo)', 'quindio':'Revisar', 'sanandresdetumaco':'Tumaco',
                              'sanjosedelfragua':'San jose de fragua', 'santamarta':'Santa marta (distrito turistico, cultural e historicode santa marta)'}
dic_municipios_definitivos.update(dic_municipios)

In [289]:
#genero el diccionario definitivo
dic_municipios_definitivos

{'andagoya': 'Revisar',
 'arboleda': 'Arboleda (berruecos)',
 'bogota': 'Bogotá D.C.',
 'boraudo': 'Revisar',
 'cali': 'Cali (santiago de cali)',
 'donajosefa': 'Revisar',
 'guachene': 'Revisar',
 'isnos': 'Isnos (san jose de isnos)',
 'mallama': 'Mallama (piedrancha)',
 'pasto': 'Pasto (san juan de pasto)',
 'patia': 'Patia (el bordo)',
 'purace': 'Purace (coconuco)',
 'qubdo': 'Quibdo (san francisco de quibdo)',
 'quibdo': 'Quibdo (san francisco de quibdo)',
 'quindio': 'Revisar',
 'sanandresdetumaco': 'Tumaco',
 'sanjosedelfragua': 'San jose de fragua',
 'santamarta': 'Santa marta (distrito turistico, cultural e historicode santa marta)',
 'belendeumbria': 'Belen de umbria',
 'bello': 'Bello',
 'belmira': 'Belmira',
 'beltran': 'Beltran',
 'berbeo': 'Berbeo',
 'betania': 'Betania',
 'beteitiva': 'Beteitiva',
 'betulia': 'Betulia',
 'bituima': 'Bituima',
 'boavita': 'Boavita',
 'bochalema': 'Bochalema',
 'bogotad.c.': 'Bogotá D.C.',
 'bojaca': 'Bojaca',
 'bojaya(bellavista)': 'Bojaya

In [290]:
#Se reemplaza los valores que tiene ciudad_asegurado por los establecidos según el diccionario dic_municipios,
#tomando como clave el campo 'municipio_covertido' que se creó.
df_migrar['ciudad_asegurado'] = df_migrar['municipio_convertido'].map(dic_municipios_definitivos)

In [291]:
#Verifico que se haya re-escrito el nombre del municipio de manera correcta.
df_migrar['ciudad_asegurado'].value_counts()

Istmina                             137
Cali (santiago de cali)              83
Apartado                             71
Puerto asis                          55
Quibdo (san francisco de quibdo)     52
                                   ... 
Silvania                              1
Curillo                               1
Granada                               1
Antioquia                             1
Colon                                 1
Name: ciudad_asegurado, Length: 180, dtype: int64

el campo <b>ciudad_asegurado</b> se encuentra ajustado

In [292]:
#Exploro los valores únicos de 'producto_poliza', En este caso sólo hay un valor, y referencian vacios.
diccionario['producto_poliza']

array(['BANCO W', nan], dtype=object)

el campo <b>producto_poliza</b> se encuentra ajustado

In [293]:
#Empezamos a explorar los valores únicos de 'categoria_reclamacion', 
diccionario['categoria_reclamacion']


array(['MASIVO', 'NORMAL', 'ÚNICO', nan], dtype=object)

In [294]:
#Realizo un conteo de cada uno de los valores únicos.
df_migrar['categoria_reclamacion'].value_counts()

NORMAL    584
MASIVO    507
ÚNICO     192
Name: categoria_reclamacion, dtype: int64

In [295]:
#Verifico el número de campos vacios, el cuál coincide con los vacios en producto.
df_migrar['categoria_reclamacion'].isna().sum()

426

In [296]:
#Dado que ya hicimos la conversión, vamos a crear el feature item_categoria para cada registro, de
#tal manera que cree un identificador que se reinicia cada año, y está en fución de la categoría de reclamación.

df_migrar['cantidad_categoria'] = (df_migrar.groupby(['categoria_reclamacion','year'])['year'].cumcount()+1)
df_migrar['item_categoria'] = df_migrar['categoria_reclamacion'].str[:3] + "-" + df_migrar['cantidad_categoria'].astype(str)
df_migrar['item_categoria']
#resultado = df_migrar[['item_categoria', 'categoria_reclamacion','year']]
#resultado[['item_categoria', 'item_categoria_2','categoria_reclamacion','year']]


0      MAS-1
1      MAS-2
2      MAS-3
3      MAS-4
4      MAS-5
       ...  
496      NaN
497      NaN
498      NaN
499      NaN
500      NaN
Name: item_categoria, Length: 1709, dtype: object

el campo <b>categoria_reclamacion</b> fue ajustado

In [297]:
#Exploro los valores únicos de 'cobertura',
diccionario['cobertura']


array(['DAÑOS POR AGUA Y ANEGACIÓN', 'VIENTOS FUERTES',
       'AVALANCHA Y DESLIZAMIENTO', 'NO COBERTURA', 'INCENDIO Y/O RAYO',
       'HMCCP - AMIT', nan, 'CAIDA DE ARBOL', 'CHOQUE DE VEHÍCULO'],
      dtype=object)

Todos los valores coinciden con la aplicación, exceptuando <b>'CHOQUE DE VEHÍCULO'</b>. Este valor se va a importar, pero 
no se podrá visualizar en la aplicación por lo cuál va a ser necesario modificarlo. Los valores núlos son los mismos registros ya identificados previamente en otros feature.

In [298]:
#Creo archivo de Excel para enviar a revisión.
mask = df_migrar['cobertura'] == 'CHOQUE DE VEHÍCULO'
df_migrar[mask].to_excel('verificar_cobertura.xlsx')

el campo <b>cobertura</b> fue ajustado

In [299]:
#Exploro los valores únicos de 'bienes'.
diccionario['bienes']


array(['CONTENIDOS', 'EDIFICIO Y CONTENIDOS', 'EDIFICIO', nan],
      dtype=object)

En este caso, no es necesario hacer tratamiento pues corresponde a los valores estándar de la aplicación.

In [300]:
#Explor los valores únicos de 'estado'
diccionario['estado']


array(['PAGADO', 'OBJETADO', 'DESISTIDO', 'CERRADO', 'EN PROCESO', nan],
      dtype=object)

Todos los valores que genera se encuentran listados en la aplicación, pero no <b>"CERRADO"</b>, por lo cuál vamos a crear un archivo de excel para su verificación manual.

In [301]:
mask = df_migrar['estado'] == 'CERRADO'
df_migrar[mask].to_excel('verificar_estado.xlsx')

#Se encuentran 7 casos en cerrado, sin embargo ese atributo no se encuentra en la aplicación.

el campo <b>estado</b> fue ajustado

In [302]:
#Exploro los valores únicos de 'observacion_1'
diccionario['observacion_1']


array(['PAGADO', 'OBJETADO- No. Guía 1144351764',
       'OBJETADO- No. Guía 1145240418', 'OBJETADO- No. Guía 1144351763',
       'OBJETADO- No. Guía 1144351753', 'OBJETADO- No. Guía 1144351745',
       'OBJETADO- No. Guía 1144351752', 'OBJETADO- No. Guía 1144351749',
       'OBJETADO- No. Guía 1144351750', 'OBJETADO- No. Guía 1144351751',
       'OBJETADO- No. Guía 1144351747', 'OBJETADO- No. Guía 1144351748',
       'OBJETADO- No. Guía 1144351735', 'OBJETADO- No. Guía 1144351736',
       'OBJETADO- No. Guía 1144351744', 'OBJETADO- No. Guía 1145241410',
       'DESISTIDO', 'OBJETADO- No. Guia 1145241486',
       'OBJETADO- No. Guía 1145241412', 'OBJETADO- No. Guía 1145241411',
       'OBJETADO- No. Guía 1145241409', 'OBJETADO- No. Guía 1145241431',
       'OBJETADO- No. Guía 1145241415', 'OBJETADO- No. Guía 1145241417',
       'OBJETADO- No.Guia 1145241487', 'OBJETADO- No. Guía 1145241420',
       'OBJETADO- No. Guía 1145241419', 'OBJETADO- No. Guía 1145241418',
       'OBJETADO- No. 

Al revisar los valores únicos de 'observacion_1', encontramos que para el caso del valor categoríco <b>'OBJETADO'</b>, tiene asociado un número de guía, aunque en la aplicación sólo puede escoger el valor <b>'OBJETADO'</b>. Lo que se va a realizar es, reemplazar todos los objetados con algún número de Guía por sólo la leyenda <b>'OBJETADO'</b>

In [303]:
#Reemplazo todos los valores que contienen la palabra objetado, por sólo la palabra 'OBJETADO'
mask = df_migrar['observacion_1'].str[:8] == 'OBJETADO'
df_migrar['observacion_1'].mask(mask,'OBJETADO', inplace = True)
df_migrar['observacion_1'].value_counts()

PAGADO                     887
OBJETADO                   333
DESISTIDO                   12
PROCESO DE INSPECCIÓN       12
PROCESO DE PAGO             10
PENDIENTE DOCUMENTOS         8
CERRADO                      7
PROCESO DE AJUSTE            4
APROBACIÓN DE CIFRA          4
PENDIENTE ENVIAR A PAGO      3
ACEPTACION DE CIFRA          1
APROBACIÓN DE OBJECIÓN       1
Name: observacion_1, dtype: int64

el campo <b>observacion_1</b> fue ajustado.
#### Objetivo 2, completado

## Finalización: En esta parte se creará el archivo de Excel en el cuál se tendrá la base de datos limpia y lista para realizar la migración. En este punto el Notebook termina.

In [304]:
#A continuación vamos a generar el archivo de excel que vamos a migrar.
df_migrar.to_excel("migracion_chubb.xlsx")