# Guia Ejecución Malla de validación 

El siguiente notebook explica los pasos a seguir para poder realizar la validación del conjunto de datos sincronizado desde el Aplicativo RIT. 

## Requisitos para ejecutar el notebook
Antes de ejecutar el siguiente notebook es necesario contar con los siguientes elementos:
1. Tener acceso al Repo en Databricks que contiene el proyecto de a Malla de Validación actualizado a su ultima versión. 
2. Contar con el número identificador de la encuesta sobre la que se va a realizar la validación.
3. Verificar que la malla de validación de tipo json relativa a la encuesta a validar se encuentre dentro del Repo.
4. Contar con el Token de acceso al API de RIT que permite descargar los datos sincronizados.


In [None]:
# Carga de Librerias
import sys
from pyspark.sql import functions as F
from pyspark.sql import types as T
from delta import tables as DT
from datetime import  datetime
from pyspark.sql import SparkSession
import pandas as pd
import warnings
from pandas.core.common import SettingWithCopyWarning
warnings.simplefilter(action='ignore', category=SettingWithCopyWarning)

## Ejecución del Notebook
En primer lugar es necesario definir los parámetros que nos van a permitir realizar la validación de la información, nos referimos al **id de la encuesta, token de acceso y la ruta que direcciona al REPO**

In [None]:
# Definición de Parámetros

## ID de la Encuesta
id_encuesta = "" # ¡Indicar el id!

## Token de Acceso
token = "" # ¡Añadir el token de acceso! Unicamente la llave

## Ruta del Repo
ruta = "/Workspace/Repos/..." # ¡Completar con la ruta de acceso al Repo almacenado en Databricks

## Acceso al Repo con el proyecto desde el Notebook
Una vez se han definido los parámetros es necesario crear una conexión del notebook con el repositorio para que este pueda utilizar las funciones definidas dentro del proyecto

In [None]:
## Anexar a la ruta de sistema del Notebook el repositorio
sys.path.append(ruta)

## Cargue de la libreria creada en el proyecto
from validar_datos import validar_datos

## Ejecución de la validación de datos
Una vez el repositorio está conectado al notebook y se han definido los parámetros necesarios para la validación, se procede a ejecutar la función que valida esta información, el resultado de la función serán tres objetos que son los siguientes:
- `dataframe`: DataFrame que contiene todo el conjunto de datos sobre el que se va a realizar la validación
- `validos`: DataFrame que contiene el indice de aquellos registros validados
- `novalidos`: DataFrame que contiene el indice de los registros que no pasaron la validación junto a la justificación de su rechazo

In [None]:
# Validación de Datos
dataframe, validos, novalidos = validar_datos(id_encuesta, token, ruta)

MALLA DE VALIDACIÓN
RESULTADOS MALLA DE VALIDACIÓN
El número total de elementos validados fueron 304 participantes que equivale a 301 Hogares
El número total de participantes con valores correctos es 294 que equivale a 292 hogares
El número total de participantes con valores erroneos es 10 que equivale a 9 hogares


In [None]:
# Visualización de Datos Validos
display(validos)

ID_HOGAR,NUM_TITULAR,NUM_DOC_INTEGRANTE,Validacion,Errores
582507,3640739,3640739,0,
582509,3969671,3969671,0,
582510,8744587,8744587,0,
582511,9146253,9146253,0,
582512,11000579,11000579,0,
582514,15241727,15241727,0,
582515,15242678,15242678,0,
582517,15243595,15243595,0,
582519,18000929,18000929,0,
582520,18002086,18002086,0,


In [None]:
# Visualización de Datos no Validos
display(novalidos)

ID_HOGAR,NUM_TITULAR,NUM_DOC_INTEGRANTE,Validacion,Errores
582529,18009072,18009072,0,
582529,18009072,18009072,1,Documento_Duplicado
582559,33145768,33145768,1,DIFICULTADACTIVIDAD.ind_discap_ninguna.Seleccionar
582654,40994306,40994306,1,DIFICULTADACTIVIDAD.ind_discap_ninguna.Seleccionar
582659,43086086,43086086,1,DIFICULTADACTIVIDAD.ind_discap_ninguna.Seleccionar
582689,1006881371,1006881371,1,vlr_ingr_salario_actividad_ppal
582715,1123620582,1123620582,1,TIPOS_BIENES_SERVICIOS
582731,1123624382,1123624382,1,vlr_ingr_salario_actividad_ppal
582765,1123631192,1123631192,1,TRASLADO_PRODUCTO/SERVICIO
597228,1006881152,1006881152,1,TRASLADO_PRODUCTO/SERVICIO
