# Calidad de datos

## Introduccion

Los procesos que generan datos dependen de las entidades que pueden generar información, bien sea una maquina o una persona, y estas entidades estan sujetas a condiciones técnicas que muchas veces no se pueden monitoriar o actualizar, lo que genera perdida de calidad de la información. 

> Para implementar modelos de calidad de datos debemos conocer:
    1. Periodo de implementación 
    2. Variables a trabajar
    3. Volumen de informacion
    
Los metodos para implementar modelos de calidad de datos son muy diversos y principalmente se basa en entender porque se genera informacion erronea en las operaciones y poder corregir estos errores desde la raiz, desde la ciencia de datos tenemos la opcion de cruzar informacion con base de datos o establecer criterios minimos en cada campo para asegurar que su valor se pueda generalizar en todos los analisis y procesos asociados a este.

Si bien los metodos que trabajamos son especialmente eficientes, si no se tiene una capacidad de procesamiento adecuada es probable que nuestra memoria ram sea insuficiente a partir de 7M de comparaciones.

## Planteamiento del problema

Resolver inconsistencias en la calidad de la informacion de una o varias variables en una base de datos objetivo, tomando como referencia una base de datos normativa, teniendo en cuenta criterios minimos que debe cumplir cada variable.

Este planteamiento requiere llevar a cabo un procedimiento muy comun a las bases de datos, que se puede estandarizar con el tiempo y la madurez que toma el proceso con cada solucion prestada.

Inicialmente debemos tener en cuenta que en cada paso del proceso se debe conservar la integridad total de la informacion de las bases de datos.

Dado una base de datos objetivo llamada A con Na variables y Ma filas, lo primero que debemos preguntarnos es por la integridad de los valores de cada campo de la base de datos, debemos solucionar posibles problemas de valores nulos y formato de los campos con los que vamos trabajar.

Seguidamente, identificamos la o las n variables Nn a trabajar en el proceso de calidad de datos, con el fin de establecer filtros y criterios minimos para tener en cuenta cada variable dentro del proceso.

Dado otra base de datos normativa llamada B, con Nb variables y Mb filas, debemos identificar en lo posible, las mimas Nn variables que existen en A a trabajar en el proceso.

Entonces, debemos hacer cruces de cada registro i en A y cada registro j en B para establecer coincidencias de cada variable Nn que cumpla con los minimos criterios para ser registros validos. 

Luego, con los registros en A que no cumplan con los criterios minimos los debemos procesar con diferentes metodos, donde podemos cuantificar diferentes valores propios de cada variable del registro y tener otros criterios adicionales para poder hallar una correcta coincidencia de cada registro de A en B.

Los registros que definitivamente no pasen este proceso se pueden siempre procesar de manera manual y este resultado puede ser de mucho valor para seguir evolucionando los procesos de calidad de datos.


## ¿Cómo correr el modelo?

Puede existir diferentes formas de correr el modelo, la siguiente funciona desde la terminal del sistema para sistema operativo windows: 

 1. Abrimos una terminal en la carpeta del modelo.

 2. Ingresamos a la carpeta codigo de la siguiente manera:
 
     `cd codigo`
 
 
 3. Iniciamos el script inicio_modelo:
 
     `python inicio_modelo`
    
**Desde este punto, la salida del modelo va a depender de la parametrizacion.**

El modelo esta diseñado para interactuar con el usuario y pedir ciertos parámetros de interés. 



## Parametrización del modelo

La parametrizacion del modelo consta de tres pasos para garantizar el correcto funcionamiento del modelo.

 1. Lectura de datos: 
 
     Debemos asegurar una correcta lectura de datos, con misma codificación y mismo tipo de variable para evitar errores en las funcionalidades del modelo. 
        
        
 2. Estructuración de criterios:
 
     Esta estructura la podemos ver como un asistente del objeto que se encarga de cruzar cada variable y cada criterio, se puede modificar para optimizar la experiencia del usuario y garantizar siempre los mejores resultados en cada análisis. 
    

In [1]:
col_index = [{
    'corrida': 1,    
    'indicaciones':{
        'col_id': [ 'ID_UNICO', 'GRUPO'], # Origen, Destino
        'col_flexibles': ['LINEA2', 'CILINDRAJE'], 
        'col_estrictas': ['TABLA', 'marca'], # Son las columnas objetivo para calcular las posibles combinación donde voy a analisar semejanza o palabras contenidas
        'on': 'LINEA2',
        'desempate_cols': ['CILINDRAJE', 'CAJA', 'NRO_PUERTAS', 'TRACCION'],
        'conservar': ['CILINDRAJE_origen', 'CILINDRAJE_destino', 'TRACCION_origen', 'TRACCION_destino', 
                      'CAJA_origen', 'CAJA_destino', 'TipCarga', 'NRO_PUERTAS_origen', 'NRO_PUERTAS_destino', 
                      'Promedio'],
        'conservar_exactas_origen':['CLASE', 'Capacidad', 'CAJA', 'TipCarga', 'TRACCION', 'NRO_PUERTAS']
        }
    },
    # {
    # 'corrida': 2,    
    # 'indicaciones':{
    #     'col_id': [ 'ID_UNICO', 'GRUPO'], # Origen, Destino
    #     'col_flexibles': ['LINEA2', 'CILINDRAJE'],
    #     'col_estrictas': ['TIPO', 'marca'], # Son las columnas objetivo para calcular el merge
    #     'on': 'LINEA2',
    #     'desempate_cols': ['CILINDRAJE','TIPO_CAJA', 'TRACCION', 'NRO_PUERTAS'],
    #     'conservar': [],
    #     'conservar_exactas_origen':[]
    #     }
    # }
    
]  

 3. Selección y ordenamiento de métodos:

    Los metodos son muy importantes pues contituyen el orden y las funciones o cruces aplicados en cada momento del proceso de análisis, Es imporante conocer qué hace cada método proximamente retomaremos este tema.
    
    Asi se debe parametrizar los metodos dentro del modelo:

In [None]:
criterios = pd.DataFrame({'criterio': ['exactas', 'semejanza', 'palabras_contenidas','desempate'], 
                            'valor' : [     True,        True,      True, True  ]})
