# Script de ejemplo: índice de calidad de LEILA

Este escript contiene el código de ejemplo para hacer uso de la clase 'indice_calidad' del módulo 'calidad_datos' de LEILA. Esta clase permite generar un índice y subindicadores de calidad para conjuntos de datos del Portal de Datos Abiertos de Colombia.  

## 1. Importar la clase del índice de calidad de datos

In [1]:
# Importar la clase 'indice_calidad'
from leila.calidad_datos import indice_calidad

In [2]:
# Crear el objeto de 'IndiceCalidad' de la clase 'indice_calidad' para un conjunto de datos específico, el cual tiene su propio código API
IndiceCalidad = indice_calidad(api_id = "5k38-dew4")

## 2. Resultados 
Los resultados del índice y subindicadores se crean con el método 'indice' del objeto creado arriba

### 2.1. Resultado estándar
Índice de calidad general y los subíndices de datos y metadatos \
**Nota**: no es necesario agregar todos los parámetros del método 'indice' para generar estos resultados

In [4]:
# Se genera un resultado con el índice de calidad final y los subíndices de datos y metadatos
resultado = IndiceCalidad.indice(datos = True, meta = True, subindicadores = False, numero_filas = 30000, 
                          dic_pesos_meta = None, dic_pesos_datos = None)

El conjunto de datos se encuentra actualizado


In [5]:
# Se imprime el resultado, el cual es un diccionario con el índice de calidad final, 
# el subíndice de metadatos y el subíndice de datos
resultado

{'indice': 0.8837429341853709,
 'indice_metadatos': 0.8292914239262974,
 'indice_datos': 0.9381944444444443}

### 2.2. Resultado con subindicadores
Se asigna el valor True al parámetro 'subindicadores' para presentar los subindicadores de datos y metadatos en el diccionario con los resultados

In [6]:
resultado = IndiceCalidad.indice(datos = True, meta = True, subindicadores = True, numero_filas = 30000, 
                          dic_pesos_meta = None, dic_pesos_datos = None)

El conjunto de datos se encuentra actualizado


In [7]:
# Se imprime el resultado con el índice de calidad final, el subíndice de metadatos y el subíndice de datos
resultado[0]

{'indice': 0.8837429341853709,
 'indice_metadatos': 0.8292914239262974,
 'indice_datos': 0.9381944444444443}

In [10]:
# Se imprime el resultado con los subindicadores de metadatos
resultado[1]

{'trazabilidad_descripcion': 1.0,
 'descripcion_columnas': 0.0,
 'nombres_columnas': 1.0,
 'retardo_actualizacion': 1,
 'trazabilidad_actualizacion': 1.0,
 'tipos_columnas_meta': 1.0,
 'verificar_meta_cols': 1.0,
 'trazabilidad_creacion': 1.0,
 'trazabilidad_contacto': 1,
 'tamano_comparacion': 1.0}

In [9]:
# Se imprime el resultado con los subindicadores de datos
resultado[2]

{'faltantes': 0.9527777777777777,
 'tamano_columnas': 1,
 'tamano_filas': 0.72,
 'duplicados_filas': 1.0,
 'duplicados_columnas': 1.0,
 'tipos_columnas_unicos': 1.0,
 'valores_unicos': 1.0}

### 2.3. Resultados con cambio en parámetro 'numero_filas'
El parámetro 'numero_filas' tiene el número 30.000 asignado por defecto, lo cual indica que un conjunto de datos con más de 30.000 filas utilizará únicamente este número de filas para calcular el subindicador 'duplicados_columnas' para evitar costos computacionales muy altos. 

Al aumentar este número por encima de 30.000 puede se amplía el límite para restringir el cálculo del subindicador 'duplicados_columnas' y por lo tanto disminuirá la restricción de filas utilizadas para calcular los duplicados de columnas. Por el otro lado, si se disminuye el número se utilizarán menos filas para este cálculo pero se garantizará que la ejecución sea más rápida

Los resultados con distintos números en 'numero_filas' serán distintos en caso de que las columnas tengan valores diferentes que no se incluyen en el cálculo de los duplicados

In [12]:
# Se cambia el parámetro 'numero_filas' a 50.000
resultado = IndiceCalidad.indice(datos = True, meta = True, subindicadores = False, numero_filas = 50000, 
                          dic_pesos_meta = None, dic_pesos_datos = None)

El conjunto de datos se encuentra actualizado


In [13]:
# Imprime el resultado
resultado

{'indice': 0.8837429341853709,
 'indice_metadatos': 0.8292914239262974,
 'indice_datos': 0.9381944444444443}

### 2.4. Resultados con reasignación de pesos
En esta sección se presenta cómo un usuario puede asignar sus propios pesos para cada subindicador de calidad de datos y metadatos y así generar los resultados con este cambio. Para hacerlo, es necesario construir un diccionario de Python con los pesos. Es importante entender el orden por defecto de los pesos como se presentan a continuación, donde están ordenados de manyor a menor importancia para cada subindicador. Un usuario que quiera modificar los pesos tiene que tener este orden en cuenta al crear el diccionario de Python (esto se muestra en la celda siguiente)

#### Subindicadores de metadatos
1. trazabilidad_descripcion
2. descripcion_columnas
3. nombres_columnas
4. retardo_actualizacion
5. trazabilidad_actualizacion
6. tipos_columnas_meta
7. verificar_meta_cols
8. trazabilidad_creacion 
9. trazabilidad_contacto
10. tamano_comparacion
                    
#### Subindicadores de datos
1. faltantes
2. tamano_columnas
3. tamano_filas
4. duplicados_filas
5. duplicados_columnas                    
6. tipos_columnas_unicos
7. valores_unicos

A continuación se crea y se ingresa un diccionario de Python con los pesos de un usuario de los subindicadores de los metadatos. Los pesos definidos por el usuario son los siguientes: 

1. trazabilidad_descripcion: 0.2
2. descripcion_columnas: 0.2
3. nombres_columnas: 0.1
4. retardo_actualizacion: 0.1
5. trazabilidad_actualizacion: 0.1
6. tipos_columnas_meta: 0.1
7. verificar_meta_cols: 0.1
8. trazabilidad_creacion: 0.05 
9. trazabilidad_contacto: 0.05
10. tamano_comparacion: 0.05

El diccionario con los pesos se crea en la siguiente celda, donde las llaves del diccionario son números que representan cada subindicador de metadatos, en el orden de importancia por defecto, y los valores son los pesos.


In [3]:
# Diccionario de metadatos con pesos nuevos
pesos_meta = {
    1: 0.2,
    2: 0.2,
    3: 0.1,
    4: 0.1,
    5: 0.1,
    6: 0.1,
    7: 0.05,
    8: 0.05,
    9: 0.05, 
    10: 0.05,
    }  
# Diccionario de datos con pesos nuevos
pesos_datos = {
    1: 0.2,
    2: 0.2,
    3: 0.1,
    4: 0.1,
    5: 0.1,
    6: 0.1,
    7: 0.05,
    }


En la siguiente celda se crean los resultados con los pesos definidos anteriormente. Para ellos se asigna el valor del diccionario 'pesos_meta' al parámetro 'dic_pesos_meta' y del diccionario 'pesos_datos' al parámetro 'dic_pesos_datos'

In [5]:
resultado = IndiceCalidad.indice(datos = True, meta = True, subindicadores = False, numero_filas = 30000, 
                          dic_pesos_meta = pesos_meta, dic_pesos_datos = pesos_datos)

El conjunto de datos se encuentra actualizado


Se presenta el resutlado, el cual contiene el índice de calidad y los subíndices de datos y metadatos generados con los nuevos pesos

In [10]:
resultado[0]

{'indice': 0.8690972222222222,
 'indice_metadatos': 0.8000000000000002,
 'indice_datos': 0.9381944444444443}