### Código para correr leila localmente en jupyter
**ruta_leila** se refiere a la ruta en la que está alojado el código de leila que contiene las carpetas: ejemplos, leila y recursos

In [80]:
import sys
ruta_leila = '/home/michel/Documents/dnp/leila/leila_desarrollo_indice_reporte_herencia/leila'
sys.path.insert(0, ruta_leila)

# Script de ejemplo: índice de calidad de LEILA

Este script contiene el código de ejemplo para hacer uso de la clase 'IndiceCalidad' del módulo 'calidad_datos' de LEILA. Esta clase permite generar un índice y subindicadores de calidad para conjuntos de datos del Portal de Datos Abiertos de Colombia.  

## 1. Importar la clase del índice de calidad de datos

In [81]:
# Importar la clase DatosGov
from leila.datos_gov import DatosGov
from leila.calidad_datos import CalidadDatos

## 1.1 Calcular el índice de calidad de una base de datos del portal de datos DatosGov

In [82]:
# Crear el objeto de 'datos_gov' instancia de la clase DatosGov
datos_gov = DatosGov()

In [83]:
# Cargar los datos de la base de datos del portal de datos DatosGov que tiene como api id: "5k38-dew4" 
base = datos_gov.cargar_base("5k38-dew4")

## 2. Resultados 
Los resultados del índice y subindicadores se crean con el método 'indice' del objeto creado arriba

### 2.1. Resultado estándar
Índice de calidad general y los subíndices de datos y metadatos \
**Nota**: no es necesario agregar todos los parámetros del método 'indice' para generar estos resultados

In [84]:
# Se genera un resultado con el índice de calidad final y los subíndices de datos y metadatos
# Se imprime el resultado, el cual es un diccionario con el índice de calidad final, 
# el subíndice de metadatos y el subíndice de datos
resultado = base.indice()
resultado

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2022-06-01 22:48:49 y debe ser actualizado de manera trimestral
{1: 1.0, 2: 0.0, 3: 1.0, 4: 0, 5: 1.0, 6: 1.0, 7: 1.0, 8: 1.0, 9: 1, 10: 1.0}


{'indice': 0.8410657901669452,
 'indice_metadatos': 0.743937135889446,
 'indice_datos': 0.9381944444444443}

### 2.2. Resultado con subindicadores
Se asigna el valor True al parámetro 'subindicadores' para presentar los subindicadores de datos y metadatos en el diccionario con los resultados

In [85]:
resultado = base.indice(datos = True, meta = True, subindicadores = True, numero_filas = 30000, 
                          dic_pesos_meta = None, dic_pesos_datos = None)

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2022-06-01 22:48:49 y debe ser actualizado de manera trimestral
{1: 1.0, 2: 0.0, 3: 1.0, 4: 0, 5: 1.0, 6: 1.0, 7: 1.0, 8: 1.0, 9: 1, 10: 1.0}


In [86]:
# Se imprime el resultado con el índice de calidad final, el subíndice de metadatos y el subíndice de datos
resultado[0]

{'indice': 0.8410657901669452,
 'indice_metadatos': 0.743937135889446,
 'indice_datos': 0.9381944444444443}

In [87]:
# Se imprime el resultado con los subindicadores de metadatos
resultado[1]

{'trazabilidad_descripcion': 1.0,
 'descripcion_columnas': 0.0,
 'nombres_columnas': 1.0,
 'retardo_actualizacion': 0,
 'trazabilidad_actualizacion': 1.0,
 'tipos_columnas_meta': 1.0,
 'verificar_meta_cols': 1.0,
 'trazabilidad_creacion': 1.0,
 'trazabilidad_contacto': 1,
 'tamano_comparacion': 1.0}

In [88]:
# Se imprime el resultado con los subindicadores de datos
resultado[2]

{'faltantes': 0.9527777777777777,
 'tamano_columnas': 1,
 'tamano_filas': 0.72,
 'duplicados_filas': 1.0,
 'duplicados_columnas': 1.0,
 'tipos_columnas_unicos': 1.0,
 'valores_unicos': 1.0}

### 2.3. Resultados con cambio en parámetro 'numero_filas'
El parámetro 'numero_filas' tiene el número 30.000 asignado por defecto, lo cual indica que un conjunto de datos con más de 30.000 filas utilizará únicamente este número de filas para calcular el subindicador 'duplicados_columnas' para evitar costos computacionales muy altos. 

Al aumentar este número por encima de 30.000 puede se amplía el límite para restringir el cálculo del subindicador 'duplicados_columnas' y por lo tanto disminuirá la restricción de filas utilizadas para calcular los duplicados de columnas. Por el otro lado, si se disminuye el número se utilizarán menos filas para este cálculo pero se garantizará que la ejecución sea más rápida

Los resultados con distintos números en 'numero_filas' serán distintos en caso de que las columnas tengan valores diferentes que no se incluyen en el cálculo de los duplicados

In [89]:
# Se cambia el parámetro 'numero_filas' a 50.000
resultado = base.indice(datos = True, meta = True, subindicadores = False, numero_filas = 50000, 
                          dic_pesos_meta = None, dic_pesos_datos = None)

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2022-06-01 22:48:49 y debe ser actualizado de manera trimestral
{1: 1.0, 2: 0.0, 3: 1.0, 4: 0, 5: 1.0, 6: 1.0, 7: 1.0, 8: 1.0, 9: 1, 10: 1.0}


In [90]:
# Imprime el resultado
resultado

{'indice': 0.8410657901669452,
 'indice_metadatos': 0.743937135889446,
 'indice_datos': 0.9381944444444443}

### 2.4. Resultados con reasignación de pesos
En esta sección se presenta cómo un usuario puede asignar sus propios pesos para cada subindicador de calidad de datos y metadatos y así generar los resultados con este cambio. Para hacerlo, es necesario construir un diccionario de Python con los pesos. Es importante entender el orden por defecto de los pesos como se presentan a continuación, donde están ordenados de manyor a menor importancia para cada subindicador. Un usuario que quiera modificar los pesos tiene que tener este orden en cuenta al crear el diccionario de Python (esto se muestra en la celda siguiente)

#### Subindicadores de metadatos
1. trazabilidad_descripcion
2. descripcion_columnas
3. nombres_columnas
4. retardo_actualizacion
5. trazabilidad_actualizacion
6. tipos_columnas_meta
7. verificar_meta_cols
8. trazabilidad_creacion 
9. trazabilidad_contacto
10. tamano_comparacion
                    
#### Subindicadores de datos
1. faltantes
2. tamano_columnas
3. tamano_filas
4. duplicados_filas
5. duplicados_columnas                    
6. tipos_columnas_unicos
7. valores_unicos

A continuación se crea y se ingresa un diccionario de Python con los pesos de un usuario de los subindicadores de los metadatos. Los pesos definidos por el usuario son los siguientes: 

1. trazabilidad_descripcion: 0.2
2. descripcion_columnas: 0.2
3. nombres_columnas: 0.1
4. retardo_actualizacion: 0.1
5. trazabilidad_actualizacion: 0.1
6. tipos_columnas_meta: 0.1
7. verificar_meta_cols: 0.1
8. trazabilidad_creacion: 0.05 
9. trazabilidad_contacto: 0.05
10. tamano_comparacion: 0.05

El diccionario con los pesos se crea en la siguiente celda, donde las llaves del diccionario son números que representan cada subindicador de metadatos, en el orden de importancia por defecto, y los valores son los pesos.


In [91]:
# Diccionario de metadatos con pesos nuevos
pesos_meta = {
    1: 0.2,
    2: 0.2,
    3: 0.1,
    4: 0.1,
    5: 0.1,
    6: 0.1,
    7: 0.05,
    8: 0.05,
    9: 0.05, 
    10: 0.05,
    }  
# Diccionario de datos con pesos nuevos
pesos_datos = {
    1: 0.2,
    2: 0.2,
    3: 0.1,
    4: 0.1,
    5: 0.1,
    6: 0.1,
    7: 0.05,
    }


En la siguiente celda se crean los resultados con los pesos definidos anteriormente. Para ellos se asigna el valor del diccionario 'pesos_meta' al parámetro 'dic_pesos_meta' y del diccionario 'pesos_datos' al parámetro 'dic_pesos_datos'

In [92]:
resultado = base.indice(datos = True, meta = True, subindicadores = False, numero_filas = 30000, 
                          dic_pesos_meta = pesos_meta, dic_pesos_datos = pesos_datos)

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2022-06-01 22:48:49 y debe ser actualizado de manera trimestral


Se presenta el resultado, el cual contiene el índice de calidad y los subíndices de datos y metadatos generados con los nuevos pesos

In [93]:
resultado

{'indice': 0.7562777777777778,
 'indice_metadatos': 0.7000000000000002,
 'indice_datos': 0.8125555555555556}

## 3. Índice de calidad para datos locales

Cargar un conjunto de datos local. Pueden descargar el siguiente: [dataset_ejemplos.xlsx](https://planeacionnacional-my.sharepoint.com/:x:/g/personal/ucd_dnp_gov_co/EcSDnonZAlBFqSFZ7N9MP1gBp50GlC_itwgNcLOm9CksyA?Download=1)

In [94]:
calidad_datos = CalidadDatos('dataset_ejemplos.xlsx')



### 3.1. Resultado estándar
Índice de calidad general y los subíndices de datos y metadatos \
**Nota**: no es necesario agregar todos los parámetros del método 'indice' para generar estos resultados

In [95]:
resultado = calidad_datos.indice()

Se observa que el índice para los metadatos es cero dado que los datos locales no tienen asociados metadatos. Es posible cargar metadatos locales. Eso se explicará en la próxima sección.

In [96]:
resultado

{'indice': 0.47082625753300583,
 'indice_metadatos': 0.0,
 'indice_datos': 0.9416525150660117}

### 3.2. Resultado con subindicadores
Se asigna el valor True al parámetro 'subindicadores' para presentar los subindicadores de datos y metadatos en el diccionario con los resultados

In [97]:
resultado = calidad_datos.indice(datos = True, meta = True, subindicadores = True, numero_filas = 30000, 
                          dic_pesos_meta = None, dic_pesos_datos = None)

In [98]:
resultado

({'indice': 0.47082625753300583,
  'indice_metadatos': 0.0,
  'indice_datos': 0.9416525150660117},
 {'trazabilidad_descripcion': 0,
  'descripcion_columnas': 0,
  'nombres_columnas': 0,
  'retardo_actualizacion': 0,
  'trazabilidad_actualizacion': 0,
  'tipos_columnas_meta': 0,
  'verificar_meta_cols': 0,
  'trazabilidad_creacion': 0,
  'trazabilidad_contacto': 0,
  'tamano_comparacion': 0},
 {'faltantes': 0.8351901975128018,
  'tamano_columnas': 1,
  'tamano_filas': 1,
  'duplicados_filas': 0.9999847598146794,
  'duplicados_columnas': 0.92,
  'tipos_columnas_unicos': 0.88,
  'valores_unicos': 1.0})

### 2.4. Resultados con reasignación de pesos
En esta sección se presenta cómo un usuario puede asignar sus propios pesos para cada subindicador de calidad de datos y metadatos y así generar los resultados con este cambio. Para hacerlo, es necesario construir un diccionario de Python con los pesos. Es importante entender el orden por defecto de los pesos como se presentan a continuación, donde están ordenados de manyor a menor importancia para cada subindicador. Un usuario que quiera modificar los pesos tiene que tener este orden en cuenta al crear el diccionario de Python (esto se muestra en la celda siguiente)

#### Subindicadores de metadatos
1. trazabilidad_descripcion
2. descripcion_columnas
3. nombres_columnas
4. retardo_actualizacion
5. trazabilidad_actualizacion
6. tipos_columnas_meta
7. verificar_meta_cols
8. trazabilidad_creacion 
9. trazabilidad_contacto
10. tamano_comparacion
                    
#### Subindicadores de datos
1. faltantes
2. tamano_columnas
3. tamano_filas
4. duplicados_filas
5. duplicados_columnas                    
6. tipos_columnas_unicos
7. valores_unicos

In [99]:
# Diccionario de datos con pesos nuevos
pesos_datos = {
    1: 0.2,
    2: 0.2,
    3: 0.1,
    4: 0.1,
    5: 0.1,
    6: 0.1,
    7: 0.05,
    }

En la siguiente celda se crean los resultados con los pesos definidos anteriormente. Para ellos se asigna el valor del diccionario 'pesos_datos' al parámetro 'dic_pesos_datos'

El parámetro "meta" es igual False ya que no hay metadatos asociados a los datos locales.

In [100]:
resultado = calidad_datos.indice(datos = True, meta = False, subindicadores = False, numero_filas = 30000,
                                 dic_pesos_datos = pesos_datos)

In [101]:
resultado

{'indice': 0.7970365154840283, 'indice_datos': 0.7970365154840283}

## 4. Cargar metadatos locales 

La carga de metadatos locales solo se puede realizar a través de una instancia de la clase CalidadDatos porque la clase CalidadDatos es la única que permite la carga local de datos y metadatos.

Los metadatos deben seguir la siguiente estructura que permitirá calcula su índice de calidad asociado. Los valores que aparecen en el formato son datos de prueba. Es necesario tener en cuenta las siguientes condiciones con respecto al formato:
* Para la llave **renderTypeName** hay cuatro opciones de tipos de datos que son las siguientes: "number", "calendar_date", "checkbox", "text". El valor de esta llave es de tipo String.
* Las llaves **null** y **non_null** se refieren a la cantidad de filas nulas y no nulas. Este debe ser un String que se pueda convertir a entero positivo. Ejemplos: "15", "20".
* Con respecto a la llave **Frecuencia de Actualización** se tienen las siguientes opciones de valores: 
"diaria", "semanal", "quincenal", "mensual", "trimestral", "cuatrimestral", "semestral", "anual", "trieno"
* Las fechas **createdAt, publicationDate, rowsUpdatedAt** deben estar expresadas como en el formato de ejemplo.   

In [102]:
formato = {
            "name": "nombre de la base de datos",
            "description": "descripción de la base de datos",
            "createdAt": 1575379734,
            "publicationDate": 1575380046,
            "rowsUpdatedAt": 1618623047,
            "metadata": {
                "custom_fields": {
                    "Información de Datos": {
                        "Frecuencia de Actualización": "semanal"
                    }
                }
            },
            "approvals": [
                {
                    "submitter": {
                        "displayName": "Nombre de quien envía la base de datos"
                    },
                }
            ],
            "columns": [
                {
                    "name": "nombre columna 1",
                    "description": "",
                    "renderTypeName": "tipo de dato de la columna",
                    "cachedContents": {
                        "non_null": "14287",
                        "null": "0"
                    }
                },
                {
                    "name": "nombre columna 2",
                    "description": "",
                    "renderTypeName": "tipo de dato de la columna",
                    "cachedContents": {
                        "non_null": "14200",
                        "null": "87"
                    }
                }
            ]
        }

In [103]:
formato

{'name': 'nombre de la base de datos',
 'description': 'descripción de la base de datos',
 'createdAt': 1575379734,
 'publicationDate': 1575380046,
 'rowsUpdatedAt': 1618623047,
 'metadata': {'custom_fields': {'Información de Datos': {'Frecuencia de Actualización': 'semanal'}}},
 'approvals': [{'submitter': {'displayName': 'Nombre de quien envía la base de datos'}}],
 'columns': [{'name': 'nombre columna 1',
   'description': '',
   'renderTypeName': 'tipo de dato de la columna',
   'cachedContents': {'non_null': '14287', 'null': '0'}},
  {'name': 'nombre columna 2',
   'description': '',
   'renderTypeName': 'tipo de dato de la columna',
   'cachedContents': {'non_null': '14200', 'null': '87'}}]}

##### Es posible cargar los metadatos desde una variable que debe ser de tipo **diccionario**:

In [104]:
metadatos_var = calidad_datos.cargar_metadatos(formato)
metadatos_var

'información de Datos'


<leila.calidad_datos.CalidadDatos at 0x7f48d1690c10>

##### También es posible cargarlos desde un archivo local que debe tener la extensión .json:

In [105]:
metadatos_locales = calidad_datos.cargar_metadatos('metadatos_prueba.json')

'información de Datos'


### 4.1 Acceso los metadatos locales

Para acceder los metadatos locales se usa el parámetro "metadatos_indice". 

In [106]:
metadatos_locales.metadatos_indice

{'name': 'nombre',
 'description': 'descripcion',
 'createdAt': 1575379734,
 'publicationDate': 1575380046,
 'rowsUpdatedAt': 1618623047,
 'metadata': {'custom_fields': {'Información de Datos': {'Frecuencia de Actualización': 'Anual'}}},
 'approvals': [{'submitter': {'displayName': 'Alcaldia de Pereira Secretaria TIC'}}],
 'columns': [{'name': 'vivienda_id_sistema',
   'description': '',
   'renderTypeName': 'number',
   'cachedContents': {'non_null': '14287', 'null': '0'}}]}

### 4.2 Cálculo del índice para los datos y metadatos locales

In [107]:
metadatos_locales.indice(meta = True)

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2021-04-16 20:30:47 y debe ser actualizado de manera anual
{1: 0, 2: 0.0, 3: 1.0, 4: 0, 5: 1.0, 6: 1.0, 7: 0, 8: 1.0, 9: 1, 10: 0}


{'indice': 0.6306284523575554,
 'indice_metadatos': 0.3196043896490991,
 'indice_datos': 0.9416525150660117}

### 4.3  Creación de reporte para los datos y metadatos locales

In [108]:
metadatos_locales.generar_reporte(archivo = 'indice_datos_metadatos_locales.html')

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2021-04-16 20:30:47 y debe ser actualizado de manera anual
{1: 0, 2: 0.0, 3: 1.0, 4: 0, 5: 1.0, 6: 1.0, 7: 0, 8: 1.0, 9: 1, 10: 0}
--------------------------------------------------------------------------------------------
Se ha generado el reporte "indice_datos_metadatos_locales.html"
05:02:49 PM (00 min 15 seg)
--------------------------------------------------------------------------------------------
