### Código para correr leila localmente en jupyter
**ruta_leila** se refiere a la ruta en la que está alojado el código de leila que contiene las carpetas: ejemplos, leila y recursos

In [1]:
import sys
ruta_leila = '/home/michel/Documents/dnp/leila/leila_desarrollo_indice_reporte_herencia/leila'
sys.path.insert(0, ruta_leila)

In [2]:
# Se importa la librería pandas para la lectura de datos
import pandas as pd

### Generar reporte automático del portal de datos DatosGov

La función `generar_reporte` permite crear un archivo HTML con resultados y métricas de calidad sobre conjunto de datos estructurados.

In [3]:
# Se importa la función generar_reporte del módulo de reporte
from leila.datos_gov import DatosGov
from leila.calidad_datos import CalidadDatos

La función `generar_reporte` tiene 4 argumentos principales.
* **datos** - corresponde a los datos a ser analizados. Este parámetro acepta:
    * (str) api_id o Identificación de la base de datos asociado con la API de Socrata de un conjunto de datos del portal de Datos Abiertos.
    * Un objeto de tipo `leila.CalidadDatos`
    * (str) Ruta o path a archivos tipo `.xlsx` o `.csv` (recomendado)
    * un `DataFrame` de pandas
    

* **titulo** – (str) valor por defecto: “Reporte perfilamiento”. Título del reporte a generar.
* **archivo** – (str) valor por defecto: “perfilamiento.html”. Ruta donde se desea guardar el reporte en formato HMTL.
* **secciones** - (dic) Diccionario indicando cuales secciones incluir en el reporte.

Para mayor información puede consultar la [documentación de la función](https://ucd-dnp.github.io/leila/versiones/master/funciones/reporte.html)

---

Para generar el reporte es necesario crear una instancia de la clase DatosGov. La cual permite cargar datos del portal de datos DatosGov

In [4]:
datos_gov = DatosGov()

Se carga la base de datos que tiene como api_id **gt2j-8ykr**. Este caso corresponde a los casos positivos de COVID-19 reportados en Colombia en el Portal de Datos Abiertos.

In [5]:
base = datos_gov.cargar_base("gt2j-8ykr")

Se genera el reporte con los parámetros asociados.
El título del reporte será 'Casos positivos de COVID-19 en Colombia (primeros 1000 registros)' y será guardado con el nombre reporte_calidad_COVID.html. Teniendo en cuenta que se trata de un conjunto de datos con muchos registros, usamos el argumento limite_filas para
limitar la descarga de información a solo los primeros 1.000 registros.

In [6]:
base.generar_reporte(
                titulo='Casos positivos de COVID-19 en Colombia (primeros 1000 registros)', 
                archivo='ejemplo_reporte__API_datos_abiertos.html',
                limite_filas=1000
                )

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2022-10-27 23:43:40 y debe ser actualizado de manera diaria
{1: 1.0, 2: 0.6086956521739131, 3: 1.0, 4: 0, 5: 1.0, 6: 1.0, 7: 0.6956521739130435, 8: 1.0, 9: 1, 10: 0.5}


  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,


--------------------------------------------------------------------------------------------
Se ha generado el reporte "ejemplo_reporte__API_datos_abiertos.html"
03:30:38 PM (00 min 17 seg)
--------------------------------------------------------------------------------------------


Si desea excluir una sección del reporte lo puede hacer mediante el parámetro secciones.

En el siguiente ejemplo se excluyó del reporte la sección "correlaciones", y de la sección "Estadísticas específicas"
solo se incluyeron las pestañas "Tipo de las columnas" y "Frecuencia de categorías"

In [7]:
# Se llama la función para generar el reporte
base.generar_reporte(datos="bign-27m7", 
                titulo="Reporte visas",
                archivo='ejemplo_reporte__secciones.html',
                secciones={'generales':True, 'muestra_datos': True, 'correlaciones': False,
                           'especificas': ['tipo', 'frecuencias']})

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2022-10-27 23:43:40 y debe ser actualizado de manera diaria
{1: 1.0, 2: 0.6086956521739131, 3: 1.0, 4: 0, 5: 1.0, 6: 1.0, 7: 0.6956521739130435, 8: 1.0, 9: 1, 10: 0.5}


  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,


--------------------------------------------------------------------------------------------
Se ha generado el reporte "ejemplo_reporte__secciones.html"
03:30:56 PM (00 min 0 seg)
--------------------------------------------------------------------------------------------


También se puede generar el reporte a partir de un dataframe o indicando la ruta de un archivo XLSX o CSV. 
Para esto solo se requiere cambiar el parámetro datos.

In [8]:
# Se llama la función para generar el reporte
base.generar_reporte(datos="dataset ejemplos.xlsx", 
                titulo='Reporte de prueba archivo XLSX', 
                archivo='ejemplo_reporte__archivo_XLSX.html')

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2022-10-27 23:43:40 y debe ser actualizado de manera diaria
{1: 1.0, 2: 0.6086956521739131, 3: 1.0, 4: 0, 5: 1.0, 6: 1.0, 7: 0.6956521739130435, 8: 1.0, 9: 1, 10: 0.5}


  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,
  r, k = function_base._ureduce(a,


--------------------------------------------------------------------------------------------
Se ha generado el reporte "ejemplo_reporte__archivo_XLSX.html"
03:30:58 PM (00 min 11 seg)
--------------------------------------------------------------------------------------------


### Creación de reporte de una base de datos local

In [4]:
#dtypes = {'ID de caso': object,
#          'Código DIVIPOLA': object,
#          'Codigo departamento': object,
#          'Codigo pais':object}

# Lectura de archivo de datos como dataframe
df_datos = CalidadDatos('dataset_ejemplos.xlsx')#, 
                        #dtype=dtypes)



In [None]:
# Se llama la función para generar el reporte
df_datos.generar_reporte(datos=df_datos,
                titulo='Perfilamiento datos COVID-19 - Colombia',
                archivo='ejemplo_reporte__dataframe.html')

### Creación del reporte con metadatos locales

#### Primero se cargan los metadatos

In [5]:
df_datos.cargar_metadatos('metadatos_prueba.json')

'información de Datos'


<leila.calidad_datos.CalidadDatos at 0x7fe8f85f4b20>

In [7]:
df_datos.metadatos_indice

{'name': 'nombre',
 'description': 'descripcion',
 'createdAt': 1575379734,
 'publicationDate': 1575380046,
 'rowsUpdatedAt': 1618623047,
 'metadata': {'custom_fields': {'Información de Datos': {'Frecuencia de Actualización': 'Anual'}}},
 'approvals': [{'submitter': {'displayName': 'Alcaldia de Pereira Secretaria TIC'}}],
 'columns': [{'name': 'vivienda_id_sistema',
   'description': '',
   'renderTypeName': 'number',
   'cachedContents': {'non_null': '14287', 'null': '0'}}]}

In [8]:
df_datos.indice()

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2021-04-16 20:30:47 y debe ser actualizado de manera anual
{1: 0, 2: 0.0, 3: 1.0, 4: 0, 5: 1.0, 6: 1.0, 7: 0, 8: 1.0, 9: 1, 10: 0}


{'indice': 0.6306284523575554,
 'indice_metadatos': 0.3196043896490991,
 'indice_datos': 0.9416525150660117}

#### Se genera el reporte con los datos y los metadatos

In [6]:
# Se llama la función para generar el reporte
df_datos.generar_reporte(datos=df_datos,
                titulo='Perfilamiento datos COVID-19 - Colombia',
                archivo='ejemplo_reporte__dataframe_con_metadatos.html')

El conjunto de datos no se encuentra actualizado porque la última actualización fue el 2021-04-16 20:30:47 y debe ser actualizado de manera anual
{1: 0, 2: 0.0, 3: 1.0, 4: 0, 5: 1.0, 6: 1.0, 7: 0, 8: 1.0, 9: 1, 10: 0}
                           0
name                  nombre
description      descripcion
createdAt         1575379734
publicationDate   1575380046
rowsUpdatedAt     1618623047


AttributeError: 'str' object has no attribute 'values'