# Caso de uso: viajar al exterior

<p align="center">
  <img src="imgs/viaje.png" width=400 height=200 />
</p>


María tiene muchas ganas de hacer un viaje a otro país para salir de la monotonía y conocer otras culturas. Sin embargo, hay dos obstáculos para esto:

* María no sabe a cuáles países puede viajar, pues algunos países tienen requerimientos de visas para colombianos.
* No es claro cuándo se podrá viajar, debido a la pandemía ocasionada por el COVID19.


# 1. Visas para colombianos en el exterior

Para resolver la primera de estas dudas, María decide que quizás pueda encontrar datos útiles para esto en <a href="https://datos.gov.co/" target="_blank">el portal de Datos Abiertos Colombia</a>. Además, como tiene LEILA a su alcance, decide hacer esta consulta directamente desde Python.

---
## Importar librerías y módulos
Lo primero que debe hacer María es importar los módulos necesarios de **LEILA**.

In [1]:
# Para evaluar la calidad de datos de un conjunto estructurado
from leila.calidad_datos import CalidadDatos
# Para buscar y descargar datasets del portal de datos abiertos
from leila.datos_gov import Datos, Inventario
# Para genererar un reporte interactivo con la información de un conjunto de datos determinado
from leila.reporte import generar_reporte

---
## Descargar tabla con metadatos del Portal
Lo primero que decide hacer María es descargar el inventario completo de datos disponibles en el portal de datos abiertos. Para esto, solo necesita un comando, que descargará este inventario actualizado como un objeto *DataFrame* de Pandas. 

In [2]:
inventario = Inventario()
inventario.inventario._base



Unnamed: 0,numero_api,nombre,descripcion,dueno,tipo,categoria,terminos_clave,url,fecha_creacion,fecha_actualizacion,...,entidad,entidad_url,entidad_sector,entidad_departamento,entidad_orden,entidad_dependencia,entidad_municipio,idioma,cobertura,base_publica
0,gxq5-yti4,"Tasa de violencia interpersonal contra niños, ...",Presenta información estadistica y datos absol...,Gobernacion del Cauca,enlace externo,Estadisticas Nacionales,"interpersonal,menores 18 años,violencia",https://www.datos.gov.co/d/gxq5-yti4,2018-12-06,2018-12-06,...,Instituto Nacional de Medicina Legal y Ciencia...,,Público,Cauca,Departamental,,No Aplica,Español,Municipal,Si
1,78mj-g336,PruebaLey617,,Contraloría General de la República,conjunto de datos,,,https://www.datos.gov.co/d/78mj-g336,2020-07-15,2020-07-16,...,,,Organismos de control y vigilancia,Bogotá D.C.,Nacional,CGR,Bogotá D.C.,Español,Nacional,Si
2,wdr8-awj3,Boletín de Responsables Fiscales,Boletín que contendrá los nombres de las perso...,Contraloría General de la República,conjunto de datos,Organismos de Control,"boletín,contraloría,responsables fiscales,ante...",https://www.datos.gov.co/d/wdr8-awj3,2020-03-19,2020-07-15,...,Contraloría General de la República,,Organismos de control y vigilancia,Bogotá D.C.,Nacional,Contraloría Delegada para responsabilidad fisc...,Bogotá D.C.,Español,Nacional,Si
3,akbj-3m3t,SABER359 2014 COMPLEMENTARIO - ENTIDADTERRITORIAL,"""Contiene la información de cada entidad terri...",ICFES DATOS ABIERTOS,conjunto de datos,Educación,"complementario,sb359,icfes",https://www.datos.gov.co/d/akbj-3m3t,2017-02-15,2017-02-15,...,Instituto Colombiano para la Evaluación de la ...,,Educación,Bogotá D.C.,Nacional,Instituto Colombiano para la Evaluación de la ...,Bogotá D.C.,Español,Nacional,Si
4,ri2r-b7jg,Directorio de Presidentes de Juntas de Accion ...,Infomacion basica de las Juntas de Accion Comu...,Ministerio de Tecnologías de la Información y ...,conjunto de datos,Inclusión Social y Reconciliación,municipio de fonseca la guajira,https://www.datos.gov.co/d/ri2r-b7jg,2016-07-14,2016-07-14,...,Alcaldía Municipal de Fonseca en La Guajira,,No Aplica,La Guajira,Territorial,ALCALDIA MUNICIPAL DE FONSECA,Fonseca,Español,Municipal,Si
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21077,d7zr-b4e9,Complementaria-Alcaldía Municipio de Miranda-C...,Procesos de compra pública registrados en la p...,Asesoftware Soporte Nivel 2,vista filtrada,Gastos Gubernamentales,"secop i,colombia compra eficiente,compra pública",https://www.datos.gov.co/d/d7zr-b4e9,2017-04-25,2020-04-17,...,Agencia Nacional de Contratación Pública - Col...,http://www.colombiacompra.gov.co/,Planeación,Bogotá D.C.,Nacional,Subdirección de IDT,Bogotá D.C.,Español,Nacional,Si
21078,d6nk-5sf3,PROYECTOS EN EJECUCIÓN DE OBRAS PUBLICAS,Proyectos en ejecución de obras publicas,Alcaldia_Mosquera_Cundinamarca,conjunto de datos,Función pública,"obras,publicas mosquera,ejecucion",https://www.datos.gov.co/d/d6nk-5sf3,2018-02-16,2019-10-15,...,ALCALDIA MUNICIPAL DE MOSQUERA - CUNDINAMARCA,,Planeación,Cundinamarca,Territorial,ALCALDIA MUNICIPAL DE MOSQUERA - CUNDINAMARCA,Mosquera,Español,Municipal,Si
21079,pffk-cruf,Complementaria-Alcaldía Municipio de El Castil...,Procesos de compra pública registrados en la p...,Asesoftware Soporte Nivel 2,vista filtrada,Gastos Gubernamentales,"secop i,colombia compra eficiente,compra pública",https://www.datos.gov.co/d/pffk-cruf,2017-04-25,2020-04-17,...,Agencia Nacional de Contratación Pública - Col...,http://www.colombiacompra.gov.co/,Planeación,Bogotá D.C.,Nacional,Subdirección de IDT,Bogotá D.C.,Español,Nacional,Si
21080,6g5u-hjtr,Tasa de mortalidad en menores de 5 años,Tasa de mortalidad en menores de 5 años,dtsaludcaldas,conjunto de datos,Salud y Protección Social,,https://www.datos.gov.co/d/6g5u-hjtr,2018-11-16,2019-05-06,...,Dirección Territorial de Salud de Caldas,http://observatorio.saluddecaldas.gov.co,Salud y Protección Social,Caldas,Territorial,Observatorio social,Manizales,Español,Departamental,Si


In [3]:
# Al ser un DataFrame de pandas se pueden usar todos los métodos de estos objetos, como el método
# 'head(n)', que permite ver las primeras n filas de la tabla
inventario.inventario._base.head()

Unnamed: 0,numero_api,nombre,descripcion,dueno,tipo,categoria,terminos_clave,url,fecha_creacion,fecha_actualizacion,...,entidad,entidad_url,entidad_sector,entidad_departamento,entidad_orden,entidad_dependencia,entidad_municipio,idioma,cobertura,base_publica
0,gxq5-yti4,"Tasa de violencia interpersonal contra niños, ...",Presenta información estadistica y datos absol...,Gobernacion del Cauca,enlace externo,Estadisticas Nacionales,"interpersonal,menores 18 años,violencia",https://www.datos.gov.co/d/gxq5-yti4,2018-12-06,2018-12-06,...,Instituto Nacional de Medicina Legal y Ciencia...,,Público,Cauca,Departamental,,No Aplica,Español,Municipal,Si
1,78mj-g336,PruebaLey617,,Contraloría General de la República,conjunto de datos,,,https://www.datos.gov.co/d/78mj-g336,2020-07-15,2020-07-16,...,,,Organismos de control y vigilancia,Bogotá D.C.,Nacional,CGR,Bogotá D.C.,Español,Nacional,Si
2,wdr8-awj3,Boletín de Responsables Fiscales,Boletín que contendrá los nombres de las perso...,Contraloría General de la República,conjunto de datos,Organismos de Control,"boletín,contraloría,responsables fiscales,ante...",https://www.datos.gov.co/d/wdr8-awj3,2020-03-19,2020-07-15,...,Contraloría General de la República,,Organismos de control y vigilancia,Bogotá D.C.,Nacional,Contraloría Delegada para responsabilidad fisc...,Bogotá D.C.,Español,Nacional,Si
3,akbj-3m3t,SABER359 2014 COMPLEMENTARIO - ENTIDADTERRITORIAL,"""Contiene la información de cada entidad terri...",ICFES DATOS ABIERTOS,conjunto de datos,Educación,"complementario,sb359,icfes",https://www.datos.gov.co/d/akbj-3m3t,2017-02-15,2017-02-15,...,Instituto Colombiano para la Evaluación de la ...,,Educación,Bogotá D.C.,Nacional,Instituto Colombiano para la Evaluación de la ...,Bogotá D.C.,Español,Nacional,Si
4,ri2r-b7jg,Directorio de Presidentes de Juntas de Accion ...,Infomacion basica de las Juntas de Accion Comu...,Ministerio de Tecnologías de la Información y ...,conjunto de datos,Inclusión Social y Reconciliación,municipio de fonseca la guajira,https://www.datos.gov.co/d/ri2r-b7jg,2016-07-14,2016-07-14,...,Alcaldía Municipal de Fonseca en La Guajira,,No Aplica,La Guajira,Territorial,ALCALDIA MUNICIPAL DE FONSECA,Fonseca,Español,Municipal,Si


In [4]:
# Cantidad de filas y columnas de la tabla de inventario
inventario.inventario._base.shape

(21082, 25)

---

## Filtrar tabla de metadatos con términos clave
**¡21.047 filas!** El portal de datos abiertos tiene mucho contenido, por lo que María necesita poder filtrar los conjuntos de datos de alguna manera, para acotar su búsqueda y ahorrar tiempo.

Este proceso de filtrado y búsqueda se podría hacer directamente con el objeto de Pandas, pero LEILA también cuenta con la función `filtrar_tabla`, que permite hacer varios filtros al tiempo de manera muy sencilla.

Para hacer este filtro, se define un diccionario *columnas_valor*. que indica que se están buscando los conjuntos de datos cuyo nombre contenga la palabra 'visa'.

In [5]:
columnas_valor = {"nombre": ["visa"], "tipo": ["conjunto de datos"]}
tabla_filtrada = inventario.filtrar_tabla(columnas_valor)

In [6]:
tabla_filtrada.shape

(4, 25)

El resultado es otro objeto *DataFrame*, que contiene las filas de la tabla de inventario que cumplen con los criterios específicados. En este caso, la búsqueda de datos que involucren visas redujo la tabla a **solamente 4 filas**.

Se puede hacer una inspección rápida de su contenido, para ver si hay algún conjunto de datos que le sirva a María para resolver sus dudas.

In [7]:
tabla_filtrada

Unnamed: 0,numero_api,nombre,descripcion,dueno,tipo,categoria,terminos_clave,url,fecha_creacion,fecha_actualizacion,...,entidad,entidad_url,entidad_sector,entidad_departamento,entidad_orden,entidad_dependencia,entidad_municipio,idioma,cobertura,base_publica
8055,fv9n-bggj,Registro visas expedidas a ciudadanos venezolanos,Información de solicitudes de visas tramitadas...,MINISTERIO DE RELACIONES EXTERIORES,conjunto de datos,Función pública,,https://www.datos.gov.co/d/fv9n-bggj,2020-10-22,2020-10-22,...,Ministerio de relaciones Exteriores de Colombia,,Relaciones Exteriores,Bogotá D.C.,Nacional,Ministerio de Relaciones Exteriores de Colombia,Bogotá D.C.,Español,Internacional,Si
11700,bign-27m7,Paises que no exigen visa de turismo a colombi...,Relaciona los países indicando si exigen visa ...,MINISTERIO DE RELACIONES EXTERIORES,conjunto de datos,Función pública,"visa,visado,exención,turismo,viajar,pasaporte,...",https://www.datos.gov.co/d/bign-27m7,2016-11-04,2020-12-01,...,Ministerio de Relaciones Exteriores,,Relaciones Exteriores,Bogotá D.C.,Nacional,Ministerio de Relaciones Exteriores,Bogotá D.C.,Español,Internacional,Si
18493,h44k-fvv7,Reporte de directivos de entidades públicas vi...,,Superintendencia Financiera de Colombia,conjunto de datos,Economía y Finanzas,"directivos,supervisadas,vigiladas,publicas,rep...",https://www.datos.gov.co/d/h44k-fvv7,2020-05-29,2020-12-07,...,Superintendencia Financiera de Colombia,,Hacienda y Crédito Público,Bogotá D.C.,Nacional,Subdirección de Análisis de Información,Bogotá D.C.,Español,Nacional,Si
18517,g7ps-wzb3,Países que no requieren visa de turismo para i...,Relaciona los países indicando si requieren o ...,MINISTERIO DE RELACIONES EXTERIORES,conjunto de datos,Función pública,"visado,visa,viajar,extranjero,permanencia en c...",https://www.datos.gov.co/d/g7ps-wzb3,2016-11-04,2020-12-01,...,Ministerio de Relaciones Exteriores,,Relaciones Exteriores,Bogotá D.C.,Nacional,Ministerio de Relaciones Exteriores,Bogotá D.C.,Español,Internacional,Si


---
## Descargar conjunto de datos a partir de la tabla filtrada

<p align="center">
  <img src="imgs/eureka.png" width=200 height=200 />
</p>


¡Eureka! Parece que hay conjuntos de datos con información útil para esta situación. En particular, el conjunto de datos con código de API *'bign-27m7'* se ve útil, así que vamos a descargarlo.

In [8]:
codigo_api = "bign-27m7"
datos_visas = Datos(codigo_api)
datos_visas._base.head(3)



Unnamed: 0,regi_n,otros_territorios,pa_s,localizaci_n,exige_visa_corta_duraci_n,exige_visa_para_pasaporte_oficial,exige_visa_para_pasaporte_diplomatico,condiciones_especiales
0,ASIA CENTRAL,NO,AFGANISTÁN,"{'latitude': '33.93911', 'longitude': '67.7099...",SI,SI,SI,(N/A)
1,EUROPA SCHENGEN,NO,GRECIA,"{'latitude': '39.074208', 'longitude': '21.824...",NO,NO,NO,(N/A)
2,AMERICA DEL NORTE,NO,ESTADOS UNIDOS DE AMÉRICA,"{'latitude': '37.09024', 'longitude': '-95.712...",SI,SI,SI,(N/A)


La clase `CalidadDatos` permite obtener estadísticas descriptivas sobre el conjunto de datos, y calcular algunas métricas de calidad. Su principal argumento es el conjunto de datos que deseamos evaluar.

In [9]:
calidad_datos = CalidadDatos(datos_visas, castNumero=True)

Utilizando el objeto `calidad_datos`, se puede por ejemplo generar una tabla con el resumen descriptivo del conjunto de datos. Esta tabla contiene información general del conjunto de datos y es una buena primera aproximación para entender la estructura del conjunto de datos.

In [10]:
resumen = calidad_datos.Resumen(columnasRepetidas=True)
resumen

El conjunto de datos no tiene columnas numéricas


También es posible averiguar si el conjunto de datos contiene columnas repetidas, para que el ususario no se desgaste analizando datos redundantes.

In [11]:
duplicados_col = calidad_datos.EmparejamientoDuplicados(col=True)
duplicados_col

Unnamed: 0,Columnas iguales 1
0,exige_visa_para_pasaporte_oficial
1,exige_visa_para_pasaporte_diplomatico


---

## Generar reporte automático
María debe salir de su casa en este momento para ir a trabajar, pero no ha terminado de analizar el conjunto de datos sobre requerimientos de visas a colombianos. Sin embargo, puede generar un reporte interactivo en HTML sobre estos datos, y puede ir estudiándolo mientras va en el Transmilenio.

La función `generar_reporte` permite crear un archivo HTML con resultados y métricas de calidad sobre el conjunto de datos seleccionado.

In [12]:
generar_reporte(api_id="bign-27m7", titulo = "Reporte visas", archivo='reporte_visas.html')



--------------------------------------------------------------------------------------------
El conjunto de datos no tiene columnas numéricas


----
# 2. Información sobre casos de COVID 19 en Colombia

No es claro cuándo se podrá viajar de nuevo. Ante este escenario, María le pidió a un amigo datos sobre los casos de contagio en Colombia. Ahora, María quiere evaluar si esta información sirve para realizar análisis más avanzados.

In [13]:
# Importar pandas
import pandas as pd

# Cargar base de datos desde el computador local
datos_covid = pd.read_excel('covid_19_colombia.xlsx')

# Generar reporte sobre la base de datos
generar_reporte(datos_covid, titulo = "Reporte COVID-19", archivo='reporte_covid.html')

  return np.sqrt(phi2corr / min((kcorr - 1), (rcorr - 1)))


--------------------------------------------------------------------------------------------
Se ha generado el reporte "reporte_covid.html"
10:54:02 AM (00 min 37 seg)
--------------------------------------------------------------------------------------------
