# Caso de uso: viajar al exterior

<p align="center">
  <img src="imgs/viaje.png" width=400 height=200 />
</p>


María tiene muchas ganas de hacer un viaje a otro país para salir de la monotonía y conocer otras culturas. Sin embargo, hay dos obstáculos para esto:

* María no sabe a cuáles países puede viajar, pues algunos países tienen requerimientos de visas para colombianos.
* No es claro cuándo se podrá viajar, debido a la pandemía ocasionada por el COVID19.


# 1. Visas para colombianos en el exterior

Para resolver la primera de estas dudas, María decide que quizás pueda encontrar datos útiles para esto en <a href="https://datos.gov.co/" target="_blank">el portal de Datos Abiertos Colombia</a>. Además, como tiene LEILA a su alcance, decide hacer esta consulta directamente desde Python.

---
## Importar librerías y módulos
Lo primero que debe hacer María es importar los módulos necesarios de **LEILA**.

In [1]:
# Para evaluar la calidad de datos de un conjunto estructurado
from leila.calidad_datos import CalidadDatos
# Para buscar y descargar datasets del portal de datos abiertos
from leila import datos_gov
# Para genererar un reporte interactivo con la información de un conjunto de datos determinado
from leila.reporte import generar_reporte

---
## Descargar tabla con metadatos del Portal
Lo primero que decide hacer María es descargar el inventario completo de datos disponibles en el portal de datos abiertos. Para esto, solo necesita un comando, que descargará este inventario actualizado como un objeto *DataFrame* de Pandas. 

In [2]:
inventario = datos_gov.tabla_inventario()



In [3]:
# Al ser un DataFrame de pandas se pueden usar todos los métodos de estos objetos, como el método
# 'head(n)', que permite ver las primeras n filas de la tabla
inventario.head(2)

Unnamed: 0,numero_api,nombre,descripcion,dueno,tipo,categoria,terminos_clave,url,fecha_creacion,fecha_actualizacion,...,entidad,entidad_url,entidad_sector,entidad_departamento,entidad_orden,entidad_dependencia,entidad_municipio,idioma,cobertura,base_publica
0,pxrj-5yk9:0,Organizaciones/Entidades Aplicación SIIA - Acr...,,UAEOS,conjunto de datos,,,https://www.datos.gov.co/d/pxrj-5yk9/revisions/0,2019-12-05,2019-12-05,...,,,,,,,,,,No
1,9inf-whsd:0,Exentos de matrícula,,Universidad Pedagógica y Tecnológica de Colombia,conjunto de datos,,,https://www.datos.gov.co/d/9inf-whsd/revisions/0,2019-08-28,2019-08-28,...,,,,,,,,,,No


In [4]:
# Cantidad de filas y columnas de la tabla de inventario
inventario.shape

(21678, 25)

---

## Filtrar tabla de metadatos con términos clave
**¡21.047 filas!** El portal de datos abiertos tiene mucho contenido, por lo que María necesita poder filtrar los conjuntos de datos de alguna manera, para acotar su búsqueda y ahorrar tiempo.

Este proceso de filtrado y búsqueda se podría hacer directamente con el objeto de Pandas, pero LEILA también cuenta con la función `filtrar_tabla`, que permite hacer varios filtros al tiempo de manera muy sencilla.

Para hacer este filtro, se define un diccionario *columnas_valor*. que indica que se están buscando los conjuntos de datos cuyo nombre contenga la palabra 'visa'.

In [5]:
columnas_valor = {"nombre": ["visa"], "tipo": ["conjunto de datos"]}
tabla_filtrada = datos_gov.filtrar_tabla(columnas_valor)



In [6]:
tabla_filtrada.shape

(4, 25)

El resultado es otro objeto *DataFrame*, que contiene las filas de la tabla de inventario que cumplen con los criterios específicados. En este caso, la búsqueda de datos que involucren visas redujo la tabla a **solamente 4 filas**.

Se puede hacer una inspección rápida de su contenido, para ver si hay algún conjunto de datos que le sirva a María para resolver sus dudas.

In [7]:
tabla_filtrada

Unnamed: 0,numero_api,nombre,descripcion,dueno,tipo,categoria,terminos_clave,url,fecha_creacion,fecha_actualizacion,...,entidad,entidad_url,entidad_sector,entidad_departamento,entidad_orden,entidad_dependencia,entidad_municipio,idioma,cobertura,base_publica
12491,bign-27m7,Paises que no exigen visa de turismo a colombi...,Relaciona los países indicando si exigen visa ...,MINISTERIO DE RELACIONES EXTERIORES,conjunto de datos,Función pública,"visa,visado,exención,turismo,viajar,pasaporte,...",https://www.datos.gov.co/d/bign-27m7,2016-11-04,2020-08-01,...,Ministerio de Relaciones Exteriores,,Relaciones Exteriores,Bogotá D.C.,Nacional,Ministerio de Relaciones Exteriores,Bogotá D.C.,Español,Internacional,Si
18784,g7ps-wzb3,Países que no requieren visa de turismo para i...,Relaciona los países indicando si requieren o ...,MINISTERIO DE RELACIONES EXTERIORES,conjunto de datos,Función pública,"visado,visa,viajar,extranjero,permanencia en c...",https://www.datos.gov.co/d/g7ps-wzb3,2016-11-04,2020-08-01,...,Ministerio de Relaciones Exteriores,,Relaciones Exteriores,Bogotá D.C.,Nacional,Ministerio de Relaciones Exteriores,Bogotá D.C.,Español,Internacional,Si
19104,h44k-fvv7,Reporte de directivos de entidades públicas vi...,,Superintendencia Financiera de Colombia,conjunto de datos,Economía y Finanzas,"reporte,directivos,publicas,vigiladas,supervis...",https://www.datos.gov.co/d/h44k-fvv7,2020-05-29,2020-05-29,...,Superintendencia Financiera de Colombia,,Hacienda y Crédito Público,Bogotá D.C.,Nacional,Subdirección de Análisis de Información,Bogotá D.C.,Español,Nacional,Si
19697,kmkm-88sj,Registro visas expedidas a ciudadanos venezol...,Información de solicitudes de visas tramitadas...,MINISTERIO DE RELACIONES EXTERIORES,conjunto de datos,Estadísticas Nacionales,,https://www.datos.gov.co/d/kmkm-88sj,2019-09-23,2020-05-05,...,,,Estadísticas,Bogotá D.C.,Internacional,Ministerio de Relaciones Exteriores,Bogotá D.C.,Español,Internacional,Si


---
## Descargar conjunto de datos a partir de la tabla filtrada

<p align="center">
  <img src="imgs/eureka.png" width=200 height=200 />
</p>


¡Eureka! Parece que hay conjuntos de datos con información útil para esta situación. En particular, el conjunto de datos con código de API *'bign-27m7'* se ve útil, así que vamos a descargarlo.

In [8]:
codigo_api = "bign-27m7"
datos_visas = datos_gov.cargar_base(codigo_api)
datos_visas.head(3)



Unnamed: 0,regi_n,otros_territorios,pa_s,localizaci_n,exige_visa_corta_duraci_n,exige_visa_para_pasaporte_oficial,exige_visa_para_pasaporte_diplomatico,condiciones_especiales
0,ASIA CENTRAL,NO,AFGANISTÁN,"{'latitude': '33.93911', 'longitude': '67.7099...",SI,SI,SI,(N/A)
1,EUROPA SCHENGEN,NO,GRECIA,"{'latitude': '39.074208', 'longitude': '21.824...",NO,NO,NO,(N/A)
2,AMERICA DEL NORTE,NO,ESTADOS UNIDOS DE AMÉRICA,"{'latitude': '37.09024', 'longitude': '-95.712...",SI,SI,SI,(N/A)


La clase `CalidadDatos` permite obtener estadísticas descriptivas sobre el conjunto de datos, y calcular algunas métricas de calidad. Su principal argumento es el conjunto de datos que deseamos evaluar.

In [9]:
calidad_datos = CalidadDatos(datos_visas, castNumero=True)

Utilizando el objeto `calidad_datos`, se puede por ejemplo generar una tabla con el resumen descriptivo del conjunto de datos. Esta tabla contiene información general del conjunto de datos y es una buena primera aproximación para entender la estructura del conjunto de datos.

In [10]:
resumen = calidad_datos.Resumen(columnasRepetidas=True)
resumen

La base de datos no tiene columnas numéricas


Número de filas                                        98
Número de columnas                                      8
Columnas numéricas                                      0
Columnas de texto                                       7
Columnas booleanas                                      0
Columnas de fecha                                       0
Otro tipo de columnas                                   1
Número de filas repetidas                               0
Número de columnas repetidas                            1
Columnas con más de la mitad de datos faltantes         0
Uso en memoria de la base en kylobytes (aproximado)     6
dtype: int32

También es posible averiguar si el conjunto de datos contiene columnas repetidas, para que el ususario no se desgaste analizando datos redundantes.

In [11]:
duplicados_col = calidad_datos.EmparejamientoDuplicados(col=True)
duplicados_col

Unnamed: 0,Columnas iguales 1
0,exige_visa_para_pasaporte_oficial
1,exige_visa_para_pasaporte_diplomatico


---

## Generar reporte automático
María debe salir de su casa en este momento para ir a trabajar, pero no ha terminado de analizar el conjunto de datos sobre requerimientos de visas a colombianos. Sin embargo, puede generar un reporte interactivo en HTML sobre estos datos, y puede ir estudiándolo mientras va en el Transmilenio.

La función `generar_reporte` permite crear un archivo HTML con resultados y métricas de calidad sobre el conjunto de datos seleccionado.

In [12]:
generar_reporte(api_id="bign-27m7", titulo = "Reporte visas", archivo='reporte_visas.html')



--------------------------------------------------------------------------------------------
La base de datos no tiene columnas numéricas
No hay filas duplicadas
La base de datos no tiene columnas numéricas
--------------------------------------------------------------------------------------------
Se ha generado el reporte "reporte_visas.html"
10:53:39 AM (00 min 4 seg)
--------------------------------------------------------------------------------------------


----
# 2. Información sobre casos de COVID 19 en Colombia

No es claro cuándo se podrá viajar de nuevo. Ante este escenario, María le pidió a un amigo datos sobre los casos de contagio en Colombia. Ahora, María quiere evaluar si esta información sirve para realizar análisis más avanzados.

In [13]:
# Importar pandas
import pandas as pd

# Cargar base de datos desde el computador local
datos_covid = pd.read_excel('covid_19_colombia.xlsx')

# Generar reporte sobre la base de datos
generar_reporte(datos_covid, titulo = "Reporte COVID-19", archivo='reporte_covid.html')

  return np.sqrt(phi2corr / min((kcorr - 1), (rcorr - 1)))


--------------------------------------------------------------------------------------------
Se ha generado el reporte "reporte_covid.html"
10:54:02 AM (00 min 37 seg)
--------------------------------------------------------------------------------------------
