<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Logo_UTFSM.png" width="200" alt="utfsm-logo" align="left"/>

# MAT281
### Aplicaciones de la Matemática en la Ingeniería

## Módulo 02
## Clase 05: Obtención de Datos

## Objetivos

* Conocer los tipos de datos más comunes
* Utilizar una API

## Contenidos
* [Motivación](#motivation)
* [CSV](#csv)
* [JSON](#json)
* [Pickle](#pickle)
* [API](#api)

<a id='motivation'></a>
## Motivación

Como ya hemos comentado en clases pasadas, hoy los datos son el centro de atención en el mundo tecnológico. Por lo mismo existe una amplia gama de tipos de datos lo cual conlleva a distintas formas de obtención y manipulación de estos datos. 

En la clase de hoy comenzaremos conociendo los tipos más comunes de datos para luego centrarnos en la obtención de datos a través de una __API__. Los ejemplos serán utilizando la API de DataChile.

In [6]:
import os
import pandas as pd

<a id='csv'></a>
## CSV

Del inglés _Comma-Separated Values_, los archivos CSV utilizan comas (",") para separar valores y cada registro consiste de una fila. 

- Pros:
    * Livianos.
    * De fácil entendimiento.
    * Editables usando un editor de texto.
- Contras:
    * No está totalmente estandarizado (e.g. ¿Qué pasa si un valor tiene comas?)
    * Son sensible al _encoding_ (es la forma en que se codifica un carácter).
    
Pandas posee su propia función para leer csv: `pd.read_csv()`.

In [2]:
# Documentación
# pd.read_csv?

### Ejemplo de encoding incorrecto

In [3]:
pd.read_csv(os.path.join('data', 'encoding_example.csv'), sep=',', encoding='GBK')

Unnamed: 0,nombre,apellido,edad
0,Juan,P茅rez,12.0
1,Le贸n,Pardo,29.0
2,Jos茅,Nu帽ez,


### Ejemplo de encoding correcto

In [4]:
pd.read_csv(os.path.join('data', 'encoding_example.csv'), sep=',', encoding='utf8')

Unnamed: 0,nombre,apellido,edad
0,Juan,Pérez,12.0
1,León,Pardo,29.0
2,José,Nuñez,


<a id='json'></a>
## JSON

Acrónimo de _JavaScript Object Notation_, utilizado principalmente para intercambiar datos entre una aplicación web y un servidor.

- Pros:
    * Livianos.
    * De fácil entendimiento.
    * Editables usando un editor de texto.
    * Formato estandarizado.
- Contras:
    * La lectura con pandas puede ser un poco complicada.
    
Pandas posee su propia función para leer JSON: `pd.read_json()`.

In [5]:
# pd.read_json?

In [6]:
!head -n 10 data/json_example.json

{
  "integer": {
    "0": 5,
    "1": 5,
    "2": 9,
    "3": 6,
    "4": 6,
    "5": 9,
    "6": 7,
    "7": 1,


In [7]:
pd.read_json(
    os.path.join('data', 'json_example.json'),
    orient="columns"
).head()

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0
2,9,2015-01-01 00:00:02,0
3,6,2015-01-01 00:00:03,0
4,6,2015-01-01 00:00:04,0


<a id='pickle'></a>
## Pickle

Es un módulo que implementa protocolos binarios de serialización y des-serialización de objetos de Python.

* Pros
    - Puede representar una inmensa cantidad de tipos de objetos de python.
    - En un contexto de seguridad, como no es legible por el ser humano (representación binaria) puede ser útil para almacenar datos sensibles.
* Contras:
    - Solo Python.
    - Si viene de un tercero podría tener contenido malicioso.
    
Pandas posee su propia función para leer JSON: `pd.read_pickle()`.

In [8]:
# pd.read_pickle?

In [9]:
pd.read_pickle(os.path.join('data', 'nba.pkl')).head()

Unnamed: 0,name,year_start,year_end,position,height,weight,birth_date,college
0,Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University
1,Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University
2,Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles"
3,Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University
4,Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University


<a id='sql'></a>
## SQL

Conocimos las bases de datos relacionales SQL en elclases anteriores y como recordarás existe la función `pd.read_sql()`.

In [10]:
# pd.read_sql?

In [11]:
import sqlite3
connector = sqlite3.connect(os.path.join('data', 'chinook.db'))
pd.read_sql_query("select * from albums", con=connector).head()

Unnamed: 0,AlbumId,Title,ArtistId
0,1,For Those About To Rock We Salute You,1
1,2,Balls to the Wall,2
2,3,Restless and Wild,2
3,4,Let There Be Rock,1
4,5,Big Ones,3


<a id='api'></a>
## API

¿Has escuchado el término __API__? Fuera de todo tecnicismo, las APIs (_Application Programming Interface_) permiten hacer uso de funciones ya existentes en otro software (o de la infraestructura ya existente en otras plataformas) para no estar reinventando la rueda constantemente, reutilizando así código que se sabe que está probado y que funciona correctamente. Por ejemplo, cuando haces una compra online y utilizas WebPay. ¡Hay APIs en todos lados!

### Un buen ejemplo: Data Chile

Desde la web de [Data Chile](https://es.datachile.io):

- Ofrece una radiografía de las temáticas más importantes para el desarrollo del país.
- Ayuda a conocer tendencias y necesidades para el diseño e implementación de políticas públicas, programas de la sociedad civil, oportunidades de negocios y estrategias de marketing del sector privado.
- Colabora en la toma de decisiones tanto del sector público como privado.
- Integra información de más de 15 fuentes distintas pertenecientes a más de 10 organismos de Gobierno.
- Crea y combina visualizaciones interactivas.
- Piensa los datos como historias y no como archivos.


#### Denme todos los datos!
DataChile posee una API de datos que entrega la información para construir los gráficos y generar todos los textos del sitio. Todos los detalles en este [link](https://es.datachile.io/about/api).

In [12]:
%pdb

Automatic pdb calling has been turned ON


In [13]:
from datachile import ChileCube

client = ChileCube()
query = client.get(
    "exports", 
    {
        "drilldowns": [
            ["Date", "Year"],
            ["Destination Country", "Country", "Country"]
        ],
        "measures": ["FOB US"],
        "cuts": [
            {
                "drilldown": ["Date", "Year"],
                "values": [2012, 2013, 2014]
            }
        ],
    }
)

print(query)

KeyError: 'axis_dimensions'

> [0;32m/home/alonsolml/miniconda3/envs/ds/lib/python3.7/site-packages/mondrian_rest/aggregation.py[0m(116)[0;36mtidy[0;34m()[0m
[0;32m    114 [0;31m[0;34m[0m[0m
[0m[0;32m    115 [0;31m        self._tidy = {
[0m[0;32m--> 116 [0;31m            [0;34m'axes'[0m[0;34m:[0m [0mdata[0m[0;34m[[0m[0;34m'axis_dimensions'[0m[0;34m][0m[0;34m[[0m[0;36m1[0m[0;34m:[0m[0;34m][0m[0;34m,[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m    117 [0;31m            [0;34m'measures'[0m[0;34m:[0m [0mmeasures[0m[0;34m,[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m    118 [0;31m            [0;34m'data'[0m[0;34m:[0m [0;34m[[0m[0mbuild_row[0m[0;34m([0m[0mcell[0m[0;34m)[0m [0;32mfor[0m [0mcell[0m [0;32min[0m [0mproduct[0m[0;34m([0m[0;34m*[0m[0mprod[0m[0;34m)[0m[0;34m][0m[0;34m[0m[0;34m[0m[0m
[0m


ipdb>  type(data)


<class 'dict'>


ipdb>  data.keys()


dict_keys(['axes', 'cell_keys', 'values', 'mdx'])


ipdb>  data["axes"]


[{'members': [{'name': 'FOB US', 'full_name': '[Measures].[FOB US]', 'all_member?': False, 'drillable?': False, 'depth': 0, 'caption': 'Exports (USD FOB)', 'key': 'FOB US', 'num_children': 0, 'parent_name': None, 'level_name': 'MeasuresLevel', 'children': []}], 'name': 'Measures', 'caption': 'Measures', 'type': 'measures', 'level': 'MeasuresLevel', 'level_depth': 0, 'hierarchy': 'Measures'}, {'members': [{'name': '2012', 'full_name': '[Date].[2012]', 'all_member?': False, 'drillable?': False, 'depth': 1, 'caption': '2012', 'key': 2012, 'num_children': 0, 'parent_name': '[Date].[All Dates]', 'level_name': 'Year', 'children': []}, {'name': '2013', 'full_name': '[Date].[2013]', 'all_member?': False, 'drillable?': False, 'depth': 1, 'caption': '2013', 'key': 2013, 'num_children': 0, 'parent_name': '[Date].[All Dates]', 'level_name': 'Year', 'children': []}, {'name': '2014', 'full_name': '[Date].[2014]', 'all_member?': False, 'drillable?': False, 'depth': 1, 'caption': '2014', 'key': 2014, 

ipdb>  type(data["axes"])


<class 'list'>


ipdb>  data["axes"][1:]


[{'members': [{'name': '2012', 'full_name': '[Date].[2012]', 'all_member?': False, 'drillable?': False, 'depth': 1, 'caption': '2012', 'key': 2012, 'num_children': 0, 'parent_name': '[Date].[All Dates]', 'level_name': 'Year', 'children': []}, {'name': '2013', 'full_name': '[Date].[2013]', 'all_member?': False, 'drillable?': False, 'depth': 1, 'caption': '2013', 'key': 2013, 'num_children': 0, 'parent_name': '[Date].[All Dates]', 'level_name': 'Year', 'children': []}, {'name': '2014', 'full_name': '[Date].[2014]', 'all_member?': False, 'drillable?': False, 'depth': 1, 'caption': '2014', 'key': 2014, 'num_children': 0, 'parent_name': '[Date].[All Dates]', 'level_name': 'Year', 'children': []}], 'name': 'Date', 'caption': 'Date', 'type': 'standard', 'level': 'Year', 'level_depth': 1, 'hierarchy': 'Date'}, {'members': [{'name': 'Senegal', 'full_name': '[Destination Country].[Country].[Africa].[Senegal]', 'all_member?': False, 'drillable?': False, 'depth': 2, 'caption': 'Senegal', 'key': 10

ipdb>  q


In [12]:
from datachile import ChileCube

client = ChileCube()  # Objeto con el que es posible la conexión a DataChile

### Ejemplo 1

Esperanza de vida, Mortalidad y número de registros desagragados por Año, Región y Sexo.

In [14]:
life_expectancy = client.get(
    "life_expectancy", 
    {
        "drilldowns": [
            ["Date", "Date", "Year"],
            ["Geography", "Geography", "Region"],
            ['Sex', 'Sex', 'Sex']
        ],
        "measures": ["Number of records",
                     "Life Expectancy AVG",
                     "Mortality rate per 100 inhabitants AVG"
                    ]    
    })

KeyError: 'axis_dimensions'

## Entendiendo la API de Data Chile

DataChile utiliza para su funcionamiento como capa lógica Mondrian-REST, que es un componente del lado del servidor que permite la creación de APIs HTTP para acceder a una base de datos especificando la estructura lógica de la información.

Para utilizar la API de DataChile, es necesario conocer algunos conceptos que facilitarán su uso, los cuáles explicaremos a continuación.

**Cubo**

Un cubo es una colección de dimensions y measures.

En DataChile, cada dataset está agrupado en un cubo. El diseño del lenguaje de consultas a la API está centrado en torno a 3 operaciones: Drilldown, Cut, Measure. Para ejemplificar los conceptos, se utilizará el dataset exports -que representa las exportaciones de Chile- como referencia.

**Drilldown**

Algunas definiciones previas:
Un member es un valor dentro de una dimensión determinada por un set de valores. La jerarquía género tiene los miembros 'Masculino' y 'Femenino'. 'Concepción', 'Bío-Bío' y 'Chile' son todos miembros de la jerarquía Geográfica.
Un level es un conjunto de miembros que se encuentran a la misma distancia del inicio de la jerarquía. Concepción, Tucapel, Arica, se encuentran en el mismo level.
Una hierarchy es un conjunto de miembros organizados estructuradamente para su análisis. Por ejemplo, la jerarquía Geográfica consiste de nombre de comuna, regiones y país. La jerarquización permite obtener valores intermedios: Total de exportaciones de la región de Valparaíso es la suma de todas las exportaciones de las comunas de dicha región.
Una dimension es un conjunto de jerarquías que discriminan el mismo atributo (Por ejemplo, el día que se produjo una exportación)
Un drilldown permite pasar de un nivel de detalle al siguiente. La estructura de un drilldown para las consultas en el cubo es [Dimension].[Hierarchy].[Level]

**Medición**

Variable escalar asociada con un valor particular en los datos del cubo.

**Corte**

Permite al usuario especificar un filtro, que restringe las tuplas disponibles del cubo. Por ejemplo, en exports, cortar el cubo en torno al miembro [Region].[8] en la dimensión Geography, sólo considerará celdas de la región de Bío-Bío. Múltiples cortes pueden ser especificados en una simple consulta.

[Fuente](https://es.datachile.io/about/api)


In [None]:
client.get(
    "life_expectancy", 
    {
        "drilldowns": [
            ["Date", "Date", "Year"],
            ["Geography", "Geography", "Region"],
            ['Sex']
        ],
        "measures": ["Number of records",
                     "Life Expectancy AVG",
                     "Mortality rate per 100 inhabitants AVG"
                    ]    },
    df=True
)

### Destripando el ejemplo anterior:

Para el ejemplo anterior básicamente se utilizó toda la información disponible de la esperanza de vida

- Cube: life_expectancy
- Drilldowns:
    * Año (Dimensión: Date, Hierarchy: Date, Level: Year)
    * Región (Dimensión: Geography, Hierarchy: Geography, Level: Region)
    * Género (Dimensión: Sex, Hierarchy: Sex, Level: Sex)
- Measures:
    * Número de registros
    * Promedio de esperanza de vida
    * Promedio de tasa promedio de mortalidad por 100 habitantes

### Ejemplo 2

Pensemos que queremos la información de la tasa de mortalidad solo por region (sin importar el año y el género), la solicitud a la API debe ser de la siguiente forma:

In [None]:
mortality_region = client.get(
    "life_expectancy", 
    {
        "drilldowns": [
            ["Geography", "Geography", "Region"],
        ],
        "measures": [
                     "Mortality rate per 100 inhabitants AVG"
                    ]    
    },
    df=True
)
mortality_region.head()

### Veamos la documentación de la API de DataChile para Python

In [None]:
ChileCube??

La información de la esperanza de vida se puede obtener de la siguiente forma:

In [None]:
client.get_cube("life_expectancy")  # Es un JSON!

Lo primero es tener una visión de todos los cubos.

In [None]:
client.get_measures("life_expectancy")  # Lista de dicctionarios 

ProTip: Como te diste cuenta, lo que entrega es un diccionario ("""JSON""") o una lista de diccionario, por lo que si quieres explorar con más detalle una buena idea es ver las llaves que tiene para así acceder con mayor facilidad.

In [None]:
client.get_cube("life_expectancy").keys()

In [None]:
client.get_cube("life_expectancy")['measures']

## Veamos otros cubos

In [None]:
cubes = client.get_cubes()  # Lista de diccionarios

In [None]:
for cube in cubes:
    print(cube['name'])

# Ejercicio 2

Objetivo: Obtener la población por año y comuna.

In [None]:
client.get_cube("population_estimate")

In [None]:
population = client.get(
    "population_estimate", 
    {
        "drilldowns": [
            ["Date", "Date", "Year"],
            ["Geography", "Geography", "Comuna"],
        ],
        "measures": [
            "Population",
        ],
    },
    df=True
)
population.head()

## Ejercicio Parte 2

### Ejercicio 2.1
Obtener la cantidad de electores habilitados y electores que votaron por Region total (considerando todos los años disponibles)

In [None]:
client.get_cube("election_participation")

In [None]:
client.get_cube("election_participation")['measures']

In [None]:
election = client.get(
    # FIX ME PLEASE, 
    {
        "drilldowns": [
            # FIX ME PLEASE
        ],
        "measures": [
            # FIX ME PLEASE,
            # FIX ME PLEASE
        ],
    },
    df=True
)
election.head()

### Ejercicio 2.2
Obtener el promedio de NEM y puntaje PSU por año y tipo de instituciónn (_Administración_) desde el cubo `education_performance_new`.

In [None]:
client.get_cube("education_performance_new")

In [None]:
client.get_cube("education_performance_new")['dimensions']

In [None]:
client.get_cube("education_performance_new")['measures']

In [None]:
psu_nem = client.get(
    "education_performance_new", 
    {
        "drilldowns": [
            # FIX ME PLEASE,
            # FIX ME PLEASE
        ],
        "measures": [
            # FIX ME PLEASE,
            # FIX ME PLEASE
        ],
    },
    df=True
)
psu_nem.head()