# Open Data Day
## Visualización de datos abiertos con Python >> Pandas >> Dash
## Pero primero, algunas aclaraciones

<img src="imgs/python.jpg">
<img src="imgs/pandas.jpg">
<img src="imgs/plotly_dash.jpg">

## Esto no es PowerPoint ¿dónde estamos ahora?

<img src="imgs/Jupyter.jpg">

## ¿Cómo ejecutar el notebook?

En **Colab** (es necesaria una cuenta de Google):

1. Ir a la dirección https://colab.research.google.com/
2. Seleccionar la pestaña GitHub
3. Ingresa la URL correspondiente a Programming Historian >> Open Data Day: https://github.com/programminghistorian/opendataday-2021
4. Seleccionar el notebook de la ruta `python-pandas-dash/cuaderno.ipynb`
5. Para ejecutar las casillas será necesario autenticarse con una cuenta de Google.

En **binder** (es probable que se encuentren algunos bugs y se tarde un poco en cargar):

1. Ir a la dirección https://mybinder.org/
2. Escribir la dirección del repositorio https://github.com/programminghistorian/opendataday-2021 en la casilla "GitHub repository name or URL"
3. Ejecutar en el botón `launch`
4. Abrir el directorio `python-pandas-dash`
5. Abrir el archivo `cuaderno.ipynb`



# ¡Basta de preliminares! ¡A la data!
## >> ¿Open Data what?

<img src="imgs/datos-abiertos-1.png">

* Principio del gobierno digital y abierto
* Datos disponibles para todos los ciudadanos y ciudadanas
* Datos oficiales, confiables y verificables de instituciones públicas

### >> La información no está estructurada tal como la quisieramos tener.

* No todos los datos están estructurados.
* Abiertos no siempre se entienden como analizables.
* En ocasiones, datos abiertos se entiendes como informes abiertos. 

## Escoger una fuente de datos

<img src="imgs/tipos_de_archivo.jpg">

"Icons made by Freepik, Smashicons, and Smartline from [www.flaticon.com]"


## ¿Qué datos usaremos para este ejercicio?

Vamos a tomar una tabla estadística de la educación preescolar, básica y media por departamento en Colombia. Esta información la obtenemos de la siguiente dirección: https://www.datos.gov.co/Educaci-n/MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR-B-SICA/ji8i-4anb

La descripción de este conjunto de datos es la siguiente:

> El conjunto de datos contiene los principales indicadores de los niveles preescolar, básica y media discriminados por Departamento desde el año 2011 hasta 2019 definitiva oficial.

> Este conjunto de datos se puede relacionar con el de matrícula en educación preescolar, básica y media donde se presenta la caracterización de los estudiantes que permiten obtener información para comprender el comportamiento de los indicadores

En primer lugar, vamos a incluir en una *variable* la ruta a los datos:

In [None]:
url = 'https://www.datos.gov.co/api/views/ji8i-4anb/rows.csv'

print(url)

### ¿Qué hicimos en este paso?

Simplemente *declaramos* la dirección url en la que se encuentra el archivo csv (no la página web ¡muy importante!). 

En este caso no hemos descargado el objeto (el archivo `csv`), solamente escribimos la dirección de su ubicación.

# Preparemos el terreno para realizar nuestras actividades

Necesitaremos asegurarnos de tener instalados en nuestros ambientes algunas *librerías* que nos ayudarán a procesar los datos:

Pandas: importa los datos y permite procesarlos fácilmente.
Plotly: una librería para visualizar datos de manera interactiva y agradable.

También instalaremos `jupyter-dash`, una librería que nos permitirá visualizar los datos directamente en nuestro Notebook. 

La velocidad de instalación de los paquetes depende del entorno desde el cual se esté ejecutando; en particular, la librería `jupyter-dash` es la más pesada. 

In [None]:
!pip install pandas
!pip install plotly
!pip install jupyter-dash

# ¿Cómo importar datos para ser procesados?

## La forma relativamente fácil

Con las librerías nativas de python `csv` y `urllib.request`


In [None]:
import urllib.request as ur
import csv

r = ur.urlopen(url)
lineas = [l.decode('utf-8') for l in r.readlines()]

archivo_csv = csv.reader(lineas)

for r in archivo_csv:
    print(r)

## La manera extremadamente fácil

Con `pandas`

In [None]:
import pandas as pd

df = pd.read_csv(url)
df.head()

## Ahora, conozcamos un poco sobre cómo están estructurados nuestros datos

### DataFrame

Al recuperar los datos, `pandas` transforma la información en un tipo de objeto llamado `DataFrame`, que es básicamente una matriz de datos en la que cada fila corresponde a un objeto y cada columna a una variable.

Los DataFrames pueden ser modificados de manera dinámica, pero se deben seguir ciertas reglas para evitar que la información se elimine o cambie de forma indeseada.

Podemos comprobar que nuestro archivo `csv` ahora es un DataFrame si imprimimos el tipo de la variable `df`:

In [None]:
print(type(df))



### Tamaño

* ¿Cuántas filas y columnas tiene esta tabla?

Para saberlo, utilizaremos la función `shape` de pandas.

In [None]:
tamagno = df.shape
num_filas = tamagno[0]
num_columns = tamagno[1]

print(tamagno)
print("Esta tabla tiene {} filas y {} columnas".format(num_filas, num_columns))

^ la función `shape` regresa un tipo de archivo llamado *tuple* o *tupla*, que consiste en una lista ordenada de objetos. Podemos comprobarlo simplemente imprimiendo el tipo de dato:

In [None]:
print(type(tamagno))

### ¿Cuáles columnas tenemos en nuestro DataFrame?

Para saber el nombre de cada columna (y poder hacer búsquedas posteriormente) podemos utilizar la función `columns` de pandas:

In [None]:
df.columns

### ¿Qué datos tenemos en el DataFrame?

Ahora sabemos el tamaño del DataFrame y el nombre de sus columnas. Pero, para hacer operaciones (como sumar, restar, hallar medias, etc.) tendremos que identificar cuáles son los tipos de datos que tenemos en nuestro DataFrame.

Para ello, usaremos la función `dtypes` de pandas:

In [None]:
df.dtypes

^ Analiza los tipos de datos que tenemos en el DataFrame:

* int64 = números enteros
* float64 = números decimales
* object = objeto de pandas (puede ser un diccionario, un numpy.array, una lista...)



Pandas incluso nos permite hacer análisis muy rápidos de la información, como por ejemplo, hallar la desviación estándar de cada columna (en la que existan datos de intervalo):

In [None]:
df.std()

# Manipular la información del DataFrame

## ¿Qué información hay en una columna específica?

Para ver qué información tiene una columna específica vamos a utilizar el siguiente método:

In [None]:
col_nombre = df['DEPARTAMENTO']

col_nombre[:10]

^ ¿Qué información regresa este método?

Intenta con otras columnas y revisa qué información podemos obtener.

In [None]:
# Escribe aquí tu código >>



## ¿Cómo podemos acceder a información de las filas?

### El método `iloc`

Con este método podemos acceder a una fila o serie de filas de acuerdo con su índice (0 >> n)

Por ejemplo:

In [None]:
# Acceder a la fila con índice = 5
lista_segmentada = df.iloc[5]
lista_segmentada

In [None]:
# Acceder a las filas 10 a 20

lista_segmentada = df.iloc[10:20]
lista_segmentada

^ ¿Qué información regresa este método? 

Pruébalo por tí mismo:

In [None]:
# Escribe aquí tu código

### El método `loc`

Este método es bastante útil para encontrar coincidencias en una serie. Es similar al query en SQL ```SELECT * FROM `tabla` WHERE `columna` = 'clave'```

Se escribe de la siguiente manera:


In [None]:
busqueda = df.loc[df['DEPARTAMENTO'] == "Santander"]
busqueda


¿Y si queremos ver por departamento y año?

Utilizamos el mismo método (`loc`) pero ahora buscamos dos valores. Si lo verbalizamos es como pedirle a la máquina:

Búscame en el DataFrame todos los valores en los que el departamento sea 'Santander' y el año sea igual a 2019. Recordemos que la columna 'AÑO' está compuesta por datos en `int64`, así que tendremos que escribir el año **sin comillas**.

En código será el siguiente:

In [None]:
agno_loc = df.loc[(df['DEPARTAMENTO'] == 'Santander') & (df['AÑO'] == 2019)]
agno_loc

Ahora, intenta regresar los valores correspondientes a un año completo:

In [None]:
# Escribe aquí tu código:



# ¡A visualizar!

Con estos datos, podemos hacer nuestra primera visualización. Por ejemplo, ver la tasa de matriculación por año en un departamento específico. 

La manera más sencilla de hacerlo es utilizando la librería `Matplotlib` que se instala al mismo tiempo que `pandas`. Para hacer la gráfica, primero tenemos que definir nuestro DataFrame:

In [None]:
bogota = df.loc[df['DEPARTAMENTO'] == 'Bogotá, D.C.']
bogota

Ahora, vamos a realizar un gráfico de barras que muestre la tasa de matriculación entre los años 2011 y 2019:

In [None]:
# En este primer ejemplo, usamos la función `plot`, que integra Matplotlib.pyplot en pandas

bogota.plot.bar(x='AÑO', y='TASA_MATRICULACIÓN_5_16', rot=70, title='Tasa de matriculación en Bogotá (2011-2019')
plot.show()

También podemos hacer una comparativa de la cobertura con una gráfica de barras agrupadas. 

En primer lugar, construyamos un DataFrame que contenga solamente los resultados que usaremos:

In [None]:
bogota_cobertura = bogota.groupby('AÑO').sum()[['COBERTURA_NETA_TRANSICIÓN', 'COBERTURA_NETA_PRIMARIA', 'COBERTURA_NETA_SECUNDARIA', 'COBERTURA_NETA_MEDIA']]
bogota_cobertura = bogota_cobertura.sort_values('AÑO')
bogota_cobertura

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# definimos la figura
fig, ax = plt.subplots(1, figsize=(16, 6))

# establecemos los valores del eje x
x = np.arange(0, len(bogota_cobertura.index))

# escribimos las barras
plt.bar(x - 0.3, bogota_cobertura['COBERTURA_NETA_TRANSICIÓN'], width = 0.2, color = '#1D2F6F')
plt.bar(x - 0.1, bogota_cobertura['COBERTURA_NETA_PRIMARIA'], width = 0.2, color = '#8390FA')
plt.bar(x + 0.1, bogota_cobertura['COBERTURA_NETA_SECUNDARIA'], width = 0.2, color = '#6EAF46')
plt.bar(x + 0.3, bogota_cobertura['COBERTURA_NETA_MEDIA'], width = 0.2, color = '#FAC748')

# eliminar líneas de la caja de la visualización
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)

# leyendas de los ejes x y
plt.ylabel('Cobertura neta')
plt.xticks(x, bogota_cobertura.index)

# líneas de la cuadrícula
ax.set_axisbelow(True)
ax.yaxis.grid(color='gray', linestyle='dashed', alpha=0.2)

# Título y leyenda
plt.title('Cobertura neta de matrícula en Bogotá (2011-2019)')
plt.legend(['transición', 'primaria', 'secundaria', 'media'], loc='upper left', ncol = 4)

plt.show()



De manera similar, podemos hacer barras horizontales y agrupadas como las siguientes:

In [None]:
campos = ['COBERTURA_NETA_TRANSICIÓN', 'COBERTURA_NETA_PRIMARIA', 'COBERTURA_NETA_SECUNDARIA', 'COBERTURA_NETA_MEDIA']
colores = ['#1D2F6F', '#8390FA', '#6EAF46', '#FAC748']
etiquetas = ['transición', 'primaria', 'secundaria', 'media']

# Figura y ejes
fig, ax = plt.subplots(1, figsize=(12, 10))

# barras
left = len(bogota_cobertura) * [0]
for idx, name in enumerate(campos):
    plt.barh(bogota_cobertura.index, bogota_cobertura[name], left = left, color=colores[idx])
    left = left + bogota_cobertura[name]

# título, leyenda y etiquetas
plt.title('Cobertura neta de matrícula en Bogotá (2011-2019)')
plt.legend(etiquetas, bbox_to_anchor=([0.55, 1, 0, 0]), ncol=4, frameon=False)
plt.xlabel('Cobertura neta')

# Remover los bordes
ax.spines['right'].set_visible(False)
ax.spines['left'].set_visible(False)
ax.spines['top'].set_visible(False)
ax.spines['bottom'].set_visible(False)

# Ajustar los límites y escribir la cuadrícula
ax.set_axisbelow(True)
ax.xaxis.grid(color='gray', linestyle='dashed')

plt.show()


¿puedes hacer una gráfica similar con otro departamento?

In [None]:
# Escribe aquí tu código



# ¿Cómo podemos hacer algo más complejo (de manera más sencilla)?

Con Matplotlib es posible hacer toda clase de visualizaciones ([por ejemplo](https://www.machinelearningplus.com/plots/top-50-matplotlib-visualizations-the-master-plots-python/)), pero una forma sencilla, dinámica y lista para publicar es a través de `plotly - Dash`.

In [None]:
import plotly.express as px

fig = px.scatter(df, x='POBLACIÓN_5_16', y='TASA_MATRICULACIÓN_5_16', color='DEPARTAMENTO', size='TASA_MATRICULACIÓN_5_16', hover_data=['POBLACIÓN_5_16'])




In [None]:
from jupyter_dash import JupyterDash

In [None]:
import dash
import dash_core_components as dcc
import dash_html_components as html

In [None]:
# Necesario si corre en Binder

JupyterDash.infer_jupyter_proxy_config()

In [None]:
# Construir la aplicación

app = JupyterDash(__name__)

server = app.server

app.layout = html.Div([
    dcc.Graph(figure=fig)
])

In [None]:
app.run_server(mode="inline")

## Pero es mejor aún cuando podemos animar nuestras visualizaciones



In [None]:
df = px.data.gapminder()
fig = px.scatter(df, x="gdpPercap", y="lifeExp", animation_frame="year", animation_group="country",
           size="pop", color="continent", hover_name="country",
           log_x=True, size_max=55, range_x=[100,100000], range_y=[25,90])

In [None]:
# Construir la aplicación

app = JupyterDash(__name__)

server = app.server

app.layout = html.Div([
    dcc.Graph(figure=fig)
])

app.run_server(mode="inline")

¿Tienes otros datos de los cuales puedas encontrar correlaciones?


In [None]:
# Escribe aquí tu código

# Referencias

## Documentación

* [The Programming Historian: Python](https://programminghistorian.org/es/lecciones/?topic=python)
* [pandas documentation](https://pandas.pydata.org/pandas-docs/stable/index.html)
* [plotly open source graphing libraries](https://plotly.com/python/)
* [dash open-source](https://dash.plotly.com/)


## Bibliografía

* McKinney, Wes. *Python for data analysis: data wrangling with pandas, NumPy, and IPython*. Second edition, O’Reilly Media, Inc, 2018.
* Pajankar, Ashwin. *Practical Python Data Visualization: A Fast Track Approach to Learning Data Visualization with Python*. 2021.
* Stepanek, y Suresh John. *Thinking in Pandas*. Apress, 2020. Open WorldCat, https://link.springer.com/10.1007/978-1-4842-5839-2.

