# Open Data Day
## Visualización de datos abiertos con Python >> Pandas >> Dash

<img src="imgs/python.jpg">
<img src="imgs/pandas.jpg">
<img src="imgs/plotly_dash.jpg">

### >> ¿Open Data what?

<img src="imgs/datos-abiertos-1.png">

* Principio del gobierno digital y abierto
* Datos disponibles para todos los ciudadanos y ciudadanas
* Datos oficiales, confiables y verificables de instituciones públicas

### >> La información no está estructurada tal como la quisieramos tener.

* No todos los datos están estructurados.
* Abiertos no siempre se entienden como analizables.
* En ocasiones, datos abiertos se entiendes como informes abiertos. 

## Escoger una fuente de datos

<img src="imgs/tipos_de_archivo.jpg">

"Icons made by Freepik, Smashicons, and Smartline from [www.flaticon.com]"


In [None]:
url = 'https://datos.cdmx.gob.mx/dataset/3abd0da2-38e4-4c73-b386-3e0ef7b48d55/resource/634a7992-5aa3-4e6c-a081-191ef4dbb463/download/diagnostico-cdmx_2015_educacion.csv'

print(url)

### ¿Qué hicimos en este paso?

Simplemente *declaramos* la dirección url en la que se encuentra el archivo csv (no la página web ¡muy importante!). 

En este caso no hemos descargado el objeto (el archivo `csv`), solamente escribimos la dirección de su ubicación.

# Preparemos el terreno para realizar nuestras actividades

Necesitaremos asegurarnos de tener instalados en nuestros ambientes algunas *librerías* que nos ayudarán a procesar los datos:

Pandas: importa los datos y permite procesarlos fácilmente.
Plotly: una librería para visualizar datos de manera interactiva y agradable.

También instalaremos `jupyter-dash`, una librería que nos permitirá visualizar los datos directamente en nuestro Notebook. 

La velocidad de instalación de los paquetes depende del entorno desde el cual se esté ejecutando; en particular, la librería `jupyter-dash` es la más pesada. 

In [None]:
!pip install pandas
!pip install plotly
!pip install jupyter-dash

# ¿Cómo importar datos para ser procesados?

## La forma relativamente fácil

Con las librerías nativas de python `csv` y `urllib.request`


In [None]:
import urllib.request as ur
import csv

r = ur.urlopen(remoto)
lineas = [l.decode('utf-8') for l in r.readlines()]

archivo_csv = csv.reader(lineas)

for r in archivo_csv:
    print(r)

## La manera extremadamente fácil

Con `pandas`

In [None]:
import pandas as pd

df = pd.read_csv(remoto)
print(df.head())

## Ahora, conozcamos un poco sobre cómo están estructurados nuestros datos

### DataFrame

Al recuperar los datos, `pandas` transforma la información en un tipo de objeto llamado `DataFrame`, que es básicamente una matriz de datos en el que cada fila corresponde a un objeto y cada columna a una variable.

Los DataFrames pueden ser modificados de manera dinámica, pero se deben seguir ciertas reglas para evitar que la información se elimine o cambie de forma indeseada.

Podemos comprobar que nuestro archivo `csv` ahora es un DataFrame si imprimimos el tipo de la variable `df`:

In [None]:
print(type(df))



### Tamaño

* ¿Cuántas filas y columnas tiene esta tabla?
- Para eso, utilizaremos la función `shape` de pandas.

In [None]:
tamagno = df.shape
num_filas = tamagno[0]
num_columns = tamagno[1]

print(tamagno)
print("Esta tabla tiene {} filas y {} columnas".format(num_filas, num_columns))

^ la función `shape` regresa un tipo de archivo llamado *tuple* o *tupla*, que consiste en una lista ordenada de objetos. Podemos comprobarlo simplemente imprimiendo el tipo de dato:

In [None]:
print(type(tamagno))

### ¿Cuáles columnas tenemos en nuestro DataFrame?

Como habrás visto, cuando imprimimos los datos del DataFrame, no nos presenta toda la información, por eso aparecen tres puntos suspensivos entre las columnas.

Para saber el nombre de cada columna (y poder hacer búsquedas posteriormente) podemos utilizar la función `columns` de pandas:

In [None]:
print(df.columns)

### ¿Qué datos tenemos en el DataFrame?

Ahora sabemos el tamaño del DataFrame y el nombre de sus columnas. Pero, para hacer operaciones (como sumar, restar, hallar medias, etc.) tendremos que identificar cuáles son los tipos de datos que tenemos en nuestro DataFrame.

Para ello, usaremos la función `dtypes` de pandas:

In [None]:
print(df.dtypes)

^ Analiza los tipos de datos que tenemos en el DataFrame:

* int64 = números enteros
* float64 = números decimales
* object = objeto de pandas (puede ser un diccionario, un numpy.array, una lista...)



Pandas incluso nos permite hacer análisis muy rápidos de la información, como por ejemplo, hallar la desviación estándar de cada columna (en la que existan datos de intervalo):

In [None]:
print(df.std())

# Manipular la información del DataFrame

## ¿Qué información hay en una columna específica?

Para ver qué información tiene una columna específica vamos a utilizar el siguiente método:

In [None]:
col_nombre = df['sexo']

print(col_nombre[:10])

In [None]:
print(df.loc[df['sexo'] == "Mujer"])


¿Y si queremos ver por sexo y localidad?

Utilizamos el mismo método (`loc`) pero ahora buscamos dos valores. Si lo verbalizamos es como pedirle a la máquina:

Búscame en el DataFrame todos los valores en los que el sexo sea 'Mujer' y el nombre de la localidad (`nomgeo`) sea igual a 'Azcapotzalco'. En código será lo siguiente:

In [None]:
sex_loc = df.loc[(df['sexo'] == 'Mujer') & (df['nomgeo'] == 'Azcapotzalco')]
print(sex_loc[:10])

# ¡A visualizar!

In [None]:
import plotly.express as px
data_canada = px.data.gapminder().query("country == 'Canada'")
fig = px.bar(data_canada, x='year', y='pop')




In [None]:
from jupyter_dash import JupyterDash

In [None]:
import dash
import dash_core_components as dcc
import dash_html_components as html

In [None]:
# Necesario si corre en Binder

JupyterDash.infer_jupyter_proxy_config()

In [None]:
# Construir la aplicación

app = JupyterDash(__name__)

server = app.server

app.layout = html.Div([
    dcc.Graph(figure=fig)
])

In [None]:
app.run_server(mode="inline")

# Referencias

## Documentación

* [The Programming Historian: Python](https://programminghistorian.org/es/lecciones/?topic=python)
* [pandas documentation](https://pandas.pydata.org/pandas-docs/stable/index.html)
* [plotly open source graphing libraries](https://plotly.com/python/)
* [dash open-source](https://dash.plotly.com/)


## Bibliografía

* McKinney, Wes. *Python for data analysis: data wrangling with pandas, NumPy, and IPython*. Second edition, O’Reilly Media, Inc, 2018.
* Pajankar, Ashwin. *Practical Python Data Visualization: A Fast Track Approach to Learning Data Visualization with Python*. 2021.
* Stepanek, y Suresh John. *Thinking in Pandas*. Apress, 2020. Open WorldCat, https://link.springer.com/10.1007/978-1-4842-5839-2.

