# Open Data Day
## Visualización de datos abiertos con Python >> Pandas >> Dash

### >> ¿Open Data what?

<img src="http://www.agaargentina.org/wp-content/uploads/2016/10/datos-abiertos-1.png">

* Principio del gobierno digital y abierto
* Datos disponibles para todos los ciudadanos y ciudadanas
* Datos oficiales, confiables y verificables de instituciones públicas

### >> La información no está estructurada tal como la quisieramos tener.

* No todos los datos están estructurados.
* Abiertos no siempre se entienden como analizables.
* En ocasiones, datos abiertos se entiendes como informes abiertos. 

## Escoger una fuente de datos

<img src="imgs/tipos_de_archivo.jpg">

"Icons made by Freepik, Smashicons, and Smartline from [www.flaticon.com]"


In [12]:
import pandas as pd

remoto = 'https://datos.cdmx.gob.mx/dataset/3abd0da2-38e4-4c73-b386-3e0ef7b48d55/resource/634a7992-5aa3-4e6c-a081-191ef4dbb463/download/diagnostico-cdmx_2015_educacion.csv'
local = 'csv_data/diagnostico_educacion_2015.csv'

print(remoto)
print(local)

https://datos.cdmx.gob.mx/dataset/3abd0da2-38e4-4c73-b386-3e0ef7b48d55/resource/634a7992-5aa3-4e6c-a081-191ef4dbb463/download/diagnostico-cdmx_2015_educacion.csv
csv_data/diagnostico_educacion_2015.csv


### ¿Qué hicimos en este paso?

Simplemente *declaramos* unas *variables* (`remoto` y `local`) a las cuales les asignamos un valor: la ruta donde se encuentra el archivo csv con los datos.

En este caso no hemos traído el objeto (el archivo `csv`), solamente escribimos la dirección de su ubicación.

# ¿Cómo importar datos para ser procesados?

## La forma relativamente fácil

Con las librerías nativas de python `csv` y `urllib.request`


In [13]:
import urllib.request as ur
import csv

r = ur.urlopen(remoto)
lineas = [l.decode('utf-8') for l in r.readlines()]

archivo_csv = csv.reader(lineas)

for r in archivo_csv:
    print(r)

281000.0', '210261426172000.0', 'Educacion', 'Tláhuac']
['852', '2015.0', '11.0', 'Pobreza moderada', 'Hombre', '30-44', '11575.0', '949873755397000.0', '136512624460000.0', 'Educacion', 'Tláhuac']
['853', '2015.0', '11.0', 'Pobreza moderada', 'Mujer', '60 y mas', '5768.0', '432037037664000.0', '721562962336000.0', 'Educacion', 'Tláhuac']
['854', '2015.0', '11.0', 'Satisfaccion mínima', 'Hombre', '60 y mas', '4685.0', '353869987071000.0', '583130012929000.0', 'Educacion', 'Tláhuac']
['855', '2015.0', '11.0', 'Estrato medio', 'Hombre', '0-11', '10347.0', '891676735956000.0', '117772326404000.0', 'Educacion', 'Tláhuac']
['856', '2015.0', '11.0', 'Estrato medio', 'Hombre', '30-44', '13642.0', '115931803554000.0', '156908196446000.0', 'Educacion', 'Tláhuac']
['857', '2015.0', '11.0', 'Estrato medio', 'Mujer', '30-44', '14934.0', '13024009063700.0', '16843990936300.0', 'Educacion', 'Tláhuac']
['858', '2015.0', '11.0', 'Estrato alto', 'Hombre', '12-29', '274.0', '100181686033000.0', '4478183

## La manera extremadamente fácil

Con `pandas`

In [14]:
import pandas as pd

df = pd.read_csv(remoto)
print(df.head())

   id    anio  mun          estratos    sexo      edad   total     total_low  \
0   0  2015.0  2.0  Pobreza muy alta  Hombre     12-29   471.0  1.428821e+14   
1   1  2015.0  2.0  Pobreza muy alta  Hombre     30-44   704.0  2.738738e+14   
2   2  2015.0  2.0  Pobreza muy alta  Hombre  60 y mas  2575.0  1.617936e+14   
3   3  2015.0  2.0  Pobreza muy alta   Mujer     30-44   898.0  4.676627e+14   
4   4  2015.0  2.0  Pobreza muy alta   Mujer     45-59  1239.0  6.608173e+14   

      total_upp        dim        nomgeo  
0  7.991179e+14  Educacion  Azcapotzalco  
1  1.134126e+14  Educacion  Azcapotzalco  
2  3.532064e+14  Educacion  Azcapotzalco  
3  1.328337e+14  Educacion  Azcapotzalco  
4  1.817183e+14  Educacion  Azcapotzalco  


In [15]:
df_local = pd.read_csv(local)
print(df_local.head())

   _id  id  anio  mun          estratos    sexo      edad  total  \
0    1   0  2015    2  Pobreza muy alta  Hombre     12-29    471   
1    2   1  2015    2  Pobreza muy alta  Hombre     30-44    704   
2    3   2  2015    2  Pobreza muy alta  Hombre  60 y mas   2575   
3    4   3  2015    2  Pobreza muy alta   Mujer     30-44    898   
4    5   4  2015    2  Pobreza muy alta   Mujer     45-59   1239   

         total_low        total_upp        dim        nomgeo  
0  142882133722000  799117866278000  Educacion  Azcapotzalco  
1  273873773687000  113412622631000  Educacion  Azcapotzalco  
2  161793608889000  353206391111000  Educacion  Azcapotzalco  
3  467662689091000  132833731091000  Educacion  Azcapotzalco  
4  660817323638000  181718267636000  Educacion  Azcapotzalco  


## Ahora, conozcamos un poco sobre cómo están estructurados nuestros datos

### DataFrame

Al recuperar los datos, `pandas` transforma la información en un tipo de objeto llamado `DataFrame`, que es básicamente una matriz de datos en el que cada fila corresponde a un objeto y cada columna a una variable.

Los DataFrames pueden ser modificados de manera dinámica, pero se deben seguir ciertas reglas para evitar que la información se elimine o cambie de forma indeseada.

Podemos comprobar que nuestro archivo `csv` ahora es un DataFrame si imprimimos el tipo de la variable `df`:

In [16]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>




### Tamaño

* ¿Cuántas filas y columnas tiene esta tabla?
- Para eso, utilizaremos la función `shape` de pandas.

In [17]:
tamagno = df.shape
num_filas = tamagno[0]
num_columns = tamagno[1]

print(tamagno)
print("Esta tabla tiene {} filas y {} columnas".format(num_filas, num_columns))

(990, 11)
Esta tabla tiene 990 filas y 11 columnas


^ la función `shape` regresa un tipo de archivo llamado *tuple* o *tupla*, que consiste en una lista ordenada de objetos. Podemos comprobarlo simplemente imprimiendo el tipo de dato:

In [18]:
print(type(tamagno))

<class 'tuple'>


### ¿Cuáles columnas tenemos en nuestro DataFrame?

Como habrás visto, cuando imprimimos los datos del DataFrame, no nos presenta toda la información, por eso aparecen tres puntos suspensivos entre las columnas.

Para saber el nombre de cada columna (y poder hacer búsquedas posteriormente) podemos utilizar la función `columns` de pandas:

In [19]:
print(df.columns)

Index(['id', 'anio', 'mun', 'estratos', 'sexo', 'edad', 'total', 'total_low',
       'total_upp', 'dim', 'nomgeo'],
      dtype='object')


### ¿Qué datos tenemos en el DataFrame?

Ahora sabemos el tamaño del DataFrame y el nombre de sus columnas. Pero, para hacer operaciones (como sumar, restar, hallar medias, etc.) tendremos que identificar cuáles son los tipos de datos que tenemos en nuestro DataFrame.

Para ello, usaremos la función `dtypes` de pandas:

In [20]:
print(df.dtypes)

id             int64
anio         float64
mun          float64
estratos      object
sexo          object
edad          object
total        float64
total_low    float64
total_upp    float64
dim           object
nomgeo        object
dtype: object


^ Analiza los tipos de datos que tenemos en el DataFrame:

* int64 = números enteros
* float64 = números decimales
* object = objeto de pandas (puede ser un diccionario, un numpy.array, una lista...)



# Manipular la información del DataFrame

## ¿Qué información hay en una columna específica?

Para ver qué información tiene una columna específica vamos a utilizar el siguiente método:

In [23]:
col_nombre = df['sexo']

print(col_nombre[:10])

0    Hombre
1    Hombre
2    Hombre
3     Mujer
4     Mujer
5    Hombre
6    Hombre
7    Hombre
8     Mujer
9    Hombre
Name: sexo, dtype: object


In [24]:
print(df.loc[df['sexo'] == "Mujer"])


      id    anio   mun             estratos   sexo      edad    total  \
3      3  2015.0   2.0     Pobreza muy alta  Mujer     30-44    898.0   
4      4  2015.0   2.0     Pobreza muy alta  Mujer     45-59   1239.0   
8      8  2015.0   2.0         Pobreza alta  Mujer  60 y mas   1593.0   
10    10  2015.0   2.0  Satisfaccion mínima  Mujer      0-11  11630.0   
11    11  2015.0   2.0        Estrato medio  Mujer     12-29  21780.0   
..   ...     ...   ...                  ...    ...       ...      ...   
981  981  2015.0  17.0     Pobreza moderada  Mujer  60 y mas   8781.0   
984  984  2015.0  17.0        Estrato medio  Mujer     30-44  24033.0   
987  987  2015.0  17.0         Estrato alto  Mujer      0-11   4710.0   
988  988  2015.0  17.0         Estrato alto  Mujer     12-29    466.0   
989  989  2015.0  17.0         Estrato alto  Mujer     45-59   1142.0   

        total_low     total_upp        dim               nomgeo  
3    4.676627e+14  1.328337e+14  Educacion         Azcapo

¿Y si queremos ver por sexo y localidad?

Utilizamos el mismo método (`loc`) pero ahora buscamos dos valores. Si lo verbalizamos es como pedirle a la máquina:

Búscame en el DataFrame todos los valores en los que el sexo sea 'Mujer' y el nombre de la localidad (`nomgeo`) sea igual a 'Azcapotzalco'. En código será lo siguiente:

In [28]:
sex_loc = df.loc[(df['sexo'] == 'Mujer') & (df['nomgeo'] == 'Azcapotzalco')]
print(sex_loc[:10])

      id    anio  mun             estratos   sexo      edad    total  \
3      3  2015.0  2.0     Pobreza muy alta  Mujer     30-44    898.0   
4      4  2015.0  2.0     Pobreza muy alta  Mujer     45-59   1239.0   
8      8  2015.0  2.0         Pobreza alta  Mujer  60 y mas   1593.0   
10    10  2015.0  2.0  Satisfaccion mínima  Mujer      0-11  11630.0   
11    11  2015.0  2.0        Estrato medio  Mujer     12-29  21780.0   
323  323  2015.0  2.0     Pobreza muy alta  Mujer      0-11   1500.0   
324  324  2015.0  2.0     Pobreza muy alta  Mujer  60 y mas   6130.0   
326  326  2015.0  2.0         Pobreza alta  Mujer     12-29    800.0   
327  327  2015.0  2.0         Pobreza alta  Mujer     30-44   1196.0   
328  328  2015.0  2.0         Pobreza alta  Mujer     45-59    749.0   

        total_low     total_upp        dim        nomgeo  
3    4.676627e+14  1.328337e+14  Educacion  Azcapotzalco  
4    6.608173e+14  1.817183e+14  Educacion  Azcapotzalco  
8    9.673120e+14  2.218688e+1

# Referencias

## Documentación

* [The Programming Historian: Python](https://programminghistorian.org/es/lecciones/?topic=python)
* [pandas documentation](https://pandas.pydata.org/pandas-docs/stable/index.html)
* [plotly open source graphing libraries](https://plotly.com/python/)
* [dash open-source](https://dash.plotly.com/)


## Bibliografía

* McKinney, Wes. *Python for data analysis: data wrangling with pandas, NumPy, and IPython*. Second edition, O’Reilly Media, Inc, 2018.
* Pajankar, Ashwin. *Practical Python Data Visualization: A Fast Track Approach to Learning Data Visualization with Python*. 2021.
* Stepanek, y Suresh John. *Thinking in Pandas*. Apress, 2020. Open WorldCat, https://link.springer.com/10.1007/978-1-4842-5839-2.

