<a href="https://colab.research.google.com/github/denisparra/diplomadoInfoVis/blob/master/Diplomado_InfoVis_Alumnos_2019_Parte_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Diplomado _Big Data_ - Altair Parte 2: Declarative Visualization in Python

**Profesores:** Nebil Kawas y Denis Parra.

**Ayudantes**: Juan Espinosa, Germán Contreras y Hernán Valdivieso.

Guía creada por Hernán Valdivieso.

Agradecimientos a Eduardo Graells (@carnby) por su codigo en github, sirvió como inspiración para varios ejercicios de datos con pandas.

-----

El siguiente _jupyter notebook_ tiene como fín ser una guía de cómo utilizar la librería de Python [Altair](https://altair-viz.github.io/index.html) y luego aplicar dicho conocimiento para responder una serie de dudas sobre un _dataset_ interesante: respuestas del [Censo 2017](http://www.censo2017.cl/microdatos/).

Para facilitar la instalación de esta librería, este archivo debe ser subido a [Google Colab](https://colab.research.google.com/) para poder ejecutarlo en los servidores de Google, los cuales ya disponen de todos los recursos necesarios para ejecutar los códigos que implementarás.


Este  _jupyter notebook_ se divide en 3 partes:

- Explorar los datos del _dataset_ entregado y aprender algunos usos de la librería [`pandas`](https://pandas.pydata.org/) para preprocesar los datos. 
- Entregar diversos ejemplos de algunos _idioms_, junto con una explicación detallada de que hace cada línea. Luego, para cada _idiom_ explicado, se solicitará que ustedes hagan otro gráfico con el _dataset_ del Censo y respondan una serie de preguntas. 



## Indice

>[Diplomado Big Data - Altair: Declarative Visualization in Python](#scrollTo=r3VyfThGQdud)

>>[Indice](#scrollTo=z_YnPXBG1OYr)

>>[Descargar dataset](#scrollTo=9ckes_XsRkjN)

>>[Descripción del dataset](#scrollTo=fHHT_LhIAMBB)

>>>[Abrir CSV](#scrollTo=4aJ9fXMkWuTE)

>>[Gráficos de ejemplo con Altair](#scrollTo=WAkmGyJPaImq)

>>>[Gráficos de dispersión](#scrollTo=SVK6OYD7KWcG)

>>>>[Scatterplot](#scrollTo=uE2RN37VKYgk)

>>>>>[Descripción del ejemplo](#scrollTo=CQc9pf9iKcHx)

>>>>[Actividad 9: scatter plot](#scrollTo=CsAgbYTTKe6H)

>>>>[BubbleChart](#scrollTo=QLkOqzc1KghM)

>>>>>[Descripción del ejemplo](#scrollTo=HPHIP5FoKkHc)

>>>>[Actividad 10: bubblechart](#scrollTo=GYeINO1AKmbC)

>>>[Histogama](#scrollTo=a2g61HwnKw6_)

>>>>>[Descripción del ejemplo](#scrollTo=ztpgl7X5K1SP)

>>>>[Actividad 11: histograma](#scrollTo=xrF9TB_uK7VC)



## Descargar _dataset_
En primero lugar, como estaremos ocupando un servidor externo, es necesario descargar el _dataset_ en dicho servidor. Para esto ocuparemos el comando `wget` el cual descagará desde dropbox el _dataset_ a utilizar.

In [0]:
!wget -N https://www.dropbox.com/s/0xp8srkxmfcfbb9/DatasetCenso.csv

El _dataset_ ha sido descargado, si ahora utilizamos el comando `ls` podremos observar que archivos están actualmente en el servidor y que podrás utilizar desde este _jupyter notebook_.

In [0]:
ls

## Descripción del _dataset_
Con el fín de reducir el peso de este archivo, fue necesario eliminar multiples columnas del _dataset_ original. Por lo tanto, las columnas de las preguntas conservadas y su respectiva descripción son:

- **comuna**: comuna de la casa que fue censada.
- **parentesco**:  relación de parentesco con el jefe/a de hogar. Esta columna corresponde a la columna P07 del _dataset_ original.
- **edad**: años cumplidos. Esta columna corresponde a la columna P09 del _dataset_ original.
- **pais**: país donde vivía la madre del encuestado cuando nació. Esta columna corresponde a la columna P12PAIS del _dataset_ original.
- **a_llegada**:  año que llegó el encuestado a Chile. Esta columna corresponde a la columna P12A_LLEGADA del _dataset_ original.
- **n_educacional**:  nivel educacional logrado del encuestado. Esta columna corresponde a la columna P15 del _dataset_ original luego de pasar por una función que agrupó diferentes niveles educaciones a un número fijo.
- **descendencia**: cantidad de hijos del encuestado. Esta columna corresponde a la columna P19 del _dataset_ original.


**Importante**: Las columnas están separadas por punto y coma (`";"`).

Adicionalmente, para reducir la cantidad de respuestas, se realizó un filtro para dejar solo las respuestas dadas por personas inmigrantes.




### Abrir CSV

In [0]:
import pandas as pd
censo = pd.read_csv("DatasetCenso.csv", sep=";")

## Gráficos de ejemplo con Altair

### Gráficos de dispersión

#### Scatterplot

In [0]:
import altair as alt
from vega_datasets import data

source = data.cars()

alt.Chart(source).mark_circle().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
)

##### Descripción del ejemplo
Al igual que el gráfico de línea, solo es necesario cambiar el tipo de marca y asegurar que los ejes posean columnas con variables adecuadas para este gráfico. 

- **Línea 6**

```python
alt.Chart(source).mark_circle().encode(
```

En esta línea, lo importante es el método `mark_circle` el cual indica que los datos deben ser representados mediante circulos.

#### Actividad 9: _scatter plot_
Construya un scatterplot donde se muetren  los primeros 4000 jefes de hogares del _dataset_, cuyos ejes sean la edad  y el año de llegada. Agrege el método `interactive` al final para poder realizar _zoom_.

#### BubbleChart

In [0]:
import altair as alt
from vega_datasets import data

source = data.cars()

alt.Chart(source).mark_circle().encode(
    x='Horsepower',
    y='Acceleration',
    size='Miles_per_Gallon',
    color='Origin'
).interactive()

##### Descripción del ejemplo

Este gráfico se construye de forma similar al _scatterplot_, la diferencia es que se agregan nuevas codificaciones que son **el tamaño y el color**.  
- **Línea 9**

```python
    size='Miles_per_Gallon',
```
Con esta lína de código se indica que el tamaño de los circulos será definido en función del valor que tenga la columna _Miles_\__per_\__Gallon_.

-----------------
- **Línea 10**

```python
    color='Origin'
```
Con esta lína de código se indica que el color de los circulos será definido en función del valor que tenga la columna _Origin_.

-------------------
Además se volvió a utilizar el método `interactive` para poder navegar y hacer _zoom_ al gráfico.

#### Actividad 10: bubblechart

Contruya dos _bubblechart_ con la siguiente codificación:
- **Bubblechart 1**
    - Eje X: año de llegada.
    - Eje Y: edad.
    - color: pais. Aquí seleccione al menos 10.
    - tamaño: cantidad de personas de dicho pais que coinciden con el año de llegada y edad.

- **Bubblechart 2**
    - Eje X: año de llegada promedio.
    - Eje Y: edad promedio.
    - color: pais. Aquí seleccione al menos 10.
    - tamaño: cantidad de personas de dicho pais que coinciden con el año de llegada y edad.


Finalmente,  permita que en ambos gráficos se pueda realizar _zoom_.

**Hint**: no olvide filtrar los datos que generan ruido y la utilidad del comando `head`.

In [0]:
# Bubblechart 1



In [0]:
# Bubblechart 2



### Histogama

In [0]:
import altair as alt
from vega_datasets import data

link = data.movies.url
movies = pd.read_json(link)

alt.Chart(movies).mark_bar().encode(
    alt.X("IMDB_Rating:Q", bin=True),
    y='count()',
)

##### Descripción del ejemplo

Un histograma se codifica de forma similar a un gráfico de barra. La principal diferencia es que en el eje Y no se indica una columna con valor numérico, sino que se utiliza la función de agregación `count`.

- **Línea 7**

```python
alt.X("IMDB_Rating:Q", bin=True),
```
Con esta lína de código se indica que el eje Y será definido en función de la columna _IMDB_\__Rating_. Un argumento importante aquí es `bin=True` el cual se encarga de agrupar las barras en un rango de valores para reducir la cantidad de barras presentes en el gráfico. Se recomiendo cambiarlo a `False` para ver como era el gráfico original.

-------------------
- **Línea 8**

```python
    y='count()',
```
Con esta lína de código se indica que el valor del eje Y será la cantidad de filas que coinciden con el dato del eje Y.



#### Actividad 11: histograma
Construya un histograma para responder la pregunta ¿Cuantos jefes de hogar tienen 0, 1, 2, ... , _n_ hijos? Considere _n_ como la cantidad máxima de hijos en el _dataset_.

#### Actividad 12: framework
Ahora que ya se maneja con el procesamiento de datos y diferentes gráficos, eliga una tarea a resolver con los datos del censo (que no sea una solicitada antes) y justifiquera con el _framework_ visto en clases. (_what_ y _why_). Finalmente implemente dicha tarea utilizando Altair.

* Tarea
* Justificación

In [0]:
# Código


## Bonus: ejemplos dinamicos
Si deseas estudiar más sobre usos de Altair para visualizaciones dinamicas. En el siguiente [link](https://altair-viz.github.io/gallery/index.html#interactive-charts) se muestran varios ejemplos donde agregan características dinamicas al gráfico. Por ejemplo, un gráfico con el promedio dinamico donde haciendo _click_ en este y arrastrando el _mouse_, se puede calcular la media de las barras seleccionadas.

In [0]:
import altair as alt
from vega_datasets import data

source = data.seattle_weather()
brush = alt.selection(type='interval', encodings=['x'])

bars = alt.Chart().mark_bar().encode(
    x='month(date):O',
    y='mean(precipitation):Q',
    opacity=alt.condition(brush, alt.OpacityValue(1), alt.OpacityValue(0.7)),
).add_selection(
    brush
)

line = alt.Chart().mark_rule(color='firebrick').encode(
    y='mean(precipitation):Q',
    size=alt.SizeValue(3)
).transform_filter(
    brush
)

alt.layer(bars, line, data=source)