<a href="https://colab.research.google.com/github/CodeandoMexico/hacking-civico/blob/master/notebooks/06_Anatom%C3%ADa_de_un_gr%C3%A1fico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="http://codeandomexico.org/resources/img/codeandomexico.png" width="500" alt="Codeando México"><br>
<a href="http://www.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/website-CodeandoMexico-00D88E.svg"></a>
<a href="http://slack.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/slack-CodeandoMexico-EC0E4F.svg"></a>
</p>
<!-- __ -->

# Curso de Datos Abiertos y Hacking Cívico

Este curso tiene como objetivo habilitar las capacidades de la ciudadanía y los servidores públicos en el uso y generación de datos abiertos para el bien común. Puedes encontrar más información [aquí](https://github.com/CodeandoMexico/hacking-civico).

# Anatomía de un Gráfico

Cada gráfico en `altair` es compuesto al describir un **mínimo** de tres elementos:
* Datos
* Marcadores
* Codificaciones

***

## Datos
`Altair` acepta __datasets__ de 3 maneras:
* un `DataFrame` de `pandas`
* un objeto de clase `Data` de `altair` u objetos relacionados (`InLineData`, `NamedData`, `UrlData`)  
* datos en formato `JSON` o `csv` de manera directa o una URL
* un objeto con la propiedad `__geo_interface__` (`GeoDataFrame` de geopandas, geometrías de `shapely` y objetos GeoJSON)

Nosotros trabajaremos con `DataFrames` de `pandas`. 

`Pandas` es una de las mejores opciones para trabajar con estructuras de datos en `python`. El nombre `pandas` proviene de __Panel Data__. `pandas` esta basada en `numpy` (de __Numeric Python__) la cual provee estructuras de datos (__arrays__ o _matrices_) las cuales `pandas` utiliza para crear __DataFrames__. Un __DataFrame__ es una estructura de datos en la cual se pueden guardar datos de distintos tipos (cadenas de caractéres (__strings__), __integers__, __floats__, y más) en cada columna. Es similar a una tabla o una planilla de Excel o Google Spreadsheets. 

Como es una estructura de `python` claro que su índice comienza en 0.

## Marcadores

El marcador en un gráfico es la representación visual de tus datos. `Altair` ofrece los siguientes marcadores hasta el momento:

| Marcador  | Método          | Descripción                                      | Ejemplo                                   |
|-----------|-----------------|--------------------------------------------------|-------------------------------------------|
| area      | mark_area()     | Un gráfico de area.                              | [Simple Stacked Area Chart](https://altair-viz.github.io/gallery/simple_stacked_area_chart.html#gallery-simple-stacked-area-chart)|
| barra     | mark_bar()      | Un gráfico de barras.                            | [Simple Bar Chart](https://altair-viz.github.io/gallery/simple_bar_chart.html#gallery-simple-bar-chart)|
| círculo   | mark_circle()   | Un diagrama de dispersión con círculos rellenos. | [One Dot Per Zipcode](https://altair-viz.github.io/gallery/one_dot_per_zipcode.html#gallery-one-dot-per-zipcode)|
|_geofigura_| mark_geoshape() | Una fígura geográfica.                           | [Choropleth Map](https://altair-viz.github.io/gallery/choropleth.html#gallery-choropleth)|
| imagen    | mark_image()    | Un gráfico de dispersión con imágenes como marcadores | [Image mark](https://altair-viz.github.io/user_guide/marks.html#user-guide-image-mark) |
| línea     | mark_line()     | Un gráfico de líneas.                            | [Simple Line Chart](https://altair-viz.github.io/gallery/simple_line_chart.html#gallery-simple-line-chart)|
| punto     | mark_point()    | Un diagrama de dispersión con formas de puntos configurables.   | [Faceted Scatter Plot with Linked Brushing](https://altair-viz.github.io/gallery/scatter_linked_brush.html#gallery-scatter-linked-brush)|
| rectángulo| mark_rect()     | Un rectángulo relleno, usado para mapas de calor (_heatmaps_).  | [Simple Heatmap](https://altair-viz.github.io/gallery/simple_heatmap.html#gallery-simple-heatmap)|
| regla     | mark_rule()     |Una línea vertical u horizontal que abarca el eje.| [Candlestick Chart](https://altair-viz.github.io/gallery/candlestick_chart.html#gallery-candlestick-chart)|
| cuadrado  | mark_square()   | Un diagrama de dispersián con cuadrados.         | N/A                                       |
| texto     | mark_text()     | Un diagrama de dispersián con los puntos representados con texto.  | [Simple Bar Chart with Labels](https://altair-viz.github.io/gallery/bar_chart_with_labels.html#gallery-bar-chart-with-labels)|
| marca     | mark_tick()     | Una marca o línea horizontal o vertical.         | [Strip Plot](https://altair-viz.github.io/gallery/strip_plot.html#gallery-strip-plot)|

## Codificaciones

Un gráfico es una representación visual de tus datos. Es esencial conectar tu información a un elemento visual en el gráfico. En `altair` eso se le conoce como __encode__ o _codificar_ tus datos. Es el proceso de asignar valores (en este caso columnas de tu __DataFrame__) a elementos posicionales (como el eje X o Y) o propiedades de tu marcador (como el color o el tamaño). 
`Altair` es una biblioteca para crear gráficos altamente configurables asi que simplemente enlistar todas las codificaciones posibles sería una manera muy ineficáz de aprender. La mejor manera de aprender es haciendo.

### Tipos de Datos

`altair` hace un buen trabajo deduciendo el tipo de datos con el que estas trabajando al igual que `pandas`. Pero también puedes especificar el tipo de datos en tus gráficos. `Altair` reconoce 4 tipos de datos:

| Tipo de datos | Código |                Descripción                | 
|:-------------:|:------:|:------------------------------------------|
| cuantitativo  |   `Q`  | una cantidad continua y de números reales | 
| ordinal       |   `O`  | una cantidad discreta y ordenada          |
| nominal       |   `N`  | una cantidad discreta y desordenada       |
| temporal      |   `T`  | un valor de tiempo o fecha                |
| geojson       |   `G`  | una _geofigura_ en formato GeoJSON        |


<p style="text-align:center;"><img src="https://raw.githubusercontent.com/chekos/altair-nb/master/notebooks/anatomia-de-un-grafico.png"></p>

In [None]:
import altair as alt
import pandas as pd
import seaborn as sns

In [None]:
data = sns.utils.load_dataset('penguins')

In [None]:
data.head()

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE


In [None]:
alt.Chart(data).mark_tick().encode(x="culmen_length_mm", y = "island")