# Tutorial 1: Introduccion a Altair

En esta guia introduciremos la libreria de visualizaciones [Altair](https://altair-viz.github.io/)

*Altair is a declarative statistical visualization library for Python, based on Vega and Vega-Lite, and the source is available on GitHub.*

Nota: a diferencia de otras librerias como Seaborn, Altair **NO** esta construido sobre matplotlib

In [None]:
import altair as alt
import pandas as pd
import numpy as np

Primero hagamos un grafico basico con altair

In [None]:
from vega_datasets import data
cars = data.cars()

Cargamos un dataset de Vega, en este caso un dataset de autos

In [None]:
cars

El formato es un dataframe

In [None]:
type(cars)

Hagamos un scatterplot que enfrente los caballos de fuerza de un auto versus su rendimiento en millas por galon

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
)

Reconocemos dos conceptos que hemos visto en el curso: marcas y canales. 

* La marca utilizada es el punto (`mark_point()`)
* Tenemos canales espaciales, el eje x y el eje y donde estamos ubicando los caballos de fuerza y el rendimiento, respectivamente
* Con el color estamos codificando el pais de origen de los automoviles

# Marcas

Tenemos distintas marcas disponibles en Altair. Partamos por las marcas esenciales

**Arcos**

In [None]:
source = pd.DataFrame({"category": [1, 2, 3, 4, 5, 6], "value": [4, 6, 10, 3, 7, 8]})

alt.Chart(source).mark_arc().encode(
    theta=alt.Theta(field="value", type="quantitative"),
    color=alt.Color(field="category", type="nominal"),
)

**Areas**

In [None]:
source = data.iowa_electricity()

alt.Chart(source).mark_area().encode(
    x="year:T",
    y="net_generation:Q",
    color="source:N"
)

**Barras**

In [None]:
source = pd.DataFrame({
    'a': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'],
    'b': [28, 55, 43, 91, 81, 53, 19, 87, 52]
})

alt.Chart(source).mark_bar().encode(
    x='a',
    y='b'
)

**Lineas**

In [None]:
x = np.arange(100)
source = pd.DataFrame({
  'x': x,
  'f(x)': np.sin(x / 5)
})

alt.Chart(source).mark_line().encode(
    x='x',
    y='f(x)'
)

**Areas rectangulares**

In [None]:
# Areas rectangulares

x, y = np.meshgrid(range(-5, 5), range(-5, 5))
z = x ** 2 + y ** 2

# Convert this grid to columnar data expected by Altair
source = pd.DataFrame({'x': x.ravel(),
                     'y': y.ravel(),
                     'z': z.ravel()})

alt.Chart(source).mark_rect().encode(
    x='x:O',
    y='y:O',
    color='z:Q'
)

## Marcas compuestas

**Boxplot**

In [None]:
import altair as alt
from vega_datasets import data

source = data.population.url

alt.Chart(source).mark_boxplot(extent='min-max').encode(
    x='age:O',
    y='people:Q'
)

**Banda de error**

In [None]:
source = data.cars()

line = alt.Chart(source).mark_line().encode(
    x='Year',
    y='mean(Miles_per_Gallon)'
)

band = alt.Chart(source).mark_errorband(extent='ci').encode(
    x='Year',
    y=alt.Y('Miles_per_Gallon', title='Miles/Gallon'),
)

band + line

**Barra de error**

In [None]:
source = data.barley()

error_bars = alt.Chart(source).mark_errorbar(extent='ci').encode(
  x=alt.X('yield:Q', scale=alt.Scale(zero=False)),
  y=alt.Y('variety:N')
)

points = alt.Chart(source).mark_point(filled=True, color='black').encode(
  x=alt.X('yield:Q', aggregate='mean'),
  y=alt.Y('variety:N'),
)

error_bars + points

Las marcas tienen propiedades que se especifican en los argumentos de `mark_*()`. Mas informacion [aqui](https://altair-viz.github.io/user_guide/marks.html#mark-properties)

# Canales

Altair posee varios canales de codificacion (tanto de magnitud como de identidad). 

## Canales de posicion

In [None]:
# Ejes x e y
source = data.cars()

alt.Chart(source).mark_circle(size=60).encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin'
)

In [None]:
# Rangos (en este caso en el eje X)
source = pd.DataFrame([
    {"task": "A", "start": 1, "end": 3},
    {"task": "B", "start": 3, "end": 8},
    {"task": "C", "start": 8, "end": 10}
])

alt.Chart(source).mark_bar().encode(
    x='start',
    x2='end',
    y='task'
)


In [None]:
# Angulos y Radio (Theta)

source = pd.DataFrame({"values": [12, 23, 47, 6, 52, 19]})

base = alt.Chart(source).encode(
    theta=alt.Theta("values:Q", stack=True),
    radius=alt.Radius("values", scale=alt.Scale(type="sqrt", zero=True, rangeMin=20)),
    color="values:N",
)

c1 = base.mark_arc(innerRadius=20, stroke="#fff")

c2 = base.mark_text(radiusOffset=10).encode(text="values:Q")

c1 + c2

## Canales que aplican a la marca

In [None]:
# Color y forma

alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
    shape='Origin'
)


In [None]:
# Tamaño

source = data.github.url

alt.Chart(source).mark_circle().encode(
    x='hours(time):O',
    y='day(time):O',
    size='sum(count):Q'
)

In [None]:
# Colormaps
# https://vega.github.io/vega/docs/schemes/

iris = data.iris()

alt.Chart(iris).mark_point().encode(
    x='petalWidth',
    y='petalLength',
    color=alt.Color('species', scale=alt.Scale(scheme='dark2'))
)

In [None]:
# Custom Colormaps

iris = data.iris()
domain = ['setosa', 'versicolor', 'virginica']
range_ = ['#d472ed', '#5fad82', '#edb64e']

alt.Chart(iris).mark_point().encode(
    x='petalWidth',
    y='petalLength',
    color=alt.Color('species', scale=alt.Scale(domain=domain, range=range_))
)

In [None]:
# Quizas el colormap viene en el dataset

df = pd.DataFrame({
    'x': range(6),
    'color': ['red', 'steelblue', 'chartreuse', '#F4D03F', '#D35400', '#7D3C98']
})

alt.Chart(df).mark_point(
    filled=True,
    size=100
).encode(
    x='x',
    color=alt.Color('color', scale=None)
)

## Otros canales

In [None]:
# texto
source = pd.DataFrame({
    'x': [1, 3, 5, 7, 9],
    'y': [1, 3, 5, 7, 9],
    'label': ['A', 'B', 'C', 'D', 'E']
})

points = alt.Chart(source).mark_point().encode(
    x='x:Q',
    y='y:Q'
)

text = points.mark_text(
    align='left',
    baseline='middle',
    dx=7
).encode(
    text='label'
)

points + text


In [None]:
# Interactividad (Clase 7)

alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
    tooltip='Name'
).interactive()

# Otros

In [None]:
# Orden

barley = data.barley()

alt.Chart(barley).mark_bar().encode(
    x='variety:N',
    y='sum(yield):Q',
    color='site:N',
    order=alt.Order("site", sort="ascending")
)

In [None]:
# Ajustar ejes

alt.Chart(cars).mark_point().encode(
    alt.X('Acceleration:Q',
        scale=alt.Scale(domain=(5, 30))
    ),
    y='Horsepower:Q'
)

In [None]:
# Labels

df = pd.DataFrame({'x': [0.03, 0.04, 0.05, 0.12, 0.07, 0.15],
                   'y': [10, 35, 39, 50, 24, 35]})

alt.Chart(df).mark_circle().encode(
    x=alt.X('x', axis=alt.Axis(format='%', title='percentage')),
    y=alt.Y('y', axis=alt.Axis(format='$', title='dollar amount'))
)

In [None]:
# leyenda

iris = data.iris()

alt.Chart(iris).mark_point().encode(
    x='petalWidth',
    y='petalLength',
    color=alt.Color('species', legend=alt.Legend(title="Species by color", orient="left"))
)

In [None]:
# Grilla y  bordes

iris = data.iris()

alt.Chart(iris).mark_point().encode(
    x='petalWidth',
    y='petalLength',
    color='species'
).configure_axis(
    grid=False
).configure_view(
    strokeWidth=0
)

In [None]:
# Tamaño

cars = data.cars()

alt.Chart(cars).mark_bar().encode(
    x='Origin',
    y='count()'
).properties(
    width=200,
    height=150
)

In [None]:
# Multiples visualizaciones

alt.Chart(cars).mark_bar().encode(
    x='Origin',
    y='count()',
    column='Cylinders:Q'
)