<a href="https://colab.research.google.com/github/rrodffer/visualizacao-de-dados/blob/main/R_VIS_Aula_3_Altair.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# VIS - Aula 3 - Altair

Nesta aula vamos explorar o pacote Altair (http://altair-viz.github.io/) que permite a especificação de gráficos usando a gramática dos gráficos.

## 1. Preparação

Vamos usar um `dataset` sobre carros famoso chamado `cars`. Ele já está em formato retangular: 1 linha por carro, 1 coluna por característica.

In [None]:
import altair as alt
from vega_datasets import data

cars = data.cars()
cars.head()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


Now we'll use the [vega_datasets package](https://github.com/altair-viz/vega_datasets), to load an example dataset:

In [None]:
from vega_datasets import data

cars = data.cars()
cars.head()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


## 2. Gráficos 0-D, 1-D e 2-D

O gráfico mais simples que pode-se fazer simplesmente contém um ponto (`point`) que definimos como sendo o elemento geométrico de representação de marcas (`mark`). Como não associamos nenhuma coluna às características do pontos, todas as linhas (carros) são representados pelo mesmo ponto.

In [None]:
alt.Chart(cars).mark_point()

Para trazer alguma informação visual, precisamos codificar colunas nas características dos pontos: posição x, posição y, tamanho, cor ...

Vamos codificar o consumo, coluna `Miles_per_Gallon` no eixo x usando ``encode()``:

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon'
)

Melhorou, porém os dados se misturaram porque o ponto é grande demais e causa confusão. É possível usar uma marcação vertical pequena `tick` pois fica mais mais de distinguir um dado de outro.

In [None]:
alt.Chart(cars).mark_tick().encode(
    x='Miles_per_Gallon'
)

Como os pontos ficaram se sobrepondo por estarem muito próximos, podemos adicionar mais uma dimensão nessa figura usando outra coluna para desenhar o eixo y: potência ou `Horsepower`.

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower'
)

## 3. Gráficos 3D: cores

Nas aulas passados vimos que podemos atribuir a cor de elementos gráficos usando uma outra coluna. Se a coluna for categórica, produziremos um guia com cores de tonalidades distintas para a separação visual de cada categoria:

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Origin'
)

Se a variável atribuída à cor for contínua, o Altair produz uma escala de uma tonalidade só, com variação da intensidade:

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Acceleration'
)

Uma escala de tonalidade única com variação de intensidade também é útil para variáveis ordinais, desde que estejam como números inteiros:

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Cylinders'
)

Podemos deixar mais claro que `Cylinders` trata-se de uma váriavel ordinal (categorias com ordem), com separação clara entre os valores. Para isso, usamos a sintaxe ":O" (dois-ponto ô maiúsculo) para indicar **Ordinal** e deixar o Altair fazer um mapeamento de cores discreto.

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Cylinders:O'
)

## 4. Agrupamento e agregação

Gráficos somente 1-D, ou seja, com apenas uma coluna,  podem ser mais interessantes. Podemos usar somente a coluna `Miles_per_Gallon` e produzir uma contagem de valores similares próximos fazendo agrupamentos. Isso resulta em um agrupamento, onde cada barra indica a contagem de elementos dentro de cada grupo.

In [None]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=True),
    y='count()'
)

O tamanho de cada agrupamento ou também o número de grupos é algo que podemos controlar de acordo com nossos dados. A função ``alt.Bin`` serve para isso. O argumento `maxbins` indica que queremos no máximo essa quantidade de grupos.

In [None]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=30)),
    y='count()'
)

Fica mais interessante mesmo quando usamos mais dados, quando possível. O histograma fica melhor ao usarmos `Origin` para colorir e separar as barras dentro de cada grupo:

In [None]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=30)),
    y='count()',
    color='Origin'
)

A funcionalidade de produzir facetas é chamada simplesmente de `column` nesta função do Altair. Agora caprichamos e definimos parte das legendas em português.

In [None]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=30), title='Consumo'),
    y=alt.Y('count()', title='Contagem'),
    color=alt.Color('Origin', title='Origem'),
    column='Origin'
)

Na figura anterior faltou traduzir os nomes dos países:


In [None]:
import altair as alt
from vega_datasets import data

# Carrega os dados
cars = data.cars()

# Adiciona um novo campo com rótulos traduzidos
chart = alt.Chart(cars).transform_calculate(
      OriginLabel='datum.Origin === "USA" ? "Estados Unidos" : datum.Origin === "Europe" ? "Europa" : "Japão"'
    ).mark_bar().encode(
      x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=30), title='Consumo'),
      y=alt.Y('count()', title='Contagem'),
      color=alt.Color('Origin', legend=alt.Legend(title='Origem')),
      column=alt.Column('OriginLabel:O', title='Origem')
  )

chart

Agrupamento também funciona em duas dimensões com `rect` como `mark`:

In [None]:
alt.Chart(cars).mark_rect().encode(
    x=alt.X('Miles_per_Gallon', bin=True),
    y=alt.Y('Horsepower', bin=True),
    color='count()'
)

Agregações podem ser mais do que simples agrupamentos. É possível aplicar funções de transformação dentro do grupo, como a média `mean()`, por exemplo.

In [None]:
alt.Chart(cars).mark_rect().encode(
    x=alt.X('Miles_per_Gallon', bin=True),
    y=alt.Y('Horsepower', bin=True),
    color='mean(Weight_in_lbs)'
)

## 4. Séries temporais e camadas

A dimensão temporal é usada com frequência e tem lugar de destaque em as figuras de análises estatísticas.

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Year',
    y='Miles_per_Gallon'
)

Na figura anterior, existem múltiplos pontos referentes ao mesmo ano, portanto a agregação por unidade de tempo é crucial para expressar tendências:

In [None]:
alt.Chart(cars).mark_line().encode(
    x='Year',
    y='mean(Miles_per_Gallon)',
)

A média `mean()` pode ser considerada limitada e em alguns gráficos podemos querer também ver a faixa de variação dos dados. Com `mark_area()` é possível mostrar faixas de intervalos de confiança nas quais a maior parte dos dados estão, ano a ano:

In [None]:
alt.Chart(cars).mark_area().encode(
    x='Year',
    y='ci0(Miles_per_Gallon)',
    y2='ci1(Miles_per_Gallon)'
)

Vamos colocar mais detalhes à figura acima. Adicionamos opacidade e cor pelo país de origem. Deixa a figura um pouco mais larga aproveita melhor o espaço e destaca os anos:

In [None]:
alt.Chart(cars).mark_area(opacity=0.3).encode(
    x=alt.X('Year', timeUnit='year'),
    y=alt.Y('ci0(Miles_per_Gallon)', axis=alt.Axis(title='Miles per Gallon')),
    y2='ci1(Miles_per_Gallon)',
    color='Origin'
).properties(
    width=800
)

Há várias formas para simultaneamente transmitir a mesma informação e fortelecer a visualização. O recurso de camadas com o operador `+` em `espalhamento + linhas` é perfeito nisso:

In [None]:
espalhamento = alt.Chart(cars).mark_area(opacity=0.3).encode(
    x=alt.X('Year', timeUnit='year'),
    y=alt.Y('ci0(Miles_per_Gallon)', axis=alt.Axis(title='Miles per Gallon')),
    y2='ci1(Miles_per_Gallon)',
    color='Origin'
).properties(
    width=800
)

linhas = alt.Chart(cars).mark_line().encode(
    x=alt.X('Year', timeUnit='year'),
    y='mean(Miles_per_Gallon)',
    color='Origin'
).properties(
    width=800
)

espalhamento + linhas

## 4. Interatividade: seleções

Além da possibilidade de usar gramática de gráficos, o Altair implementa uma gramática de interação.

Em muito casos, uma boa interatividade de uma figura pode transmitir uma mensagem bem mais forte.

A interatividade básica vem ao usar o método ``interactive()``. Veja.

In [None]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Origin'
).interactive()

O Altair implementou uma API bem genérica chamada `selection` para a criação de gráficos interativo. Por exemplo, veja uma seleção de intervalos com `selection_interval()`:

In [None]:
interval = alt.selection_interval()

alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Origin'
).add_selection(
    interval
)

Sem indicar a funcionalidade para o `selection_interval`, ele não permite nada demais além de selecionar retângulos. Porém podemos condicionar a seleção pela atribuição de cores a ela.

In [None]:
interval = alt.selection_interval()

alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color=alt.condition(interval, 'Origin', alt.value('lightgray'))
).add_selection(
    interval
)

Uma funcionalidade da API `selection` que ajuda bem é que ela aplica automaticamente a seleção em facetas ligadas, o que permite a exploração de múltiplas dimensões.

In [None]:
interval = alt.selection_interval()

base = alt.Chart(cars).mark_point().encode(
    y='Horsepower',
    color=alt.condition(interval, 'Origin', alt.value('lightgray')), # aqui colocamos a condição que o intervalo selecionado produz
    tooltip=['Name','Cylinders'] # aqui podemos escolher o que é associado com o fato "cursor em cima"
).add_selection(
    interval
)

base.encode(x='Miles_per_Gallon') | base.encode(x='Acceleration')

Podemos melhorar ainda mais a interatividade com seleções.
Vamos fazer um histograma do número de carros pela procedência (`Origin`) e inclui-lo no gráfico de disperção:

In [None]:
interval = alt.selection_interval()

base = alt.Chart(cars).mark_point().encode(
    y='Horsepower',
    color=alt.condition(interval, 'Origin', alt.value('lightgray')),
    tooltip=['Name','Weight_in_lbs']
).add_selection(
    interval
)

hist = alt.Chart(cars).mark_bar().encode(
    x='count()',
    y='Origin',
    color='Origin'
).properties(
    width=800,
    height=80
).transform_filter(
    interval
)

scatter = base.encode(x='Miles_per_Gallon') | base.encode(x='Acceleration')

scatter & hist # camadas

## 5. Exercício

Este exercício devem ser feito com os dados sobre o Programa Universidade para Todos (PROUNI) que concedeu bolsas de estudos em universidades particulares: **Cursos e notas de corte do PROUNI 2018** https://brasil.io/dataset/cursos-prouni/cursos/

Os dados em CSV estão disponíveis em https://drive.google.com/drive/u/0/folders/12E1nZP2iaitXf0sUJ6d8Qc9dWYU7mPgg

### Faças gráficos que relacionem a **mensalidade**, **número** de bolsas, a **nota** e o *turno de cursos que receberam alunos bolsistas.


## Referências

 - Este material foi amplamente baseado no tutorial de introdução do pacote Altair, disponível em https://altair-viz.github.io/altair-tutorial/notebooks/01-Cars-Demo.html