# Altair Examples: Scatterplot

Notebook focado na utilização do Altair e aprender principais características da biblioteca para sua utilização na disciplina de Visualização de Dados da graduação de Sistemas de Informação na Universidade Federal Fluminense.

Esse overview se baseará no exemplo da seguinte página do github [altair](https://github.com/altair-viz/altair_notebooks/blob/master/notebooks/03-ScatterCharts.ipynb). 

Podendo ter mais exemplos [aqui](https://altair-viz.github.io/gallery/index.html).

In [3]:
import pandas as pd
import altair as alt
from vega_datasets import data
cars = data.cars()
cars.head()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


In [4]:
alt.Chart(cars).mark_point().encode(
    x='Horsepower',
)

In [5]:
# Com x e y, se torna um scatter plot nice.
alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon'
).interactive()  # Dá a possibilidade de fazer zoom ou coisas do tipo.

In [6]:
# Adicionando um novo canal visual de size de acordo com o atributo de acceleration
alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    size='Acceleration'
)

In [7]:
# Agora definimos dois canais visuais para a diferença de um mesmo atributo, origin.
alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
    shape='Origin',
)

In [8]:
# Agora só por cor, mas com o marcador específico em círculo
alt.Chart(cars).mark_circle().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
)

In [9]:
# Marcador de quadrado
alt.Chart(cars).mark_square().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
)

In [10]:
# Marcador de texto: Horrível.
alt.Chart(cars).mark_text().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
    text='Origin'
)

A partir daqui os exemplos terão encodings! Definições de que tipo de variáveis estamos trabalhando.
Podemos ter mais informações sobre isso no seguinte [link](https://altair-viz.github.io/user_guide/encodings/index.html#encoding-data-types).

In [12]:
# Outro marcador for do comum, reparece que ele define o tipo de atributo de acordo com o que está depois do ':'
alt.Chart(cars).mark_tick().encode(
    x='Horsepower:Q', # quantitative
    y='Cylinders:O',  # ordinal
)

In [11]:
chart = alt.Chart(cars).mark_point().encode(
    y='Horsepower:Q',
    color='Origin:N'  # nominal
).interactive()

chart.encode(x='Acceleration:Q') | chart.encode(x='Displacement:Q')

In [13]:
alt.Chart(cars).mark_point().encode(
    alt.X(alt.repeat('column'), type='quantitative'),
    alt.Y(alt.repeat('row'), type='quantitative'),
    color='Origin:N'
).properties(
    width=250,
    height=250
).repeat(
    row=['Horsepower', 'Miles_per_Gallon'],
    column=['Acceleration', 'Displacement']
).interactive()


1. `alt.Chart(cars)`: Isso cria um objeto de gráfico Altair chamado `Chart` e o associa aos dados do DataFrame `cars`. Isso implica que `cars` contém os dados que serão usados para criar o gráfico.

2. `.mark_point()`: Isso especifica o tipo de marcação a ser usado no gráfico. Neste caso, está sendo usado um gráfico de pontos, o que significa que cada ponto no gráfico representará um ponto de dados no conjunto de dados.

3. `.encode()`: Isso define como as variáveis do conjunto de dados serão mapeadas nos eixos do gráfico e em outras propriedades visuais, como a cor.

   - `alt.X(alt.repeat('column'), type='quantitative')`: Aqui, está configurando o eixo X. Ele usa a função `alt.X()` e especifica que o eixo X deve ser configurado de acordo com o valor repetido na coluna atual (a partir do comando `repeat`). O tipo é definido como 'quantitative', o que sugere que a variável no eixo X deve ser tratada como uma variável numérica.
   
   - `alt.Y(alt.repeat('row'), type='quantitative')`: De maneira semelhante, isso configura o eixo Y. Ele usa a função `alt.Y()` e especifica que o eixo Y deve ser configurado de acordo com o valor repetido na linha atual (a partir do comando `repeat`). O tipo também é 'quantitative'.

   - `color='Origin:N'`: Isso define a codificação de cores para os pontos no gráfico. Ele usa a variável 'Origin' do conjunto de dados e a trata como uma variável categórica (representada por 'N' para nominal).

4. `.properties(width=250, height=250)`: Aqui, estão definindo as propriedades do gráfico, especificando sua largura e altura, ambos definidos como 250 unidades.

5. `.repeat(row=['Horsepower', 'Miles_per_Gallon'], column=['Acceleration', 'Displacement'])`: Esta linha configura o comando `repeat`, que cria um grid de gráficos repetindo as colunas e linhas especificadas. Neste caso, ele criará um gráfico para cada combinação das variáveis listadas nas colunas e nas linhas. Portanto, haverá quatro gráficos no total.

6. `.interactive()`: Isso torna o gráfico interativo, permitindo que o usuário interaja com ele, por exemplo, ao passar o mouse sobre os pontos para ver informações detalhadas.

Em resumo, o código cria um conjunto de quatro gráficos de dispersão (scatter plots) em um grid, onde cada gráfico representa uma combinação de variáveis do conjunto de dados de carros. Os eixos X e Y são configurados para mostrar duas variáveis numéricas diferentes, e os pontos são coloridos de acordo com a variável categórica 'Origin'. O resultado é uma visualização interativa que permite explorar as relações entre essas variáveis nos carros.

In [15]:
brush = alt.selection_interval()

alt.Chart(cars).mark_point().encode(
    alt.X(alt.repeat('column'), type='quantitative'),
    alt.Y(alt.repeat('row'), type='quantitative'),
    color=alt.condition(brush, 'Origin:N', alt.value('gray'))
).add_params(
    brush
).properties(
    width=250,
    height=250,
).repeat(
    row=['Horsepower', 'Miles_per_Gallon'],
    column=['Acceleration', 'Displacement']
)

Esse código é semelhante ao código anterior, mas com uma adição importante: ele incorpora uma seleção interativa que permite ao usuário destacar pontos específicos nos gráficos usando uma área de seleção (brush). Vou explicar o código em detalhes:

1. `brush = alt.selection_interval()`: Isso cria uma seleção interativa chamada `brush` do tipo intervalo. Essa seleção é usada para criar uma área de seleção em um ou mais gráficos, permitindo que o usuário destaque pontos de dados específicos.

2. `alt.Chart(cars)`: Assim como no código anterior, isso cria um objeto de gráfico Altair associado aos dados do DataFrame `cars`.

3. `.mark_point()`: Especifica que os gráficos criados serão gráficos de pontos.

4. `.encode()`: Define a codificação dos gráficos:

   - `alt.X(alt.repeat('column'), type='quantitative')`: Configura o eixo X, como no código anterior.

   - `alt.Y(alt.repeat('row'), type='quantitative')`: Configura o eixo Y, como no código anterior.

   - `color=alt.condition(brush, 'Origin:N', alt.value('gray'))`: Define a codificação de cores dos pontos. Aqui, a cor dos pontos depende da seleção interativa `brush`. Se um ponto estiver dentro da área de seleção do `brush`, ele será colorido de acordo com a variável categórica 'Origin'. Caso contrário, os pontos serão coloridos de cinza.

5. `.add_params(brush)`: Isso adiciona a seleção interativa `brush` aos parâmetros do gráfico, tornando-a disponível para uso na definição de condições interativas.

6. `.properties(width=250, height=250)`: Define as propriedades de largura e altura dos gráficos, como no código anterior.

7. `.repeat(row=['Horsepower', 'Miles_per_Gallon'], column=['Acceleration', 'Displacement'])`: Repete os gráficos em um grid, como no código anterior.

Em resumo, esse código cria um conjunto de quatro gráficos de dispersão em um grid, onde cada gráfico representa uma combinação de variáveis do conjunto de dados de carros. Os gráficos são interativos e permitem ao usuário selecionar pontos de dados específicos usando uma área de seleção (brush). Os pontos são coloridos de acordo com a variável categórica 'Origin', mas a cor é modificada para cinza se os pontos estiverem fora da área de seleção. Isso permite ao usuário explorar visualmente a relação entre as variáveis e selecionar pontos de interesse nos gráficos.