# Visualizando dados usando a biblioteca Altair


Antes de tudo, é necessário importar o Altair e o Pandas.

In [0]:
import altair as alt
import pandas as pd

Podemos ler dados no Altair de quatro tipos:
* Pandas DataFrame
* Dado ou objeto relacionado (por exemplo, uma URL)
* Uma string apontando para um json ou csv
* Um objeto que suporte __geo_interface__ (eg. Geopandas GeoDataFrame, Shapely Geometries, GeoJSON Objects)

No caso abaixo, leremos um dataframe pandas.

In [0]:
dado = pd.DataFrame({'x': ['A', 'B', 'C', 'D', 'E'],
                     'y': [5, 3, 6, 7, 2], 'animal':['cavalo','cachorro','macaco','tigre','urso']})
alt.Chart(dado).mark_bar().encode(
    x='x',
    y='y',
    color = 'animal'
)

**Sua vez**: crie um dataset com duas variáveis numéricas para serem representadas por meio de um gráfico de pontos.

In [0]:
dado2 = pd.DataFrame({'x': [10, 20, 30, 40, 50],
                     'y': [5, 3, 6, 7, 2]})
alt.Chart(dado2).mark_point().encode(
    x='x',
    y='y'
)

Existem duas convenções comuns para o armazenamento de dados em um dataframe, às vezes chamado de forma *long* e de forma *wide*. Ambos são padrões para armazenar dados em um formato tabular; brevemente, a diferença é esta:

* Os dados em formato *wide* têm uma linha por variável independente, com metadados gravados nos rótulos das linhas e colunas.
* Os dados de forma *long* têm uma linha por observação, com metadados gravados dentro da tabela como valores.

A gramática do Altair funciona melhor com dados de forma longa, em que cada linha corresponde a uma única observação junto com seus metadados.

Um exemplo concreto ajudará a tornar esta distinção mais clara. Considere um conjunto de dados composto por preços de ações de várias empresas ao longo do tempo. A versão de forma ampla (wide) dos dados pode ser organizada da seguinte forma:

In [0]:
wide = pd.DataFrame({'data': ['2007-10-01', '2007-11-01', '2007-12-01'],
                          'AAPL': [189.95, 182.22, 198.08],
                          'AMZN': [89.15, 90.56, 92.64],
                          'GOOG': [707.00, 693.00, 691.48]})
print(wide)

         data    AAPL   AMZN    GOOG
0  2007-10-01  189.95  89.15  707.00
1  2007-11-01  182.22  90.56  693.00
2  2007-12-01  198.08  92.64  691.48


Já a versão longa se parece com isso:

In [0]:
long = pd.DataFrame({'data': ['2007-10-01', '2007-11-01', '2007-12-01',
                                   '2007-10-01', '2007-11-01', '2007-12-01',
                                   '2007-10-01', '2007-11-01', '2007-12-01'],
                          'empresa': ['AAPL', 'AAPL', 'AAPL',
                                      'AMZN', 'AMZN', 'AMZN',
                                      'GOOG', 'GOOG', 'GOOG'],
                          'valor': [189.95, 182.22, 198.08,
                                     89.15,  90.56,  92.64,
                                    707.00, 693.00, 691.48]})
print(long)

         data empresa   valor
0  2007-10-01    AAPL  189.95
1  2007-11-01    AAPL  182.22
2  2007-12-01    AAPL  198.08
3  2007-10-01    AMZN   89.15
4  2007-11-01    AMZN   90.56
5  2007-12-01    AMZN   92.64
6  2007-10-01    GOOG  707.00
7  2007-11-01    GOOG  693.00
8  2007-12-01    GOOG  691.48


Como mencionado acima, o Altair funciona melhor com estes dados de forma longa, porque os dados e metadados relevantes são armazenados dentro da própria tabela, e não dentro das etiquetas das linhas e colunas:

In [0]:
alt.Chart(long).mark_line().encode(
  x='data:T',
  y='valor:Q',
  color='empresa:N'
)

## Convertendo do formato wide para o long

Podemos converter de wide para long com o Pandas!



In [0]:
wide.melt('data', var_name='empresa', value_name='valor')

Unnamed: 0,data,empresa,valor
0,2007-10-01,AAPL,189.95
1,2007-11-01,AAPL,182.22
2,2007-12-01,AAPL,198.08
3,2007-10-01,AMZN,89.15
4,2007-11-01,AMZN,90.56
5,2007-12-01,AMZN,92.64
6,2007-10-01,GOOG,707.0
7,2007-11-01,GOOG,693.0
8,2007-12-01,GOOG,691.48


# Marcas

Você pode obter mais informações sobre marcas na [documentação do Altair](https://altair-viz.github.io/user_guide/marks.html).

Em Altair, existem vários tipos de marcas. As marcas area, bar, circle, point, line, text e geoshape são as mais comuns.

Para definir uma marca, basta colocar mark_\*, onde \* significa o tipo da marca.

In [0]:
from vega_datasets import data

url = data.cars.url

alt.Chart(url).mark_circle(
    color='red',
    opacity=0.3
).encode(
    x='Horsepower:Q',
    y='Miles_per_Gallon:Q'
)

In [0]:
from vega_datasets import data

url = data.cars.url

alt.Chart(url).mark_point(
    color='blue',
    opacity=0.3
).encode(
    x='Horsepower:Q',
    y='Miles_per_Gallon:Q'
)

Marcas possuem propriedades (como a cor e a opacidade na figura anterior). Você pode mudar essas propriedades ao definir a marca.

**Sua vez**: modifique o gráfico a seguir. Mude a cor, opacidade e tamanho da marca.

In [0]:
url = data.cars.url

alt.Chart(url).mark_circle(
    color='red',
    opacity=0.3
).encode(
    x='Horsepower:Q',
    y='Miles_per_Gallon:Q'
)

In [0]:
url = data.cars.url

alt.Chart(url).mark_circle(
    color='blue',
    opacity=0.8,
).encode(
    x='Horsepower:Q',
    y='Miles_per_Gallon:Q'
).properties(
    width=500,
    height=500
)

Que tal criar um gráfico de barras com a variável `Origin`?

In [0]:
cars = pd.read_json(url)
cars.head() # Exclua isso depois que entender os dados

# crie o gráfico de barras para contar quantos modelos de carros foram construídos em cada país

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


In [0]:
cars['Origin'].unique()

array(['USA', 'Europe', 'Japan'], dtype=object)

In [0]:
alt.Chart(cars).mark_bar().encode(
    x='Origin',
    y='count()',
    color='Origin'
)

# Canais

Você pode obter mais informações sobre canais na [documentação do Altair](https://altair-viz.github.io/user_guide/encoding.html)).

Para manipular canais em Altair, usamos o método `encode`.



In [0]:
cars = data.cars()

alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
    shape='Origin'
)

Como já vimos em aulas anteriores, os canais mais básicos são cor (color), posição (x e y), forma (shape) e tamanho (size). Todos esses canais estão disponíveis no Altair.

## Cor e tipos de dado

O Altair muda de tom para brilho/saturação quando mudamos o tipo do dado de (n)ominal para (o)rdinal. Por isso é importante sempre deixar explícito o tipo de cada variável.

In [0]:
base = alt.Chart(cars).mark_point().encode(
    x='Horsepower:Q',
    y='Miles_per_Gallon:Q',
).properties(
    width=150,
    height=150
)

alt.vconcat(
   base.encode(color='Cylinders:Q').properties(title='quantitative'),
   base.encode(color='Cylinders:O').properties(title='ordinal'),
   base.encode(color='Cylinders:N').properties(title='nominal'),
)

**Sua vez**: coloque o canal de cor correto no gráfico abaixo.

In [0]:
alt.Chart(cars).mark_circle().encode(
    x = "Year:T",
    y = "Miles_per_Gallon:Q",
    color = "Horsepower:Q"
)

In [0]:
cars.head()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


**Sua vez**:
Queremos saber se existe diferença no consumo de modelos de carro de regiões diferentes. Isso mudou ao longo do tempo?



In [0]:
alt.Chart(cars).mark_point().encode(
    x = "Year:T",
    y = "mean(Miles_per_Gallon):Q",
    color = "Name:N",
    shape='Origin:N'
).properties(
    width=600,
    height=600
)

**Sua vez**:  Se existir diferença de consumo entre modelos de origens diferentes, alguma das outras variáveis pode explicar isso?

In [0]:
alt.Chart(cars).mark_point().encode(
    x = "Origin:N",
    y = "Miles_per_Gallon:Q",
    color = "Name:N"
)

In [0]:
alt.Chart(cars).mark_point().encode(
    x = "Horsepower:Q",
    y = "Miles_per_Gallon:Q",
    color = "Name:N",
     shape='Origin:N'
)