# Plotando Gráficos com Python-Altair
Um pacote ágil, de fácil uso e com resultados interativos.


## O Ecossistema PyData e seus pacotes de plotagem

O ecossistema de Ciência de Dados com Python é conhecido por sua elevada capacidade para auxílio na produção de análises e de modelagem, com base em uma conjunto bastante versátil de ferramentas. Nele temos pacotes para computação científica, análise tabular, plotagem de gráficos, análise de dados geográficos, modelagem estatística, machine Learning, Deep Learning e mais.

Quando o assunto é pacotes de plotagem, as opções são diversas e muito interessantes: [**Matplotlib**](https://matplotlib.org/), [**Seaborn**](https://seaborn.pydata.org/), [**Bokeh**](https://docs.bokeh.org/en/latest/index.html), [**Plotly**](https://plotly.com/python/), [**PlotNine**](https://plotnine.readthedocs.io/en/stable/), entre outras. Cada uma
delas com suas vantagens e desvantagens. Em meio a esse amplo quadro de ferramentas, recentemente tenho buscado ter uma noção bastante geral de cada uma das ferramentas e quando utilizá-las, ao mesmo tempo que busco eleger uma ou duas delas para serem aquelas com as quais mais trabalharei nas consultorias, artigos, aulas, projetos e _webapps_. É aí que entra [**Altair**](https://altair-viz.github.io/) - leia alter, tal como você chama o peso da academia, não como o nome do seu tio dono do bar.


## O que é Altair e por que trabalhar com essa ferramenta de plotagem em Python


**Altair** é uma ferramenta de plotagem que vem sendo desenvolvida desde 2016 pelo time Altair Developers, que tem participação de desenvolvedores do porte de Brian Granger e Jake VanderPlas, que é um verdadeiro ícone na comunidade PyData. A ferramenta foi utilizada por milhares de analistas e desenvolvedores e é dependência em mais de 8 mil repositórios no [GitHub](https://github.com/altair-viz/altair/network/dependents?package_id=UGFja2FnZS01MDA2MTA2Nw%3D%3D). Trata-se de uma API que gera informações em formato JSON - [JavaScript Object Notation](https://pt.wikipedia.org/wiki/JSON) -, que armazenam as especificações para que gráficos sejam renderizados no navegador com base em [D3.js](https://d3js.org/), um poderoso pacote Javascript para plotagem gráfica, muito conhecido por conta de seus produtos interativos criados por times de ponta, como aquele do [New York Times](https://www.nytimes.com/2019/08/27/learning/looking-for-graphs-to-use-in-the-classroom-here-are-34.html).

Um dos pontos principais de **Altair** é que o seu time de desenvolvedores busca aplicar a gramática de gráficos, idealizada por Leland Wilkinson, no livro [The Grammar of Graphics](https://www.amazon.com.br/Grammar-Graphics-Leland-Wilkinson/dp/0387245448). Basicamente é uma ideia segundo a qual partimos dos dados e vamos fazendo transformações para a sua representação gráfica. Assim, associamos os dados a um tipo de marcador (barra, círculo, tick, linha etc.), codificamos os tipos de dados (quantativos, ordinais, temporais e nominais) a suas variáveis visuais correspondentes (posições nos eixos x ou y, tamanho dos marcadores, variação de forma dos marcadores, cor etc.), alteramos a escala de expressão desses marcadores (indicamos limites nos eixos, inserimos valores mínimo e máximo para o tamanho dos marcadores, mudamos a paleta de cores etc.) e assim por diante. 


Se pensarmos bem, por esse paradigma, fazemos o contrário daquilo que praticamos quando trabalhamos com a API orientada a objeto do Matplotlib, em que declaramos a área do gráfico, inserimos os eixos, nos quais passamos a inserir os demais elementos (marcadores, anotações, rótulos etc.). A intenção, portanto, é que o fluxo de trabalho, com base na gramática de gráficos, auxilie o analista a pensar sobre os dados enquanto está produzindo o gráfico, ao mesmo tempo que conta com uma API de mais fácil utilização do que aquela presente no pacote Matplotlib.  


Cabe destacar outro elemento importante do pacote que, por se basear em D3.js, pode gerar gráficos de fácil carregamento em _websites_ e com interatividade, como mudança de escalas, filtros e apresentação de novas informações como resposta a cliques do usuário. Essa interatividade é, na verdade, a grande razão para eu estar estudando o pacote com mais profundidade. Com Altair, os posts deste blog podem ser dinâmicos, sobretudo com a compatibilidade que o pacote tem com [**FastPages**](https://fastpages.fast.ai/), que é a engine que eu estou usando para que meus Jupyter Notebooks facilmente se tornem postagens.


## Mãos à Obra: Instalando e Importando Altair
Mas chega de conversa e mãos à obra!

Para instalar **Altair** podemos utilizar [Conda](https://docs.conda.io/en/latest/) ou o instalador de pacotes Python [Pip](https://pt.wikipedia.org/wiki/Pip_(gerenciador_de_pacotes).
No terminal podemos utilizar o código abaixo, que também nos permitirá a instalação de alguns conjuntos de dados do pacote Vega.

```Python
conda install -c conda-forge altair vega_datasets
```

```Se você não conhece ainda sobre procedimentos para instalação de pacotes, mas quer acompanhar o código adiante, não tem problema. Eu preparei um notebook online para você, na camaradagem. Ainda assim, o assunto é básico e se você não entende de Conda ou Pip, sugiro que volte duas casas e leia a discussão:``` [**Qual é a diferença entre pip e conda?**](https://qastack.com.br/programming/20994716/what-is-the-difference-between-pip-and-conda#:~:text=O%20Pip%20instala%20pacotes%20Python,baixando%20e%20executando%20um%20instalador.) 

A célula importa o pacote Altair sob o alias - "apelido" - alt, e importa o subpacote data do pacote Vega Datasets

In [76]:
import altair as alt #importanto o pacote altair sob o alias, o "apelido", alt
from vega_datasets import data # importando o subpacote data, do pacote vega_datasets, para termos acesso a bases de dados interessantes para testes de plotagem
%config Completer.use_jedi = False #Meu notebook está com problemas para autocompletar o código, e este código corrige o problema

## Obtendo os Dados: Tidy Data
Vamos começar por carregar alguns dados para podermos analisar com a ajuda das visualizações possibilitadas pelo Altair. O subpacote **data** apresenta classes que são _dataloaders_, ou seja, objetos voltados para carregar, como Pandas DataFrame, diferentes tipos de dados disponíveis no pacote Vega Datasets. Entre esses dataloaders, vamos utilizar o **gapminder_health_income** que apresenta dados de diversos países relativos a condições de saúde e renda.

Ao chamar o objeto gapminder_health_income, podemos atribuir o dataframe à variável de nossa escolha - df_gapminder, no caso adiante. Em seguida, podemos passar a uma brevíssima exploração dos dados, identificando os registros das cinco primeiras linhas, com o método ```head()```. Fica fácil observar que contamos com quatro atributos: **country** - para os diferentes países -, **income** - para as diferentes faixas de renda-, **health** - para diferentes níveis de expectativa de vida - e **population**, que dispensa apresentações.

Importante observar que os dados se encontram arranjados como **tidy data**, ou seja, têm formatação ajustada, em que as colunas representam atributos, enquanto as linhas representam diferentes observações. Isso é relevante, pois é essa formatação que é esperada pelo pacote Altair - e também pour outros.

In [78]:
df_gapminder = data.gapminder_health_income() #importação da base de dados de saúde e renda em formato Pandas DataFrame
df_gapminder.head() #Observação das cinco primeiras linhas

Unnamed: 0,country,income,health,population
0,Afghanistan,1925,57.63,32526562
1,Albania,10620,76.0,2896679
2,Algeria,13434,76.5,39666519
3,Andorra,46577,84.1,70473
4,Angola,7615,61.0,25021974


Para termos um pouco mais de noção da estrutura dos dados, vamos utilizar o método info no dataframe Pandas para identificar quantos valores não núlos, além dos tipos de colunas. Vemos que country é do tipo "object", que é utilizado pelo Pandas para formatos não numéricos, seja string, ou mesmo tipos compostos como listas e dicionários, ao passo que income e população são int64, valores inteiros, e income correspone health corresponde a float64, valores decimais, não havendo valores faltantes na base de dados (os 187 valores estão marcados como non-null).

In [69]:
df_gapminder.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 187 entries, 0 to 186
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   country     187 non-null    object 
 1   income      187 non-null    int64  
 2   health      187 non-null    float64
 3   population  187 non-null    int64  
dtypes: float64(1), int64(2), object(1)
memory usage: 6.0+ KB


## Plotando os dados com Altair
Abaixo vamos encontrar o gráfico que queremos produzir e adiante vamos tentar replicá-lo, para observamos alguns aspectos básicos de plotagem com Altair.
Ao passarmos o cursor sobre os círculos, uma caixa surge com os dados referentes, que indica a interatividade que queremos obter. De maneira geral, podemos observar que, independente do tamanho populacional, quanto maior a renda de um país, maior a longebidade de seus habitantes.

´´´Fica aqui a dica para uma das brilhantes palestras de Hans Gosling sobre a relação apresentada no gráfico:´´´ [200 países, 200 anos, 4 minutos](https://www.youtube.com/watch?v=fJ6y8ZJMoqM).

In [84]:
chart = alt.Chart(df_gapminder).mark_circle()

chart.encode(
    x= alt.X('income', scale=alt.Scale(type='log', zero=False, domain=[500, 120000]), title='Renda')
    , y=alt.Y('health', scale=alt.Scale(zero=False), title='Expectativa de Vida')
    , size=alt.Size('population:Q', scale=alt.Scale(zero=False,range=[5, 2000]), legend=alt.Legend(labelFontSize=10), title='População')
    , tooltip=['country', 'population', 'health', 'income']
).properties(
    width=890, 
    title='Relação entre Expectativa de Vida e Renda em Diferentes Países').configure_legend(titleFontSize=10).configure_title(fontSize=20)

Para construir esse gráfico, vamos pensar de maneira procedimental, separando cada etapa. Primeiro podemos chamar o objeto Chart, utilizando o dataframe df_gapminder como argumento, seguido pelo método mark_circle(), que indica que as marcas gráficas a serem utilizadas serão círculos. Esse objeto será salvo na variável chart.
Note que, ao chamar a variável chart, temos a plotagem de um gráfico bem pequeno. Isso indica que Altair criou para cada linha do dataframe um circulo. Ou seja, temos 189 círculos plotados, mas de uma forma que não nos traz _insight_, pois faltam outros elementos gráficos para entendermos as relações entre os diferentes atributos, renda, população e expectativa de vida.

In [70]:
chart = alt.Chart(df_gapminder).mark_circle()
chart

Como o gráfico acima não nos traz muita informação, é interessante fazermos com que esses círculos, que representam cada amostra, estejam dispostos conforme o eixo horizontal, x, segundo uma dos atributos do dataframe. Isso é o que aa gramática de gráficos preconiza como _encoding_, ou codificação, a atribuição de uma variável gráfica (disposição no eixo x, no caso) a um tipo de dado, no caso o atributo quantitativo _income_.

Adiante, basta inserirmos um método encode, com o argumento x igual à coluna de nossa escolha. 

In [71]:
chart = alt.Chart(df_gapminder).mark_circle().encode(x= 'income')
chart

Exercício semelhante pode ser feito para o eixo vertical, y.

In [83]:
chart = alt.Chart(df_gapminder).mark_circle().encode(y= 'health')
chart

Ao juntarmos os dois argumentos, temos uma visão bidimensional, em que a renda se encontra no eixo x e longevidade se encontra no eixo y. Os pares de coordenadas formam a posição de cada marcador, que representa cada uma das amostras, ou países.

In [87]:
chart = alt.Chart(df_gapminder).mark_circle().encode( #declarando o gráfico com círculos e iniciando o método para fazer a codificação
    x= 'income' # codificando o atributo income ao eixo x
    , y='health') # codificando o atributo health ao eixo y
chart # chamando o gráfico para que seja renderizado

Esse processo de _encoding_ pode ser feito com diversos tipos de variáveis gráficas (posição x ou y, tamanho, cor, forma etc.). Altair também apresenta codificação para elementos interativos, como tooltip, que corresponde à caixa com informações que surge conforme o usuário passa o cursor sobre um círculo.

In [88]:
chart = alt.Chart(df_gapminder).mark_circle().encode( #declarando o gráfico com círculos e iniciando o método para fazer a codificação
    x= 'income' # codificando o atributo income ao eixo x
    , y='health' # codificando o atributo health ao eixo y
    , size='population' # codificando o atributo population ao tamanho dos círculos
    , tooltip=['country', 'population', 'health', 'income']) # codificando todos os atributos ao tooltip
chart # chamando o gráfico para que seja renderizado

É possível fazer uma grande encadeamento de métodos que criam alterações no gráfico. No entanto, para que isso não se torne confuso, podemos salvar cada etapa na variável chart, o que pode fazer o código se tornar visualmente mais simples, o que permite manutenção mais fácil.
Uma coisa que podemos notar é que Altair pode receber, como argumentos de codificação, valores bastante simples, como as strings que apontam para o nome das colunas. No entanto, para que possamos ter mais poder de customização, altair conta com alguns objetos chamados de _schema wrappers_, que permitem maior nível de detalhe nas opções que serão passadas para VegaLite e para renderização. No argumento x, podemos inserir, portanto, o objeto _wrappers_ alt.X, que terá diversos argumentos, que correspondem a opções, como, por exemplo uso de escala logarítmica, possibilidade não iniciar as marcações a partir do zero e título do eixo. Abaixo os argumentos x, y e size receberam _wrapers_ com diversas especificações.

In [90]:
chart = alt.Chart(df_gapminder).mark_circle()

chart = chart.encode(
    x= alt.X('income:Q', scale=alt.Scale(type='log', zero=False, domain=[500, 120000]), title='Renda')
    , y=alt.Y('health:Q', scale=alt.Scale(zero=False), title='Expectativa de Vida')
    , size=alt.Size('population:Q', scale=alt.Scale(zero=False,range=[5, 2000]), legend=alt.Legend(labelFontSize=10), title='População')
    , tooltip=['country', 'population', 'health', 'income']
)
chart

Adiante podemos avançar para alterar algumas propriedades, alterando a largura do gráfico (width), 

In [109]:
chart = alt.Chart(df_gapminder).mark_circle()

chart = chart.encode(
    x= alt.X('income', scale=alt.Scale(type='log', zero=False, domain=[500, 120000]), title='Renda')
    , y=alt.Y('health', scale=alt.Scale(zero=False), title='Expectativa de Vida')
    , size=alt.Size('population:Q', scale=alt.Scale(zero=False,range=[5, 2000]), legend=alt.Legend(labelFontSize=10), title='População')
    , tooltip=['country', 'population', 'health', 'income']
)

chart = chart.properties(
    width=890,  # alteração da largural
    title='Relação entre Expectativa de Vida e Renda em Diferentes Países' #inserção de título do gráfico
)

chart = chart.configure_title(fontSize=20) #mudança do tamanho da fonte do título

chart

O gráfico já está muito melhor, servindo como protótipo de produto. Para produto final, diversas questões ainda precisariam de encaminhamento, como ajuste dos limites do eixo X, inserção de valores círculos menores na legenda da População. Ainda assim, já foi o suficiente para conhecermos Altair e alguns de seus recursos básicos.