## Introdução

Olá Cientista de Dados! 

Mais uma aula chegando, e hoje vamos apresentar para vocês mais um gráfico extremamente interessante, o `Sankey Chart`. 

O Sankey Chart ou Diagrama de Sankey é uma forma de visualização de dados desenvolvida durate a revolução industrial. O método de análise foi criado pelo capitão irlandês Matthew Sankey.

O diagrama de Sankey é uma representação visual da relação entre duas variáveis, que possui um ponto de partida e pelo menos um ponto de chegada. Vamos ao nosso exemplo.

## Problema

Voltando ao nosso conjunto de dados de pokemons, vamos supor que gostaríamos de ver a distribuição de pokemons levando em consideração a geração e o seu tipo. Você prontamente pensou em fazer uma tabela, assim como 90% dos outros analistas. Mas, ao entregar a tabela, você percebe que fica difícil de mostrar visualmente como as gerações contribuem para cada tipo, bem como ter uma idéia do total de pokemons por tipo considerando todas as gerações. A única maneira de fazer isso seria criar outra tabela, que mostra a informação agrupada de outra forma.

O Diagrama de Sankey serve para esses casos onde desejamos visualizar a relação entre duas categorias em um só lugar, não importando como o dado está organizado.

## Passo a Passo

### Carregando biblioteca e dados

In [35]:
import pandas as pd
import plotly.graph_objects as go  # biblioteca nova - plotly

# carregando os dados da internet
df = pd.read_csv('https://github.com/labeduc/datasets/blob/main/pokemons/all.csv?raw=true')

# filtrando apenas as colunas que nos interessam
tipos = df[['Generation', 'Type 1', 'Number']]

# agregando os dados para reduzir o número de data points
agg = tipos.groupby(['Generation', 'Type 1']).count().reset_index()

### Preparando os dados

Assim como vimos no gráfico de rede, precisamos estabelecer quem são nossos nodos e quais os valores dos vertices.

In [37]:

nodes = {}
idx = 0

# Primeira parte da preparação é pegar todos os possíveis nodos dos nossos dados
# (que são as gerações e tipos) e salvar em um dicionário, onde também atribuímos
# um índice numérico

for item in agg["Generation"]:
  if item not in nodes:
    nodes[item] = idx
    idx += 1

for item in agg["Type 1"]:
  if item not in nodes:
    nodes[item] = idx
    idx += 1

# Depois criamos a estrutura que será usada para a plotagem
link = {
    "source": [nodes[item] for item in agg["Generation"]], # adicionamos todos os nodos de origem, mas em vez da descrição, utilizamos os índices 
    "target": [nodes[item] for item in agg["Type 1"]], # adicionamos todos os nodos de destino, mas em vez da descrição, utilizamos os índices  
    "value": agg["Number"].tolist()
    }

### Plotando o Gráfico

In [38]:
# Próximo passo é agregar os labels dos dados, que são as chaves no nosso dicionário de nodos
rawdata = {
  "node": {"label": list(nodes.keys())},
  "link": link
}

# Criamos o diagrama
data = go.Sankey(**rawdata)

# Fazemos a plotagem
fig = go.Figure(data=data)
fig.show()

E aí está o gráfico. Uma das vantagens de se usar a biblioteca plotly é que os gráficos se tornam interativos. Pode ir ali passar o mouse em cima e você vai ver os tooltips, dando informações interessantes sobre os dados. Assim, podemos analisar tanto pelo lado das gerações quando pelo lado dos tipos e ter totalizadores, sem precisar gerar mais gráficos.

## Conclusão

E este foi mais um gráfico que aprendemos a usar. Lembre-se que ele pode ser usado para descobrir relações entre variáveis categóricas, em múltiplos níveis.

Também foi uma oportunidade para aprender uma nova biblioteca de plotagem de gráficos, a [plotly](https://plotly.com/python/). Veremos essa biblioteca em maior detalhe em uma aula futura.

### Navegação

| [< Anterior](/posts/data-111/index.html) 	| \| | [Próximo >](/posts/data-113/index.html) 	|
|---------- |---|--------:	|