# Introdução

Nesse notebook vamos aprender como criar gráficos/diagramas com um nome bastante incomum: "Diagrama de Sankey". Para isso, vamos usar a biblioteca plotly que está disponível para utilização gratuita [bem aqui](https://plotly.com/python/getting-started/).

Antes de mais nada vamos tirar essa dúvida, quem diabos foi Sankey?

De acordo com nossa amiga Wikipedia:
> Os diagramas de Sankey têm o nome do capitão irlandês Matthew *Henry Phineas Riall Sankey* , que usou esse tipo de diagrama em 1898 em uma figura clássica mostrando a eficiência energética de uma máquina a vapor.

Só por curiosidade esse é o capitão Sankey:
<img src="attachment:Sankey_Captain_H_Riall.jpg" alt="Drawing" style="width: 200px;"/>

De uma forma geral esse tipo de diagrama representa fluxo de dados, ou seja, a transferência de alguma propriedade (seja ela física ou não) entre determinadas etapas. O diagrama mostra de maneira visual por meio de linhas (de espessura diferente a quantidade transferida de uma etapa para outra.

Vamos a um exemplo simples, imagine que você deseja representar o quanto de pipoca é vendido no cinema. Então criamos o seguinte diagrama:

In [125]:
import plotly.graph_objects as go

fig = go.Figure(data=[go.Sankey(
    node = dict(
      pad = 15,
      thickness = 20,
      line = dict(color = "black", width = 0.5),
      label = ["Pipocas vendidas", "Casais", "Homens" ,"Mulheres", "Grupos de amigos", "Idosos"],
      color = "yellow"
    ),
    link = dict(
      source = [0, 0, 0, 0, 0, 0], 
      target = [1, 2, 2, 3, 4, 5],
      value = [18, 4, 2, 8, 4, 2]
  ))])

fig.update_layout(title_text="Fluxo de pipocas no cinema", font_size=15)
fig.show()

Agora se eu quiser alterar as cores e labels eu preciso de duas séries na primeira lista (source). Então para isso vamos simular que queremos visualizar a quantidade de chocolate que é vendido. Então teríamos algo assim:


In [126]:
import plotly.graph_objects as go



fig = go.Figure(data=[go.Sankey(
    node = dict(
      pad = 15,
      thickness = 20,
      line = dict(color = "black", width = 0.5),
      label = ["Pipocas vendidas", "Chocolates vendidos", "Casais", "Homens" ,"Mulheres", "Grupos de amigos", "Idosos"]
    ),
    link = dict(
      source = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1], 
      target = [2, 3, 4, 5, 6, 2, 3, 4, 5, 6],
      value =  [18, 4, 2, 8, 4, 2, 12, 5, 6, 4]
  ))])

fig.update_layout(title_text="Fluxo de pipocas no cinema", font_size=15)
fig.show()

Perceba que no gráfico acima nós omitimos o parâmetro "color". Isso faz com que a própria biblioteca gere cores aleatórias para serem usadas. Mas caso você queira ter controle sobre isso, passe um vetor de cores que você deseja usar:

In [127]:
import plotly.graph_objects as go



fig = go.Figure(data=[go.Sankey(
    node = dict(
      pad = 15,
      thickness = 20,
      line = dict(color = "black", width = 0.5),
      label = ["Pipocas vendidas", "Chocolates vendidos", "Casais", "Homens" ,"Mulheres", "Grupos de amigos", "Idosos"],
      color = ["#efefef", "#00ff00", "#00ffff", "#ff0000", "#aaff22", "#bbaa33"]
    ),
    link = dict(
      source = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1], 
      target = [2, 3, 4, 5, 6, 2, 3, 4, 5, 6],
      value =  [18, 4, 2, 8, 4, 2, 12, 5, 6, 4]
  ))])

fig.update_layout(title_text="Fluxo de pipocas no cinema", font_size=15)
fig.show()

Agora, perceba que apesar de termos cores nos eixos, ainda não temos cores para representar os chocolates ou pipocas. Isso facilitaria bastante a visualização dos nossos dados, sendo assim, vamos adicionar cores as nossas linhas:

In [36]:
import plotly.graph_objects as go



fig = go.Figure(data=[go.Sankey(
    node = dict(
      pad = 15,
      thickness = 20,
      line = dict(color = "black", width = 0.5),
      label = ["Pipocas vendidas", "Chocolates vendidos", "Casais", "Homens" ,"Mulheres", "Grupos de amigos", "Idosos"],
      color = ["#efefef", "#00ff00", "#00ffff", "#ff0000", "#aaff22", "#bbaa33"]
    ),
    link = dict(
      source = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1], 
      target = [2, 3, 4, 5, 6, 2, 3, 4, 5, 6],
      value =  [18, 4, 2, 8, 4, 2, 12, 5, 6, 4],
      color = ["#0000aa", "#00aa00", "#aa0000", "#ffaa00", "#aaff22", "#bbaa33", "#bae0ae", "#abef11", "#123bae", "#ba2134"]
  ))])

fig.update_layout(title_text="Fluxo de pipocas no cinema", font_size=15)
fig.show()

Perceba que todas as cores das linhas foram adiciondas usando código hexadecimal, isso significa que não existe espaço para informar a opacidade dessas linhas. Se você quiser fazer isso, use RGBA:

In [45]:
import plotly.graph_objects as go



fig = go.Figure(data=[go.Sankey(
    node = dict(
      pad = 15,
      thickness = 20,
      line = dict(color = "black", width = 0.5),
      label = ["Pipocas vendidas", "Chocolates vendidos", "Casais", "Homens" ,"Mulheres", "Grupos de amigos", "Idosos"],
      color = ["rgba(255,255,0,0.5)", 
               "rgba(255,0,0,0.5)", 
               "rgba(45,0,0,0.5)", 
               "rgba(255,255,0,0.5)", 
               "rgba(255,0,0,0.5)", 
               "rgba(45,24,0,0.5)", 
               "rgba(251,45,20,0.5)", 
               "rgba(45,10,110,0.5)", 
               "rgba(55,202,14,0.5)", 
               "rgba(85,22,50,0.5)", 
               "rgba(95,102,40,0.5)", 
               "rgba(105,40,10,0.5)"]
    ),
    link = dict(
      source = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1], 
      target = [2, 3, 4, 5, 6, 2, 3, 4, 5, 6],
      value =  [18, 4, 2, 8, 4, 2, 12, 5, 6, 4],
      color = ["rgba(255,255,0,0.5)", 
               "rgba(255,0,0,0.5)", 
               "rgba(45,0,0,0.5)", 
               "rgba(255,255,0,0.5)", 
               "rgba(255,0,0,0.5)", 
               "rgba(45,24,0,0.5)", 
               "rgba(251,45,20,0.5)", 
               "rgba(45,10,110,0.5)", 
               "rgba(55,202,14,0.5)", 
               "rgba(85,22,50,0.5)", 
               "rgba(95,102,40,0.5)", 
               "rgba(105,40,10,0.5)"]
  ))])

fig.update_layout(title_text="Fluxo de pipocas no cinema", font_size=15)
fig.show()

Finalmente, podemos dizer que a única parte que é bastante obscura é a inserção de dados... Ela realmente até o momento não faz muito sentido. No entanto, para ficar mais fácil vamos tentar traduzir esses dados para algo que é mais fácil de entender, ou seja, vamos usar tabelas. 

Então vamos usar os mesmos dados e vamos criar um dataframe desses dados:


In [75]:
import pandas as pd

produtosVendidos = ["Pipocas", "Chocolates"]
compradores = ["Casais", "Grupos de amigos", "Idosos", "Homens", "Mulheres"]
dados = [[2,4],[4,5],[5,6],[7,6],[6,3]]

tbl = pd.DataFrame(data = dados, columns=produtosVendidos, index = compradores)
tbl = tbl.reset_index()
tbl.head()

Unnamed: 0,index,Pipocas,Chocolates
0,Casais,2,4
1,Grupos de amigos,4,5
2,Idosos,5,6
3,Homens,7,6
4,Mulheres,6,3


Perfeito, temos uma tabela, mas para transformar essa incrível tabela em uma sequência que consiga ser interpretada pelo nosso plotly, precisamos pivotar essa tabela. 

In [104]:
tbl_t = tbl.melt(id_vars=['index'])
tbl_t

Unnamed: 0,index,variable,value
0,Casais,Pipocas,2
1,Grupos de amigos,Pipocas,4
2,Idosos,Pipocas,5
3,Homens,Pipocas,7
4,Mulheres,Pipocas,6
5,Casais,Chocolates,4
6,Grupos de amigos,Chocolates,5
7,Idosos,Chocolates,6
8,Homens,Chocolates,6
9,Mulheres,Chocolates,3


Perfeito, temos os valores... vamos tentar inserir no gráfico?

In [105]:
import plotly.graph_objects as go



fig = go.Figure(data=[go.Sankey(
    node = dict(
      pad = 15,
      thickness = 20,
      line = dict(color = "black", width = 0.5),
      label = ["Pipocas vendidas", "Chocolates vendidos", "Casais", "Homens" ,"Mulheres", "Grupos de amigos", "Idosos"],
      color = ["rgba(255,255,0,0.5)", 
               "rgba(255,0,0,0.5)", 
               "rgba(45,0,0,0.5)", 
               "rgba(255,255,0,0.5)", 
               "rgba(255,0,0,0.5)", 
               "rgba(45,24,0,0.5)", 
               "rgba(251,45,20,0.5)", 
               "rgba(45,10,110,0.5)", 
               "rgba(55,202,14,0.5)", 
               "rgba(85,22,50,0.5)", 
               "rgba(95,102,40,0.5)", 
               "rgba(105,40,10,0.5)"]
    ),
    link = dict(
      source = tbl_t["variable"].array, 
      target = tbl_t["index"].array,
      value =  tbl_t["value"].array,
      color = ["rgba(255,255,0,0.5)", 
               "rgba(255,0,0,0.5)", 
               "rgba(45,0,0,0.5)", 
               "rgba(255,255,0,0.5)", 
               "rgba(255,0,0,0.5)", 
               "rgba(45,24,0,0.5)", 
               "rgba(251,45,20,0.5)", 
               "rgba(45,10,110,0.5)", 
               "rgba(55,202,14,0.5)", 
               "rgba(85,22,50,0.5)", 
               "rgba(95,102,40,0.5)", 
               "rgba(105,40,10,0.5)"]
  ))])

fig.update_layout(title_text="Fluxo de pipocas no cinema", font_size=15)
fig.show()

Apesar de todos nossos dados estarem corretos, nada apareceu, isso acontece porque nós não convertemos nossos dados que são "strings" para inteiros. Assim, o nosso plotly pode entender os dados.

In [106]:
produtos = {'Pipocas': 1,'Chocolates': 2}

tbl_t["variable"] = [produtos[item] for item in tbl_t['variable']]
tbl_t

publico = {'Casais': 3,'Grupos de amigos': 4,'Idosos': 5, 'Homens': 6, 'Mulheres': 7}
tbl_t["index"] = [publico[item] for item in tbl_t['index']]
tbl_t

Unnamed: 0,index,variable,value
0,3,1,2
1,4,1,4
2,5,1,5
3,6,1,7
4,7,1,6
5,3,2,4
6,4,2,5
7,5,2,6
8,6,2,6
9,7,2,3


Agora sim, se rodarmos nosso gráfico tudo sai como o esperado...

Um detalhe legal aqui é que estou escolhendo um conjunto padrão do plotly disponível [aqui](https://plotly.com/python/discrete-color/). 

O nome do conjunto é "Pastel1"

In [124]:
import plotly.graph_objects as go
import plotly.express as px

fig = go.Figure(data=[go.Sankey(
    node = dict(
      pad = 15,
      thickness = 20,
      line = dict(color = "black", width = 0.5),
      label = ["Pipocas vendidas", "Chocolates vendidos", "Casais", "Homens" ,"Mulheres", "Grupos de amigos", "Idosos"],
      color = px.colors.qualitative.Pastel1
    ),
    link = dict(
      source = tbl_t["variable"].array, 
      target = tbl_t["index"].array,
      value =  tbl_t["value"].array,
      color = px.colors.qualitative.Pastel1
  ))])

fig.update_layout(title_text="Fluxo de pipocas no cinema", font_size=15)
fig.show()