## Visualização de dados com Plot.ly##

`Cufflinks conecta o pandas ao plot.ly`

`Instalação do Plot.ly e Cufflinks`

In [1]:
!pip install cufflinks
!pip install plotly

Collecting cufflinks
  Downloading cufflinks-0.17.3.tar.gz (81 kB)
     ---------------------------------------- 81.7/81.7 kB 1.5 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting colorlover>=0.2.1 (from cufflinks)
  Downloading colorlover-0.3.0-py3-none-any.whl (8.9 kB)
Building wheels for collected packages: cufflinks
  Building wheel for cufflinks (setup.py): started
  Building wheel for cufflinks (setup.py): finished with status 'done'
  Created wheel for cufflinks: filename=cufflinks-0.17.3-py3-none-any.whl size=68718 sha256=3ed74f47fee7b150e412329ec5aa88e2fd4f1a6658fe68640f315dfe6cafa199
  Stored in directory: c:\users\marcio rodrigues\appdata\local\pip\cache\wheels\29\b4\f8\2fd2206eeeba6ccad8167e4e8894b8c4ec27bf1342037fd136
Successfully built cufflinks
Installing collected packages: colorlover, cufflinks
Successfully installed colorlover-0.3.0 cufflinks-0.17.3




`Importando o cufflinks e o plot.ly`

In [6]:
import cufflinks as cf
from plotly.offline import plot, iplot
import pandas as pd
import numpy as np

**Cria um dataframe com dados aleatorios divididos em 4 colunas**

In [7]:
df = pd.DataFrame(np.random.randn(100,4), columns=['A','B','C','D'])

In [8]:
df.head()

Unnamed: 0,A,B,C,D
0,0.123517,-0.579893,-0.679507,-0.171979
1,-1.069931,-0.874568,0.71554,0.970235
2,1.422179,-0.958948,1.358378,0.064387
3,-0.183731,0.092426,-0.357151,1.233019
4,1.796228,0.646139,1.946941,0.516185


**Ao tentar usar o Cufflinks veja o resultado**

In [10]:
df.iplot()

PlotlyRequestError: Authentication credentials were not provided.

**É preciso habilitar o modo offline primeiramente**

In [None]:
cf.go_offline()

**Executando o iplot() novamente**

`Clique no link "Export to plot.ly"`

In [11]:
df.head()

Unnamed: 0,A,B,C,D
0,0.123517,-0.579893,-0.679507,-0.171979
1,-1.069931,-0.874568,0.71554,0.970235
2,1.422179,-0.958948,1.358378,0.064387
3,-0.183731,0.092426,-0.357151,1.233019
4,1.796228,0.646139,1.946941,0.516185


In [12]:
df.iplot()

PlotlyRequestError: Authentication credentials were not provided.

**Gráficos do tipo scatter**

In [None]:
df.iplot(kind='scatter', x='A',y='B', mode='markers')

**Gráficos de Barras**

In [None]:
df.sum().iplot(kind='bar')

**Gráficos de Boxplots**

`Basta clicar no item da legenda a direita para habilitar ou desabilitar o dado da coluna`

In [None]:
df.iplot(kind='box')

**Histogramas**

`Compare com os histograsm padrões do matplotlib e seaborn`

In [None]:
df['A'].iplot(kind='hist')

`Histograma aninhado de todas as colunas (mesmo tipo de dados)`

In [None]:
df.iplot(kind='hist')

**Spread plots**

In [None]:
df[['A','D','C','B']].iplot(kind='spread')

**Bubble Plots**

In [None]:
df.iplot(kind='bubble', x='A',y='B', size='C', colors='seagreen')

**Scatter Matrix**

- `Similar ao pairplot do Seaborn`
-  `Se o dataframe for muito grande pode travar o seu notebook`

In [None]:
df.scatter_matrix()

## Visualização de dados reais ##

**Lembre-se de habilitar o modo offline do plotly**

In [None]:
import cufflinks as cf
cf.go_offline()

**Importe o pandas**

In [None]:
import pandas as pd

**Dataset de Vendas da Olist**

- O dataset já está disponível no diretório datasets. Não é necessário download.
- Se quiser conhecer mais sobre esse dataset, segue o link https://www.kaggle.com/olistbr/brazilian-ecommerce/version/2

In [None]:
df = pd.read_csv('datasets/olist_classified_public_dataset.csv')

**Visualizando a base de dados**

In [None]:
df.head()

In [None]:
df.info()

## Perguntas aos dados

- Quais a distribuicao dos status dos pedidos?
- Quais os meses do ano houve mais vendas?
- Qual a quantidade de items de um pedido? (medio)
- Qual a quantidade de vendedores em um pedido ? (medio)
- O valor do frete tende aumentar com o preco do produto?
- Qual o tempo medio de entrega?
- Como foi as vendas por mês?
- Quais meses superaram a meta de vendas?
- Como foi a venda por mês se comparado ao ano de 2016?

In [None]:
df.order_status.value_counts().iplot(kind='bar')

**Transformando colunas para o formato datetime**

In [None]:
df.order_purchase_timestamp = pd.to_datetime(df.order_purchase_timestamp)

**Visualizando as colunas agora em Datetime**

In [None]:
df.info()

- Use o metodo to_periodo() com o ´M´ para obter informações no formato de meses
- Criando a coluna order_purchase_month

In [None]:
df['order_purchase_month'] = df.order_purchase_timestamp.dt.to_period('M').astype(str)

In [None]:
df.order_purchase_month.head()

**Visualizando a nova coluna no dataframe**

In [None]:
df.head()

**Cria a variável `vendas_por_mes` que é a soma do valor dos produtos agrupados por mês**

In [None]:
vendas_por_mes = df.groupby(by='order_purchase_month').order_products_value.sum()

In [None]:
type(vendas_por_mes)

**visualizando os valores de vendas por mês**

In [None]:
vendas_por_mes.head()

In [None]:
vendas_por_mes.index.item

In [None]:
vendas_por_mes.values

**Pontos importantes a lembrar:**
- init_notebook_mode()
- plotly.offline.iplot()

**Importando o plotly**

In [None]:
import plotly
import plotly.graph_objs as go
import plotly.offline as py

In [None]:
# habilita o modo offline
plotly.offline.init_notebook_mode(connected=True)

**Vendas por mês**

- **por padrão o iplot() plota um gráfico de linha, da sentido de valor acumulado**

In [None]:
import plotly.graph_objs as go

data = [go.Scatter(x=vendas_por_mes.index,
                   y=vendas_por_mes.values)]

py.iplot(data)

**Gráfico de Barras**

- **Customizando graficos de barras: titulos e labels dos eixos**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': 'lightblue'})]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title': 'Periodo'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

**Definindo ajustes em linhas e cores**

- **Parâmetro opacity e width**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': 'lightblue',
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7
              )
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title':'Periodo'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

**Destacando uma barras**

In [None]:
cores = []

In [None]:
vendas_por_mes.index

In [None]:
vendas_por_mes

**Valor de média para ser testado**

In [None]:
media = vendas_por_mes.values.mean()

In [None]:
media

**Alimentando a lista de cores**

In [None]:
# se o valor de vendas do mês for menor que a média a lista de cor será vermelha, senão azul.
for x in vendas_por_mes.values:
    if x < media:
        cores.append('red')
    else:
        cores.append('lightblue')

**Visualizando a lista de cores**

In [None]:
cores

**Gráficos de Vendas no Periodo**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': cores,  #lista de cores
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7
              )
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title':'Periodo'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig, filename='Meses que nao superaram a meta de vendas')

**Destaca a barra com o maior valor e minimiza a visao de todas as outras**

In [None]:
maximo_de_vendas = vendas_por_mes.values.max()

In [None]:
maximo_de_vendas

**Alimenta a lista de cores**

In [None]:
cores = []
for x,y in zip(vendas_por_mes.values, vendas_por_mes.index):
    if x == maximo_de_vendas:
        mes_maximo_de_vendas = y
        cores.append('blue')
    else:
        cores.append('lightgray')

In [None]:
mes_maximo_de_vendas

In [None]:
cores

**Plota o gráfico de vendas com um destaque de cor e anotação para o mês que teve mais vendas**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': cores,
                         'line': {'color': '#333',
                                 'width': 2}
                        },
               opacity= 0.7
              )
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title': 'Periodo'},
                                 # texto na barra de destaque
                                 annotations = [{'text':'Mês destaque de vendas',
                                                'x':mes_maximo_de_vendas,
                                                'y':maximo_de_vendas}
                                               ]
                                                                                              
                                )

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig, filename='Mes destaque de vendas')

**Visualizando duas informações no mesmo gráfico**

- `Vamos definir alguns valores ficticios para vendas do ano anterior`

In [None]:
vendas_ano_anterior = vendas_por_mes - 10000.00

**Gráfico de barras aninhadas**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': cores,
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7,
               name='2017'
              ),
# definindo outro plot de barras com valores dos meses passados
        
        go.Bar(x=vendas_ano_anterior.index,
               y=vendas_ano_anterior.values,
               name='2016',
               marker = {'color': 'lightgreen',
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7
              )
              
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title': 'Periodo'},
                                 annotations = [{'text':'Mês destaque de vendas',
                                                'x':mes_maximo_de_vendas,
                                                'y':maximo_de_vendas}
                                               ]                       
                                
                                )

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig, filename='Vendas no periodo 2017 e 2016')

**Vendas por categorias de produtos**
- **Conta quantos produtos por categoria e coloca dentro da variável vendas_produto_por_categoria**

In [None]:
vendas_produto_por_categoria =  df.groupby(by='product_category_name').id.count()

In [None]:
vendas_produto_por_categoria

**Filtra categorias com quantidade de vendas maiores que 1**

In [None]:
vendas_produto_por_categoria = vendas_produto_por_categoria.loc[vendas_produto_por_categoria.values >1]

**Ordena valores do maior para o menor**

In [None]:
vendas_produto_por_categoria.sort_values(ascending=False,inplace=True)

**Plota gráfico de barras verticais**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

trace0 = go.Bar(y=vendas_produto_por_categoria.values,
                x=vendas_produto_por_categoria.index,
                marker = {'color': '#00FF2A'},
                orientation='v'
              )

data = [trace0]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas por categoria de Produtos',
                   xaxis=dict(
                         titlefont=dict(
                                   size=40,
                                   color='lightgrey'),
                   tickangle=75),
                   yaxis={'title': 'Quantidade vendida'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

**Alterando Faixa de valores dos eixos somando 10% ao valor máximo**

In [None]:
max(vendas_produto_por_categoria.values) * 1.10

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

trace0 = go.Bar(y=vendas_produto_por_categoria.values,
                x=vendas_produto_por_categoria.index,
                marker = {'color': '#00FF2A'},
                orientation='v'
              )

data = [trace0]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas por categoria de Produtos',
                   xaxis=dict(
                         titlefont=dict(
                                   size=40,
                                   color='lightgrey'),
                                   tickangle=75),
                   
                   # valor maximo da faixa + 10%
                   yaxis={'title': 'Quantidade vendida',
                          'range':[0,max(vendas_produto_por_categoria.values) * 1.10]
                         })

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)
                   
# plotando o grafico
py.iplot(fig, filename='Vendas por categoria de Produtos')

**Valor de Frete vs Valor de Produto: Existe alguma tendencia?**

In [None]:
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   marker = {'color':'#941229'}
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',
                   yaxis={'title':'Valor do Produto'},
                   xaxis={'title': 'Valor do Frete'})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Usando o parâmetro text na visualização (parâmetro hover)**

In [None]:
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   # customização do texto a ser exibido no hover
                   text = 'Status do pedido: '+ df['order_status'] +
                           '<br>' + 'Classe: '+ df['most_voted_class']
                   ,
                   # exibição do hover
                   hoverinfo='text+x+y',
                   marker = {'color':'#941229'}
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',
                   yaxis={'title':'Valor do Produto'},
                   xaxis={'title': 'Valor do Frete'})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Customizacao dos eixos com formato em reais R$**

In [None]:
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   # customização do texto a ser exibido no hover
                   text = 'Status do pedido: '+ df['order_status'] +
                           '<br>' + 'Classe: '+ df['most_voted_class']
                   ,
                   # exibição do hover
                   hoverinfo='text+x+y',
                   marker = {'color':'#941229'}
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',

                   # Definindo exibicao dos eixos x e y
                   yaxis={'title':'Valor do Produto', 
                          'tickformat':'.', 
                          'tickprefix':'R$ '},
                   xaxis={'title': 'Valor do Frete',
                          'tickformat':'.', 
                          'tickprefix':'R$ '})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Grafico de Bolhas: Valor de Frete vs Valor do Produto por numero de vendedores**

In [None]:
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   # customização do texto a ser exibido no hover
                   text = 'Status do pedido: '+ df['order_status'] +
                           '<br>' + 'Classe: '+ df['most_voted_class']
                   ,
                   # exibição do hover
                   hoverinfo='text+x+y',
                   
                   # parametro size e sizemode especifica o comportamento dos pontos
                   marker = {'color':'#941229',
                             'size': df['order_sellers_qty']*10,
                             'sizemode':'area'
                             }
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',

                   # Definindo exibicao dos eixos x e y
                   yaxis={'title':'Valor do Produto', 
                          'tickformat':'.', 
                          'tickprefix':'R$ '},
                   xaxis={'title': 'Valor do Frete',
                          'tickformat':'.', 
                          'tickprefix':'R$ '})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig, filename='Valor de Frete por Valor de Produto')

**Valor de Frete vs Valor de Produto por status de entrega**

In [None]:
df.iplot(x='order_freight_value',
         y='order_products_value', 
         categories='most_voted_subclass',
         title='Valor de Frete vs Valor de Produto',
         xTitle='Valor de Frete',
         yTitle='Valor Produto')

**Quantidade em média de items de um pedido**

In [None]:
data = [go.Histogram(x=df.order_items_qty)]

layout = go.Layout(title='Quantidade média de itens de um pedido')

fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Quantidade média de vendedores de um pedido**

In [None]:
trace1 = go.Histogram(x=df.order_items_qty,
                     name='itens',
                     opacity=0.75)

trace2 = go.Histogram(x=df.order_sellers_qty,
                     name='vendedores',
                     opacity=0.75)

layout = go.Layout(title='Quantidade de itens e Vendedores por pedido',
                   barmode='overlay'
                  )

dados = [trace1, trace2]

fig = go.Figure(data=dados, layout=layout)

py.iplot(fig, filename='Quantidade de itens e vendedores por pedido')

**Plotando um gráfico de pizzaa**
- **Qual a distribuição da classificação dos pedidos pelos clientes?**

In [None]:
df.order_status.value_counts()

In [None]:
classes_mais_votadas = df.groupby(by='most_voted_class').id.count()

In [None]:
classes_mais_votadas

In [None]:
# mesmo resultado do codigo acima
classes_mais_votadas = df.most_voted_class.value_counts()

In [None]:
# Criando gráfico

trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Parametro direction**

In [None]:
# Criando gráfico

trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Customizando gráficos de pizza**

In [None]:
# Criando gráfico

cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores},
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Adicionando linha de contorno, cores**

In [None]:
# Criando gráfico

cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores, 
                         'line' : {'color':'#000000','width':2}
                        },
               hoverinfo='label+percent+value',
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Destacando porções do gráfico**

In [None]:
# Criando gráfico

cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores, 
                         'line' : {'color':'#000000','width':2}
                        },
               hoverinfo='label+percent+value',
               pull=[0,0,0.1],
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Não se esqueça de habilitar o modo offline**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

**Definindo cores das partes do gráfico de pizza**

In [None]:
# Criando gráfico

cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores, 
                         'line' : {'color':'#000000','width':2}
                        },
               hoverinfo='label+percent+value',
               pull=[0,0,0.1]
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig, filename='Classificação de Clientes sobre Pedidos')

**Exportando nosso gráfico para conta do Plotly na nuvem**

- Criar conta no portal **plot.ly**
- Obter credenciais da API
- Importa método para plot **online**
- Substitua o método iplot() pelo método **plot()**

**Configurando credenciais**

In [None]:
import plotly
plotly.tools.set_credentials_file(username='rodrigo.ferreira', api_key='0jXkRZA5Aibh29grrmxJ')

**Importando método para plot online**

In [None]:
import plotly.plotly as pyo

## Exercício ##

- Usando os conhecimentos adquiridos aqui, crie um dashboard na nuvem do Plot e compartilhe comigo :)
- Envie para o e-mail contato@minerandodados.com.br
- Lembre-se: Seu Dashboard deve ser usado como seu **portfólio profissional**.