## Visualização de dados com Plot.ly##

`Cufflinks conecta o pandas ao plot.ly`

`Instalação do Plot.ly e Cufflinks`

In [1]:
!pip install cufflinks
!pip install plotly

Collecting cufflinks
  Downloading cufflinks-0.17.3.tar.gz (81 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.7/81.7 kB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Installing backend dependencies ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
Collecting plotly>=4.1.1 (from cufflinks)
  Downloading plotly-5.20.0-py3-none-any.whl.metadata (7.0 kB)
Collecting colorlover>=0.2.1 (from cufflinks)
  Downloading colorlover-0.3.0-py3-none-any.whl.metadata (421 bytes)
Collecting setuptools>=34.4.1 (from cufflinks)
  Using cached setuptools-69.2.0-py3-none-any.whl.metadata (6.3 kB)
Collecting tenacity>=6.2.0 (from plotly>=4.1.1->cufflinks)
  Downloading tenacity-8.2.3-py3-none-any.whl.metadata (1.0 kB)
Downloading colorlover-0.3.0-py3-none-any.whl (8.9 kB)
Downloading plotly-5.20.0-py3-none-any.whl (15.7 MB)
[2

`Importando o cufflinks e o plot.ly`

In [2]:
import cufflinks as cf
from plotly.offline import plot, iplot
import pandas as pd
import numpy as np

**Cria um dataframe com dados aleatorios divididos em 4 colunas**

In [3]:
df = pd.DataFrame(np.random.randn(100,4), columns=['A','B','C','D'])

In [4]:
df.head()

Unnamed: 0,A,B,C,D
0,1.347046,0.370286,1.033681,1.471172
1,-0.942829,0.311598,1.688724,-2.383337
2,-1.228363,1.092138,-1.409351,-0.905408
3,0.020711,0.149122,0.661211,-1.471702
4,-0.23096,0.088619,0.883465,0.350118


**Ao tentar usar o Cufflinks veja o resultado**

In [5]:
df.iplot()
# 

Exception: chart_studio is required outside of offline mode: please run pip install chart_studio

**É preciso habilitar o modo offline primeiramente**

In [6]:
cf.go_offline()

**Executando o iplot() novamente**

In [7]:
df.iplot()

`Clique no link "Export to plot.ly"`

In [8]:
df.head()

Unnamed: 0,A,B,C,D
0,1.347046,0.370286,1.033681,1.471172
1,-0.942829,0.311598,1.688724,-2.383337
2,-1.228363,1.092138,-1.409351,-0.905408
3,0.020711,0.149122,0.661211,-1.471702
4,-0.23096,0.088619,0.883465,0.350118


In [9]:
df.iplot()

**Gráficos do tipo scatter**

In [10]:
df.iplot(kind='scatter', x='A',y='B', mode='markers')

**Gráficos de Barras**

In [11]:
df.sum().iplot(kind='bar')

**Gráficos de Boxplots**

`Basta clicar no item da legenda a direita para habilitar ou desabilitar o dado da coluna`

In [12]:
df.iplot(kind='box')

**Histogramas**

`Compare com os histograsm padrões do matplotlib e seaborn`

In [13]:
df['A'].iplot(kind='hist')

`Histograma aninhado de todas as colunas (mesmo tipo de dados)`

In [14]:
df.iplot(kind='hist')

**Spread plots**

In [15]:
df[['A','D','C','B']].iplot(kind='spread')


Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior). To access a value by position, use `ser.iloc[pos]`



AttributeError: module 'pandas' has no attribute 'np'

**Bubble Plots**

In [16]:
df.iplot(kind='bubble', x='A',y='B', size='C', colors='seagreen')

**Scatter Matrix**

- `Similar ao pairplot do Seaborn`
-  `Se o dataframe for muito grande pode travar o seu notebook`

In [17]:
df.scatter_matrix()

## Visualização de dados reais ##

**Lembre-se de habilitar o modo offline do plotly**

In [18]:
import cufflinks as cf
cf.go_offline()

**Importe o pandas**

In [19]:
import pandas as pd

**Dataset de Vendas da Olist**

- O dataset já está disponível no diretório datasets. Não é necessário download.
- Se quiser conhecer mais sobre esse dataset, segue o link https://www.kaggle.com/olistbr/brazilian-ecommerce/version/2

In [21]:
df = pd.read_csv('datasets/olist_classified_public_dataset.csv')
df

Unnamed: 0.1,Unnamed: 0,id,order_status,order_products_value,order_freight_value,order_items_qty,order_sellers_qty,order_purchase_timestamp,order_aproved_at,order_estimated_delivery_date,...,votes_delayed,votes_low_quality,votes_return,votes_not_as_anounced,votes_partial_delivery,votes_other_delivery,votes_other_order,votes_satisfied,most_voted_subclass,most_voted_class
0,0,1,delivered,89.99,14.38,1,1,2017-08-30 11:41:01.000000,2017-08-30 11:55:08.970352,2017-09-21 00:00:00.000000,...,0,0,0,0,0,0,0,3,satisfeito,satisfeito_com_pedido
1,1,2,delivered,69.00,15.23,1,1,2017-09-26 09:13:36.000000,2017-09-26 09:28:10.922048,2017-10-24 00:00:00.000000,...,0,0,0,0,0,0,0,0,antes_prazo,satisfeito_com_pedido
2,2,3,delivered,99.80,15.86,2,4,2018-01-15 15:50:42.000000,2018-01-17 07:29:56.419769,2018-02-05 00:00:00.000000,...,0,0,0,0,3,0,0,0,entrega_parcial,problemas_de_entrega
3,3,4,delivered,87.00,12.74,1,1,2018-02-04 11:16:42.000000,2018-02-06 05:31:50.990164,2018-03-13 00:00:00.000000,...,3,0,0,0,0,0,0,0,atrasado,problemas_de_entrega
4,4,5,delivered,99.90,17.95,1,2,2017-12-07 11:58:42.000000,2017-12-08 02:36:49.587515,2018-01-03 00:00:00.000000,...,0,0,0,0,3,0,0,0,entrega_parcial,problemas_de_entrega
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3579,3579,3580,shipped,69.99,8.90,1,1,2017-11-27 09:28:50.000000,2017-11-27 09:38:27.474464,2017-12-11 00:00:00.000000,...,1,0,0,0,0,2,0,0,outro_entrega,problemas_de_entrega
3580,3580,3581,delivered,39.90,15.10,1,1,2017-05-11 12:29:55.000000,2017-05-11 13:05:49.204273,2017-05-31 00:00:00.000000,...,0,0,0,0,0,0,0,1,antes_prazo,satisfeito_com_pedido
3581,3581,3582,delivered,795.00,21.33,1,1,2017-05-21 20:15:25.000000,2017-05-23 03:42:32.806938,2017-06-13 00:00:00.000000,...,0,0,0,0,0,0,0,2,satisfeito,satisfeito_com_pedido
3582,3582,3583,delivered,72.90,35.83,1,1,2017-09-29 16:05:14.000000,2017-09-29 16:27:57.145051,2017-11-13 00:00:00.000000,...,2,0,0,0,0,0,0,1,atrasado,problemas_de_entrega


**Visualizando a base de dados**

In [22]:
df.head()

Unnamed: 0.1,Unnamed: 0,id,order_status,order_products_value,order_freight_value,order_items_qty,order_sellers_qty,order_purchase_timestamp,order_aproved_at,order_estimated_delivery_date,...,votes_delayed,votes_low_quality,votes_return,votes_not_as_anounced,votes_partial_delivery,votes_other_delivery,votes_other_order,votes_satisfied,most_voted_subclass,most_voted_class
0,0,1,delivered,89.99,14.38,1,1,2017-08-30 11:41:01.000000,2017-08-30 11:55:08.970352,2017-09-21 00:00:00.000000,...,0,0,0,0,0,0,0,3,satisfeito,satisfeito_com_pedido
1,1,2,delivered,69.0,15.23,1,1,2017-09-26 09:13:36.000000,2017-09-26 09:28:10.922048,2017-10-24 00:00:00.000000,...,0,0,0,0,0,0,0,0,antes_prazo,satisfeito_com_pedido
2,2,3,delivered,99.8,15.86,2,4,2018-01-15 15:50:42.000000,2018-01-17 07:29:56.419769,2018-02-05 00:00:00.000000,...,0,0,0,0,3,0,0,0,entrega_parcial,problemas_de_entrega
3,3,4,delivered,87.0,12.74,1,1,2018-02-04 11:16:42.000000,2018-02-06 05:31:50.990164,2018-03-13 00:00:00.000000,...,3,0,0,0,0,0,0,0,atrasado,problemas_de_entrega
4,4,5,delivered,99.9,17.95,1,2,2017-12-07 11:58:42.000000,2017-12-08 02:36:49.587515,2018-01-03 00:00:00.000000,...,0,0,0,0,3,0,0,0,entrega_parcial,problemas_de_entrega


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3584 entries, 0 to 3583
Data columns (total 34 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Unnamed: 0                     3584 non-null   int64  
 1   id                             3584 non-null   int64  
 2   order_status                   3584 non-null   object 
 3   order_products_value           3584 non-null   float64
 4   order_freight_value            3584 non-null   float64
 5   order_items_qty                3584 non-null   int64  
 6   order_sellers_qty              3584 non-null   int64  
 7   order_purchase_timestamp       3584 non-null   object 
 8   order_aproved_at               3584 non-null   object 
 9   order_estimated_delivery_date  3584 non-null   object 
 10  order_delivered_customer_date  3467 non-null   object 
 11  customer_city                  3584 non-null   object 
 12  customer_state                 3584 non-null   o

## Perguntas aos dados

- Quais a distribuicao dos status dos pedidos?
- Quais os meses do ano houve mais vendas?
- Qual a quantidade de items de um pedido? (medio)
- Qual a quantidade de vendedores em um pedido ? (medio)
- O valor do frete tende aumentar com o preco do produto?
- Qual o tempo medio de entrega?
- Como foi as vendas por mês?
- Quais meses superaram a meta de vendas?
- Como foi a venda por mês se comparado ao ano de 2016?

In [24]:
df.order_status.value_counts().iplot(kind='bar')

**Transformando colunas para o formato datetime**

In [25]:
df.order_purchase_timestamp = pd.to_datetime(df.order_purchase_timestamp)

**Visualizando as colunas agora em Datetime**

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3584 entries, 0 to 3583
Data columns (total 34 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   Unnamed: 0                     3584 non-null   int64         
 1   id                             3584 non-null   int64         
 2   order_status                   3584 non-null   object        
 3   order_products_value           3584 non-null   float64       
 4   order_freight_value            3584 non-null   float64       
 5   order_items_qty                3584 non-null   int64         
 6   order_sellers_qty              3584 non-null   int64         
 7   order_purchase_timestamp       3584 non-null   datetime64[ns]
 8   order_aproved_at               3584 non-null   object        
 9   order_estimated_delivery_date  3584 non-null   object        
 10  order_delivered_customer_date  3467 non-null   object        
 11  customer_city    

- Use o metodo to_periodo() com o ´M´ para obter informações no formato de meses
- Criando a coluna order_purchase_month

In [27]:
df['order_purchase_month'] = df.order_purchase_timestamp.dt.to_period('M').astype(str)

In [28]:
df.order_purchase_month.head()

0    2017-08
1    2017-09
2    2018-01
3    2018-02
4    2017-12
Name: order_purchase_month, dtype: object

**Visualizando a nova coluna no dataframe**

In [29]:
df.head()

Unnamed: 0.1,Unnamed: 0,id,order_status,order_products_value,order_freight_value,order_items_qty,order_sellers_qty,order_purchase_timestamp,order_aproved_at,order_estimated_delivery_date,...,votes_low_quality,votes_return,votes_not_as_anounced,votes_partial_delivery,votes_other_delivery,votes_other_order,votes_satisfied,most_voted_subclass,most_voted_class,order_purchase_month
0,0,1,delivered,89.99,14.38,1,1,2017-08-30 11:41:01,2017-08-30 11:55:08.970352,2017-09-21 00:00:00.000000,...,0,0,0,0,0,0,3,satisfeito,satisfeito_com_pedido,2017-08
1,1,2,delivered,69.0,15.23,1,1,2017-09-26 09:13:36,2017-09-26 09:28:10.922048,2017-10-24 00:00:00.000000,...,0,0,0,0,0,0,0,antes_prazo,satisfeito_com_pedido,2017-09
2,2,3,delivered,99.8,15.86,2,4,2018-01-15 15:50:42,2018-01-17 07:29:56.419769,2018-02-05 00:00:00.000000,...,0,0,0,3,0,0,0,entrega_parcial,problemas_de_entrega,2018-01
3,3,4,delivered,87.0,12.74,1,1,2018-02-04 11:16:42,2018-02-06 05:31:50.990164,2018-03-13 00:00:00.000000,...,0,0,0,0,0,0,0,atrasado,problemas_de_entrega,2018-02
4,4,5,delivered,99.9,17.95,1,2,2017-12-07 11:58:42,2017-12-08 02:36:49.587515,2018-01-03 00:00:00.000000,...,0,0,0,3,0,0,0,entrega_parcial,problemas_de_entrega,2017-12


**Cria a variável `vendas_por_mes` que é a soma do valor dos produtos agrupados por mês**

In [30]:
vendas_por_mes = df.groupby(by='order_purchase_month').order_products_value.sum()

In [31]:
type(vendas_por_mes)

pandas.core.series.Series

**visualizando os valores de vendas por mês**

In [32]:
vendas_por_mes.head()

order_purchase_month
2017-02        9.99
2017-03      902.86
2017-04    17654.19
2017-05    25556.23
2017-06    34172.86
Name: order_products_value, dtype: float64

In [33]:
vendas_por_mes.index.item

<bound method IndexOpsMixin.item of Index(['2017-02', '2017-03', '2017-04', '2017-05', '2017-06', '2017-07',
       '2017-08', '2017-09', '2017-10', '2017-11', '2017-12', '2018-01',
       '2018-02', '2018-03', '2018-04'],
      dtype='object', name='order_purchase_month')>

In [34]:
vendas_por_mes.values

array([9.990000e+00, 9.028600e+02, 1.765419e+04, 2.555623e+04,
       3.417286e+04, 4.728474e+04, 3.989885e+04, 4.546220e+04,
       4.091040e+04, 5.537392e+04, 4.380657e+04, 4.675556e+04,
       4.256054e+04, 3.343548e+04, 3.754330e+03])

**Pontos importantes a lembrar:**
- init_notebook_mode()
- plotly.offline.iplot()

**Importando o plotly**

In [35]:
import plotly
import plotly.graph_objs as go
import plotly.offline as py

In [36]:
# habilita o modo offline
plotly.offline.init_notebook_mode(connected=True)

**Vendas por mês**

- **por padrão o iplot() plota um gráfico de linha, da sentido de valor acumulado**

In [37]:
import plotly.graph_objs as go

data = [go.Scatter(x=vendas_por_mes.index,
                   y=vendas_por_mes.values)]

py.iplot(data)

**Gráfico de Barras**

- **Customizando graficos de barras: titulos e labels dos eixos**

In [38]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': 'lightblue'})]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title': 'Periodo'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

**Definindo ajustes em linhas e cores**

- **Parâmetro opacity e width**

In [40]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': 'lightblue',
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7
              )
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title':'Periodo'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

**Destacando uma barras**

In [41]:
cores = []

In [42]:
vendas_por_mes.index

Index(['2017-02', '2017-03', '2017-04', '2017-05', '2017-06', '2017-07',
       '2017-08', '2017-09', '2017-10', '2017-11', '2017-12', '2018-01',
       '2018-02', '2018-03', '2018-04'],
      dtype='object', name='order_purchase_month')

In [43]:
vendas_por_mes

order_purchase_month
2017-02        9.99
2017-03      902.86
2017-04    17654.19
2017-05    25556.23
2017-06    34172.86
2017-07    47284.74
2017-08    39898.85
2017-09    45462.20
2017-10    40910.40
2017-11    55373.92
2017-12    43806.57
2018-01    46755.56
2018-02    42560.54
2018-03    33435.48
2018-04     3754.33
Name: order_products_value, dtype: float64

**Valor de média para ser testado**

In [44]:
media = vendas_por_mes.values.mean()

In [45]:
media

31835.914666666664

**Alimentando a lista de cores**

In [46]:
# se o valor de vendas do mês for menor que a média a lista de cor será vermelha, senão azul.
for x in vendas_por_mes.values:
    if x < media:
        cores.append('red')
    else:
        cores.append('lightblue')

**Visualizando a lista de cores**

In [47]:
cores

['red',
 'red',
 'red',
 'red',
 'lightblue',
 'lightblue',
 'lightblue',
 'lightblue',
 'lightblue',
 'lightblue',
 'lightblue',
 'lightblue',
 'lightblue',
 'lightblue',
 'red']

**Gráficos de Vendas no Periodo**

In [48]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': cores,  #lista de cores
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7
              )
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title':'Periodo'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig, filename='Meses que nao superaram a meta de vendas')

**Destaca a barra com o maior valor e minimiza a visao de todas as outras**

In [49]:
maximo_de_vendas = vendas_por_mes.values.max()

In [50]:
maximo_de_vendas

55373.92

**Alimenta a lista de cores**

In [51]:
cores = []
for x,y in zip(vendas_por_mes.values, vendas_por_mes.index):
    if x == maximo_de_vendas:
        mes_maximo_de_vendas = y
        cores.append('blue')
    else:
        cores.append('lightgray')

In [52]:
mes_maximo_de_vendas

'2017-11'

In [53]:
cores

['lightgray',
 'lightgray',
 'lightgray',
 'lightgray',
 'lightgray',
 'lightgray',
 'lightgray',
 'lightgray',
 'lightgray',
 'blue',
 'lightgray',
 'lightgray',
 'lightgray',
 'lightgray',
 'lightgray']

**Plota o gráfico de vendas com um destaque de cor e anotação para o mês que teve mais vendas**

In [54]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': cores,
                         'line': {'color': '#333',
                                 'width': 2}
                        },
               opacity= 0.7
              )
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title': 'Periodo'},
                                 # texto na barra de destaque
                                 annotations = [{'text':'Mês destaque de vendas',
                                                'x':mes_maximo_de_vendas,
                                                'y':maximo_de_vendas}
                                               ]
                                                                                              
                                )

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig, filename='Mes destaque de vendas')

**Visualizando duas informações no mesmo gráfico**

- `Vamos definir alguns valores ficticios para vendas do ano anterior`

In [55]:
vendas_ano_anterior = vendas_por_mes - 10000.00

**Gráfico de barras aninhadas**

In [56]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': cores,
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7,
               name='2017'
              ),
# definindo outro plot de barras com valores dos meses passados
        
        go.Bar(x=vendas_ano_anterior.index,
               y=vendas_ano_anterior.values,
               name='2016',
               marker = {'color': 'lightgreen',
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7
              )
              
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title': 'Periodo'},
                                 annotations = [{'text':'Mês destaque de vendas',
                                                'x':mes_maximo_de_vendas,
                                                'y':maximo_de_vendas}
                                               ]                       
                                
                                )

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig, filename='Vendas no periodo 2017 e 2016')

**Vendas por categorias de produtos**
- **Conta quantos produtos por categoria e coloca dentro da variável vendas_produto_por_categoria**

In [57]:
vendas_produto_por_categoria =  df.groupby(by='product_category_name').id.count()

In [58]:
vendas_produto_por_categoria

product_category_name
agro_industria_e_comercio                           3
alimentos                                           6
alimentos_bebidas                                   9
artes                                               8
artigos_de_festas                                   2
artigos_de_natal                                    5
audio                                               4
automotivo                                        134
bebes                                              83
bebidas                                             6
beleza_saude                                      253
brinquedos                                        137
cama_mesa_banho                                   471
casa_conforto                                      31
casa_construcao                                     2
climatizacao                                        7
consoles_games                                     32
construcao_ferramentas_construcao                  12
constr

**Filtra categorias com quantidade de vendas maiores que 1**

In [59]:
vendas_produto_por_categoria = vendas_produto_por_categoria.loc[vendas_produto_por_categoria.values >1]

**Ordena valores do maior para o menor**

In [60]:
vendas_produto_por_categoria.sort_values(ascending=False,inplace=True)

**Plota gráfico de barras verticais**

In [61]:
import plotly.offline as py
import plotly.graph_objs as go

trace0 = go.Bar(y=vendas_produto_por_categoria.values,
                x=vendas_produto_por_categoria.index,
                marker = {'color': '#00FF2A'},
                orientation='v'
              )

data = [trace0]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas por categoria de Produtos',
                   xaxis=dict(
                         titlefont=dict(
                                   size=40,
                                   color='lightgrey'),
                   tickangle=75),
                   yaxis={'title': 'Quantidade vendida'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

**Alterando Faixa de valores dos eixos somando 10% ao valor máximo**

In [62]:
max(vendas_produto_por_categoria.values) * 1.10

518.1

In [63]:
import plotly.offline as py
import plotly.graph_objs as go

trace0 = go.Bar(y=vendas_produto_por_categoria.values,
                x=vendas_produto_por_categoria.index,
                marker = {'color': '#00FF2A'},
                orientation='v'
              )

data = [trace0]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas por categoria de Produtos',
                   xaxis=dict(
                         titlefont=dict(
                                   size=40,
                                   color='lightgrey'),
                                   tickangle=75),
                   
                   # valor maximo da faixa + 10%
                   yaxis={'title': 'Quantidade vendida',
                          'range':[0,max(vendas_produto_por_categoria.values) * 1.10]
                         })

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)
                   
# plotando o grafico
py.iplot(fig, filename='Vendas por categoria de Produtos')

**Valor de Frete vs Valor de Produto: Existe alguma tendencia?**

In [64]:
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   marker = {'color':'#941229'}
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',
                   yaxis={'title':'Valor do Produto'},
                   xaxis={'title': 'Valor do Frete'})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Usando o parâmetro text na visualização (parâmetro hover)**

In [65]:
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   # customização do texto a ser exibido no hover
                   text = 'Status do pedido: '+ df['order_status'] +
                           '<br>' + 'Classe: '+ df['most_voted_class']
                   ,
                   # exibição do hover
                   hoverinfo='text+x+y',
                   marker = {'color':'#941229'}
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',
                   yaxis={'title':'Valor do Produto'},
                   xaxis={'title': 'Valor do Frete'})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Customizacao dos eixos com formato em reais R$**

In [66]:
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   # customização do texto a ser exibido no hover
                   text = 'Status do pedido: '+ df['order_status'] +
                           '<br>' + 'Classe: '+ df['most_voted_class']
                   ,
                   # exibição do hover
                   hoverinfo='text+x+y',
                   marker = {'color':'#941229'}
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',

                   # Definindo exibicao dos eixos x e y
                   yaxis={'title':'Valor do Produto', 
                          'tickformat':'.', 
                          'tickprefix':'R$ '},
                   xaxis={'title': 'Valor do Frete',
                          'tickformat':'.', 
                          'tickprefix':'R$ '})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Grafico de Bolhas: Valor de Frete vs Valor do Produto por numero de vendedores**

In [67]:
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   # customização do texto a ser exibido no hover
                   text = 'Status do pedido: '+ df['order_status'] +
                           '<br>' + 'Classe: '+ df['most_voted_class']
                   ,
                   # exibição do hover
                   hoverinfo='text+x+y',
                   
                   # parametro size e sizemode especifica o comportamento dos pontos
                   marker = {'color':'#941229',
                             'size': df['order_sellers_qty']*10,
                             'sizemode':'area'
                             }
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',

                   # Definindo exibicao dos eixos x e y
                   yaxis={'title':'Valor do Produto', 
                          'tickformat':'.', 
                          'tickprefix':'R$ '},
                   xaxis={'title': 'Valor do Frete',
                          'tickformat':'.', 
                          'tickprefix':'R$ '})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig, filename='Valor de Frete por Valor de Produto')

**Valor de Frete vs Valor de Produto por status de entrega**

In [68]:
df.iplot(x='order_freight_value',
         y='order_products_value', 
         categories='most_voted_subclass',
         title='Valor de Frete vs Valor de Produto',
         xTitle='Valor de Frete',
         yTitle='Valor Produto')

AttributeError: module 'pandas' has no attribute 'np'

**Quantidade em média de items de um pedido**

In [69]:
data = [go.Histogram(x=df.order_items_qty)]

layout = go.Layout(title='Quantidade média de itens de um pedido')

fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Quantidade média de vendedores de um pedido**

In [70]:
trace1 = go.Histogram(x=df.order_items_qty,
                     name='itens',
                     opacity=0.75)

trace2 = go.Histogram(x=df.order_sellers_qty,
                     name='vendedores',
                     opacity=0.75)

layout = go.Layout(title='Quantidade de itens e Vendedores por pedido',
                   barmode='overlay'
                  )

dados = [trace1, trace2]

fig = go.Figure(data=dados, layout=layout)

py.iplot(fig, filename='Quantidade de itens e vendedores por pedido')

**Plotando um gráfico de pizzaa**
- **Qual a distribuição da classificação dos pedidos pelos clientes?**

In [71]:
df.order_status.value_counts()

order_status
delivered     3467
shipped         48
canceled        25
invoiced        24
processing      20
Name: count, dtype: int64

In [72]:
classes_mais_votadas = df.groupby(by='most_voted_class').id.count()

In [73]:
classes_mais_votadas

most_voted_class
problemas_de_entrega       950
problemas_de_qualidade     480
satisfeito_com_pedido     1983
Name: id, dtype: int64

In [74]:
# mesmo resultado do codigo acima
classes_mais_votadas = df.most_voted_class.value_counts()

In [75]:
# Criando gráfico

trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Parametro direction**

In [76]:
# Criando gráfico

trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Customizando gráficos de pizza**

In [77]:
# Criando gráfico

cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores},
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Adicionando linha de contorno, cores**

In [79]:
# Criando gráfico

cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores, 
                         'line' : {'color':'#000000','width':2}
                        },
               hoverinfo='label+percent+value',
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Destacando porções do gráfico**

In [80]:
# Criando gráfico

cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores, 
                         'line' : {'color':'#000000','width':2}
                        },
               hoverinfo='label+percent+value',
               pull=[0,0,0.1],
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Não se esqueça de habilitar o modo offline**

In [81]:
import plotly.offline as py
import plotly.graph_objs as go

**Definindo cores das partes do gráfico de pizza**

In [82]:
# Criando gráfico

cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores, 
                         'line' : {'color':'#000000','width':2}
                        },
               hoverinfo='label+percent+value',
               pull=[0,0,0.1]
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig, filename='Classificação de Clientes sobre Pedidos')

**Exportando nosso gráfico para conta do Plotly na nuvem**

- Criar conta no portal **plot.ly**
- Obter credenciais da API
- Importa método para plot **online**
- Substitua o método iplot() pelo método **plot()**

**Configurando credenciais**

In [83]:
import plotly
plotly.tools.set_credentials_file(username='rodrigo.ferreira', api_key='0jXkRZA5Aibh29grrmxJ')

AttributeError: module 'plotly.tools' has no attribute 'set_credentials_file'

**Importando método para plot online**

In [84]:
import plotly.plotly as pyo

ImportError: 
The plotly.plotly module is deprecated,
please install the chart-studio package and use the
chart_studio.plotly module instead. 


## Exercício ##

- Usando os conhecimentos adquiridos aqui, crie um dashboard na nuvem do Plot e compartilhe comigo :)
- Envie para o e-mail contato@minerandodados.com.br
- Lembre-se: Seu Dashboard deve ser usado como seu **portfólio profissional**.