**Minerando Dados** - `Data Science, Machine Learning e Inteligência Artificial de forma fácil.`

www.minerandodados.com.br

## Visualização de dados com Plot.ly##

`Cufflinks conecta o pandas ao plot.ly`

`Instalação do Plot.ly e Cufflinks`

In [None]:
!pip install cufflinks
!pip install plotly

`Importando o cufflinks e o plot.ly`

In [None]:
import cufflinks as cf
from plotly.offline import iplot
import pandas as pd
import numpy as np

**Cria um dataframe com dados aleatorios divididos em 4 colunas**

In [None]:
df = pd.DataFrame(np.random.randn(100,4), columns=['A','B','C','D'])

In [None]:
df.head()

**É preciso habilitar o modo offline primeiramente**

In [None]:
cf.go_offline()

`Clique no link "Export to plot.ly"`

In [None]:
df.iplot()

**Gráficos do tipo scatter**

In [None]:
df.iplot(kind='scatter', x='A', y='B', title='Disperssão entre a coluna A e B', color='red', mode='markers')

**Gráficos de Barras**

In [None]:
df.head()

In [None]:
df.sum()

In [None]:
df.sum().iplot(kind='bar', title='Gráfico de barras')

**Histogramas**

`Compare com os histograsm padrões do matplotlib e seaborn`

`Por padrão tenta definir a quantidade de bins ideais`

In [None]:
df['A'].iplot(kind='hist', bins=50, title='Histograma da coluna A')

`Histograma aninhado de todas as colunas (mesmo tipo de dados)`

In [None]:
df.iplot(kind='hist',title='Histograma aninhado')

**Bubble Plots**

`Permite uma visualização de 3 variáveis.`

In [None]:
df.iplot(kind='bubble', x='A',y='B', size='C', colors='seagreen')

**Scatter Matrix**

- `Similar ao pairplot do Seaborn`
-  `Se o dataframe for muito grande pode travar o seu notebook`

In [None]:
df.scatter_matrix()

## Visualização de dados de vendas ##

**Importe o pandas**

In [None]:
import pandas as pd

**Dataset de Vendas da Olist**

- O dataset já está disponível no diretório datasets. Não é necessário download.
- Se quiser conhecer mais sobre esse dataset, segue o link https://www.kaggle.com/olistbr/brazilian-ecommerce/version/2

In [None]:
df = pd.read_csv('datasets/olist_classified_public_dataset.csv')

**Visualizando a base de dados**

In [None]:
df.head()

In [None]:
df.info()

## Perguntas aos dados

- Quais a distribuicao dos status dos pedidos?
- Quais os meses do ano houve mais vendas?
- Qual a quantidade de items de um pedido? (medio)
- Qual a quantidade de vendedores em um pedido ? (medio)
- O valor do frete tende aumentar com o preco do produto?
- Qual o tempo medio de entrega?
- Como foi as vendas por mês?
- Quais meses superaram a meta de vendas?
- Como foi a venda por mês se comparado ao ano de 2016?

In [None]:
df.order_status.value_counts().iplot(kind='bar', title='Status dos pedidos')

**Transformando colunas para o formato datetime**

In [None]:
df.order_purchase_timestamp = pd.to_datetime(df.order_purchase_timestamp)

**Visualizando as colunas agora em Datetime**

In [None]:
df.info()

- Use o metodo to_periodo() com o ´M´ para obter informações no formato de meses
- Criando a coluna order_purchase_month

In [None]:
df['order_purchase_month'] = df.order_purchase_timestamp.dt.to_period('M').astype(str)

In [None]:
df.order_purchase_month.head()

**Visualizando a nova coluna no dataframe**

In [None]:
df.head()

**Cria a variável `vendas_por_mes` que é a soma do valor dos produtos agrupados por mês**

In [None]:
vendas_por_mes = df.groupby(by='order_purchase_month').order_products_value.sum()

In [None]:
type(vendas_por_mes)

In [None]:
vendas_por_mes.head()

**visualizando os valores de vendas por mês**

In [None]:
vendas_por_mes.head()

**Pontos importantes a lembrar:**
- init_notebook_mode()
- plotly.offline.iplot()

**Importando o plotly**

In [None]:
import plotly
import plotly.graph_objs as go

`plotly.graph_objs é o responsavel por manipular todos os métodos dos gráficos.`

In [None]:
# habilita o modo offline
plotly.offline.init_notebook_mode(connected=True)

**Vendas por mês**

- **por padrão o iplot() plota um gráfico de linha, da sentido de valor acumulado**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Scatter(x=vendas_por_mes.index,
                   y=vendas_por_mes.values)]

py.iplot(data)

**Gráfico de Barras**

- **Customizando graficos de barras: titulos e labels dos eixos**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': 'lightblue'})]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title': 'Periodo'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

**Definindo ajustes em linhas e cores**

- **Parâmetro opacity e width**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': 'lightblue',
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7
              )
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title':'Periodo'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

**Destacando uma barras**

In [None]:
cores = []

**Valor de média para ser testado**

In [None]:
media = vendas_por_mes.values.mean()

In [None]:
media

**Alimentando a lista de cores**

In [None]:
# se o valor de vendas do mês for menor que a média a lista de cor será vermelha, senão azul.
for x in vendas_por_mes.values:
    if x < media:
        cores.append('red')
    else:
        cores.append('lightblue')

**Visualizando a lista de cores**

In [None]:
cores

**Gráficos de Vendas no Periodo**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': cores,  #lista de cores
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7
              )
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title':'Periodo'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
pyo.plot(fig, filename='Meses que nao superaram a meta de vendas')

**Destaca a barra com o maior valor e minimiza a visao de todas as outras**

In [None]:
maximo_de_vendas = vendas_por_mes.values.max()

In [None]:
maximo_de_vendas

**Alimenta a lista de cores**

In [None]:
cores = []
for x,y in zip(vendas_por_mes.values, vendas_por_mes.index):
    if x == maximo_de_vendas:
        mes_maximo_de_vendas = y
        cores.append('blue')
    else:
        cores.append('lightgray')

In [None]:
mes_maximo_de_vendas

In [None]:
cores

**Plota o gráfico de vendas com um destaque de cor e anotação para o mês que teve mais vendas**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': cores,
                         'line': {'color': '#333',
                                 'width': 2}
                        },
               opacity= 0.7
              )
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title': 'Periodo'},
                                 # texto na barra de destaque
                                 annotations = [{'text':'Mês destaque de vendas',
                                                'x':mes_maximo_de_vendas,
                                                'y':maximo_de_vendas}
                                               ]
                                                                                              
                                )

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
pyo.plot(fig, filename='Mes destaque de vendas')

**Visualizando duas informações no mesmo gráfico**

- `Vamos definir alguns valores ficticios para vendas do ano anterior`

In [None]:
vendas_ano_anterior = vendas_por_mes - 10000.00

**Gráfico de barras aninhadas**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

data = [go.Bar(x=vendas_por_mes.index,
               y=vendas_por_mes.values,
               marker = {'color': cores,
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7,
               name='2017'
              ),
# definindo outro plot de barras com valores dos meses passados
        
        go.Bar(x=vendas_ano_anterior.index,
               y=vendas_ano_anterior.values,
               name='2016',
               marker = {'color': 'lightgreen',
                         'line': {'color': '#333',
                                  'width': 2}
                        },
               opacity= 0.7
              )
              
       ]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas no Periodo',
                                 yaxis={'title':'Valores em Vendas'},
                                 xaxis={'title': 'Periodo'},
                                 annotations = [{'text':'Mês destaque de vendas',
                                                'x':mes_maximo_de_vendas,
                                                'y':maximo_de_vendas}
                                               ]                       
                                
                                )

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
pyo.plot(fig, filename='Vendas no periodo 2017 e 2016')

**Vendas por categorias de produtos**
- **Conta quantos produtos por categoria e coloca dentro da variável vendas_produto_por_categoria**

In [None]:
vendas_produto_por_categoria =  df.groupby(by='product_category_name').id.count()

In [None]:
vendas_produto_por_categoria

**Filtra categorias com quantidade de vendas maiores que 1**

In [None]:
vendas_produto_por_categoria = vendas_produto_por_categoria.loc[vendas_produto_por_categoria.values >1]

**Ordena valores do maior para o menor**

In [None]:
vendas_produto_por_categoria.sort_values(ascending=False,inplace=True)

**Plota gráfico de barras verticais**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

trace0 = go.Bar(y=vendas_produto_por_categoria.values,
                x=vendas_produto_por_categoria.index,
                marker = {'color': '#00FF2A'},
                orientation='v'
              )

data = [trace0]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas por categoria de Produtos',
                   xaxis=dict(titlefont=dict(size=20,color='lightgrey'),tickangle=55),
                   yaxis={'title': 'Quantidade vendida'})

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)

# plotando o grafico
py.iplot(fig)

**Alterando Faixa de valores dos eixos somando 10% ao valor máximo**

In [None]:
max(vendas_produto_por_categoria.values)

In [None]:
max(vendas_produto_por_categoria.values) * 1.10

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

trace0 = go.Bar(y=vendas_produto_por_categoria.values,
                x=vendas_produto_por_categoria.index,
                marker = {'color': '#00FF2A'},
                orientation='v'
              )

data = [trace0]

# Criando Layout
configuracoes_layout = go.Layout(title='Vendas por categoria de Produtos',
                   xaxis=dict(
                         titlefont=dict(
                                   size=15,
                                   color='lightgrey'),
                                   tickangle=45),
                   
                   # valor maximo da faixa + 10%
                   yaxis={'title': 'Quantidade vendida',
                          'range':[0,max(vendas_produto_por_categoria.values) * 1.10]
                         })

# Objeto figura

fig = go.Figure(data=data, layout=configuracoes_layout)
                   
# plotando o grafico
pyo.plot(fig, filename='Vendas por categoria de Produtos')

**Valor de Frete vs Valor de Produto: Existe alguma tendencia?**

In [None]:
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   marker = {'color':'#941229'}
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',
                   yaxis={'title':'Valor do Produto'},
                   xaxis={'title': 'Valor do Frete'})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Usando o parâmetro text na visualização (parâmetro hover)**

In [None]:
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   # customização do texto a ser exibido no hover
                   text = 'Status do pedido: '+ df['order_status'] +
                           '<br>' + 'Classe: '+ df['most_voted_class']
                   ,
                   # exibição do hover
                   hoverinfo='text+x+y',
                   marker = {'color':'#941229'}
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',
                   yaxis={'title':'Valor do Produto'},
                   xaxis={'title': 'Valor do Frete'})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Customizacao dos eixos com formato em reais R$**

In [None]:
import plotly.plotly as pyo
# Criando gráfico
trace = go.Scatter(x = df['order_freight_value'],
                   y = df['order_products_value'],
                   mode = 'markers',
                   # customização do texto a ser exibido no hover
                   text = 'Status do pedido: '+ df['order_status'] +
                           '<br>' + 'Classe: '+ df['most_voted_class']
                   ,
                   # exibição do hover
                   hoverinfo='text+x+y',
                   marker = {'color':'#941229'}
                  )
# Armazenando gráfico em uma lista
data = [trace]

# Criando Layout
layout = go.Layout(title='Valor de Frete x Valor de Produto',

                   # Definindo exibicao dos eixos x e y
                   yaxis={'title':'Valor do Produto', 
                          'tickformat':'.', 
                          'tickprefix':'R$ '},
                   xaxis={'title': 'Valor do Frete',
                          'tickformat':'.', 
                          'tickprefix':'R$ '})

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

pyo.plot(fig)

**Plotando um gráfico de pizzaa**
- **Qual a distribuição da classificação dos pedidos pelos clientes?**

In [None]:
classes_mais_votadas = df.most_voted_class.value_counts()

In [None]:
# Criando gráfico

trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Parametro direction**

In [None]:
# Criando gráfico

trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Customizando gráficos de pizza**

In [None]:
# Criando gráfico

# ordem do maior valor para o menor
cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores},
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Adicionando linha de contorno, cores**

In [None]:
# Criando gráfico

# ordem do maior valor para o menor
cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores, 
                         'line' : {'color':'#000000','width':2}
                        },
               hoverinfo='label+percent+value',
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

py.iplot(fig)

**Destacando porções do gráfico**

In [None]:
# Criando gráfico
import plotly.plotly as pyo

# ordem do maior valor para o menor
cores = ['#96D38C','#FEBFB3','#E1396C']


trace = go.Pie(labels = classes_mais_votadas.index,
               values = classes_mais_votadas.values,
               marker = {'colors': cores, 
                         'line' : {'color':'#000000','width':2}
                        },
               hoverinfo='label+percent+value',
               pull=[0,0,0.1],
               direction='clockwise'
              )

# Armazenando gráfico em uma lista

data = [trace]

# Criando Layout

layout = go.Layout(title='Classificação de Clientes sobre Pedidos')

# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)

pyo.plot(fig)

## Trabalhando com dados financeiros.

- `Séries temporais`
- `Dados de Ações ou ativos do mercado financeiro.`

In [None]:
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv")

In [None]:
df.head()

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv")

data = [go.Scatter(
          x=df.Date,
          y=df['AAPL.Close'])]

py.iplot(data)

**Customizando Faixas de Eixos (Range)**

**Rangeslider e Rangeselector**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv")

trace_high = go.Scatter(
    x=df.Date,
    y=df['AAPL.High'],
    name = "AAPL High",
    line = dict(color = '#17BECF'),
    opacity = 0.8)

trace_low = go.Scatter(
    x=df.Date,
    y=df['AAPL.Low'],
    name = "AAPL Low",
    line = dict(color = '#7F7F7F'),
    opacity = 0.8)

data = [trace_high,trace_low]

layout = dict(
    title="Série com Rangeslider e Botoes",
    xaxis=dict(
        rangeselector=dict(
            buttons=list([
                dict(count=1,
                     label='1m',
                     step='month',
                     stepmode='backward'),
                dict(count=6,
                     label='6m',
                     step='month',
                     stepmode='backward'),
                dict(step='all')
            ])
        ),
        rangeslider=dict(
            visible = True
        ),
        type='date'
    )
)

fig = dict(data=data, layout=layout)
py.iplot(fig)

**Inserindo anotações**

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

import pandas as pd
from datetime import datetime

df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv')

trace = go.Candlestick(x=df['Date'],
                open=df['AAPL.Open'],
                high=df['AAPL.High'],
                low=df['AAPL.Low'],
                close=df['AAPL.Close'])
data = [trace]

layout = {
    'title': 'Apple Preços no Periodo',
    'yaxis': {'title': 'AAPL Stock'},
    'shapes': [{
        'x0': '2016-12-09', 'x1': '2016-12-09',
        'y0': 0, 'y1': 1, 'xref': 'x', 'yref': 'paper',
        'line': {'color': 'rgb(30,30,30)', 'width': 2}
    }],
    'annotations': [{
        'x': '2016-12-09', 'y': 0.05, 'xref': 'x', 'yref': 'paper',
        'showarrow': False, 'xanchor': 'left',
        'text': 'Inicio do ciclo de alta'
    }]
}
fig = dict(data=data, layout=layout)
py.iplot(fig)

**Exportando nosso gráfico para conta do Plotly na nuvem**

- Criar conta no portal **plot.ly**
- Obter credenciais da API
- Importa método para plot **online**
- Substitua o método iplot() pelo método **plot()**

**Configurando credenciais**

In [None]:
import plotly
plotly.tools.set_credentials_file(username='abcsd', api_key='xxxxxx')

**Importando método para plot online**

In [None]:
import plotly.plotly as pyo

**Obrigado pela presença**

Compartilhe nosso site com seus amigos ;)

www.minerandodados.com.br