<a href="https://colab.research.google.com/github/RinaldoGama/AnalisedeVendas/blob/main/AnalisedeVendas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analisando as vendas da empresa
- Vamos utilizar a base disponível em:
    - https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce?select=olist_customers_dataset.csv
    - Essa é uma base de dados real, porém anonimizada
- Fizemos alguns tratamentos nos dados e disponibilizamos em 3 arquivos:
    - `base_vendas.xlsx`: todos os dados de venda por item da empresa, onde cada linha representa 1 item vendido
    - `base_pagamentos.xlsx`: base com as formas de pagamento usado naquela compra
    - `olist_order_reviews_dataset.csv`: base com o review dos pedidos, exatamente como baixada do Kaggle, onde cada linha representa a avaliação de uma pedido

## Importando e entendendo as bases

In [None]:


import pandas as pd


In [None]:
# Importando a base de vendas
vendas = pd.read_excel("https://raw.githubusercontent.com/RinaldoGama/AnalisedeVendas/blob/main/base_vendas.xlsx", engine='xlrd')

HTTPError: ignored

In [None]:
# Visualizando as 3 primeiras linhas
vendas.head(3)

In [None]:
# Verificando as informações da base
vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


In [None]:
# Também analisando as informações estatísticas
vendas.describe()

Unnamed: 0,order_item_id,price,freight_value
count,112650.0,112650.0,112650.0
mean,1.197834,120.653739,19.99032
std,0.705124,183.633928,15.806405
min,1.0,0.85,0.0
25%,1.0,39.9,13.08
50%,1.0,74.99,16.26
75%,1.0,134.9,21.15
max,21.0,6735.0,409.68


In [None]:
# Importando a base de pagamentos
pagamentos = pd.read_csv('https://raw.githubusercontent.com/RinaldoGama/AnalisedeVendas/main/olist_order_payments_dataset.csv')

In [None]:
# Visualizando as 3 primeiras linhas dessa base
pagamentos.head(3)

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71


In [None]:
# E também as informações
pagamentos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   order_id              103886 non-null  object 
 1   payment_sequential    103886 non-null  int64  
 2   payment_type          103886 non-null  object 
 3   payment_installments  103886 non-null  int64  
 4   payment_value         103886 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ MB


In [None]:
# Também analisando as informações estatísticas
pagamentos.describe()

Unnamed: 0,payment_sequential,payment_installments,payment_value
count,103886.0,103886.0,103886.0
mean,1.092679,2.853349,154.10038
std,0.706584,2.687051,217.494064
min,1.0,0.0,0.0
25%,1.0,1.0,56.79
50%,1.0,1.0,100.0
75%,1.0,4.0,171.8375
max,29.0,24.0,13664.08


## Verificando as principais informações dessas bases

### Sobre os pagamentos

In [None]:
# Visualizando novamente a base
pagamentos.head(2)

NameError: ignored

In [None]:
# Quais as dimensões dessa base?
pagamentos.shape

NameError: ignored

In [None]:
# Como eu poderia pegar apenas uma coluna dessa base?
pagamentos.payment_type

In [None]:
# Qual foi o total de transações nessas vendas?
pagamentos.payment_type.count()

In [None]:
# Como podemos contar a quantidade de vendas por cada tipo de pagamento?
pagamentos.payment_type.value_counts()

**Obs: nesse caso vamos assumir que se em uma transação teve mais de 1 tipo de pagamento, vamos considerar a contagem de cada um deles, mesmo que sejam do mesmo tipo**

In [None]:
# Como eu poderia calcular o % de transação por tipo de pagamento?

# Salvando o total de transações em uma variável
transacoes_total = pagamentos.payment_type.count()

# E as transações por tipo de pagamentos em outra
transacoes_tipo = pagamentos.payment_type.value_counts()

# Podemos dividir as transações por cada tipo pelo total e multiplicar por 100
round((transacoes_tipo/transacoes_total)*100,2)

NameError: ignored

In [None]:
# Como eu poderia acessar a quantidade de transações por cartão de crédito?
transacoes_tipo.credit_card

In [None]:
# E a quantidade de transações por boleto?
transacoes_tipo.boleto

In [None]:
# Quantas vezes maior é o número de transações por cartão de crédito?
transacoes_tipo.credit_card/transacoes_tipo.boleto

In [None]:
# E como seria possível exibir o tipo de pagamento de forma visual?
transacoes_tipo.plot();

In [None]:
# E se eu quiser mostrar como um gráfico de barras?
transacoes_tipo.plot.bar();

In [None]:
# E podemos salvar isso como imagem para então colocar em um Power Point

# Primeiro vamos importar o matplotlib
import matplotlib.pyplot as plt

# E então salvar essa figura
transacoes_tipo.plot.bar();
plt.savefig('transacoes_tipo')

**Podemos também ajustar os parâmetros da imagem**
- https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.savefig.html

In [None]:
# Podemos ajustar a figura que exportamos e retirar os fundos
transacoes_tipo.plot.bar();
plt.savefig('transacoes_tipo',bbox_inches='tight',transparent=True)

In [None]:
# Agora vamos usar o .value_counts() com o número de parcelas
pagamentos.payment_installments.value_counts()

In [None]:
# Vamos novamente visualizar a base
pagamentos.head(5)

In [None]:
# Vamos, antes de fazer o .value_counts(), filtrar a base apenas para transações em crédito
pagamentos.loc[pagamentos.payment_type == 'credit_card']

In [None]:
# Agora vamos pegar apenas a coluna de número de parcelas
pagamentos.loc[pagamentos.payment_type == 'credit_card','payment_installments']

In [None]:
# E só então fazer o .value_counts()
pagamentos.loc[pagamentos.payment_type == 'credit_card','payment_installments'].value_counts()

In [None]:
# Para visualizar melhor podemos ordenar pelo index usando o .sort_index()
pagamento_parcelado = pagamentos.loc[pagamentos.payment_type == 
                                     'credit_card','payment_installments'].value_counts().sort_index()

In [None]:
# Podemos também visualizar de forma gráfica
pagamento_parcelado.plot.bar(figsize=(10,5));

In [None]:
# E exportar essa figura
pagamento_parcelado.plot.bar(figsize=(10,5));
plt.savefig('transacoes_parcelas',bbox_inches='tight',transparent=True)

In [None]:
# Como eu poderia calcular o % de cada quantidade de parcelas?

# Salvando o total de transações parceladas em uma variável
total_parcelado = pagamento_parcelado.sum()

# E o número de parcelas em outra
pagamento_parcelado

# Visualizando em %
round((pagamento_parcelado/total_parcelado)*100,2)

In [None]:
# E também podemos visualizar esse valor de forma gráfica
round((pagamento_parcelado/total_parcelado)*100,2).plot.bar();

**Agora vamos começar a analisar o valor das parcelas**

In [None]:
# Relembrando, verificando a quantidade comprada
pagamentos.payment_value.count()

In [None]:
# E agora vendo o valor total da compra
pagamentos.payment_value.sum()

In [None]:
# Calculando o valor médio da parcela
pagamentos.payment_value.sum()/pagamentos.payment_value.count()

In [None]:
# Calculando diretamente a média
pagamentos.payment_value.mean()

In [None]:
pagamentos.head()

In [None]:
# Qual seria a média por tipo de pagamento?
pagamentos.groupby('payment_type')['payment_value'].mean()

In [None]:
# Qual seria o valor total por tipo de pagamento?
pagamentos.groupby('payment_type')['payment_value'].sum().sort_values(ascending=False)

In [None]:
# Visualizando de forma gráfica
pagamentos.groupby('payment_type')['payment_value'].sum().sort_values(ascending=False).plot.bar();

In [None]:
# Exportando esse visual
pagamentos.groupby('payment_type')['payment_value'].sum().sort_values(ascending=False).plot.bar();
plt.savefig('transacoes_valor',bbox_inches='tight',transparent=True)

In [None]:
pagamentos.head(2)

In [None]:
# Será que a média em 10 parcelas é maior que nos outros parcelamentos?
pagamentos[pagamentos.payment_type == 'credit_card'].groupby('payment_installments')['payment_value'].mean()

### Sobre as vendas

In [None]:
# Visualizando novamente a base
vendas.head(3)

In [None]:
# Verificando se existem valores nulos
vendas.isnull().sum()

In [None]:
# Verificando a soma do preço pago pelo cliente
preco = vendas.price.sum()

In [None]:
# Relembrando a soma do valor total na base de pagamentos
pagamentos.payment_value.sum()

In [None]:
# Essa diferença é dada pelo frete?
frete = vendas.freight_value.sum()

In [None]:
# Somando esses dois valores
preco+frete

In [None]:
# Então vamos entender os valores onde o preço é nulo
vendas.loc[vendas.price.isnull(),'order_id']

In [None]:
# Podemos olhar esses ids na tabela de pagamentos de forma manual
pagamentos[pagamentos.order_id == '8e24261a7e58791d10cb1bf9da94df5c']

In [None]:
# Para analisar de forma mais escalável, podemos utilizar o .isin() para filtrar todos esses ids

# Selecionando todos os order_ids onde o preço é nulo
ids = vendas.loc[vendas.price.isnull(),'order_id']

# Filtrando esses ids na base de pagamento
pagamentos[pagamentos.order_id.isin(ids)]

In [None]:
# Qual o valor total desses ids?
diferenca_nulos = pagamentos.loc[pagamentos.order_id.isin(ids),'payment_value'].sum()

In [None]:
# Já encontramos toda a diferença?
preco+frete+diferenca_nulos

**Exemplos de ordens:**<br>
- ce6d150fb29ada17d2082f4847107665
- 70b742795bc441e94a44a084b6d9ce7a
- 996c7e73600ad3723e8627ab7bef81e4

In [None]:
# Verificando essa ordem na base de vendas
vendas[vendas.order_id == 'ce6d150fb29ada17d2082f4847107665']

In [None]:
1299.0+104.66

In [None]:
# Agora verificando na base de pagamentos
pagamentos[pagamentos.order_id == 'ce6d150fb29ada17d2082f4847107665']

In [None]:
# Retirando da base de vendas valores com o preço igual a nulo
vendas = vendas[vendas.price.notnull()]

In [None]:
# Verificando novamente os valores nulos
vendas.isnull().sum()

In [None]:
# Entendendo os status com a coluna order_delivered_customer_date nula
vendas[vendas.order_delivered_customer_date.isnull()]

In [None]:
# Verificando todos os status
vendas.loc[vendas.order_delivered_customer_date.isnull(),'order_status'].value_counts()

In [None]:
# Retirando vendas onde o status seja cancelado
vendas = vendas[vendas.order_status != 'canceled']

In [None]:
# Verificando novamente os valores nulos
vendas.isnull().sum()

**Podemos substituir produtos sem categoria por "Outros"**

In [None]:
# Primeiro filtrando a base apenas para produtos sem categoria
vendas[vendas.product_category_name.isnull()]

In [None]:
# Agora vamos pegar apenas a coluna de categoria
vendas.loc[vendas.product_category_name.isnull(),'product_category_name']

In [None]:
# E então atribuir o valor outros
vendas.loc[vendas.product_category_name.isnull(),'product_category_name'] = 'outros'

In [None]:
# Quantos valores nulos ainda temos?
vendas.isnull().sum()

**Depois de tratar valores vazios, podemos começar a visualizar as informações dessa base**

In [None]:
vendas.head(3)

In [None]:
# Verificando a soma da venda por dia
vendas.groupby('order_purchase_timestamp')['price'].sum()

In [None]:
# Mostrando de forma gráfica
vendas.groupby('order_purchase_timestamp')['price'].sum().plot();

In [None]:
# Também podemos visualizar esses dados em um boxplot
vendas.groupby('order_purchase_timestamp')['price'].sum().plot.box();

**Vamos tentar isolar o período que temos um valor muito discrepante do resto**

In [None]:
# Importando o datetime para nos ajudar a trabalhar com datas
import datetime as dt

In [None]:
# E agora fazendo um filtro da base exatamente nesse período
vendas[(vendas.order_purchase_timestamp >= dt.datetime(2017,11,18)) &
       (vendas.order_purchase_timestamp <= dt.datetime(2017,11,27))
      ].groupby('order_purchase_timestamp')['price'].sum().plot();

In [None]:
# Eliminando essa data discrepante
vendas = vendas[vendas.order_purchase_timestamp != dt.datetime(2017,11,24)]

In [None]:
# E novamente visualizando a base
vendas.groupby('order_purchase_timestamp')['price'].sum().plot();

In [None]:
# Podemos novamente fazer o boxplot
vendas.groupby('order_purchase_timestamp')['price'].sum().plot.box();

In [None]:
# E novamente filtrar o período discrepante
vendas[(vendas.order_purchase_timestamp >= dt.datetime(2017,11,18)) &
       (vendas.order_purchase_timestamp <= dt.datetime(2017,11,27))
      ].groupby('order_purchase_timestamp')['price'].sum().plot();

In [None]:
# E então também eliminar o dia 25/11/2017
vendas = vendas[vendas.order_purchase_timestamp != dt.datetime(2017,11,25)]

In [None]:
# Visualizando novamente a base
vendas.groupby('order_purchase_timestamp')['price'].sum().plot();

In [None]:
# E o boxplot desses dados
vendas.groupby('order_purchase_timestamp')['price'].sum().plot.box();

In [None]:
# Filtrando o período discrepante em agosto
vendas[(vendas.order_purchase_timestamp >= dt.datetime(2018,8,1)) &
       (vendas.order_purchase_timestamp <= dt.datetime(2018,8,30))
      ].groupby('order_purchase_timestamp')['price'].sum().plot();

In [None]:
# E o período em junho
vendas[(vendas.order_purchase_timestamp >= dt.datetime(2018,6,1)) &
       (vendas.order_purchase_timestamp <= dt.datetime(2018,6,30))
      ].groupby('order_purchase_timestamp')['price'].sum().plot();

In [None]:
# Visualizando também o período com baixas vendas
vendas[(vendas.order_purchase_timestamp >= dt.datetime(2017,12,1)) &
       (vendas.order_purchase_timestamp <= dt.datetime(2018,1,15))
      ].groupby('order_purchase_timestamp')['price'].sum().plot();

In [None]:
# Agora podemos responder outras perguntas como:
# Existe concentração de venda por estado?
vendas.groupby('customer_state')['price'].sum().sort_values(ascending=False).plot.bar();

In [None]:
# Agora também podemos ver a venda quantidade em relação ao tempo
vendas.groupby('order_purchase_timestamp')['price'].count().plot();

**Observe a ordem 1b15974a0141d54e36626dca3fdc731a**

In [None]:
# Contando quantas vezes essa ordem aparece
vendas[vendas.order_id == '1b15974a0141d54e36626dca3fdc731a']

In [None]:
# Visualizando essa ordem
vendas[vendas.order_id == '1b15974a0141d54e36626dca3fdc731a']

In [None]:
# Podemos isolar apenas a base de ordens e datas do pedido
vendas.loc[vendas.order_id == '1b15974a0141d54e36626dca3fdc731a',['order_id','order_purchase_timestamp']]

In [None]:
# E então eliminar os valores duplicados dessa base
vendas.loc[vendas.order_id == '1b15974a0141d54e36626dca3fdc731a',['order_id','order_purchase_timestamp']].drop_duplicates()

In [None]:
vendas_qtd = vendas[['order_id','order_purchase_timestamp']]
vendas_qtd = vendas_qtd.drop_duplicates()

In [None]:
# Agora observe novamente essa ordem
vendas_qtd[vendas_qtd.order_id == '1b15974a0141d54e36626dca3fdc731a']

In [None]:
# Dessa forma, podemos traçar esse gráfico de forma correta
vendas.groupby('order_purchase_timestamp')['order_id'].count().plot();

**Podemos também filtrar a base de venda valor já tratada para alguma categoria específica**

In [None]:
# Verificando as categorias mais frequentes
vendas.groupby('product_category_name')['price'].count().sort_values(ascending=False)

In [None]:
# Verificando por valor vendido
vendas.groupby('product_category_name')['price'].sum().sort_values(ascending=False)

In [None]:
# Fazendo a soma de apenas uma categoria
categoria = 'cama_mesa_banho'
vendas[vendas.product_category_name == categoria].groupby('order_purchase_timestamp')['price'].sum().plot();

**Também podemos calcular as informações da entrega**

In [None]:
# Visualizando a base
vendas.head()

In [None]:
# Calculando a diferença, em dias, entre a entrega estimada e a entrega realizada
(vendas.order_estimated_delivery_date - vendas.order_delivered_customer_date).dt.days

In [None]:
# Criando uma variável na base com esse valor
vendas['DifDias'] = (vendas.order_estimated_delivery_date - vendas.order_delivered_customer_date).dt.days

In [None]:
vendas.head(3)

In [None]:
# Visualizando a média dos dias de entrega
vendas.groupby('order_purchase_timestamp')['DifDias'].mean().plot();

In [None]:
# Visualizando o mínimo dos dias de entrega
vendas.groupby('order_purchase_timestamp')['DifDias'].min().plot();

In [None]:
# Podemos então criar uma nova coluna definindo se a entrega atrasou ou não
vendas['FlagAtraso'] = vendas.DifDias.apply(lambda x: 1 if(x<0) else 0)

In [None]:
# Filtrando apenas as colunas de pedido, entrega e as novas colunas criadas
verifica_datas = vendas[['order_estimated_delivery_date','order_delivered_customer_date','DifDias','FlagAtraso']]

In [None]:
# Filtrando apenas order_estimated_delivery_date > order_delivered_customer_date
verifica_datas[verifica_datas.order_estimated_delivery_date 
               > verifica_datas.order_delivered_customer_date]

In [None]:
# Verificando os valores na coluna entrega
verifica_datas.loc[verifica_datas.order_estimated_delivery_date 
               < verifica_datas.order_delivered_customer_date,'DifDias'].value_counts().sort_index()

In [None]:
# Verificando os valores na coluna Flag Atraso
verifica_datas.loc[verifica_datas.order_estimated_delivery_date 
               == verifica_datas.order_delivered_customer_date,'FlagAtraso'].value_counts().sort_index()

In [None]:
# Verificando os atrasos por dia
vendas[(vendas.FlagAtraso == 1) & (vendas.order_delivered_customer_date.notnull())].groupby('order_purchase_timestamp')['FlagAtraso'].count().plot();

In [None]:
# Verificando os atrasos por ano e mês
vendas[(vendas.FlagAtraso == 1) & (vendas.order_delivered_customer_date.notnull())].groupby('ano_mes')['FlagAtraso'].count().plot.bar();

### A análise da diferença dos valores

In [None]:
vendas = pd.read_excel('base_vendas.xlsx')

In [None]:
pagamentos = pd.read_excel('base_pagamentos.xlsx')

In [None]:
# Podemos agregar a base de vendas pelo preço e frete
agg_vendas = vendas.groupby('order_id')[['price','freight_value']].sum()

In [None]:
# E agregar a base de pagamentos pelo valor pago
agg_pagamentos = pagamentos.groupby('order_id')['payment_value'].sum()

In [None]:
# Concatenando essas duas bases
agg = pd.concat([agg_vendas,agg_pagamentos],axis=1)
agg.head()

In [None]:
agg.index.name = None

In [None]:
agg

In [None]:
# Vamos também criar uma coluna para calcular o valor total da compra
agg['total'] = agg.price+agg.freight_value

In [None]:
# E calculando a diferença entre os valores
agg['Dif'] = agg.total - agg.payment_value

In [None]:
# Filtrando para valores onde o valor da compra é vazio
agg.loc[agg.price == 0,'payment_value'].sum()

In [None]:
# E aquelas colunas onde existe uma diferença entre o valor da compra e o valor pago
agg.loc[agg.price != 0,'Dif'].sum()

In [None]:
# Visualizando essa tabela
agg.loc[(abs(agg.Dif) > 10) & (agg.price != 0)]