# Analisando as vendas da empresa
- Vamos utilizar a base disponível em:
    - https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce?select=olist_customers_dataset.csv
    - Essa é uma base de dados real, porém anonimizada
- Fizemos alguns tratamentos nos dados e disponibilizamos em 3 arquivos:
    - `base_vendas.xlsx`: todos os dados de venda por item da empresa, onde cada linha representa 1 item vendido
    - `base_pagamentos.xlsx`: base com as formas de pagamento usado naquela compra
    - `olist_order_reviews_dataset.csv`: base com o review dos pedidos, exatamente como baixada do Kaggle, onde cada linha representa a avaliação de uma pedido

## Importando e entendendo as bases

In [79]:
# Importando o pandas
import pandas as pd
# Importando a base de vendas
vendas = pd.read_excel('base_vendas.xlsx')
# Visualizando as 3 primeiras linhas
vendas.head(3)
# Verificando as informações da base
vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 111923 entries, 0 to 111922
Data columns (total 22 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   order_id                       111923 non-null  object        
 1   customer_id                    111923 non-null  object        
 2   order_status                   111923 non-null  object        
 3   order_purchase_timestamp       111923 non-null  datetime64[ns]
 4   order_approved_at              111808 non-null  datetime64[ns]
 5   order_delivered_carrier_date   110050 non-null  datetime64[ns]
 6   order_delivered_customer_date  108804 non-null  datetime64[ns]
 7   order_estimated_delivery_date  111923 non-null  datetime64[ns]
 8   order_item_id                  111206 non-null  float64       
 9   product_id                     111206 non-null  object        
 10  seller_id                      111206 non-null  object        
 11  

In [80]:
# Também analisando as informações estatísticas
vendas.describe()

Unnamed: 0,order_item_id,price,freight_value,dia_compra,mes_compra,ano_compra
count,111206.0,111206.0,111206.0,111923.0,111923.0,111923.0
mean,1.19802,120.845955,20.032079,15.512853,6.00067,2017.541167
std,0.706445,183.941756,15.847991,8.667442,3.241051,0.498305
min,1.0,0.85,0.0,1.0,1.0,2017.0
25%,1.0,39.9,13.08,8.0,3.0,2017.0
50%,1.0,74.99,16.28,15.0,6.0,2018.0
75%,1.0,134.99,21.18,23.0,8.0,2018.0
max,21.0,6735.0,409.68,31.0,12.0,2018.0


In [81]:
paga=pd.read_excel('base_pagamentos.xlsx')

In [82]:
paga.head(3)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,payment_sequential,payment_type,payment_installments,payment_value
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02,2017-10-02,2017-10-04,2017-10-10,2017-10-18,1,credit_card,1,18.12
1,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02,2017-10-02,2017-10-04,2017-10-10,2017-10-18,2,voucher,1,18.59
2,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02,2017-10-02,2017-10-04,2017-10-10,2017-10-18,3,voucher,1,2.0


In [83]:
# Importando a base de pagamentos
paga.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102528 entries, 0 to 102527
Data columns (total 12 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   order_id                       102528 non-null  object        
 1   customer_id                    102528 non-null  object        
 2   order_status                   102528 non-null  object        
 3   order_purchase_timestamp       102528 non-null  datetime64[ns]
 4   order_approved_at              102399 non-null  datetime64[ns]
 5   order_delivered_carrier_date   100730 non-null  datetime64[ns]
 6   order_delivered_customer_date  99500 non-null   datetime64[ns]
 7   order_estimated_delivery_date  102528 non-null  datetime64[ns]
 8   payment_sequential             102528 non-null  int64         
 9   payment_type                   102528 non-null  object        
 10  payment_installments           102528 non-null  int64         
 11  

In [84]:
# Visualizando as 3 primeiras linhas dessa base
paga.describe()

Unnamed: 0,payment_sequential,payment_installments,payment_value
count,102528.0,102528.0,102528.0
mean,1.09337,2.854332,154.30969
std,0.71027,2.686302,217.916223
min,1.0,0.0,0.0
25%,1.0,1.0,56.86
50%,1.0,1.0,100.0
75%,1.0,4.0,172.08
max,29.0,24.0,13664.08


## Verificando as principais informações dessas bases

### Sobre os pagamentos

In [10]:
# Visualizando novamente a bas


In [11]:
# Quais as dimensões dessa base?

In [12]:
# Como eu poderia pegar apenas uma coluna dessa base?

In [13]:
# Qual foi o total de transações nessas vendas?

In [14]:
# Como podemos contar a quantidade de vendas por cada tipo de pagamento?

**Obs: nesse caso vamos assumir que se em uma transação teve mais de 1 tipo de pagamento, vamos considerar a contagem de cada um deles, mesmo que sejam do mesmo tipo**

In [15]:
# Como eu poderia calcular o % de transação por tipo de pagamento?

# Salvando o total de transações em uma variável

# E as transações por tipo de pagamentos em outra

# Podemos dividir as transações por cada tipo pelo total e multiplicar por 100

In [16]:
# Como eu poderia acessar a quantidade de transações por cartão de crédito?

In [17]:
# E a quantidade de transações por boleto?

In [18]:
# Quantas vezes maior é o número de transações por cartão de crédito?

In [19]:
# E como seria possível exibir o tipo de pagamento de forma visual?

In [20]:
# E se eu quiser mostrar como um gráfico de barras?

In [21]:
# E podemos salvar isso como imagem para então colocar em um Power Point

# Primeiro vamos importar o matplotlib

# E então salvar essa figura

**Podemos também ajustar os parâmetros da imagem**
- https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.savefig.html

In [22]:
# Podemos ajustar a figura que exportamos e retirar os fundos

In [23]:
# Agora vamos usar o .value_counts() com o número de parcelas

In [24]:
# Vamos novamente visualizar a base

In [25]:
# Vamos, antes de fazer o .value_counts(), filtrar a base apenas para transações em crédito

In [26]:
# Agora vamos pegar apenas a coluna de número de parcelas

In [27]:
# E só então fazer o .value_counts()

In [28]:
# Para visualizar melhor podemos ordenar pelo index usando o .sort_index()

In [29]:
# Podemos também visualizar de forma gráfica

In [30]:
# E exportar essa figura

In [31]:
# Como eu poderia calcular o % de cada quantidade de parcelas?

# Salvando o total de transações parceladas em uma variável

# E o número de parcelas em outra

# Visualizando em %

In [32]:
# E também podemos visualizar esse valor de forma gráfica

**Agora vamos começar a analisar o valor das parcelas**

In [33]:
# Relembrando, verificando a quantidade comprada

In [34]:
# E agora vendo o valor total da compra

In [35]:
# Calculando o valor médio da parcela

In [36]:
# Calculando diretamente a média

In [37]:
# Qual seria a média por tipo de pagamento?

In [38]:
# Qual seria o valor total por tipo de pagamento?

In [39]:
# Visualizando de forma gráfica

In [40]:
# Exportando esse visual

In [41]:
# Será que a média em 10 parcelas é maior que nos outros parcelamentos?

### Sobre as vendas

In [42]:
# Visualizando novamente a base

In [43]:
# Verificando se existem valores nulos

In [44]:
# Verificando a soma do preço pago pelo cliente

In [45]:
# Relembrando a soma do valor total na base de pagamentos

In [46]:
# Essa diferença é dada pelo frete?

In [47]:
# Somando esses dois valores

In [48]:
# Então vamos entender os valores onde o preço é nulo

In [49]:
# Podemos olhar esses ids na tabela de pagamentos de forma manual

In [50]:
# Para analisar de forma mais escalável, podemos utilizar o .isin() para filtrar todos esses ids

# Selecionando todos os order_ids onde o preço é nulo

# Filtrando esses ids na base de pagamento

In [51]:
# Qual o valor total desses ids?

In [52]:
# Já encontramos toda a diferença?

**Exemplos de ordens:**<br>
- ce6d150fb29ada17d2082f4847107665
- 70b742795bc441e94a44a084b6d9ce7a
- 996c7e73600ad3723e8627ab7bef81e4

In [53]:
# Verificando essa ordem na base de vendas

In [54]:
# Agora verificando na base de pagamentos

In [55]:
# Retirando da base de vendas valores com o preço igual a nulo

In [56]:
# Verificando novamente os valores nulos

In [57]:
# Entendendo os status com a coluna order_delivered_customer_date nula

In [58]:
# Verificando todos os status

In [59]:
# Retirando vendas onde o status seja cancelado

In [60]:
# Verificando novamente os valores nulos

**Podemos substituir produtos sem categoria por "Outros"**

In [61]:
# Primeiro filtrando a base apenas para produtos sem categoria

In [62]:
# Agora vamos pegar apenas a coluna de categoria

In [63]:
# E então atribuir o valor outros

In [64]:
# Quantos valores nulos ainda temos?

**Depois de tratar valores vazios, podemos começar a visualizar as informações dessa base**

In [65]:
# Verificando a soma da venda por dia

In [66]:
# Mostrando de forma gráfica

In [67]:
# Também podemos visualizar esses dados em um boxplot

**Vamos tentar isolar o período que temos um valor muito discrepante do resto**

In [68]:
# Importando o datetime para nos ajudar a trabalhar com datas

In [69]:
# E agora fazendo um filtro da base exatamente nesse período

In [70]:
# Eliminando essa data discrepante

In [71]:
# E novamente visualizando a base

In [72]:
# Podemos novamente fazer o boxplot

In [73]:
# E novamente filtrar o período discrepante

In [74]:
# E então também eliminar o dia 25/11/2017

In [75]:
# Visualizando novamente a base

In [76]:
# E o boxplot desses dados

In [None]:
# Filtrando o período discrepante em agosto

In [None]:
# E o período em junho

In [None]:
# Visualizando também o período com baixas vendas

In [None]:
# Agora podemos responder outras perguntas como:
# Existe concentração de venda por estado?

In [None]:
# Agora também podemos ver a venda quantidade em relação ao tempo

**Observe a ordem 1b15974a0141d54e36626dca3fdc731a**

In [None]:
# Contando quantas vezes essa ordem aparece

In [None]:
# Visualizando essa ordem

In [None]:
# Podemos isolar apenas a base de ordens e datas do pedido

In [None]:
# E então eliminar os valores duplicados dessa base

In [None]:
# Agora observe novamente essa ordem

In [None]:
# Dessa forma, podemos traçar esse gráfico de forma correta

**Podemos também filtrar a base de venda valor já tratada para alguma categoria específica**

In [None]:
# Verificando as categorias mais frequentes

In [None]:
# Verificando por valor vendido

In [None]:
# Fazendo a soma de apenas uma categoria

**Também podemos calcular as informações da entrega**

In [None]:
# Visualizando a base

In [None]:
# Calculando a diferença, em dias, entre a entrega estimada e a entrega realizada

In [None]:
# Criando uma variável na base com esse valor

In [None]:
# Visualizando a média dos dias de entrega

In [None]:
# Visualizando o mínimo dos dias de entrega

In [None]:
# Podemos então criar uma nova coluna definindo se a entrega atrasou ou não

In [None]:
# Filtrando apenas as colunas de pedido, entrega e as novas colunas criadas

In [None]:
# Filtrando apenas order_estimated_delivery_date > order_delivered_customer_date

In [None]:
# Verificando os valores na coluna entrega

In [None]:
# Verificando os valores na coluna Flag Atraso

In [None]:
# Verificando os atrasos por dia

In [None]:
# Verificando os atrasos por ano e mês

### A análise da diferença dos valores

In [None]:
# Podemos agregar a base de vendas pelo preço e frete

In [None]:
# E agregar a base de pagamentos pelo valor pago

In [None]:
# Concatenando essas duas bases

In [None]:
# Vamos também criar uma coluna para calcular o valor total da compra

In [None]:
# Retirando o index

In [None]:
# E calculando a diferença entre os valores

In [None]:
# Filtrando para valores onde o valor da compra é vazio

In [None]:
# E aquelas colunas onde existe uma diferença entre o valor da compra e o valor pago

In [None]:
# Visualizando essa tabela