# **PROJETO DE ANÁLISES DE DADOS E-COMMERCE- OLIST**

![](https://blog.caju.com.br/wp-content/uploads/2022/08/case-olist.webp)

![](![image.png](attachment:image.png))

## INTRODUÇÃO

Vamos analisar o conjunto de comércio eletrônico brasileiro de pedidos feitos na loja Olist.

Olist é uma plataforma de comércio eletrônico brasileira que conecta pequenas empresas a canais de vendas online, permitindo que vendam seus produtos em vários marketplaces do Brasil. A empresa também oferece serviços de logística e gerenciamento de pedidos para seus clientes.

O conjunto de dados possui informações de 100 mil pedidos de 2016 a 2018 realizados em vários marketplaces no Brasil. Suas características permitem visualizar um pedido em múltiplas dimensões: desde o status do pedido, preço, desempenho de pagamento e frete até a localização do cliente, atributos do produto e, finalmente, avaliações escritas pelos clientes. Também lançamos um conjunto de dados de geolocalização que relaciona os códigos postais brasileiros às coordenadas (latitude/longitude).

Estes são dados comerciais reais, foram anonimizados e as referências às empresas e parceiros no texto da revisão foram substituídas pelos nomes das grandes casas de Game of Thrones.

<p>A <strong>análise exploratória de dados</strong> é uma das principais técnicas utilizadas em <strong>Data Science</strong>, pois nos permite compreender melhor os dados e encontrar <em>insights</em> valiosos que podem ser usados em decisões de negócios. Neste notebook, vamos explorar a base de dados da Olist e responder algumas perguntas importantes sobre o comportamento dos consumidores no mercado de e-commerce.</p>

<p>Para isso, usaremos a linguagem <strong>Python</strong> e as bibliotecas <strong>Pandas</strong>, <strong>Numpy</strong> e <strong>Matplotlib</strong> para manipulação e visualização de dados. Além disso, utilizaremos a biblioteca <strong>Plotly</strong> para criar gráficos interativos e mais complexos, permitindo uma análise mais detalhada dos dados.</p>




<h2 style="color: #6c5b7b"> Perguntas a serem respondidas</h2>

- Quais valores médio  e máximo dos fretes?
- Como se comportam as notas de avaliações dos consumidores?
- Quais cliente geram maiores receitas e que mais gastam?
- Quais os top 10 Estados com maiores números de pedidos?
- Quais as cidades com maiores receitas?
- Como os pedidos variam com otempo?
- Quais maiores números de pedidos por semana?
- Quais produtos com melhores e piores avaliações?
- Será que o método de pagamentos afetam os status do  pedido?
- Existem relação entre o tempo de entrega e as avaliações?
- Quais pedidos mais rápidos e mais demorados em prazo de entrega?
- Quais as cidaddes dos vendedores com maiores e menores tempo de entrega?
- Quais vendedores com melhores e piores prazo de entrega?

<h2 style="color: #6c5b7b">Importar bibliotecas</h2>

Este trecho de código importa algumas das principais bibliotecas utilizadas em análise de dados com Python, incluindo as bibliotecas para visualização de dados `matplotlib.pyplot`, `plotly.graph_objects` e `plotly.express`. 
                
- `pandas` é uma biblioteca para manipulação e análise de dados, incluindo estruturas de dados e ferramentas para leitura e escrita de arquivos.
- `numpy` é uma biblioteca para computação numérica com Python, que inclui funções para manipulação de arrays e matrizes multidimensionais.
- `matplotlib.pyplot` é uma biblioteca para visualização de dados em Python, que inclui funções para criação de gráficos e visualizações.
- `plotly.graph_objects` é uma biblioteca para criação de gráficos interativos e complexos, que permite a personalização completa dos gráficos.
- `plotly.express` é uma biblioteca de visualização de dados de alto nível baseada no `plotly.graph_objects`, que oferece uma interface fácil de usar para a criação de gráficos estatísticos atraentes e informativos.
- `datetime` é um módulo que fornece classes para trabalhar com datas e horários em Python.
- `warnings` é um módulo que permite emitir avisos durante a execução do código.

O último comando `warnings.filterwarnings("ignore")` é usado para ignorar os avisos que podem aparecer durante a execução do código. Serve somente pra "limpar" nossas saídas de muitos avisos. 

In [1]:
# Importação das bibliotecas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
# Mais elaborados
import plotly.graph_objects as go
# Mais fácil, de pronto tem gráficos bonitos
import plotly.express as px
import datetime
import warnings
warnings.filterwarnings("ignore")

In [2]:
import plotly.io as pio
pio.renderers

Renderers configuration
-----------------------
    Default renderer: 'plotly_mimetype+notebook'
    Available renderers:
        ['plotly_mimetype', 'jupyterlab', 'nteract', 'vscode',
         'notebook', 'notebook_connected', 'kaggle', 'azure', 'colab',
         'cocalc', 'databricks', 'json', 'png', 'jpeg', 'jpg', 'svg',
         'pdf', 'browser', 'firefox', 'chrome', 'chromium', 'iframe',
         'iframe_connected', 'sphinx_gallery', 'sphinx_gallery_png']

In [3]:
 pio.renderers.default = "png" # visualizar e salvar em foto para git
 # pio.renderers.default = "notebook" # visualizar em outra IDE
#pio.renderers.default = "colab" # visualizar em outra IDE

In [4]:
 pip install -U kaleido

Collecting kaleido
  Downloading kaleido-0.2.1-py2.py3-none-win_amd64.whl (65.9 MB)
     --------------------------------------- 65.9/65.9 MB 14.2 MB/s eta 0:00:00
Installing collected packages: kaleido
Successfully installed kaleido-0.2.1
Note: you may need to restart the kernel to use updated packages.


<h2 style="color: #6c5b7b">Importar os dados</h2>

Vamos utilizar a base de dados da Olist que está disponível no Kaggle. Kaggle é uma plataforma de ciência de dados com competições, cursos e conjuntos de dados para profissionais, pesquisadores e estudantes nas diferentes áreas de dados. Para baixar os dados basta se inscrever e baixar [aqui](https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce)

Este trecho de código carrega os dados em formato CSV de diferentes arquivos localizados no diretório `./data/raw/`, usando a biblioteca `pandas` para criar um `DataFrame` para cada arquivo. 

A subpasta `raw` é usada para armazenar os dados brutos, sem nenhum processamento ou limpeza. É útil para manter uma cópia dos dados originais em seu estado bruto, caso seja necessário voltar aos dados originais ou para rastrear o histórico das modificações feitas nos dados.

Além da pasta `raw` temos a `processed` que é usada para armazenar os dados após passarem por processos de limpeza, transformação e manipulação para fins de análise de dados. 

- `pd.read_csv()` é uma função da biblioteca `pandas` que lê um arquivo CSV e retorna um `DataFrame`.
- `customers_df`, `geo_df`, `orderitem_df`, `orderpay_df`, `orderreviews_df`, `orders_df`, `products_df`, `sellers_df` e `categname_df` são os nomes dos `DataFrames` criados para cada arquivo CSV.
- `pd.set_option('display.max_columns', 500)` é um comando usado para definir o número máximo de colunas que podem ser exibidas na saída dos `DataFrames`.

É importante entender melhor as fontes de dados, normalmente os dados são acompanhados de `metadados`, que descrevem o conteúdo das bases. 

In [5]:
# lendo o primeiro dataset
customers_df = pd.read_csv(r"C:\Users\vanio\OneDrive\Área de Trabalho\olist\olist_customers_dataset.csv")
customers_df

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP
...,...,...,...,...,...
99436,17ddf5dd5d51696bb3d7c6291687be6f,1a29b476fee25c95fbafc67c5ac95cf8,3937,sao paulo,SP
99437,e7b71a9017aa05c9a7fd292d714858e8,d52a67c98be1cf6a5c84435bd38d095d,6764,taboao da serra,SP
99438,5e28dfe12db7fb50a4b2f691faecea5e,e9f50caf99f032f0bf3c55141f019d99,60115,fortaleza,CE
99439,56b18e2166679b8a959d72dd06da27f9,73c2643a0a458b49f58cea58833b192e,92120,canoas,RS


In [6]:
# lendo os dataset em 500 Linhas
customers_df = pd.read_csv(r"C:\Users\vanio\OneDrive\Área de Trabalho\olist\olist_customers_dataset.csv")
geo_df = pd.read_csv(r"C:\Users\vanio\OneDrive\Área de Trabalho\olist\olist_geolocation_dataset.csv")
orderitem_df = pd.read_csv(r"C:\Users\vanio\OneDrive\Área de Trabalho\olist\olist_order_items_dataset.csv")
orderpay_df = pd.read_csv(r"C:\Users\vanio\OneDrive\Área de Trabalho\olist\olist_order_payments_dataset.csv")
orderreviews_df = pd.read_csv(r"C:\Users\vanio\OneDrive\Área de Trabalho\olist\olist_order_reviews_dataset.csv")
orders_df = pd.read_csv(r"C:\Users\vanio\OneDrive\Área de Trabalho\olist\olist_orders_dataset.csv")
products_df = pd.read_csv(r"C:\Users\vanio\OneDrive\Área de Trabalho\olist\olist_products_dataset.csv")
sellers_df = pd.read_csv(r"C:\Users\vanio\OneDrive\Área de Trabalho\olist\olist_sellers_dataset.csv")
categname_df = pd.read_csv(r"C:\Users\vanio\OneDrive\Área de Trabalho\olist\product_category_name_translation.csv")
pd.set_option('display.max_columns', 500)

In [7]:
# Vendo as 10 linhas do arquivo de clientes
customers_df.head(10)

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP
5,879864dab9bc3047522c92c82e1212b8,4c93744516667ad3b8f1fb645a3116a4,89254,jaragua do sul,SC
6,fd826e7cf63160e536e0908c76c3f441,addec96d2e059c80c30fe6871d30d177,4534,sao paulo,SP
7,5e274e7a0c3809e14aba7ad5aae0d407,57b2a98a409812fe9618067b6b8ebe4f,35182,timoteo,MG
8,5adf08e34b2e993982a47070956c5c65,1175e95fb47ddff9de6b2b06188f7e0d,81560,curitiba,PR
9,4b7139f34592b3a31687243a302fa75b,9afe194fb833f79e300e37e580171f22,30575,belo horizonte,MG


In [8]:
# Quantas linhas e colunas tem o dataframe de clientes
customers_df.shape

(99441, 5)

## Conhecendo os dados!

Aqui é interessante observar os dados para que se possa ter ideia das variáveis analisadas

In [9]:
# imprimindo em 2 linhas os dataset
print("customers_df:")
display(customers_df.head(2))

print("\ngeo_df:")
display(geo_df.head(2))

print("\norderitem_df:")
display(orderitem_df.head(2))

print("\norderpay_df:")
display(orderpay_df.head(2))

print("\norderreviews_df:")
display(orderreviews_df.head(2))

print("\norders_df:")
display(orders_df.head(2))

print("\nproducts_df:")
display(products_df.head(2))

print("\nsellers_df:")
display(sellers_df.head(2))

print("\ncategname_df:")
display(categname_df.head(2))

customers_df:


Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP



geo_df:


Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP



orderitem_df:


Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93



orderpay_df:


Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39



orderreviews_df:


Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13



orders_df:


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00



products_df:


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0



sellers_df:


Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP



categname_df:


Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories


### Aqui é melhor buscar as informações do dataset para melhor conhecê-los!

In [10]:
# buscando informações sobre os dataset
print("customers_df:\n")
display(customers_df.info())

print("\ngeo_df:\n")
display(geo_df.info())

print("\norderitem_df:\n")
display(orderitem_df.info())

print("\norderpay_df:\n")
display(orderpay_df.info())

print("\norderreviews_df:\n")
display(orderreviews_df.info())

print("\norders_df:\n")
display(orders_df.info())

print("\nproducts_df:\n")
display(products_df.info())

print("\nsellers_df:\n")
display(sellers_df.info())

print("\ncategname_df:\n")
display(categname_df.info())

customers_df:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  object
 1   customer_unique_id        99441 non-null  object
 2   customer_zip_code_prefix  99441 non-null  int64 
 3   customer_city             99441 non-null  object
 4   customer_state            99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB


None


geo_df:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000163 entries, 0 to 1000162
Data columns (total 5 columns):
 #   Column                       Non-Null Count    Dtype  
---  ------                       --------------    -----  
 0   geolocation_zip_code_prefix  1000163 non-null  int64  
 1   geolocation_lat              1000163 non-null  float64
 2   geolocation_lng              1000163 non-null  float64
 3   geolocation_city             1000163 non-null  object 
 4   geolocation_state            1000163 non-null  object 
dtypes: float64(2), int64(1), object(2)
memory usage: 38.2+ MB


None


orderitem_df:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


None


orderpay_df:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   order_id              103886 non-null  object 
 1   payment_sequential    103886 non-null  int64  
 2   payment_type          103886 non-null  object 
 3   payment_installments  103886 non-null  int64  
 4   payment_value         103886 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ MB


None


orderreviews_df:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   review_id                99224 non-null  object
 1   order_id                 99224 non-null  object
 2   review_score             99224 non-null  int64 
 3   review_comment_title     11568 non-null  object
 4   review_comment_message   40977 non-null  object
 5   review_creation_date     99224 non-null  object
 6   review_answer_timestamp  99224 non-null  object
dtypes: int64(1), object(6)
memory usage: 5.3+ MB


None


orders_df:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB


None


products_df:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   product_id                  32951 non-null  object 
 1   product_category_name       32341 non-null  object 
 2   product_name_lenght         32341 non-null  float64
 3   product_description_lenght  32341 non-null  float64
 4   product_photos_qty          32341 non-null  float64
 5   product_weight_g            32949 non-null  float64
 6   product_length_cm           32949 non-null  float64
 7   product_height_cm           32949 non-null  float64
 8   product_width_cm            32949 non-null  float64
dtypes: float64(7), object(2)
memory usage: 2.3+ MB


None


sellers_df:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3095 entries, 0 to 3094
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   seller_id               3095 non-null   object
 1   seller_zip_code_prefix  3095 non-null   int64 
 2   seller_city             3095 non-null   object
 3   seller_state            3095 non-null   object
dtypes: int64(1), object(3)
memory usage: 96.8+ KB


None


categname_df:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71 entries, 0 to 70
Data columns (total 2 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   product_category_name          71 non-null     object
 1   product_category_name_english  71 non-null     object
dtypes: object(2)
memory usage: 1.2+ KB


None

<h2 style="color: #6c5b7b">Renomeando Colunas</h2>

Este trecho de código renomeia a coluna `customer_zip_code_prefix` do `DataFrame` `customers_df` para `zip_code` e a coluna `geolocation_zip_code_prefix` do `DataFrame` `geo_df` para `zip_code`, usando o método `rename()` da biblioteca `pandas`. 

- `customers_df` e `geo_df` são `DataFrames` que foram criados anteriormente a partir de arquivos CSV.
- `{"customer_zip_code_prefix": "zip_code"}` e `{"geolocation_zip_code_prefix": "zip_code"}` são dicionários que indicam os nomes antigos e novos das colunas que devem ser renomeadas, respectivamente.
- `rename()` é um método do objeto `DataFrame` que permite renomear colunas, índices ou ambos em um `DataFrame`.
- `customers_df = customers_df.rename(columns={"customer_zip_code_prefix": "zip_code"})` e `geo_df = geo_df.rename(columns={"geolocation_zip_code_prefix": "zip_code"})` são as atribuições que fazem com que as alterações sejam salvas nos próprios `DataFrames` originais, em vez de criar novos `DataFrames` com as alterações.

Renomear colunas pode ser útil em várias situações, como quando as colunas têm nomes longos e complicados, nomes com caracteres especiais ou para tornar os nomes das colunas mais descritivos e padronizados. Nesse caso, é somente para facilitar juntarmos os dados das bases de clientes e de geolocalizacao (por meio do CEP)


In [11]:
# aqui renomeamos a a coluna CEP
customers_df = customers_df.rename(columns={"customer_zip_code_prefix": "zip_code"})
geo_df = geo_df.rename(columns={"geolocation_zip_code_prefix": "zip_code"})

In [12]:
customers_df.head()

Unnamed: 0,customer_id,customer_unique_id,zip_code,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


### Aqui vamos buscar as colunas para verificar as em comuns e fazer um "merge"

In [13]:
#  imprimir colunas dos dataset

print("customers_df:\n")
display(customers_df.columns)

print("\ngeo_df:\n")
display(geo_df.columns)

print("\norderitem_df:\n")
display(orderitem_df.columns)

print("\norderpay_df:\n")
display(orderpay_df.columns)

print("\norderreviews_df:\n")
display(orderreviews_df.columns)

print("\norders_df:\n")
display(orders_df.columns)

print("\nproducts_df:\n")
display(products_df.columns)

print("\nsellers_df:\n")
display(sellers_df.columns)

print("\ncategname_df:\n")
display(categname_df.columns)

customers_df:



Index(['customer_id', 'customer_unique_id', 'zip_code', 'customer_city',
       'customer_state'],
      dtype='object')


geo_df:



Index(['zip_code', 'geolocation_lat', 'geolocation_lng', 'geolocation_city',
       'geolocation_state'],
      dtype='object')


orderitem_df:



Index(['order_id', 'order_item_id', 'product_id', 'seller_id',
       'shipping_limit_date', 'price', 'freight_value'],
      dtype='object')


orderpay_df:



Index(['order_id', 'payment_sequential', 'payment_type',
       'payment_installments', 'payment_value'],
      dtype='object')


orderreviews_df:



Index(['review_id', 'order_id', 'review_score', 'review_comment_title',
       'review_comment_message', 'review_creation_date',
       'review_answer_timestamp'],
      dtype='object')


orders_df:



Index(['order_id', 'customer_id', 'order_status', 'order_purchase_timestamp',
       'order_approved_at', 'order_delivered_carrier_date',
       'order_delivered_customer_date', 'order_estimated_delivery_date'],
      dtype='object')


products_df:



Index(['product_id', 'product_category_name', 'product_name_lenght',
       'product_description_lenght', 'product_photos_qty', 'product_weight_g',
       'product_length_cm', 'product_height_cm', 'product_width_cm'],
      dtype='object')


sellers_df:



Index(['seller_id', 'seller_zip_code_prefix', 'seller_city', 'seller_state'], dtype='object')


categname_df:



Index(['product_category_name', 'product_category_name_english'], dtype='object')

<h2 style="color: #6c5b7b">Fazendo um merge dos dataframes!</h2>

Este trecho de código combina os DataFrames `orders_df`, `customers_df`, `orderitem_df`, `products_df`, `categname_df`, `orderpay_df`, `sellers_df` e `orderreviews_df`, usando o método `merge()` da biblioteca `pandas`. Cada DataFrame é combinado com o próximo usando uma coluna em comum como chave de junção. 

O resultado da combinação é salvo em um novo DataFrame chamado `dados_completos`. Ao final dessa operação, o DataFrame `dados_completos` contém informações sobre os pedidos, clientes, itens do pedido, produtos, categorias de produtos, pagamentos, vendedores e avaliações de pedidos.

Esse processo de combinar vários DataFrames em um só é útil para consolidar dados dispersos em um único lugar e facilitar a análise dos dados.


In [14]:
# Fazendo um "merge" juntando todos os dataframes para melhor análisar
data = orders_df.merge(customers_df, on="customer_id").merge(orderitem_df, on="order_id").merge(products_df, on="product_id").merge(categname_df, on="product_category_name").merge(orderpay_df, on="order_id").merge(sellers_df, on="seller_id").merge(orderreviews_df, on="order_id")

In [15]:
# lendo o dataframe completo
data.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,customer_unique_id,zip_code,customer_city,customer_state,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm,product_category_name_english,payment_sequential,payment_type,payment_installments,payment_value,seller_zip_code_prefix,seller_city,seller_state,review_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,1,87285b34884572647811a353c7ac498a,3504c0cb71d7fa48d967e0e4c94d59d9,2017-10-06 11:07:15,29.99,8.72,utilidades_domesticas,40.0,268.0,4.0,500.0,19.0,8.0,13.0,housewares,1,credit_card,1,18.12,9350,maua,SP,a54f0611adc9ed256b57ede6b6eb5114,4,,"Não testei o produto ainda, mas ele veio corre...",2017-10-11 00:00:00,2017-10-12 03:43:48
1,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,1,87285b34884572647811a353c7ac498a,3504c0cb71d7fa48d967e0e4c94d59d9,2017-10-06 11:07:15,29.99,8.72,utilidades_domesticas,40.0,268.0,4.0,500.0,19.0,8.0,13.0,housewares,3,voucher,1,2.0,9350,maua,SP,a54f0611adc9ed256b57ede6b6eb5114,4,,"Não testei o produto ainda, mas ele veio corre...",2017-10-11 00:00:00,2017-10-12 03:43:48
2,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,1,87285b34884572647811a353c7ac498a,3504c0cb71d7fa48d967e0e4c94d59d9,2017-10-06 11:07:15,29.99,8.72,utilidades_domesticas,40.0,268.0,4.0,500.0,19.0,8.0,13.0,housewares,2,voucher,1,18.59,9350,maua,SP,a54f0611adc9ed256b57ede6b6eb5114,4,,"Não testei o produto ainda, mas ele veio corre...",2017-10-11 00:00:00,2017-10-12 03:43:48
3,128e10d95713541c87cd1a2e48201934,a20e8105f23924cd00833fd87daa0831,delivered,2017-08-15 18:29:31,2017-08-15 20:05:16,2017-08-17 15:28:33,2017-08-18 14:44:43,2017-08-28 00:00:00,3a51803cc0d012c3b5dc8b7528cb05f7,3366,sao paulo,SP,1,87285b34884572647811a353c7ac498a,3504c0cb71d7fa48d967e0e4c94d59d9,2017-08-21 20:05:16,29.99,7.78,utilidades_domesticas,40.0,268.0,4.0,500.0,19.0,8.0,13.0,housewares,1,credit_card,3,37.77,9350,maua,SP,b46f1e34512b0f4c74a72398b03ca788,4,,Deveriam embalar melhor o produto. A caixa vei...,2017-08-19 00:00:00,2017-08-20 15:16:36
4,0e7e841ddf8f8f2de2bad69267ecfbcf,26c7ac168e1433912a51b924fbd34d34,delivered,2017-08-02 18:24:47,2017-08-02 18:43:15,2017-08-04 17:35:43,2017-08-07 18:30:01,2017-08-15 00:00:00,ef0996a1a279c26e7ecbd737be23d235,2290,sao paulo,SP,1,87285b34884572647811a353c7ac498a,3504c0cb71d7fa48d967e0e4c94d59d9,2017-08-08 18:37:31,29.99,7.78,utilidades_domesticas,40.0,268.0,4.0,500.0,19.0,8.0,13.0,housewares,1,credit_card,1,37.77,9350,maua,SP,dc90f19c2806f1abba9e72ad3c350073,5,,"Só achei ela pequena pra seis xícaras ,mais é ...",2017-08-08 00:00:00,2017-08-08 23:26:23


In [16]:
#  buscando o shape dos dados
data.shape

(115609, 40)

In [17]:
#   temos dados duplicados
data['order_id'].duplicated().sum()


19093

Temos ids de pedidos duplicados. Isso se deve ao fato de que o mesmo pedido pode ser pago com vários métodos de pagamento diferentes.

In [18]:
# verificando a o percentual de dados nulos
data.isnull().mean().sort_values(ascending=False)*100

review_comment_title             88.062348
review_comment_message           57.697065
order_delivered_customer_date     2.075963
order_delivered_carrier_date      1.033657
order_approved_at                 0.012110
product_length_cm                 0.000865
product_height_cm                 0.000865
product_width_cm                  0.000865
product_weight_g                  0.000865
payment_installments              0.000000
product_category_name_english     0.000000
payment_sequential                0.000000
payment_type                      0.000000
order_id                          0.000000
payment_value                     0.000000
seller_zip_code_prefix            0.000000
seller_city                       0.000000
review_id                         0.000000
review_score                      0.000000
review_creation_date              0.000000
seller_state                      0.000000
product_description_lenght        0.000000
product_photos_qty                0.000000
customer_id

### Acima verificamos que existem muitos dados nulos nos título e nas mensagens de opinião!

In [19]:
# Estatística descritiva básica
data.describe()

Unnamed: 0,zip_code,order_item_id,price,freight_value,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm,payment_sequential,payment_installments,payment_value,seller_zip_code_prefix,review_score
count,115609.0,115609.0,115609.0,115609.0,115609.0,115609.0,115609.0,115608.0,115608.0,115608.0,115608.0,115609.0,115609.0,115609.0,115609.0,115609.0
mean,35061.537597,1.194535,120.61985,20.05688,48.766541,785.808198,2.205373,2113.907697,30.307903,16.638477,23.113167,1.093747,2.946233,172.387379,24515.713958,4.034409
std,29841.671732,0.685926,182.653476,15.836184,10.034187,652.418619,1.717771,3781.754895,16.211108,13.47357,11.755083,0.729849,2.781087,265.873969,27636.640968,1.385584
min,1003.0,1.0,0.85,0.0,5.0,4.0,1.0,0.0,7.0,2.0,6.0,1.0,0.0,0.0,1001.0,1.0
25%,11310.0,1.0,39.9,13.08,42.0,346.0,1.0,300.0,18.0,8.0,15.0,1.0,1.0,60.87,6429.0,4.0
50%,24241.0,1.0,74.9,16.32,52.0,600.0,1.0,700.0,25.0,13.0,20.0,1.0,2.0,108.05,13660.0,5.0
75%,58745.0,1.0,134.9,21.21,57.0,983.0,3.0,1800.0,38.0,20.0,30.0,1.0,4.0,189.48,28605.0,5.0
max,99980.0,21.0,6735.0,409.68,76.0,3992.0,20.0,40425.0,105.0,105.0,118.0,29.0,24.0,13664.08,99730.0,5.0


### A média dos fretes é de 20,05, sendo que existem frete grátis e valor máximo de 409,00

<h2 style="color: #6c5b7b">Verificando as notas de avaliação </h2>



In [20]:
#  Verificando as notas de avaliações

fig = px.histogram(data, x="review_score")
fig.show()

ValueError: 
Image export using the "kaleido" engine requires the kaleido package,
which can be installed using pip:
    $ pip install -U kaleido


Para melhor visualização resolvi aplicar em percentual as notas de avaliações

In [None]:
# Aqui apliquei o percentual das notas de avaliações
percentage = data["review_score"].value_counts(normalize=True) * 100

fig = px.bar(percentage, x=percentage.index, y=percentage.values, text=percentage.values, labels={"x": "Nota", "y": "Percentagem"})
fig.update_traces(texttemplate='%{text:.2f}%', textposition='outside')
fig.show()


Mais de**75% dos clientes deram uma pontuação igual ou maior que 4**,

12,5% deram uma pontuação de 1,

e cerca de 12% deram uma pontuação de 3 ou 2,

**56% deram nota máxima**

<h2 style="color: #6c5b7b">Proporção de clientes gerando a maior parte da receita.</h2>


<p>A <strong>Análise de Pareto</strong> é uma técnica importante para identificar e priorizar os elementos mais relevantes em um conjunto de dados, permitindo a concentração de esforços nas áreas mais críticas e relevantes, maximizando resultados e minimizando custos. É uma ferramenta simples e de fácil aplicação.</p>

<p>É a famosa regra 20/80, 20% que representam 80% do resultado</p>

<p>Podemos utilizar para várias análises! Vamos começar com a proporção de clientes que mais gastam.</p>


## Aqui verificamos os clientes que mais gastam!

In [None]:
# Clientes com o maior número cumulativo de pedidos (em pagamentos).
top_customers = data.groupby("customer_unique_id")["payment_value"].sum().reset_index().sort_values("payment_value", ascending=False)

# Renomeamos a coluna para total_paid(pagamentos total)
top_customers.rename(columns={"payment_value":"total_paid"}, inplace=True)
top_customers

###  Aqui calculamos o percentual de totais de vendas e acumulados das vendas
Isso é importante para definir as estratégias de cálculos futuros

In [None]:
# calcular as colunas "% of Total Sales" e "Cum % of Total Sales"
top_customers["% of Total Sales"] = (top_customers["total_paid"] / top_customers["total_paid"].sum()) * 100

# aqui calculamos o a cumulado das vendas
top_customers["Cum % of Total Sales"] = top_customers["% of Total Sales"].cumsum()
top_customers

Aqui percebemos que o cliente que mais paga representa **54% com total de vendas acima de 100mil**

## Os 3 clientes top que representam os que mais gastam !

In [None]:
# Aqui definimos os cliente top3 que mais gastam e representam 95% dos paganmentos
Clientes_Top3=top_customers[top_customers["total_paid"]>36000]
Clientes_Top3

In [None]:


# criar um gráfico de linhas do Plotly

fig = px.line(top_customers, x=range(1, len(top_customers) + 1), y="Cum % of Total Sales")

# definir as etiquetas do eixo x e y e o título do gráfico
fig.update_layout(
    xaxis_title="Número de Clientes",
    yaxis_title="Total Vendas Cumulativo %",
    title="Contribuição % para as vendas por número de clientes"
)

# adicionar uma linha de preenchimento abaixo do gráfico
fig.add_shape(
    type="rect",
    xref="x",
    yref="paper",
    x0=0,
    y0=0,
    x1=40000,
    y1=1,
    fillcolor="#797270",
    opacity=0.2,
    layer="below"
)

# atualizar o layout da forma para ajustar a altura do preenchimento
fig.update_shapes(dict(xref='x', yref='paper'))

# adicionar um texto explicativo na figura
fig.add_annotation(
    x=55000,
    y=75,
    text="40k clientes (+-42% do total)<br> representam +-80% das vendas",
    font=dict(
        size=14,
        color="black"
    ),
    showarrow=False,
)

# exibir a figura
fig.show()

<h2 style="color: #6c5b7b">Definimos o limiar dos 80% que representa clientes acima de 40k dentro da regra de pareto</h2>


Os resultados dessa análise podem gerar diversos insights para a área de marketing! Por exemplo:
- Segmentar clientes
- Monitorar os clientes que mais gastam
- Oferecer promoções tanto para que  mais pagam
- Incentivar vendas dos que menos pagam
- Criar política de fidelização de clientes
- Tentar vender mais produtos
- Realizar entregas personalizadas






In [None]:
# renomear a coluna "payment_value" para "total_paid"
top_customers.rename(columns={"payment_value" : "total_paid"}, inplace=True)

# criar um gráfico de barras do Plotly
fig = px.bar(top_customers[:10], x="total_paid", y="customer_unique_id", orientation="h")

# atualizar as configurações de layout do gráfico
fig.update_layout(
    title="Top 10 Clientes por Valor Total Pago",
    xaxis_title="Valor Total Pago",
    yaxis_title="ID do Cliente Único"
)

# exibir o gráfico
fig.show()


Aqui verificamos que entre os **top 10 clientes estão cima de 20k**, isso pode sugerir futuramente com a área de negócio uma segmentação de clientes por faixa de gastos 

<h2 style="color: #6c5b7b">Principais cidades por número de pedidos por estado.</h2>


<p>Vamos verificar quais são as cidades que mais tem números de pedido!</p>



In [None]:
# agrupar o dataframe por "customer_state" e contar o número de "order_id" por estado
top_orders_cities = data.groupby("customer_state")["order_id"].count().reset_index().sort_values("order_id", ascending=False)

# renomear a coluna "order_id" para "count"
top_orders_cities.rename(columns={"order_id":"count"}, inplace=True)

# criar um gráfico de barras do Plotly
fig = px.bar(top_orders_cities[:10], x="count", y="customer_state", orientation="h")

# atualizar as configurações de layout do gráfico
fig.update_layout(
    title="TOP 10 Estados por Número de Pedidos",
    xaxis_title="Número de Pedidos",
    yaxis_title="Estado"
)

# exibir o gráfico
fig.show()


**SP** é estado que possui maior número de pedido aproxidamente **48k mil pedidos**

**RJ** e **MG** um pouco acima dos **13k mil pedidos**

Isso leva a concluir que **SP** é lider de vendas

<h2 style="color: #6c5b7b">Cidades com maior geração de receita.</h2>


<p>Agora podemos avaliar não a quantidade de pedidos mas o quanto de GRANA cada cidade traz :D</p>



In [None]:
# Agrupamento de cidade por pagamentos somadosb
top_ordersbyvalue_cities = data.groupby("customer_city")["payment_value"].sum().reset_index().sort_values("payment_value", ascending=False)
top_ordersbyvalue_cities

## Calculando os percentuais e acumulados dos pagamentos por cidades

In [None]:

# Aqui calculamos o percentual dos pagamentos por cidades
top_ordersbyvalue_cities["% of Total Payments"] = (top_ordersbyvalue_cities["payment_value"] / top_ordersbyvalue_cities["payment_value"].sum()) * 100

# Aqui calculamos o acumulado do percentual dos pagamentos por cidade
top_ordersbyvalue_cities["Cum % of Total Payments"] = top_ordersbyvalue_cities["% of Total Payments"].cumsum()
top_ordersbyvalue_cities

In [None]:
# criar um gráfico de barras do Plotly
fig = px.bar(top_ordersbyvalue_cities[:10], x="% of Total Payments", y="customer_city", orientation="h")

# atualizar as configurações de layout do gráfico
fig.update_layout(
    title="TOP 10 Cidades por Geração de Receita",
    xaxis_title="Porcentagem do Total de Pagamentos",
    yaxis_title="Cidade do Cliente"
)

# exibir o gráfico
fig.show()


Aqui valida que **SP** têm os maior percentual de pagamentos seguida por RJ.

## Buscando número de cidade que contribuem com 80% das vendas

In [None]:
print("Número de cidades que contribuem com 80% das vendas totais:",
      len(top_ordersbyvalue_cities[top_ordersbyvalue_cities["Cum % of Total Payments"] <= 80]),
      "ou em in %:",
      (len(top_ordersbyvalue_cities[top_ordersbyvalue_cities["Cum % of Total Payments"] <= 80]) / len(top_ordersbyvalue_cities)) * 100)

In [None]:
# buscando um range que inicia em 1 linha e vai ao total de linhas de todas cidades
x=range(1, len(top_ordersbyvalue_cities)+1)
x

In [None]:
# criar um gráfico de linha do Plotly
fig = px.line(top_ordersbyvalue_cities, x=range(1, len(top_ordersbyvalue_cities)+1), y="Cum % of Total Payments")

# atualizar as configurações de layout do gráfico
fig.update_layout(
    title="% de Contribuição das Vendas por Número de Cidades",
    xaxis_title="Número de Cidades",
    yaxis_title="% de Contribuição para as Vendas"
)

# preencher a área abaixo da curva
fig.add_shape(
    type="rect",
    xref="x",
    yref="y",
    x0=0,
    y0=0,
    x1=358,
    y1=top_ordersbyvalue_cities["Cum % of Total Payments"][357],
    fillcolor="#797270",
    opacity=0.3,
    layer="below",
    line_width=0
)

# adicionar um texto ao gráfico
fig.add_annotation(
    x=1000,
    y=70,
    text="358 cidades (+-8,7% do total) <br>contribuem para +-80% das vendas.",
    font=dict(
        size=14,
        color="black"
    ),
    showarrow=False
)

# exibir o gráfico
fig.show()


Pela regra de pareto aplicadad no gráfico acima, verificamos que 358 cidades representam 80% das dos pagamentos

<h2 style="color: #6c5b7b">Como os pedidos variam ao longo do tempo?</h2>


<p>Como os pedidos são feitos ao longo do dia? De manhã? De tarde? Na madruga? Às segundas, sábados? É importante saber se estamos vendendo mais ou menos, nos horários e dias das semana!</p>



In [None]:
# Total de pedidos por hora e dia da semana
# Mas antes precisamos converter as colunas de datas para datetime
datesCols = ["order_purchase_timestamp", "order_approved_at", "order_delivered_carrier_date", 
            "order_delivered_customer_date", "order_estimated_delivery_date", "shipping_limit_date", 
            "review_creation_date", "review_answer_timestamp"]

for col in datesCols:
    data[col] = pd.to_datetime(data[col])

In [None]:
# Orders by hour(ordem tempo de pedido)
orders_df["order_purchase_timestamp"] = pd.to_datetime(orders_df["order_purchase_timestamp"])

# agrupando a ordem do pedido por tempo de pedido em horas
orderbyhour = orders_df.groupby(orders_df["order_purchase_timestamp"].dt.hour)["order_id"].count().reset_index().sort_values(by="order_purchase_timestamp", ascending=False)
# renomeando colunas
orderbyhour.rename(columns={"order_id":"Total Orders", "order_purchase_timestamp": "Hour of Day"}, inplace=True)
orderbyhour

In [None]:
# plotando gráficos 
fig = px.bar(orderbyhour, x='Hour of Day', y='Total Orders', title='Número de pedidos por hora do dia')
fig.update_xaxes(title='Hora do dia')
fig.update_yaxes(title='Número total de pedidos')
fig.show()


Os pedidos começam a aumentar por volta das 6hs da manhã e atingem o pico às 16hs da tarde.

**O período da tarde é bastante significativo em número de pedidos**

## Buscando as ordem de pedidos por dia da semana

In [None]:
# Orders by day of the week (ordem de pedido dia  agrupado)
orderbydow = data.groupby(data["order_purchase_timestamp"].dt.day_name())["order_id"].count().reset_index()
# renomeando coluna
orderbydow.rename(columns={"order_id":"Total Orders", "order_purchase_timestamp": "Weekday Name"}, inplace=True)
# ordenando por total de ordem
orderbydow = orderbydow.sort_values(by="Total Orders", ascending=False)
orderbydow

In [None]:
fig = px.bar(orderbydow, x='Weekday Name', y='Total Orders', title='Número de pedidos por dia da semana')
fig.update_xaxes(title='Dia da semana')
fig.update_yaxes(title='Número total de pedidos')
fig.show()


Os pedidos atingem o pico no início da semana (segunda e terça-feira) e começam a declinar um pouco depois,
verifica-se o **final de semana tem uma leve queda nos pedidos** mas com pouca discrepãncia

## Abaixo mesmo gráfico acima ordenado e categorizados!

In [None]:
# Define a ordem dos dias da semana
#weekday_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']

# Converte a coluna "Weekday Name" em uma categoria ordenada
#weekday = pd.Categorical(orderbydow['Weekday Name'], categories=weekday_order, ordered=True)

# Cria um novo dataframe ordenado pela coluna de categoria "weekday"
#orderbydow_ordered = orderbydow.assign(weekday=weekday).sort_values('weekday')

# Cria um gráfico de barras com os dias da semana em ordem
#fig = px.bar(orderbydow_ordered, x='weekday', y='Total Orders', title='Número de pedidos por dia da semana')
#fig.update_xaxes(title='Dia da semana')
#fig.update_yaxes(title='Número total de pedidos')
#fig.show()


<h2 style="color: #6c5b7b">Como os produtos são avaliados?</h2>


<p>De que adianta vender muito, entregar rápido, se as notas dos clientes estiverem baixas? Isso queima o filme de qualquer negócio! Vamos entrar mais a fundo na questão.</p>



## Agrupar os produtos comos reviews e agregar as médias e contagens 

In [None]:
# agrupar produtos por reviews e agregar a média e a contagem
reviewsocres = data.groupby("product_category_name")["review_score"].agg(["mean", "count"]).sort_values(by="mean",ascending=False)
reviewsocres

In [None]:
# Buscando os 10 produtos com contagens maiores ou igual a 30 
bestrated = reviewsocres[reviewsocres["count"]>=30][:10]
bestrated

In [None]:
# plotando os melhores avaliados

fig = go.Figure(go.Bar(
            x=bestrated['mean'],
            y=bestrated.index,
            orientation='h'))

fig.update_layout(
    title='Produtos com as melhores avaliações',
    xaxis_title='Avaliação média',
    yaxis_title='Categoria do produto',
    height=600,
    width=800,
    margin=dict(l=100, r=20, t=50, b=50),
)

fig.show()


Aqui percebe-se que os produtos bem avaliados estão com notas acima de 4, sendo considerados a nota máxima 5,produtos como:alimentos, livros técnico, construção e etc, produtos diversos se enquadram como bem avaliados,isso leva a concluir que não é tipo de produto que faz ser bem avaliado, e sim, alguma a operação no serviço prestado. 

## Buscando os piores avaliados

In [None]:
# buscando os piores avaliados
reviewsocres = data.groupby("product_category_name")["review_score"].agg(["mean", "count"]).sort_values(by="mean",ascending=False)
worstrated = reviewsocres[reviewsocres["count"]>=30].sort_values(by='mean')[:10]

fig = go.Figure(go.Bar(
            x=worstrated['mean'],
            y=worstrated.index,
            orientation='h'))

fig.update_layout(
    title='Produtos com as piores avaliações',
    xaxis_title='Avaliação média',
    yaxis_title='Categoria do produto',
    height=600,
    width=800,
    margin=dict(l=100, r=20, t=50, b=50),
)

fig.show()


Os piores scores estão acima de 3, produtos de categoria variadas com:móveis, roupa feminna, fraldas e etc, validando a hipótese que não é o tipo de de produto e sim a operação realizada, salientando que os piores score não pode ser considerados com maus avaliados.

## Aqui é interessante gerar uma variável de pedido entregue e cancelados

<h2 style="color: #6c5b7b">Será que o método de pagamento afeta o status do pedido?</h2>


<p>.</p>



In [None]:
#  aqui gero uma tabela cruzada entre tipo de pagamento e status do pediddo
cashvscancel = pd.crosstab(data["payment_type"], data["order_status"])

# gerando informações de pedidos entregue e devolvidos
cashvscancel = cashvscancel[["canceled", "delivered"]]
cashvscancel

In [None]:

# percentual e pedidos cancelado e entregues
cashvscancel["% Canceled"] = (cashvscancel["canceled"] / cashvscancel["delivered"] ) * 100
# Criando a txa  de cancelamento rateada
cashvscancel["Avg Cancelation Rate"] = (len(data[data["order_status"] == "canceled"]) / len(data[data["order_status"] == "delivered"])) * 100
cashvscancel


Apesar das taxas de cancelamentos ser muito próximas, **existe um aumento nos cancelamento do cartão de créditos**

<h2 style="color: #6c5b7b">Existe alguma relação entre o tempo de entrega e as pontuações das avaliações?</h2>


<p>.</p>



Aqui subtraimos o tempo de entrega pelo tempo de pedido

In [None]:
# verificando o tempo d entrega
data["TimeToDeliveryinHours"] = (data["order_delivered_customer_date"] - data["order_purchase_timestamp"])
data["TimeToDeliveryinHours"] 

Aqui transformamos em total de segundos aplicando o total_seconds que defini o difrenção da data inicial até a data final

In [None]:
from datetime import time, timedelta 

# definindo o total do tempo em segundos desde a data de inicio até o final
data["TimeToDeliveryinHours"] = data["TimeToDeliveryinHours"].apply(lambda x: x.total_seconds())
data["TimeToDeliveryinHours"]

Aqui dividimos o total em segundo em minutos(3600) divido por 24 horas para definir o total de dias

In [None]:
# Aqui definimos o tempo de entrega em DIAS
data["TimeToDeliveryinHours"] = round((data["TimeToDeliveryinHours"] / 3600) / 24,2)
data["TimeToDeliveryinHours"]

In [None]:
# renomeando para total de dias de entrega
data.rename(columns={"TimeToDeliveryinHours" : "TimeToDeliveryinDays"}, inplace=True)
data

# OBS: Logo abaixo encapsulei todo o código na série acima!

In [None]:
# Adicionando uma coluna delta que calcula o tempo que levou para o pedido ser entregue
#data["TimeToDeliveryinHours"] = (data["order_delivered_customer_date"] - data["order_purchase_timestamp"])
#data["TimeToDeliveryinHours"] = data["TimeToDeliveryinHours"].apply(lambda x: x.total_seconds())
#data["TimeToDeliveryinHours"] = round((data["TimeToDeliveryinHours"] / 3600) / 24, 2)
#data.rename(columns={"TimeToDeliveryinHours" : "TimeToDeliveryinDays"}, inplace=True)

In [None]:
# Principais estatísticas do tempo de entrega
data[["TimeToDeliveryinDays"]].describe()

**O tempo médio de entrega é relativamente (12 dias)**, sendo que metadde das entregas são feitas até a mediana de (10 dias).porém observamos um **valor extremo atípico de 208 dias**.

O boxplot é um gráfico que mostra como um conjunto de dados está distribuído, destacando informações como a mediana (valor que divide os dados em duas partes iguais), os valores mínimo e máximo e a presença de dados incomuns. Ele é útil para identificar a forma como os dados estão agrupados e se existem pontos que se destacam do restante do conjunto.

In [None]:
# passo 1;Define a ordem crescente dos valores da pontuação de avaliação
score_order = sorted(data['review_score'].unique())
score_order

In [None]:
# Passo 2;Converte a coluna "review_score" em uma categoria ordenada
score = pd.Categorical(data['review_score'], categories=score_order, ordered=True)
score

In [None]:
# Passo3; Cria um novo dataframe ordenado pela coluna de categoria "score"
data_ordered = data.assign(score=score).sort_values('score')
data_ordered

In [None]:
# Passo 4;Cria um seletor de pontuação de avaliação em ordem crescente
fig = px.box(data_ordered, x='score', y='TimeToDeliveryinDays', color='score',
             title='Relação entre a pontuação da avaliação e o tempo de entrega')
fig.update_xaxes(title='Pontuação da avaliação')
fig.update_yaxes(title='Tempo de entrega (dias)')

fig.show()

Verifica-se que existem muitos dados extremos 

# OBS: Logo abaixo encapsulei todo o código na série acima do passo1 ao 4!

In [None]:

# Define a ordem crescente dos valores da pontuação de avaliação
#score_order = sorted(data['review_score'].unique())

# Converte a coluna "review_score" em uma categoria ordenada
#score = pd.Categorical(data['review_score'], categories=score_order, ordered=True)

# Cria um novo dataframe ordenado pela coluna de categoria "score"
#data_ordered = data.assign(score=score).sort_values('score')

# Cria um seletor de pontuação de avaliação em ordem crescente
#fig = px.box(data_ordered, x='score', y='TimeToDeliveryinDays', color='score',
             #title='Relação entre a pontuação da avaliação e o tempo de entrega')

#fig.update_xaxes(title='Pontuação da avaliação')
#fig.update_yaxes(title='Tempo de entrega (dias)')

#fig.show()


## Podemos ver que temos vários valores atípicos. Estes são pedidos que demoraram muito para serem entregues por algum motivo.

In [None]:
# Define o limite superior dos valores
q_high = data["TimeToDeliveryinDays"].quantile(0.95)
q_high

## OBS: AQUI GEREI UM DATAFRAME SEM OS OUTLIERS(TEMPO DE ENTREGA)

In [None]:
# Cria um novo dataframe sem os valores atípicos
data_no_outliers = data[data["TimeToDeliveryinDays"] < q_high]
data_no_outliers

## AQUI É DATAFRAME SOMENTE COM OUTLIERS (TEMPO DE ENTREGA)

In [None]:
# Cria um novo dataframe COM os valores atípicos
outliers = data[data["TimeToDeliveryinDays"] > q_high]
outliers

In [None]:
# Define o limite superior dos valores
q_high = data["TimeToDeliveryinDays"].quantile(0.95)

# Cria um novo dataframe sem os valores atípicos
data_no_outliers = data[data["TimeToDeliveryinDays"] < q_high]

# Define a ordem crescente dos valores da pontuação de avaliação
score_order = sorted(data_no_outliers['review_score'].unique())

# Converte a coluna "review_score" em uma categoria ordenada
score = pd.Categorical(data_no_outliers['review_score'], categories=score_order, ordered=True)

# Cria um novo dataframe com a coluna de categoria "score"
data_score = data_no_outliers.assign(score=score)

data_score = data_score.assign(score=score).sort_values('score')

# Cria um seletor de pontuação de avaliação em ordem crescente
fig = px.box(data_score, x='score', y='TimeToDeliveryinDays', color='score',
             title='Relação entre a pontuação da avaliação e o tempo de entrega')

fig.update_xaxes(title='Pontuação da avaliação', categoryorder='array', categoryarray=score_order)
fig.update_yaxes(title='Tempo de entrega (dias)')

fig.show()


O tempo de entrega é uma variável que tem relação direta com as pontuações, a hipótese confirma que
**à medida que o tempo de entrega diminui, as avaliações aumentam**.



<h2 style="color: #6c5b7b">Quais são as cidades dos vendedores com menor/maior tempo de entrega?</h2>


<p>.</p>



Aqui pegamos as cidades agrupando pelo tempo de entrega em dias e agregamos valores mìnimos, máximo. contagem e o  desvio , depois dropamos os valores ausentes e ordenamos pela média resetando os índices

In [None]:
#Vendedores com melhor tempo d entrega
sellersdeliverytime = data.groupby("seller_city")["TimeToDeliveryinDays"].agg(["min", "max", "mean", "std", "count" ]).dropna().sort_values("mean").reset_index()
sellersdeliverytime

Aqui foi feito uma filtaragem dos vendedores com 30 ou mais pedidos

In [None]:
# Filtro para vendedores com 30 ou mais pedidos em seu histórico
sellersdeliverytime = sellersdeliverytime[sellersdeliverytime["count"]>=30]
sellersdeliverytime

## Quais vendendores mais rápidos e mais lentos?

In [None]:
# aqui buscamos as 10 entregas mais rápidas
fastestdeliverysellers = sellersdeliverytime[:10]
# aqui buscamos as 10 piores entregas
slowestdeliverysellers = sellersdeliverytime.sort_values("mean", ascending=False)[:10]

In [None]:
# Vendedores com entrega mais rápida.
fastestdeliverysellers

Aqui percebe-se que o vendedor mais rápido em tempo de entrega Têm **média 5 dias para entregar porém ele têm poucos pedidos**

In [None]:
# Vendedores com entrega mais lenta.
slowestdeliverysellers

O vendedor mais lento têm tempo de entrega média de **22 dias e com poucos pedidos, isso leva a concluir que o gargalos se encontra na logística e não quantidades de pedidos**

## Quais os scores médios por cidades nos reviews?

In [None]:
# Junte a pontuação média de avaliação à tabela acima.
avg_review_score_seller = data.groupby("seller_city")["review_score"].mean().dropna().sort_values(ascending=False).reset_index()
avg_review_score_seller

## Aqui juntamos a tabela de melhores tempo de entrega com as médias de reviews

In [None]:
sellerPerf = sellersdeliverytime.merge(avg_review_score_seller, on="seller_city")
sellerPerf

In [None]:
# Gráfico de regressão linear entre a média de tempo de entrega e a média da pontuação de avaliação
fig = px.scatter(sellerPerf, x='mean', y='review_score', trendline='ols', 
                 title='Relação entre a média de tempo de entrega e a média da pontuação de avaliação')

fig.update_xaxes(title='Média de tempo de entrega (dias)')
fig.update_yaxes(title='Média da pontuação de avaliação')

fig.show()


Aqui  validamos que **quanto mais rápido a entrega melhor  avaliação**

<h2 style="color: #6c5b7b"> Quais os Estados com maior e menor tempo de entrega?</h2>


<p>.</p>



In [None]:
# Top 10 estados com o maior tempo médio de entrega
highestTTDstates = data.groupby("customer_state")["TimeToDeliveryinDays"].mean().dropna().sort_values(ascending=False).reset_index()
# Buscando os top 10
highestTTDstates = highestTTDstates[:10]

# Gráfico de barras com o tempo médio de entrega por estado
fig = px.bar(highestTTDstates, x='TimeToDeliveryinDays', y='customer_state',
             orientation='h', title='Top 10 estados com o maior tempo médio de entrega')

fig.update_yaxes(title='Estado')
fig.update_xaxes(title='Tempo médio de entrega (dias)')

fig.show()


O estado com maior tempo de entrega é RR,AP e AM, **SALIENTANDO QUE OS 10 MAIORES TEMPO DE ENTREGA POR ESTADOS ESTÃO ACIMA DE 20 DIAS DE ENTREGA**

In [None]:
# Top 10 estados com o menor tempo médio de entrega
lowestTTDstates = data.groupby("customer_state")["TimeToDeliveryinDays"].mean().dropna().sort_values(ascending=True).reset_index()
lowestTTDstates = lowestTTDstates[:10]

# Gráfico de barras com o tempo médio de entrega por estado
fig = px.bar(lowestTTDstates, x='TimeToDeliveryinDays', y='customer_state',
             orientation='h', title='Top 10 estados com o menor tempo médio de entrega')

fig.update_yaxes(title='Estado')
fig.update_xaxes(title='Tempo médio de entrega (dias)')

fig.show()


Aqui percebe-se que **SP TÊM O MENOR TEMPO DE ENTREGA 9 DIAS, ENQUANTO OS OUTROS ATÉ 16 DIAS!**


<h2 style="color: #6c5b7b">Como o tempo médio de entrega varia ao longo do tempo?</h2>


<p>.</p>



Aqui calculamos a mediana dos valores anuais por tempo de entrega para verificar as variações nas entregas, transformamos em string para plotar um gráfico

In [None]:
# Mediana do tempo de entrega por ano
deliverytimevstime = data.groupby(data["order_purchase_timestamp"].dt.year)["TimeToDeliveryinDays"].median().dropna()
deliverytimevstime

In [None]:


# Converte ano em categoria (e não um número)
deliverytimevstime.index = deliverytimevstime.index.astype(str)

# Gráfico de barras com a mediana do tempo de entrega por ano
fig = px.bar(deliverytimevstime, x=deliverytimevstime.index, y='TimeToDeliveryinDays',
             title='Mediana do tempo de entrega por ano')

fig.update_xaxes(title='Ano')
fig.update_yaxes(title='Mediana de entrega em dias')

fig.show()


A empresa melhorou sua logística e reduziu considerávelmente o tempo de entrega ao longo dos anos, **em 2016 era acima de 16 dias, em 2017 reduziu para 12 dias , e em 2018  cerca de 9 dias**.

<h2 style="color: #6c5b7b">Como a pontuação média das avaliações varia ao longo do tempo?</h2>


<p>.</p>



In [None]:
# Média da pontuação da avaliação por ano
scorevstime = data.groupby(data["order_purchase_timestamp"].dt.year)["review_score"].mean().dropna()

# Converte o índice do grupo em uma categoria
scorevstime.index = scorevstime.index.astype(str)

# Gráfico de barras com a média da pontuação da avaliação por ano
fig = px.bar(scorevstime, x=scorevstime.index, y='review_score',
             title='Média da pontuação da avaliação por ano')

fig.update_xaxes(title='Ano')
fig.update_yaxes(title='Pontuação média da avaliação')

fig.show()


Em 2017 e 2018, as avaliações melhoraram em relação à 2016, **DEVIDO AOS MELHORES TEMPO DE ENTREGAS**

<h2 style="color: #6c5b7b">Quais são as categorias de produtos mais vendidas?</h2>


<p>.</p>


 AQUI AGRUPAMOS A CATEGORIA DE PRODUTOS, AGREGOU PELA ORDEM DE VALORES ÚNICOS E PELA SOMA DOS PAYMENTS , DEPOIS ORDENAMOS DECRESCENTE E BUSCAMOS AS 10 MAIORES CATEGORIAS

In [None]:
# AGRUAPANDO CATEGORIA DE PRODUTOS 
top_categ_by_revenue = data.groupby("product_category_name").agg({'order_id':'nunique','payment_value':'sum'}).sort_values("payment_value", ascending=False)[:10]

# RENOMEANDO A COLUNA  ORDERID E PAYMENT

top_categ_by_revenue.rename(columns={"order_id":"NumOfOrders", "payment_value":"Revenues"}, inplace=True)


In [None]:
top_categ_by_revenue

Dos top 10 produtos os 3 mais vendidos, destacam-se:

**CAMA_MESA_BANHO**,

**BELEZA_SAÚDE**, 

**INFORMÁTICA_ACESSÓRIOS**