
# Análise de Dados - Olist

Este notebook apresenta uma análise detalhada dos dados da plataforma Olist. O objetivo é identificar tendências, desafios e oportunidades para melhorar a performance de vendas, logística e satisfação dos clientes.

---

## **Sumário**
1. [Carregamento de dados](#Carregamento-de-dados)
2. [Limpeza e Tratamento dos Dados](#Limpeza-e-Tratamento-dos-Dados)
3. [Análise Exploratória de Dados (EDA)](#Análise-Exploratória-de-Dados)
    - [3.1 placeholder](#placeholder)
---


## **1. Carregamento dos Dados**

Para iniciar, carregamos os arquivos principais do dataset do Olist. Isso inclui informações sobre clientes, pedidos, vendedores, produtos e outros. A pré-visualização dos dados permite entender a estrutura e os campos disponíveis.

In [22]:
import pandas as pd
import matplotlib.pyplot as plt

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 55)

caminhos = {
    "clientes": "dados/olist_customers_dataset.csv",
    "geolocalizacao": "dados/olist_geolocation_dataset.csv",
    "itens_pedidos": "dados/olist_order_items_dataset.csv",
    "pagamentos_pedidos": "dados/olist_order_payments_dataset.csv",
    "avaliacoes_pedidos": "dados/olist_order_reviews_dataset.csv",
    "pedidos": "dados/olist_orders_dataset.csv",
    "produtos": "dados/olist_products_dataset.csv",
    "vendedores": "dados/olist_sellers_dataset.csv",
    "traducao_categorias": "dados/product_category_name_translation.csv",
}

dataframes = {nome: pd.read_csv(caminho) for nome, caminho in caminhos.items()}

clientes_df = dataframes["clientes"]
geolocalizacao_df = dataframes["geolocalizacao"]
itens_pedidos_df = dataframes["itens_pedidos"]
pagamentos_pedidos_df = dataframes["pagamentos_pedidos"]
avaliacoes_pedidos_df = dataframes["avaliacoes_pedidos"]
pedidos_df = dataframes["pedidos"]
produtos_df = dataframes["produtos"]
vendedores_df = dataframes["vendedores"]
traducao_categorias_df = dataframes["traducao_categorias"]

### 1.1 Pré-visualização dos Dados

Exibimos uma amostra de cada DataFrame para entender sua estrutura e conteúdo.

In [23]:
clientes_df.sample(2)

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
29291,d5ef4d5c3a1c273a23a77f366fae4ec5,dd6cd377eeb9f4b456733ea3c0862627,30330,belo horizonte,MG
38327,edeead8c26c3ef19bd2dfba58ae98e35,cbfe6754138b133c4bfa35a2b28f714d,3817,sao paulo,SP


In [24]:
geolocalizacao_df.sample(2)

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
642519,38140,-19.300942,-48.923091,prata,MG
767227,66813,-1.296586,-48.472437,belem,PA


In [25]:
itens_pedidos_df.sample(2)

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
70735,a15be694d8267e907bfab3b785558e83,4,407e01944d78001dbd21da4c2059b8dc,e8f6dc8e6a1dcde89d20e3995c8d90b3,2017-11-23 02:30:35,26.9,8.72
470,0115d160c5fbd758a139ff90821db60d,1,766a6a4c51c63991e78e192d802787a9,59b22a78efb79a4797979612b885db36,2017-09-06 04:31:53,389.0,22.63


In [26]:
pagamentos_pedidos_df.sample(2)

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
25677,5f8b2bc14c6a2b44cd5c1131aeb55ae3,1,boleto,1,87.64
98338,3e9bdc72197be8d2881273a27efc207d,1,credit_card,5,921.24


In [27]:
avaliacoes_pedidos_df.sample(2)

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
13081,3449cddd4b6f1af9ed06221998906e8a,832e2ef8cdf39a442023921a0d81274c,4,,,2018-03-02 00:00:00,2018-03-02 10:29:15
92319,f6ed65fb9bb0932437aa76066fc2da89,f4f81d9284f8b6894f76d2a8fa524467,5,*****,muito bom,2018-07-10 00:00:00,2018-07-10 21:17:25


In [28]:
pedidos_df.sample(2)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
67787,ee6e534a07e12c5f2bf72cc7fc6873df,161b084b1da1063f12c806260be8b0fc,delivered,2017-11-21 20:36:39,2017-11-21 20:47:39,2017-11-22 14:15:03,2017-11-24 14:47:17,2017-12-04 00:00:00
833,95d9d2979d40161be87292ff88563cba,e4721b61e8d2b4b85d606809f6baa292,delivered,2018-06-07 23:42:37,2018-06-07 23:53:58,2018-06-08 14:15:00,2018-06-16 16:44:34,2018-06-26 00:00:00


In [29]:
produtos_df.sample(2)

Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
11935,713e3211939d8fda094596afb61a2337,fashion_bolsas_e_acessorios,42.0,104.0,6.0,150.0,16.0,9.0,11.0
788,11970aff9a8cf29a520127d0d8100901,moveis_decoracao,53.0,1750.0,3.0,2550.0,105.0,3.0,70.0


In [30]:
vendedores_df.sample(5)

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
1396,6d66611d7c44cc30ce351abc49a68421,4378,sao paulo,SP
1988,c7b7db6c8f3c64a7cc1afa634db21d50,4367,sao paulo,SP
1949,77714512e8d4dda9c234da8e3faf16e4,7056,guarulhos,SP
1456,54c04bdb5ec46762f8f08c7e8f86ed4a,88037,florianopolis,SC
3005,014c0679dd340a0e338872e7ec85666a,35180,timoteo,MG


In [31]:
traducao_categorias_df.sample(2)

Unnamed: 0,product_category_name,product_category_name_english
47,moveis_quarto,furniture_bedroom
49,construcao_ferramentas_seguranca,construction_tools_safety


In [32]:
produtos_df.describe()

Unnamed: 0,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
count,32341.0,32341.0,32341.0,32949.0,32949.0,32949.0,32949.0
mean,48.476949,771.495285,2.188986,2276.472488,30.815078,16.937661,23.196728
std,10.245741,635.115225,1.736766,4282.038731,16.914458,13.637554,12.079047
min,5.0,4.0,1.0,0.0,7.0,2.0,6.0
25%,42.0,339.0,1.0,300.0,18.0,8.0,15.0
50%,51.0,595.0,1.0,700.0,25.0,13.0,20.0
75%,57.0,972.0,3.0,1900.0,38.0,21.0,30.0
max,76.0,3992.0,20.0,40425.0,105.0,105.0,118.0


### 1.2 Identificação de valores ausentes

Identificamos valores ausentes em cada coluna dos DataFrames e organizamos os resultados em uma tabela consolidada para melhor visualização.

In [33]:
resumo = []

for nome, df in dataframes.items():
    valores_ausentes = df.isnull().sum() 
    df_resumo = pd.DataFrame({
        "DataFrame": [nome] * len(valores_ausentes),
        "Coluna": valores_ausentes.index,
        "Valores ausentes": valores_ausentes.values
    })
    resumo.append(df_resumo)
    
df_resumo_final = pd.concat(resumo, ignore_index=True)
df_resumo_final


Unnamed: 0,DataFrame,Coluna,Valores ausentes
0,clientes,customer_id,0
1,clientes,customer_unique_id,0
2,clientes,customer_zip_code_prefix,0
3,clientes,customer_city,0
4,clientes,customer_state,0
5,geolocalizacao,geolocation_zip_code_prefix,0
6,geolocalizacao,geolocation_lat,0
7,geolocalizacao,geolocation_lng,0
8,geolocalizacao,geolocation_city,0
9,geolocalizacao,geolocation_state,0


## **2. Limpeza e Tratamento dos Dados**
Antes de realizar análises mais aprofundadas, é essencial tratar dados ausentes e inconsistências. Nesta etapa:
- Comentários e títulos ausentes nas avaliações foram preenchidos com valores padrão.
- Valores numéricos ausentes (como dimensões de produtos) foram preenchidos com a média.

In [34]:

avaliacoes_pedidos_df['review_comment_message'] = avaliacoes_pedidos_df['review_comment_message'].fillna('Sem Comentário')
avaliacoes_pedidos_df['review_comment_title'] = avaliacoes_pedidos_df['review_comment_title'].fillna('Sem Título')

colunas_numericas = [
    'product_name_lenght', 'product_description_lenght', 'product_photos_qty',
    'product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm'
]
produtos_df[colunas_numericas] = produtos_df[colunas_numericas].apply(lambda col: col.fillna(col.mean()))

produtos_df.isnull().sum()


product_id                      0
product_category_name         610
product_name_lenght             0
product_description_lenght      0
product_photos_qty              0
product_weight_g                0
product_length_cm               0
product_height_cm               0
product_width_cm                0
dtype: int64

## **3. Análise Exploratória de Dados (EDA)**

Exploramos os dados disponíveis para identificar tendências, padrões e insights relevantes. A análise abrange diferentes aspectos da plataforma Olist, como categorias de produtos, métodos de pagamento e outros. Essas informações ajudam a compreender o comportamento dos clientes, desempenho de vendas e possíveis áreas de melhoria.


### 3.1 Top 10 Categorias Mais Vendidas

In [35]:
produtos_df = produtos_df.merge(traducao_categorias_df, on='product_category_name', how='left')

top_categorias = (
    itens_pedidos_df.merge(produtos_df, on='product_id')
    .groupby('product_category_name_english')['order_id']
    .count()
    .sort_values(ascending=False)
    .reset_index()
    .rename(columns={'order_id': 'Quantidade de Pedidos', 'product_category_name_english': 'Categoria'})
    .head(10)
)
top_categorias

Unnamed: 0,Categoria,Quantidade de Pedidos
0,bed_bath_table,11115
1,health_beauty,9670
2,sports_leisure,8641
3,furniture_decor,8334
4,computers_accessories,7827
5,housewares,6964
6,watches_gifts,5991
7,telephony,4545
8,garden_tools,4347
9,auto,4235


### 3.2 Métodos de Pagamento Mais Utilizados

In [36]:
metodos_pagamento = (
    pagamentos_pedidos_df.groupby('payment_type')['payment_value']
    .sum()
    .sort_values(ascending=False)
    .reset_index()
    .rename(columns={'payment_type': 'Método de Pagamento', 'payment_value': 'Total Pago (R$)'})
)
metodos_pagamento

Unnamed: 0,Método de Pagamento,Total Pago (R$)
0,credit_card,12542084.19
1,boleto,2869361.27
2,voucher,379436.87
3,debit_card,217989.79
4,not_defined,0.0


### 3.3 Tempo médio de entrega em cada estado

In [37]:
pedidos_df['order_delivered_customer_date'] = pd.to_datetime(pedidos_df['order_delivered_customer_date'], errors='coerce')
pedidos_df['order_estimated_delivery_date'] = pd.to_datetime(pedidos_df['order_estimated_delivery_date'], errors='coerce')
pedidos_df['order_purchase_timestamp'] = pd.to_datetime(pedidos_df['order_purchase_timestamp'], errors='coerce')

pedidos_df['Tempo de Entrega (dias)'] = (pedidos_df['order_delivered_customer_date'] - pedidos_df['order_purchase_timestamp']).dt.days

pedidos_df['atraso_entrega'] = pedidos_df['order_delivered_customer_date'] > pedidos_df['order_estimated_delivery_date']

clientes_com_entrega = clientes_df.merge(pedidos_df, on='customer_id')
media_entrega_por_estado = (
    clientes_com_entrega.groupby('customer_state')['Tempo de Entrega (dias)']
    .mean()
    .sort_values(ascending=False)
    .reset_index()
    .rename(columns={'customer_state': 'Estado', 'Tempo de Entrega (dias)': 'Média de Entrega (dias)'})
    .round(2)
)

media_entrega_por_estado

Unnamed: 0,Estado,Média de Entrega (dias)
0,RR,28.98
1,AP,26.73
2,AM,25.99
3,AL,24.04
4,PA,23.32
5,MA,21.12
6,SE,21.03
7,CE,20.82
8,AC,20.64
9,PB,19.95


In [38]:
pedidos_pagamentos = pedidos_df.merge(pagamentos_pedidos_df, on="order_id")

clientes_pedidos_pagamentos = pedidos_pagamentos.merge(clientes_df, on="customer_id")

receita_por_estado = (
    clientes_pedidos_pagamentos.groupby("customer_state")["payment_value"]
    .sum()
    .sort_values(ascending=False)
    .reset_index()
    .rename(columns={"customer_state": "Estado", "payment_value": "Total de Receita (R$)"})
    .head(10)
)
receita_por_estado


Unnamed: 0,Estado,Total de Receita (R$)
0,SP,5998226.96
1,RJ,2144379.69
2,MG,1872257.26
3,RS,890898.54
4,PR,811156.38
5,SC,623086.43
6,BA,616645.82
7,DF,355141.08
8,GO,350092.31
9,ES,325967.55


In [39]:
atrasos_por_estado = (
    clientes_pedidos_pagamentos.groupby('customer_state')
    .agg(
        total_pedidos=('order_id', 'count'),
        total_atrasos=('atraso_entrega', 'sum')
    )
    .reset_index()
)

atrasos_por_estado['percentual_atraso'] = (
    atrasos_por_estado['total_atrasos'] / atrasos_por_estado['total_pedidos']
)

atrasos_por_estado = atrasos_por_estado.rename(
    columns={
        'customer_state': 'Estado',
        'total_pedidos': 'Total de Pedidos',
        'total_atrasos': 'Total de Atrasos',
        'percentual_atraso': 'Percentual de Atrasos (%)'
    }
)

estados_com_mais_atrasos = atrasos_por_estado.sort_values(by='Percentual de Atrasos (%)', ascending=False).head(10)
estados_com_mais_atrasos


Unnamed: 0,Estado,Total de Pedidos,Total de Atrasos,Percentual de Atrasos (%)
1,AL,427,100,0.234192
9,MA,767,144,0.187744
16,PI,524,83,0.158397
5,CE,1398,203,0.145207
24,SE,361,51,0.141274
4,BA,3610,490,0.135734
18,RJ,13527,1751,0.129445
13,PA,1011,121,0.119683
7,ES,2107,251,0.119127
19,RN,522,62,0.118774
