
# Análise de Dados - Olist

Este notebook apresenta uma análise detalhada dos dados da plataforma Olist. O objetivo é identificar tendências, desafios e oportunidades para melhorar a performance de vendas, logística e satisfação dos clientes.

---

## **Sumário**
1. [Carregamento de dados](#Carregamento-de-dados)
2. [Limpeza e Tratamento dos Dados](#Limpeza-e-Tratamento-dos-Dados)
3. [Análise Exploratória de Dados (EDA)](#Análise-Exploratória-de-Dados)
    - [3.1 placeholder](#placeholder)
---


## **1. Carregamento dos Dados**

Para iniciar, carregamos os arquivos principais do dataset do Olist. Isso inclui informações sobre clientes, pedidos, vendedores, produtos e outros. A pré-visualização dos dados permite entender a estrutura e os campos disponíveis.

In [19]:

import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns

# Configuração para exibição completa
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 55)

# Caminhos dos arquivos
caminhos = {
    "clientes": "dados/olist_customers_dataset.csv",
    "geolocalizacao": "dados/olist_geolocation_dataset.csv",
    "itens_pedidos": "dados/olist_order_items_dataset.csv",
    "pagamentos_pedidos": "dados/olist_order_payments_dataset.csv",
    "avaliacoes_pedidos": "dados/olist_order_reviews_dataset.csv",
    "pedidos": "dados/olist_orders_dataset.csv",
    "produtos": "dados/olist_products_dataset.csv",
    "vendedores": "dados/olist_sellers_dataset.csv",
    "traducao_categorias": "dados/product_category_name_translation.csv",
}

# Carregando os arquivos
dataframes = {nome: pd.read_csv(caminho) for nome, caminho in caminhos.items()}

clientes_df = dataframes["clientes"]
geolocalizacao_df = dataframes["geolocalizacao"]
itens_pedidos_df = dataframes["itens_pedidos"]
pagamentos_pedidos_df = dataframes["pagamentos_pedidos"]
avaliacoes_pedidos_df = dataframes["avaliacoes_pedidos"]
pedidos_df = dataframes["pedidos"]
produtos_df = dataframes["produtos"]
vendedores_df = dataframes["vendedores"]
traducao_categorias_df = dataframes["traducao_categorias"]

### 1.1 Pré-visualização dos Dados

Exibimos uma amostra de cada DataFrame para entender sua estrutura e conteúdo.

In [20]:
clientes_df.sample(2)

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
95664,11ee259027b2302ab1d54d38f5ec9b12,bab6c17a869a2f61f17e8a429e919c2c,13995,santo antonio do jardim,SP
26258,33fa216102707aae73b480aeceb71716,ef93dccaa1ae54f91d510a7d5bbc79c3,55750,surubim,PE


In [21]:
geolocalizacao_df.sample(2)

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
367434,17013,-22.322285,-49.056431,bauru,SP
759602,65398,-3.674432,-45.847561,alto alegre do pindare,MA


In [22]:
itens_pedidos_df.sample(2)

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
10470,17f124568e4923bc842f832fe7fa758a,1,5a848e4ab52fd5445cdc07aab1c40e48,c826c40d7b19f62a09e2d7c5e7295ee2,2018-02-12 04:31:46,122.99,18.14
81812,b9f5ca0dd8ac07db0b02705dc2be4d21,1,4bdcd91fcab0b7401865fa7d7f916253,f918546be4bec7104d117789ba758b2b,2018-04-27 11:31:49,129.0,17.42


In [23]:
pagamentos_pedidos_df.sample(2)

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
62472,961e941567157246b67c0c448fb7252e,1,boleto,1,227.56
11296,2130eb96d3ca108910e9afd32f4c7656,1,credit_card,5,137.83


In [24]:
avaliacoes_pedidos_df.sample(2)

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
10421,eb31553c792400e691bc8e70c50ca7df,875bc8ca828e1c5856dbc0b30da8cc34,5,Super recomendo,"Produto muito bom, entregue sem problemas, e a...",2018-07-01 00:00:00,2018-07-02 12:05:33
98453,44f6529bc33cb709b8b4b49589387395,38da3029219c1f40f3eaaae897430c3f,5,,Produto entregue antes do prazo,2017-09-20 00:00:00,2017-09-21 01:49:32


In [25]:
pedidos_df.sample(2)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
80068,eb56ddfc112b49241ad368f44da00dc3,5fd6dead0d9541b66439ca774ae0d73a,delivered,2017-11-17 19:55:36,2017-11-18 02:29:13,2017-11-20 15:36:23,2017-11-25 13:51:25,2017-12-18 00:00:00
83452,1e023f96b2ab8ba32db4efacb8df5249,c316d9222671b33a8b0d8c6a3a39ae3d,delivered,2017-11-10 13:49:38,2017-11-10 14:07:17,2017-11-14 21:56:58,2017-11-22 19:24:31,2017-12-05 00:00:00


In [26]:
produtos_df.sample(2)

Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
23642,525d714f91bdf4dc6849c3ed6323e6a8,eletrodomesticos,59.0,260.0,3.0,1625.0,24.0,12.0,17.0
9230,bddc970a859e17f3f60f337ff8d72dfa,cool_stuff,63.0,1190.0,2.0,268.0,12.0,9.0,19.0


In [27]:
vendedores_df.sample(5)

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
2084,6973a06f484aacf400ece213dbf3d946,12230,sao jose dos campos,SP
1993,d32e3909cfb714fb2a6cb092c85b9c5f,13215,jundiai,SP
519,2c54051840f19eca309a5423cf22df36,81830,curitiba,PR
236,fe4cd9461203cee790d36792420b310f,35300,caratinga,MG
1035,eb4a59a06b3948e851a7d7a830bcbc42,41820,salvador,BA


In [28]:
traducao_categorias_df.sample(2)

Unnamed: 0,product_category_name,product_category_name_english
19,consoles_games,consoles_games
29,pet_shop,pet_shop


In [29]:
produtos_df.describe()

Unnamed: 0,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
count,32341.0,32341.0,32341.0,32949.0,32949.0,32949.0,32949.0
mean,48.476949,771.495285,2.188986,2276.472488,30.815078,16.937661,23.196728
std,10.245741,635.115225,1.736766,4282.038731,16.914458,13.637554,12.079047
min,5.0,4.0,1.0,0.0,7.0,2.0,6.0
25%,42.0,339.0,1.0,300.0,18.0,8.0,15.0
50%,51.0,595.0,1.0,700.0,25.0,13.0,20.0
75%,57.0,972.0,3.0,1900.0,38.0,21.0,30.0
max,76.0,3992.0,20.0,40425.0,105.0,105.0,118.0


### 1.2 Identificação de valores ausentes

Identificamos valores ausentes em cada coluna dos DataFrames e organizamos os resultados em uma tabela consolidada para melhor visualização.

In [30]:
resumo = []

for nome, df in dataframes.items():
    valores_ausentes = df.isnull().sum() 
    df_resumo = pd.DataFrame({
        "DataFrame": [nome] * len(valores_ausentes),
        "Coluna": valores_ausentes.index,
        "Valores ausentes": valores_ausentes.values
    })
    resumo.append(df_resumo)
    
df_resumo_final = pd.concat(resumo, ignore_index=True)
df_resumo_final


Unnamed: 0,DataFrame,Coluna,Valores ausentes
0,clientes,customer_id,0
1,clientes,customer_unique_id,0
2,clientes,customer_zip_code_prefix,0
3,clientes,customer_city,0
4,clientes,customer_state,0
5,geolocalizacao,geolocation_zip_code_prefix,0
6,geolocalizacao,geolocation_lat,0
7,geolocalizacao,geolocation_lng,0
8,geolocalizacao,geolocation_city,0
9,geolocalizacao,geolocation_state,0


## **2. Limpeza e Tratamento dos Dados**
Antes de realizar análises mais aprofundadas, é essencial tratar dados ausentes e inconsistências. Nesta etapa:
- Comentários e títulos ausentes nas avaliações foram preenchidos com valores padrão.
- Valores numéricos ausentes (como dimensões de produtos) foram preenchidos com a média.

In [31]:

# Preenchendo valores ausentes
avaliacoes_pedidos_df['review_comment_message'] = avaliacoes_pedidos_df['review_comment_message'].fillna('Sem Comentário')
avaliacoes_pedidos_df['review_comment_title'] = avaliacoes_pedidos_df['review_comment_title'].fillna('Sem Título')

# Preenchendo valores numéricos ausentes com a média
colunas_numericas = [
    'product_name_lenght', 'product_description_lenght', 'product_photos_qty',
    'product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm'
]
produtos_df[colunas_numericas] = produtos_df[colunas_numericas].apply(lambda col: col.fillna(col.mean()))

# Confirmando a limpeza
produtos_df.isnull().sum()


product_id                      0
product_category_name         610
product_name_lenght             0
product_description_lenght      0
product_photos_qty              0
product_weight_g                0
product_length_cm               0
product_height_cm               0
product_width_cm                0
dtype: int64

## **3. Análise Exploratória de Dados (EDA)**

Exploramos os dados disponíveis para identificar tendências, padrões e insights relevantes. A análise abrange diferentes aspectos da plataforma Olist, como categorias de produtos, métodos de pagamento e outros. Essas informações ajudam a compreender o comportamento dos clientes, desempenho de vendas e possíveis áreas de melhoria.


### Top 10 Categorias Mais Vendidas

In [32]:
produtos_df = produtos_df.merge(traducao_categorias_df, on='product_category_name', how='left')

# Tabela 1: Top 10 categorias mais vendidas
top_categorias = (
    itens_pedidos_df.merge(produtos_df, on='product_id')
    .groupby('product_category_name_english')['order_id']
    .count()
    .sort_values(ascending=False)
    .reset_index()
    .rename(columns={'order_id': 'Quantidade de Pedidos', 'product_category_name_english': 'Categoria'})
    .head(10)
)
top_categorias

Unnamed: 0,Categoria,Quantidade de Pedidos
0,bed_bath_table,11115
1,health_beauty,9670
2,sports_leisure,8641
3,furniture_decor,8334
4,computers_accessories,7827
5,housewares,6964
6,watches_gifts,5991
7,telephony,4545
8,garden_tools,4347
9,auto,4235


In [37]:
# Visualização 1: Categorias mais vendidas
fig1 = px.bar(
    top_categorias,
    x='Quantidade de Pedidos',
    y='Categoria',
    orientation='h',
    title='Top 10 Categorias Mais Vendidas',
    labels={'Quantidade de Pedidos': 'Pedidos', 'Categoria': 'Categoria'},
    text='Quantidade de Pedidos'
)
fig1.update_layout(title_x=0.5)
fig1.show()

### Métodos de Pagamento Mais Utilizados

In [33]:
metodos_pagamento = (
    pagamentos_pedidos_df.groupby('payment_type')['payment_value']
    .sum()
    .sort_values(ascending=False)
    .reset_index()
    .rename(columns={'payment_type': 'Método de Pagamento', 'payment_value': 'Total Pago (R$)'})
)
metodos_pagamento

Unnamed: 0,Método de Pagamento,Total Pago (R$)
0,credit_card,12542084.19
1,boleto,2869361.27
2,voucher,379436.87
3,debit_card,217989.79
4,not_defined,0.0


In [35]:
fig2 = px.pie(
    metodos_pagamento,
    values='Total Pago (R$)',
    names='Método de Pagamento',
    title='Distribuição dos Pagamentos por Método',
    hole=0.4
)
fig2.update_layout(title_x=0.5)
fig2.show()