
# Análise de Dados - Olist

Este notebook apresenta uma análise detalhada dos dados da plataforma Olist. O objetivo é identificar tendências, desafios e oportunidades para melhorar a performance de vendas, logística e satisfação dos clientes.

---

## **Sumário**
1. [Carregamento de dados](#Carregamento-de-dados)
2. [Limpeza e Tratamento dos Dados](#Limpeza-e-Tratamento-dos-Dados)
3. [Análise Exploratória de Dados (EDA)](#Análise-Exploratória-de-Dados)
    - [3.1 placeholder](#placeholder)
---


## **1. Carregamento dos Dados**

Para iniciar, carregamos os arquivos principais do dataset do Olist. Isso inclui informações sobre clientes, pedidos, vendedores, produtos e outros. A pré-visualização dos dados permite entender a estrutura e os campos disponíveis.

In [49]:

import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns

# Configuração para exibição completa
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 55)

# Caminhos dos arquivos
caminhos = {
    "clientes": "dados/olist_customers_dataset.csv",
    "geolocalizacao": "dados/olist_geolocation_dataset.csv",
    "itens_pedidos": "dados/olist_order_items_dataset.csv",
    "pagamentos_pedidos": "dados/olist_order_payments_dataset.csv",
    "avaliacoes_pedidos": "dados/olist_order_reviews_dataset.csv",
    "pedidos": "dados/olist_orders_dataset.csv",
    "produtos": "dados/olist_products_dataset.csv",
    "vendedores": "dados/olist_sellers_dataset.csv",
    "traducao_categorias": "dados/product_category_name_translation.csv",
}

# Carregando os arquivos
dataframes = {nome: pd.read_csv(caminho) for nome, caminho in caminhos.items()}

clientes_df = dataframes["clientes"]
geolocalizacao_df = dataframes["geolocalizacao"]
itens_pedidos_df = dataframes["itens_pedidos"]
pagamentos_pedidos_df = dataframes["pagamentos_pedidos"]
avaliacoes_pedidos_df = dataframes["avaliacoes_pedidos"]
pedidos_df = dataframes["pedidos"]
produtos_df = dataframes["produtos"]
vendedores_df = dataframes["vendedores"]
traducao_categorias_df = dataframes["traducao_categorias"]

### 1.1 Pré-visualização dos Dados

Exibimos uma amostra de cada DataFrame para entender sua estrutura e conteúdo.

In [50]:
clientes_df.sample(2)

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
3883,28fdcbdf2ebc3b9d20d4a810cec6a8b7,1fe76010d06f4c73ed78f3a7d469d93e,38360,capinopolis,MG
19852,2686a83dc8181e558df153bea379e2de,cb9e777d2d1ac22f85edc2fbf95dc917,8780,mogi das cruzes,SP


In [51]:
geolocalizacao_df.sample(2)

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
262259,11706,-24.04906,-46.531376,praia grande,SP
430041,21310,-22.878441,-43.337284,rio de janeiro,RJ


In [52]:
itens_pedidos_df.sample(2)

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
98628,dfac3f1dc24186a8287f0a64c7b9f2a8,1,ee49de8fc5d17f5a154d8c649700f6ff,66dc1b1632bd6a3e508510c5b3492107,2017-12-06 02:26:10,29.9,15.1
31793,4819cd593b17ce6f5757d395b2597a9d,1,a9516a079e37a9c9c36b9b78b10169e8,7c67e1448b00f6e969d365cea6b010ab,2017-06-14 11:23:00,124.99,18.59


In [53]:
pagamentos_pedidos_df.sample(2)

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
5955,ec073f2bd759729986c0da65f688ddc8,1,credit_card,6,246.82
64652,3b3fa4755e2966230cf01bf2899a7b5f,1,credit_card,1,42.47


In [54]:
avaliacoes_pedidos_df.sample(2)

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
61383,f8e1efd927b9f7db95198e55bdebfb29,8aa9f9fb8d016c8abd90a65dcd7f2ab6,5,,,2017-01-31 00:00:00,2017-01-31 23:22:36
3462,02484b7544bb08a43ee16332b327f209,343214a6de71b79c0166799ba08e148f,5,,,2017-12-01 00:00:00,2017-12-05 00:04:00


In [55]:
pedidos_df.sample(2)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
87742,4f8aa330d043e9db140284db7a6c3359,cd4260e37ba9618a2aca53bd78ca9a8d,delivered,2017-10-24 22:05:41,2017-10-24 22:26:12,2017-10-26 16:12:19,2017-11-20 18:35:39,2017-11-29 00:00:00
51619,1b972feb2ea1e13fc92a33e665b399c8,19e82b646b98e2385f2651c33efd6e5a,delivered,2018-01-22 22:23:18,2018-01-22 22:33:24,2018-01-23 22:48:46,2018-03-16 20:52:19,2018-02-19 00:00:00


In [56]:
produtos_df.sample(2)

Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
15443,c32b7bfeed5a912b80e7e1fd8df8c95f,utilidades_domesticas,43.0,76.0,5.0,200.0,18.0,4.0,12.0
15093,0bd7e7a520ec0ac94f95b47cecc844d6,moveis_decoracao,24.0,1405.0,3.0,200.0,35.0,2.0,25.0


In [57]:
vendedores_df.sample(5)

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
55,0747d5bb69f0586cc869d8af4c50f93e,28990,saquarema,RJ
2864,89a51f50b8095ea78d5768f34c13a76f,71931,brasilia,DF
2868,6d04126aba80df143fd038e711b8fd96,20091,rio de janeiro,RJ
2338,2a61c271b1ac763450d846849783e922,9175,santo andre,SP
2607,b586cd24c010a13916af621b0325fbba,89164,rio do sul,SC


In [58]:
traducao_categorias_df.sample(2)

Unnamed: 0,product_category_name,product_category_name_english
3,cama_mesa_banho,bed_bath_table
64,cds_dvds_musicais,cds_dvds_musicals


In [59]:
produtos_df.describe()

Unnamed: 0,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
count,32341.0,32341.0,32341.0,32949.0,32949.0,32949.0,32949.0
mean,48.476949,771.495285,2.188986,2276.472488,30.815078,16.937661,23.196728
std,10.245741,635.115225,1.736766,4282.038731,16.914458,13.637554,12.079047
min,5.0,4.0,1.0,0.0,7.0,2.0,6.0
25%,42.0,339.0,1.0,300.0,18.0,8.0,15.0
50%,51.0,595.0,1.0,700.0,25.0,13.0,20.0
75%,57.0,972.0,3.0,1900.0,38.0,21.0,30.0
max,76.0,3992.0,20.0,40425.0,105.0,105.0,118.0


### 1.2 Identificação de valores ausentes

Identificamos valores ausentes em cada coluna dos DataFrames e organizamos os resultados em uma tabela consolidada para melhor visualização.

In [60]:
resumo = []

for nome, df in dataframes.items():
    valores_ausentes = df.isnull().sum() 
    df_resumo = pd.DataFrame({
        "DataFrame": [nome] * len(valores_ausentes),
        "Coluna": valores_ausentes.index,
        "Valores ausentes": valores_ausentes.values
    })
    resumo.append(df_resumo)
    
df_resumo_final = pd.concat(resumo, ignore_index=True)
df_resumo_final


Unnamed: 0,DataFrame,Coluna,Valores ausentes
0,clientes,customer_id,0
1,clientes,customer_unique_id,0
2,clientes,customer_zip_code_prefix,0
3,clientes,customer_city,0
4,clientes,customer_state,0
5,geolocalizacao,geolocation_zip_code_prefix,0
6,geolocalizacao,geolocation_lat,0
7,geolocalizacao,geolocation_lng,0
8,geolocalizacao,geolocation_city,0
9,geolocalizacao,geolocation_state,0


## **2. Limpeza e Tratamento dos Dados**
Antes de realizar análises mais aprofundadas, é essencial tratar dados ausentes e inconsistências. Nesta etapa:
- Comentários e títulos ausentes nas avaliações foram preenchidos com valores padrão.
- Valores numéricos ausentes (como dimensões de produtos) foram preenchidos com a média.

In [61]:

# Preenchendo valores ausentes
avaliacoes_pedidos_df['review_comment_message'] = avaliacoes_pedidos_df['review_comment_message'].fillna('Sem Comentário')
avaliacoes_pedidos_df['review_comment_title'] = avaliacoes_pedidos_df['review_comment_title'].fillna('Sem Título')

# Preenchendo valores numéricos ausentes com a média
colunas_numericas = [
    'product_name_lenght', 'product_description_lenght', 'product_photos_qty',
    'product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm'
]
produtos_df[colunas_numericas] = produtos_df[colunas_numericas].apply(lambda col: col.fillna(col.mean()))

# Confirmando a limpeza
produtos_df.isnull().sum()


product_id                      0
product_category_name         610
product_name_lenght             0
product_description_lenght      0
product_photos_qty              0
product_weight_g                0
product_length_cm               0
product_height_cm               0
product_width_cm                0
dtype: int64

## **3. Análise Exploratória de Dados**