In [2]:
# Importações e Configurações
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

# Conexão com MySQL
connection_string = "mysql+pymysql://root:root123@localhost/olist_ecommerce"
engine = create_engine(connection_string)

print("Configurações inicializadas com sucesso!")

Configurações inicializadas com sucesso!


In [6]:
# Preparação dos Dados para Power BI

import os

# Criar pasta powerbi se não existir
if not os.path.exists('powerbi'):
    os.makedirs('powerbi')

# 1. Query de vendas
query_vendas = """
SELECT 
    DATE(o.order_purchase_timestamp) as data_venda,
    MONTH(o.order_purchase_timestamp) as mes_venda,
    YEAR(o.order_purchase_timestamp) as ano_venda,
    o.order_id,
    c.customer_id,
    c.customer_state as estado,
    oi.seller_id,
    p.product_category_name as categoria,
    oi.price as valor_produto,
    oi.freight_value as valor_frete,
    (oi.price + oi.freight_value) as valor_total,
    DATEDIFF(o.order_delivered_customer_date, o.order_purchase_timestamp) as tempo_entrega,
    CASE 
        WHEN DATEDIFF(o.order_delivered_customer_date, o.order_estimated_delivery_date) <= 0 THEN 1 
        ELSE 0 
    END as entrega_no_prazo,
    CASE
        WHEN oi.price <= 50 THEN 'Até R$50'
        WHEN oi.price <= 100 THEN 'R$51 a R$100'
        WHEN oi.price <= 200 THEN 'R$101 a R$200'
        ELSE 'Acima de R$200'
    END as faixa_preco
FROM orders o
JOIN order_items oi ON o.order_id = oi.order_id
JOIN customers c ON o.customer_id = c.customer_id
JOIN products p ON oi.product_id = p.product_id
WHERE o.order_status = 'delivered';
"""

# 2. Query de vendedores
query_vendedores = """
SELECT 
    oi.seller_id,
    COUNT(DISTINCT o.order_id) as total_pedidos,
    COUNT(DISTINCT p.product_category_name) as total_categorias,
    ROUND(SUM(oi.price), 2) as receita_total,
    ROUND(AVG(oi.price), 2) as ticket_medio,
    ROUND(AVG(oi.freight_value), 2) as frete_medio,
    CASE
        WHEN COUNT(DISTINCT o.order_id) <= 10 THEN 'Pequeno'
        WHEN COUNT(DISTINCT o.order_id) <= 100 THEN 'Médio'
        ELSE 'Grande'
    END as porte_vendedor
FROM order_items oi
JOIN orders o ON oi.order_id = o.order_id
JOIN products p ON oi.product_id = p.product_id
GROUP BY oi.seller_id;
"""

# 3. Query de clientes
query_clientes = """
SELECT 
    c.customer_id,
    c.customer_state,
    COUNT(DISTINCT o.order_id) as total_pedidos,
    ROUND(SUM(oi.price), 2) as valor_total_compras,
    ROUND(AVG(oi.price), 2) as ticket_medio,
    COUNT(DISTINCT p.product_category_name) as categorias_compradas,
    ROUND(AVG(oi.freight_value), 2) as frete_medio,
    CASE
        WHEN SUM(oi.price) <= 100 THEN 'Baixo Valor'
        WHEN SUM(oi.price) <= 500 THEN 'Médio Valor'
        ELSE 'Alto Valor'
    END as segmento_cliente
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
JOIN order_items oi ON o.order_id = oi.order_id
JOIN products p ON oi.product_id = p.product_id
GROUP BY c.customer_id, c.customer_state;
"""

# Carregar e tratar os dados
print("🔄 Carregando dados aprimorados...")
df_vendas = pd.read_sql(query_vendas, engine)
df_vendedores = pd.read_sql(query_vendedores, engine)
df_clientes = pd.read_sql(query_clientes, engine)

# Tratamento adicional
df_vendas['categoria'] = df_vendas['categoria'].fillna('outros')
df_vendas['tempo_entrega'] = df_vendas['tempo_entrega'].fillna(df_vendas['tempo_entrega'].median())

# Salvar arquivos
print("💾 Salvando arquivos...")
df_vendas.to_csv('powerbi/vendas_olist.csv', index=False)
df_vendedores.to_csv('powerbi/vendedores_olist.csv', index=False)
df_clientes.to_csv('powerbi/clientes_olist.csv', index=False)

print("\n📁 Arquivos salvos na pasta 'powerbi':")
print(f"1. vendas_olist.csv: {len(df_vendas):,} registros")
print(f"2. vendedores_olist.csv: {len(df_vendedores):,} registros")
print(f"3. clientes_olist.csv: {len(df_clientes):,} registros")

🔄 Carregando dados aprimorados...
💾 Salvando arquivos...

📁 Arquivos salvos na pasta 'powerbi':
1. vendas_olist.csv: 110,197 registros
2. vendedores_olist.csv: 3,095 registros
3. clientes_olist.csv: 98,666 registros


In [7]:
# Verificar localização dos arquivos
import os

# Mostrar diretório atual
current_dir = os.getcwd()
powerbi_dir = os.path.join(current_dir, 'powerbi')

print("📂 Localização dos arquivos:")
print(f"Diretório atual: {current_dir}")
print(f"Pasta PowerBI: {powerbi_dir}")

# Listar arquivos na pasta powerbi
print("\n📄 Arquivos na pasta powerbi:")
for file in os.listdir('powerbi'):
    file_path = os.path.join(powerbi_dir, file)
    file_size = os.path.getsize(file_path) / (1024 * 1024)  # Converter para MB
    print(f"- {file}: {file_size:.2f} MB")


📂 Localização dos arquivos:
Diretório atual: c:\Users\ADM\Documents\ecommerce-analysis\notebooks
Pasta PowerBI: c:\Users\ADM\Documents\ecommerce-analysis\notebooks\powerbi

📄 Arquivos na pasta powerbi:
- clientes_olist.csv: 6.63 MB
- vendas_olist.csv: 18.24 MB
- vendedores_olist.csv: 0.19 MB


In [9]:
# Reorganização dos arquivos
import os
import shutil  # Para operações com arquivos mais seguras

# Definir caminhos
data_path = os.path.join('..', 'data')
processed_path = os.path.join(data_path, 'processed')
powerbi_path = os.path.join(processed_path, 'powerbi')

# Criar estrutura de pastas
for path in [data_path, processed_path, powerbi_path]:
    if not os.path.exists(path):
        os.makedirs(path)

# Mover arquivos 
arquivos = ['vendas_olist.csv', 'vendedores_olist.csv', 'clientes_olist.csv']
for arquivo in arquivos:
    if os.path.exists(arquivo):  # Se está na pasta atual (notebooks)
        shutil.move(arquivo, os.path.join(powerbi_path, arquivo))
    elif os.path.exists(os.path.join('powerbi', arquivo)):  # Se está na pasta powerbi
        shutil.move(os.path.join('powerbi', arquivo), os.path.join(powerbi_path, arquivo))

# Remover pasta powerbi se estiver vazia
if os.path.exists('powerbi') and len(os.listdir('powerbi')) == 0:
    os.rmdir('powerbi')

print("📁 Estrutura de pastas:")
print(f"- {powerbi_path}")

print("\n📄 Verificando arquivos:")
if os.path.exists(powerbi_path):
    for file in os.listdir(powerbi_path):
        file_size = os.path.getsize(os.path.join(powerbi_path, file)) / (1024 * 1024)
        print(f"- {file}: {file_size:.2f} MB")
else:
    print("Pasta powerbi não encontrada!")


📁 Estrutura de pastas:
- ..\data\processed\powerbi

📄 Verificando arquivos:
- clientes_olist.csv: 6.63 MB
- vendas_olist.csv: 18.24 MB
- vendedores_olist.csv: 0.19 MB


In [4]:
# Importações e Configurações
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

# Conexão com MySQL
connection_string = "mysql+pymysql://root:root123@localhost/olist_ecommerce"
engine = create_engine(connection_string)

In [5]:
# Verificação dos tempos de entrega
query_check_entregas = """
SELECT 
    o.order_id,
    o.order_purchase_timestamp,
    o.order_delivered_customer_date,
    DATEDIFF(o.order_delivered_customer_date, o.order_purchase_timestamp) as tempo_entrega
FROM orders o
WHERE o.order_status = 'delivered'
ORDER BY DATEDIFF(o.order_delivered_customer_date, o.order_purchase_timestamp) DESC
LIMIT 10;
"""

# Verificar os casos extremos
df_check = pd.read_sql(query_check_entregas, engine)
print("🔍 Top 10 maiores tempos de entrega:")
print(df_check)

# Estatísticas básicas
query_stats = """
SELECT 
    COUNT(*) as total_pedidos,
    MIN(DATEDIFF(order_delivered_customer_date, order_purchase_timestamp)) as min_dias,
    AVG(DATEDIFF(order_delivered_customer_date, order_purchase_timestamp)) as media_dias,
    MAX(DATEDIFF(order_delivered_customer_date, order_purchase_timestamp)) as max_dias
FROM orders
WHERE order_status = 'delivered';
"""

df_stats = pd.read_sql(query_stats, engine)
print("\n📊 Estatísticas dos tempos de entrega:")
print(df_stats)


🔍 Top 10 maiores tempos de entrega:
                           order_id order_purchase_timestamp  \
0  ca07593549f1816d26a572e06dc1eab6      2017-02-21 23:31:27   
1  1b3190b2dfa9d789e1f14c05b647a14a      2018-02-23 14:57:35   
2  440d0d17af552815d15a9e41abe49359      2017-03-07 23:59:51   
3  285ab9426d6982034523a855f55a885e      2017-03-08 22:47:40   
4  2fb597c2f772eca01b1f5c561bf6cc7b      2017-03-08 18:09:02   
5  0f4519c5f1c541ddec9f21b3bddd533a      2017-03-09 13:26:57   
6  47b40429ed8cce3aee9199792275433f      2018-01-03 09:44:01   
7  2fe324febf907e3ea3f2aa9650869fa5      2017-03-13 20:17:10   
8  c27815f7e3dd0b926b58552628481575      2017-03-15 23:23:17   
9  2d7561026d542c8dbd8f0daeadf67a43      2017-03-15 11:24:27   

  order_delivered_customer_date  tempo_entrega  
0           2017-09-19 14:36:39            210  
1           2018-09-19 23:24:07            208  
2           2017-09-19 15:12:50            196  
3           2017-09-19 14:00:04            195  
4           20

In [7]:
# Query de vendas ajustada
import os
import pandas as pd
from sqlalchemy import create_engine

# Conexão com MySQL
connection_string = "mysql+pymysql://root:root123@localhost/olist_ecommerce"
engine = create_engine(connection_string)

# Query ajustada
query_vendas = """
SELECT 
    DATE(o.order_purchase_timestamp) as data_venda,
    MONTH(o.order_purchase_timestamp) as mes_venda,
    YEAR(o.order_purchase_timestamp) as ano_venda,
    o.order_id as pedido,
    c.customer_id as cliente,
    c.customer_state as uf,
    oi.seller_id as vendedor,
    COALESCE(p.product_category_name, 'outros') as categoria_produto,
    ROUND(oi.price, 2) as valor_produto,
    ROUND(oi.freight_value, 2) as valor_frete,
    ROUND(oi.price + oi.freight_value, 2) as valor_total,
    CASE 
        WHEN DATEDIFF(o.order_delivered_customer_date, o.order_purchase_timestamp) > 60 
        THEN 60 
        ELSE DATEDIFF(o.order_delivered_customer_date, o.order_purchase_timestamp)
    END as tempo_entrega,
    CASE 
        WHEN DATEDIFF(o.order_delivered_customer_date, o.order_estimated_delivery_date) <= 0 THEN 'Sim'
        ELSE 'Não'
    END as entrega_no_prazo,
    CASE
        WHEN oi.price <= 50 THEN 'Até R$50'
        WHEN oi.price <= 100 THEN 'R$51 a R$100'
        WHEN oi.price <= 200 THEN 'R$101 a R$200'
        ELSE 'Acima de R$200'
    END as faixa_preco
FROM orders o
JOIN order_items oi ON o.order_id = oi.order_id
JOIN customers c ON o.customer_id = c.customer_id
JOIN products p ON oi.product_id = p.product_id
WHERE o.order_status = 'delivered'
    AND DATEDIFF(o.order_delivered_customer_date, o.order_purchase_timestamp) <= 60;
"""

# Executar query e salvar
df_vendas = pd.read_sql(query_vendas, engine)

# Criar diretório se não existir
output_dir = os.path.join('..', 'data', 'processed', 'powerbi')
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# Salvar arquivo
df_vendas.to_csv(os.path.join(output_dir, 'vendas_olist.csv'), index=False)

print("✅ Dados ajustados!")
print(f"Total de registros: {len(df_vendas):,}")
print("\n📊 Novo resumo dos tempos de entrega:")
print(f"Média: {df_vendas['tempo_entrega'].mean():.1f} dias")
print(f"Mediana: {df_vendas['tempo_entrega'].median():.1f} dias")
print(f"Máximo: {df_vendas['tempo_entrega'].max():.1f} dias")


✅ Dados ajustados!
Total de registros: 109,868

📊 Novo resumo dos tempos de entrega:
Média: 12.2 dias
Mediana: 10.0 dias
Máximo: 60.0 dias


In [8]:
# Query de vendedores corrigida
query_vendedores = """
SELECT 
    oi.seller_id,
    COUNT(DISTINCT o.order_id) as total_pedidos,
    COUNT(DISTINCT p.product_category_name) as total_categorias,
    ROUND(SUM(oi.price), 2) as receita_total,
    ROUND(SUM(oi.price) / COUNT(DISTINCT o.order_id), 2) as ticket_medio,
    ROUND(AVG(oi.freight_value), 2) as frete_medio,
    CASE
        WHEN COUNT(DISTINCT o.order_id) <= 10 THEN 'Pequeno'
        WHEN COUNT(DISTINCT o.order_id) <= 100 THEN 'Médio'
        ELSE 'Grande'
    END as porte_vendedor
FROM order_items oi
JOIN orders o ON oi.order_id = o.order_id
JOIN products p ON oi.product_id = p.product_id
WHERE o.order_status = 'delivered'
GROUP BY oi.seller_id;
"""

# Executar query e salvar
df_vendedores = pd.read_sql(query_vendedores, engine)

# Verificar alguns exemplos
print("🔍 Verificando alguns vendedores:")
exemplo = df_vendedores.sample(5)
for _, row in exemplo.iterrows():
    print(f"\nVendedor: {row['seller_id']}")
    print(f"Total Pedidos: {row['total_pedidos']}")
    print(f"Receita Total: R$ {row['receita_total']:,.2f}")
    print(f"Ticket Médio: R$ {row['ticket_medio']:,.2f}")

# Salvar arquivo corrigido
df_vendedores.to_csv(os.path.join('..', 'data', 'processed', 'powerbi', 'vendedores_olist.csv'), index=False)

print("\n📊 Estatísticas gerais:")
print(f"Ticket Médio (média): R$ {df_vendedores['ticket_medio'].mean():,.2f}")
print(f"Ticket Médio (mediana): R$ {df_vendedores['ticket_medio'].median():,.2f}")
print(f"Ticket Médio (máximo): R$ {df_vendedores['ticket_medio'].max():,.2f}")

🔍 Verificando alguns vendedores:

Vendedor: 446cc09cdbb130904da114e807dbec40
Total Pedidos: 3
Receita Total: R$ 252.80
Ticket Médio: R$ 84.27

Vendedor: 2f74af7a0ee5636f12c2336f9fffed47
Total Pedidos: 13
Receita Total: R$ 560.70
Ticket Médio: R$ 43.13

Vendedor: 93bef6edaa84956e8e575016449b6351
Total Pedidos: 1
Receita Total: R$ 115.00
Ticket Médio: R$ 115.00

Vendedor: d63c73efd41eb002280e7ec831424edb
Total Pedidos: 2
Receita Total: R$ 5,598.00
Ticket Médio: R$ 2,799.00

Vendedor: 180c3376aff0e43dd5788709df48a843
Total Pedidos: 5
Receita Total: R$ 4,513.00
Ticket Médio: R$ 902.60

📊 Estatísticas gerais:
Ticket Médio (média): R$ 195.52
Ticket Médio (mediana): R$ 105.15
Ticket Médio (máximo): R$ 6,735.00


In [12]:
# Salvar arquivo com formato brasileiro
query_vendedores = """
SELECT 
    oi.seller_id,
    COUNT(DISTINCT o.order_id) as total_pedidos,
    COUNT(DISTINCT p.product_category_name) as total_categorias,
    ROUND(SUM(oi.price), 2) as receita_total,
    ROUND(SUM(oi.price) / COUNT(DISTINCT o.order_id), 2) as ticket_medio,
    ROUND(SUM(oi.freight_value) / COUNT(DISTINCT o.order_id), 2) as frete_medio,
    CASE
        WHEN COUNT(DISTINCT o.order_id) <= 10 THEN 'Pequeno'
        WHEN COUNT(DISTINCT o.order_id) <= 100 THEN 'Médio'
        ELSE 'Grande'
    END as porte_vendedor
FROM order_items oi
JOIN orders o ON oi.order_id = o.order_id
JOIN products p ON oi.product_id = p.product_id
WHERE o.order_status = 'delivered'
GROUP BY oi.seller_id;
"""

# Executar query
df_vendedores = pd.read_sql(query_vendedores, engine)

# Converter colunas numéricas para string com vírgula
colunas_numericas = ['receita_total', 'ticket_medio', 'frete_medio']
for col in colunas_numericas:
    df_vendedores[col] = df_vendedores[col].apply(lambda x: f"{x:.2f}".replace('.', ','))

# Salvar arquivo
df_vendedores.to_csv(
    os.path.join('..', 'data', 'processed', 'powerbi', 'vendedores_olist.csv'), 
    index=False,
    sep=';'
)

# Verificar arquivo
print("📊 Verificando arquivo salvo:")
with open(os.path.join('..', 'data', 'processed', 'powerbi', 'vendedores_olist.csv'), 'r') as f:
    print("\nPrimeiras linhas do arquivo:")
    for i, line in enumerate(f):
        if i < 5:  # mostrar primeiras 5 linhas
            print(line.strip())


📊 Verificando arquivo salvo:

Primeiras linhas do arquivo:
seller_id;total_pedidos;total_categorias;receita_total;ticket_medio;frete_medio;porte_vendedor
0015a82c2db000af6aaaf3ae2ecb0532;3;1;2685,00;895,00;21,02;Pequeno
001cca7ae9ae17fb1caed9dfb1094831;195;2;24487,03;125,57;44,39;Grande
002100f778ceb8431b7a1020ff7ab48f;50;1;1216,60;24,33;15,57;Médio
003554e2dce176b5555353e4f3555ac8;1;0;120,00;120,00;19,38;Pequeno


In [13]:
# Query vendedores corrigida (total_categorias)
query_vendedores = """
SELECT 
    oi.seller_id,
    COUNT(DISTINCT o.order_id) as total_pedidos,
    COUNT(DISTINCT COALESCE(p.product_category_name, 'outros')) as total_categorias,
    ROUND(SUM(oi.price), 2) as receita_total,
    ROUND(SUM(oi.price) / COUNT(DISTINCT o.order_id), 2) as ticket_medio,
    ROUND(SUM(oi.freight_value) / COUNT(DISTINCT o.order_id), 2) as frete_medio,
    CASE
        WHEN COUNT(DISTINCT o.order_id) <= 10 THEN 'Pequeno'
        WHEN COUNT(DISTINCT o.order_id) <= 100 THEN 'Médio'
        ELSE 'Grande'
    END as porte_vendedor
FROM order_items oi
JOIN orders o ON oi.order_id = o.order_id
JOIN products p ON oi.product_id = p.product_id
WHERE o.order_status = 'delivered'
GROUP BY oi.seller_id;
"""

# Executar query
df_vendedores = pd.read_sql(query_vendedores, engine)

# Converter colunas numéricas para string com vírgula
colunas_numericas = ['receita_total', 'ticket_medio', 'frete_medio']
for col in colunas_numericas:
    df_vendedores[col] = df_vendedores[col].apply(lambda x: f"{x:.2f}".replace('.', ','))

# Salvar arquivo
df_vendedores.to_csv(
    os.path.join('..', 'data', 'processed', 'powerbi', 'vendedores_olist.csv'), 
    index=False,
    sep=';'
)

# Verificar se ainda existem categorias zeradas
print("🔍 Verificando registros com total_categorias = 0:")
zero_cat = df_vendedores[df_vendedores['total_categorias'] == 0]
if len(zero_cat) > 0:
    print("\nAinda existem registros com 0 categorias:")
    print(zero_cat[['seller_id', 'total_pedidos', 'total_categorias']])
else:
    print("\n✅ Não há mais registros com 0 categorias!")

🔍 Verificando registros com total_categorias = 0:

✅ Não há mais registros com 0 categorias!


In [14]:
# Query de clientes
query_clientes = """
SELECT 
    c.customer_id as cliente_id,
    c.customer_state as estado,
    COUNT(DISTINCT o.order_id) as total_pedidos,
    ROUND(SUM(oi.price), 2) as valor_total_compras,
    ROUND(SUM(oi.price) / COUNT(DISTINCT o.order_id), 2) as ticket_medio,
    COUNT(DISTINCT COALESCE(p.product_category_name, 'outros')) as categorias_compradas,
    ROUND(SUM(oi.freight_value) / COUNT(DISTINCT o.order_id), 2) as frete_medio,
    CASE
        WHEN SUM(oi.price) <= 100 THEN 'Baixo Valor'
        WHEN SUM(oi.price) <= 500 THEN 'Médio Valor'
        ELSE 'Alto Valor'
    END as segmento_cliente
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
JOIN order_items oi ON o.order_id = oi.order_id
JOIN products p ON oi.product_id = p.product_id
WHERE o.order_status = 'delivered'
GROUP BY c.customer_id, c.customer_state;
"""

# Executar query
df_clientes = pd.read_sql(query_clientes, engine)

# Converter colunas numéricas para string com vírgula
colunas_numericas = ['valor_total_compras', 'ticket_medio', 'frete_medio']
for col in colunas_numericas:
    df_clientes[col] = df_clientes[col].apply(lambda x: f"{x:.2f}".replace('.', ','))

# Salvar arquivo
df_clientes.to_csv(
    os.path.join('..', 'data', 'processed', 'powerbi', 'clientes_olist.csv'), 
    index=False,
    sep=';'
)

# Verificar dados
print("📊 Amostra dos dados:")
print(df_clientes.head())

print("\n📈 Estatísticas:")
print(f"Total de clientes: {len(df_clientes):,}")
print(f"Estados únicos: {df_clientes['estado'].nunique()}")
print(f"Média de pedidos por cliente: {df_clientes['total_pedidos'].mean():.2f}")
print("\nDistribuição por segmento:")
print(df_clientes['segmento_cliente'].value_counts())

📊 Amostra dos dados:
                         cliente_id estado  total_pedidos valor_total_compras  \
0  00012a2ce6f8dcda20d059ce98491703     SP              1               89,80   
1  000161a058600d5901f007fab4c27140     MG              1               54,90   
2  0001fd6190edaaf884bcaf3d49edf079     ES              1              179,99   
3  0002414f95344307404f0ace7a26f1d5     MG              1              149,90   
4  000379cdec625522490c315e70c7a9fb     SP              1               93,00   

  ticket_medio  categorias_compradas frete_medio segmento_cliente  
0        89,80                     1       24,94      Baixo Valor  
1        54,90                     1       12,51      Baixo Valor  
2       179,99                     1       15,43      Médio Valor  
3       149,90                     1       29,45      Médio Valor  
4        93,00                     1       14,01      Baixo Valor  

📈 Estatísticas:
Total de clientes: 96,478
Estados únicos: 27
Média de pedidos por c

In [15]:
# Query para verificar contagens
query_check = """
SELECT 
    COUNT(DISTINCT o.order_id) as total_pedidos,
    COUNT(DISTINCT c.customer_id) as total_clientes,
    COUNT(DISTINCT o.customer_id) as total_clientes_pedidos
FROM orders o
JOIN customers c ON o.customer_id = c.customer_id
WHERE o.order_status = 'delivered';
"""

# Executar query
df_check = pd.read_sql(query_check, engine)
print("Verificação de contagens:")
print(df_check)


Verificação de contagens:
   total_pedidos  total_clientes  total_clientes_pedidos
0          96478           96478                   96478


In [16]:
# Verificar detalhes dos pedidos
query_details = """
SELECT 
    customer_id,
    COUNT(order_id) as pedidos_por_cliente
FROM orders
WHERE order_status = 'delivered'
GROUP BY customer_id
ORDER BY pedidos_por_cliente DESC
LIMIT 10;
"""

# Executar query
df_details = pd.read_sql(query_details, engine)
print("\nClientes com mais pedidos:")
print(df_details)



Clientes com mais pedidos:
                        customer_id  pedidos_por_cliente
0  9ef432eb6251297304e76186b10a928d                    1
1  b0830fb4747a6c6d20dea0b8c802d7ef                    1
2  41ce2a54c0b03bf3443c3d931a367089                    1
3  f88197465ea7920adcdbec7375364d82                    1
4  8ab97904e6daea8866dbdbc4fb7aad2c                    1
5  503740e9ca751ccdda7ba28e9ab8f608                    1
6  9bdf08b4b3b52b5526ff42d37d47f222                    1
7  f54a9f0e6b351c431402b8461ea51999                    1
8  31ad1d1b63eb9962463f764d4e6e0c9d                    1
9  494dded5b201313c64ed7f100595b95c                    1


In [1]:
# Importações necessárias
import pandas as pd
from sqlalchemy import create_engine

# Criar conexão com o banco
connection_string = "mysql+pymysql://root:root123@localhost/olist_ecommerce"
engine = create_engine(connection_string)

# Query para verificar frete
query_frete = """
SELECT 
    ROUND(AVG(freight_value), 2) as frete_medio,
    ROUND(MIN(freight_value), 2) as frete_minimo,
    ROUND(MAX(freight_value), 2) as frete_maximo,
    COUNT(*) as total_pedidos
FROM order_items oi
JOIN orders o ON oi.order_id = o.order_id
WHERE o.order_status = 'delivered';
"""

# Executar query
df_frete = pd.read_sql(query_frete, engine)
print("Análise do Frete:")
print(df_frete)

Análise do Frete:
   frete_medio  frete_minimo  frete_maximo  total_pedidos
0        19.95           0.0        409.68         110197


In [2]:
# Query para verificar ticket médio por estado
query_ticket = """
SELECT 
    c.customer_state as estado,
    ROUND(SUM(oi.price)/COUNT(DISTINCT o.order_id), 2) as ticket_medio
FROM order_items oi
JOIN orders o ON oi.order_id = o.order_id
JOIN customers c ON o.customer_id = c.customer_id
WHERE o.order_status = 'delivered'
GROUP BY c.customer_state
ORDER BY ticket_medio DESC
LIMIT 5;
"""

# Executar query
df_ticket = pd.read_sql(query_ticket, engine)
print("Top 5 Estados - Ticket Médio:")
print(df_ticket)

Top 5 Estados - Ticket Médio:
  estado  ticket_medio
0     PB        217.77
1     AP        199.62
2     AC        199.14
3     AL        198.63
4     RO        187.99


In [3]:
# Query para verificar alguns valores da tabela
query_check = """
SELECT 
    o.order_id,
    oi.price as valor_produto,
    oi.freight_value as valor_frete,
    COUNT(*) OVER (PARTITION BY o.order_id) as itens_no_pedido
FROM order_items oi
JOIN orders o ON oi.order_id = o.order_id
WHERE o.order_status = 'delivered'
LIMIT 10;
"""

# Executar query
df_check = pd.read_sql(query_check, engine)
print("Amostra de valores:")
print(df_check)

# Verificar estatísticas
print("\nEstatísticas gerais:")
print(df_check.describe())

Amostra de valores:
                           order_id  valor_produto  valor_frete  \
0  00010242fe8c5a6d1ba2dd792cb16214          58.90        13.29   
1  00018f77f2f0320c557190d7a144bdd3         239.90        19.93   
2  000229ec398224ef6ca0657da4fc703e         199.00        17.87   
3  00024acbcdf0a6daa1e931b038114c75          12.99        12.79   
4  00042b26cf59d7ce69dfabb4e55b4fd9         199.90        18.14   
5  00048cc3ae777c65dbb7d2a0634bc1ea          21.90        12.69   
6  00054e8431b9d7675808bcb819fb4a32          19.90        11.85   
7  000576fe39319847cbb9d288c5617fa6         810.00        70.75   
8  0005a1a1728c9d785b8e2b08b904576c         145.95        11.65   
9  0005f50442cb953dcd1d21e1fb923495          53.99        11.40   

   itens_no_pedido  
0                1  
1                1  
2                1  
3                1  
4                1  
5                1  
6                1  
7                1  
8                1  
9                1  

Estatístic

In [7]:
# 1. Validação de Vendas
query_vendas = """
SELECT 
    COUNT(DISTINCT o.order_id) as total_pedidos,
    ROUND(SUM(oi.price), 2) as valor_total_produtos,
    ROUND(SUM(oi.freight_value), 2) as valor_total_fretes,
    ROUND(SUM(oi.price + oi.freight_value), 2) as valor_total_geral,
    ROUND(AVG(oi.price), 2) as ticket_medio_produto,
    ROUND(AVG(oi.freight_value), 2) as frete_medio
FROM orders o
JOIN order_items oi ON o.order_id = oi.order_id
WHERE o.order_status = 'delivered';
"""

# 2. Top 5 Estados
query_estados = """
SELECT 
    c.customer_state,
    COUNT(DISTINCT o.order_id) as total_pedidos,
    ROUND(SUM(oi.price + oi.freight_value), 2) as valor_total
FROM orders o
JOIN order_items oi ON o.order_id = oi.order_id
JOIN customers c ON o.customer_id = c.customer_id
WHERE o.order_status = 'delivered'
GROUP BY c.customer_state
ORDER BY valor_total DESC
LIMIT 5;
"""

print("=== VALORES BASE ===")
print(pd.read_sql(query_vendas, engine))
print("\n=== TOP 5 ESTADOS ===")
print(pd.read_sql(query_estados, engine))

=== VALORES BASE ===
   total_pedidos  valor_total_produtos  valor_total_fretes  valor_total_geral  \
0          96478           13221498.11          2198275.64        15419773.75   

   ticket_medio_produto  frete_medio  
0                119.98        19.95  

=== TOP 5 ESTADOS ===
  customer_state  total_pedidos  valor_total
0             SP          40501   5769703.15
1             RJ          12350   2055401.57
2             MG          11354   1818891.67
3             RS           5345    861472.79
4             PR           4923    781708.80


# Documentação dos Dados

## 📊 Estrutura dos Datasets

### 1. Vendas (vendas_olist.csv)
**Tamanho**: 18.24 MB  
**Registros**: 110,197  
**Colunas**:
- `data_venda`: Data da compra
- `mes_venda`: Mês da venda
- `ano_venda`: Ano da venda
- `order_id`: ID único do pedido
- `customer_id`: ID do cliente
- `estado`: Estado do cliente
- `seller_id`: ID do vendedor
- `categoria`: Categoria do produto
- `valor_produto`: Valor do produto
- `valor_frete`: Valor do frete
- `valor_total`: Valor total (produto + frete)
- `tempo_entrega`: Tempo de entrega em dias
- `entrega_no_prazo`: Flag de entrega no prazo (1: sim, 0: não)
- `faixa_preco`: Classificação por faixa de preço

### 2. Vendedores (vendedores_olist.csv)
**Tamanho**: 0.19 MB  
**Registros**: 3,095  
**Colunas**:
- `seller_id`: ID único do vendedor
- `total_pedidos`: Total de pedidos do vendedor
- `total_categorias`: Número de categorias diferentes
- `receita_total`: Receita total do vendedor
- `ticket_medio`: Ticket médio do vendedor
- `frete_medio`: Valor médio do frete
- `porte_vendedor`: Classificação do vendedor (Pequeno, Médio, Grande)

### 3. Clientes (clientes_olist.csv)
**Tamanho**: 6.63 MB  
**Registros**: 98,666  
**Colunas**:
- `customer_id`: ID único do cliente
- `customer_state`: Estado do cliente
- `total_pedidos`: Total de pedidos do cliente
- `valor_total_compras`: Valor total de compras
- `ticket_medio`: Ticket médio do cliente
- `categorias_compradas`: Número de categorias diferentes
- `frete_medio`: Valor médio do frete
- `segmento_cliente`: Classificação do cliente

## 🔗 Relacionamentos

### Chaves de Ligação
1. `vendas_olist` ← `customer_id` → `clientes_olist`
2. `vendas_olist` ← `seller_id` → `vendedores_olist`

## 📝 Observações
- Todos os dados estão tratados e prontos para uso
- Não há valores nulos nas chaves de relacionamento
- Dados agregados já estão calculados
- Segmentações e classificações já estão criadas