In [1]:
# Exploração e Consolidação de Dados de E-commerce

import pandas as pd
import os

# Caminhos para os dados
raw_data_path = os.path.join('..', 'data', 'raw')
processed_data_path = os.path.join('..', 'data', 'processed')
os.makedirs(processed_data_path, exist_ok=True)

# 1. Carregar os dados
df_clientes = pd.read_csv(os.path.join(raw_data_path, 'clientes.csv'))
df_produtos = pd.read_csv(os.path.join(raw_data_path, 'produtos.csv'))
df_pedidos = pd.read_csv(os.path.join(raw_data_path, 'pedidos.csv'))

print("Dados carregados com sucesso!")

# 2. Exploração Inicial dos Dados
print("\n--- df_clientes Info ---")
df_clientes.info()
print("\n--- df_clientes Head ---")
print(df_clientes.head())

print("\n--- df_produtos Info ---")
df_produtos.info()
print("\n--- df_produtos Head ---")
print(df_produtos.head())

print("\n--- df_pedidos Info ---")
df_pedidos.info()
print("\n--- df_pedidos Head ---")
print(df_pedidos.head())

# Converter 'data_pedido' para datetime para facilitar manipulações
df_pedidos['data_pedido'] = pd.to_datetime(df_pedidos['data_pedido'])
print("\n'data_pedido' convertida para datetime.")
df_pedidos.info()

# 3. Consolidação dos Dados

# Merge pedidos com clientes
df_consolidado = pd.merge(df_pedidos, df_clientes, on='id_cliente', how='left')
print("\n--- Após merge com clientes ---")
print(df_consolidado.head())
print(f"Shape após merge com clientes: {df_consolidado.shape}")

# Merge com produtos
df_consolidado = pd.merge(df_consolidado, df_produtos, left_on='id_produto_associado', right_on='id_produto', how='left')
print("\n--- Após merge com produtos ---")
print(df_consolidado.head())
print(f"Shape final consolidado: {df_consolidado.shape}")

# Renomear colunas para evitar confusão
df_consolidado.rename(columns={
    'nome_produto': 'produto_associado_nome',
    'categoria': 'produto_associado_categoria',
    'preco': 'produto_associado_preco'
}, inplace=True)
print("\nColunas renomeadas para maior clareza.")
print(df_consolidado.head())

# 4. Salvar os dados consolidados
output_file = os.path.join(processed_data_path, 'dados_ecommerce_consolidados.csv')
df_consolidado.to_csv(output_file, index=False)
print(f"\nDados consolidados salvos em: {output_file}")

print("\nEtapa de Exploração e Consolidação Concluída!")


Dados carregados com sucesso!

--- df_clientes Info ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id_cliente     5000 non-null   int64 
 1   nome_cliente   5000 non-null   object
 2   email_cliente  5000 non-null   object
 3   pais           5000 non-null   object
dtypes: int64(1), object(3)
memory usage: 156.4+ KB

--- df_clientes Head ---
   id_cliente nome_cliente         email_cliente       pais
0           1    Cliente 1  cliente1@exemplo.com     México
1           2    Cliente 2  cliente2@exemplo.com  Argentina
2           3    Cliente 3  cliente3@exemplo.com     Canadá
3           4    Cliente 4  cliente4@exemplo.com     Canadá
4           5    Cliente 5  cliente5@exemplo.com   Colômbia

--- df_produtos Info ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column