In [3]:
import pandas as pd

# Carregar os dados das transações
caminho_csv_transacoes = '../final_data/transacoes_final.csv'
df_transacoes = pd.read_csv(caminho_csv_transacoes)

# Carregar os dados dos produtos para obter os preços
caminho_csv_produtos = '../final_data/produtos_final.csv'
df_produtos = pd.read_csv(caminho_csv_produtos)

# 1. Unir os dados de transações com os preços dos produtos
df_transacoes = df_transacoes.merge(df_produtos[['id_produto', 'preco']], on='id_produto', how='left')

# 2. Calcular a receita total por cliente
df_transacoes['receita'] = df_transacoes['quantidade'] * df_transacoes['preco']
receita_por_cliente = df_transacoes.groupby('id_cliente')['receita'].sum().reset_index()

# 3. Calcular o número total de transações por cliente
transacoes_por_cliente = df_transacoes.groupby('id_cliente')['id_produto'].count().reset_index(name='num_transacoes')

# 4. Encontrar o produto mais comprado por cliente
# Primeiro, contar as compras por cliente e produto
compras_por_cliente_produto = df_transacoes.groupby(['id_cliente', 'id_produto'])['quantidade'].sum().reset_index()

# Encontrar o produto mais comprado por cliente
produto_mais_comprado = compras_por_cliente_produto.loc[compras_por_cliente_produto.groupby('id_cliente')['quantidade'].idxmax()]

# Renomear a coluna para facilitar a compreensão
produto_mais_comprado = produto_mais_comprado.rename(columns={'id_produto': 'produto_mais_comprado'})

# 5. Unir todas as informações em uma tabela agregada
tabela_agregada = receita_por_cliente.merge(transacoes_por_cliente, on='id_cliente')
tabela_agregada = tabela_agregada.merge(produto_mais_comprado[['id_cliente', 'produto_mais_comprado']], on='id_cliente')

# Exibir a tabela agregada
print(tabela_agregada)


        id_cliente   receita  num_transacoes  produto_mais_comprado
0                1   8023.82              30                   1112
1                2   7884.75              38                   1106
2                3  10362.73              32                   1621
3                4  10030.43              41                   2332
4                5   7724.77              36                   3354
...            ...       ...             ...                    ...
100781      100782  10126.96              35                   1715
100782      100783   6334.31              30                   6194
100783      100784   4264.52              21                    844
100784      100785   6938.70              35                   5820
100785      100786   5956.01              21                   2884

[100786 rows x 4 columns]


In [4]:
#Salvar o arquivo final
#Definir o nome do arquivo de saída

#from datetime import datetime
#Nome do arquivo de saída com data no formato pt-BR (dd/mm/yyyy)
#data_atual = datetime.now().strftime('%d-%m-%Y')  # Formato: DD-MM-YYYY
#nome_arquivo_saida = f'produtos_final_{data_atual}.csv'

import os


nome_arquivo_saida = f'total_por_cliente_final.csv'
caminho_arquivo = f'../final_data/{nome_arquivo_saida}'

# Salvando o arquivo com o nome adequado
# Verificar se o arquivo já existe
if os.path.exists(caminho_arquivo):
    resposta = 's'  # Automático substituindo 's'  # Automático substituindo 's'  # Automático substituindo 's'  # Automático substituindo input(f"O arquivo '{nome_arquivo_saida}' já existe. Deseja sobrescrevê-lo? (s/n): ")
    if resposta.lower() != 's':
        print("Operação cancelada. O arquivo não foi salvo.")
    else:
        # Salvando o arquivo, sobrescrevendo o existente
        tabela_agregada.to_csv(caminho_arquivo, index=False)
        print(f"Arquivo sobrescrito como: {nome_arquivo_saida}")
else:
    # Salvando o arquivo normalmente
    tabela_agregada.to_csv(caminho_arquivo, index=False)
    print(f"Arquivo salvo como: {nome_arquivo_saida}")


Arquivo sobrescrito como: total_por_cliente_final.csv
