In [11]:
import pandas as pd
import dotenv
import os
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import warnings
import psycopg2

In [12]:
warnings.filterwarnings('ignore', category=DeprecationWarning)
warnings.filterwarnings('ignore', category=FutureWarning)

dotenv.load_dotenv()
# Configuração da conexão
config = {
    "host":     os.getenv("host_gcp"),
    "dbname":   "beny",
    "user":     os.getenv("meuUser"),
    "password": os.getenv("minhaSenha"),
    "port":     os.getenv("port_gcp")
}

try:
    # Conectar ao banco e criar cursor
    conn = psycopg2.connect(**config)
    cursor = conn.cursor()
    print("Conectado!")

    # cursor.execute("SELECT table_name FROM information_schema.tables WHERE table_schema = 'public';")
    # tables = cursor.fetchall()
    # print(tables)

    #Executar a query na tabela vendas
    query = "SELECT * FROM vendas;"
    cursor.execute(query)
    # Obter todas as linhas retornadas
    linhas = cursor.fetchall()
    # Obter os nomes das colunas a partir do cursor.description
    colunas = [desc[0] for desc in cursor.description]
    # Criar o DataFrame com os dados e as colunas
    df_vendas = pd.DataFrame(linhas, columns=colunas)

    query = "SELECT * FROM clientes;"
    cursor.execute(query)
    linhas = cursor.fetchall()
    colunas = [desc[0] for desc in cursor.description]
    df_clientes = pd.DataFrame(linhas, columns=colunas)

    query = "SELECT * FROM clientespessoafisica;"
    cursor.execute(query)
    linhas = cursor.fetchall()
    colunas = [desc[0] for desc in cursor.description]
    df_clientes_PF = pd.DataFrame(linhas, columns=colunas)
    
    #Exibir as primeiras linhas do DataFrame vendas e clientes
    print("TABLE Vendas")
    print(df_vendas.head())
    # df_vendas.to_excel('vendas_Beny.xlsx', index=False)
    
    print("TABLE Clientes")
    print(df_clientes.head())

    print("TABLE Clientes")
    print(df_clientes_PF.head())
    
    # Fechar cursor e conexão
    cursor.close()
    conn.close()
    print("fechando cursor e conn")
except Exception as e:
    print(f"Erro ao conectar ou executar a query: {e}")

Conectado!
TABLE Vendas
   id_venda id_original  id_cliente data_compra total_item
0         1    47057992      104347  2021-02-22    1589.00
1         2    13148533      136322  2021-02-18     158.50
2         3    42074841      155862  2021-02-09    1716.50
3         4    43065729       70630  2021-03-15    1342.10
4         5    13146799       90404  2021-01-13    2617.18
TABLE Clientes
   id_cliente tipo_cliente                   email       telefone  \
0      179663            J  l_stedesco@hotmail.com  92 99128-0571   
1      179655            F               nt@nt.com  92 98152-7729   
2      179644            F      cesarvalmir@me.com  95 99971-1600   
3      179664            F               nt@nt.com  92 99612-9803   
4      179647            F               nt@nt.com  92 99344-6160   

                                   endereco       cep   cidade estado  
0                    AVENIDA COSME FERREIRA  69075775  11240.0     AM  
1    AVENIDA RAMOS FERREIRA - ATÉ 1111/1112  690

In [13]:
df_vendas['data_compra'] = pd.to_datetime(df_vendas['data_compra'])
df_vendas['total_item'] = pd.to_numeric(df_vendas['total_item'], errors='coerce')
df_vendas = df_vendas.merge(df_clientes[['id_cliente', 'tipo_cliente']], on='id_cliente', how='left')
df_vendas = df_vendas[df_vendas['tipo_cliente'] == 'J']
ticket_medio = df_vendas['total_item'].mean()
print("Ticket Médio: {:.2f}".format(ticket_medio))

Ticket Médio: 883.48


In [14]:
# Criar a coluna 'ano' a partir da data da compra
df_vendas['ano'] = df_vendas['data_compra'].dt.to_period('Y')

# Determinar o ano da primeira compra de cada cliente
primeira_compra = df_vendas.groupby('id_cliente')['data_compra'].min().reset_index()
primeira_compra['ano_primeira'] = pd.to_datetime(primeira_compra['data_compra']).dt.to_period('Y')

# Mesclar essa informação com o DataFrame de vendas
df_vendas = df_vendas.merge(primeira_compra[['id_cliente', 'ano_primeira']], on='id_cliente', how='left')

# Classificar cada compra: se o ano da compra for igual ao ano da primeira compra, é "Novo"; caso contrário, "Recorrente"
df_vendas['tipo_cliente_ano'] = np.where(df_vendas['ano'] == df_vendas['ano_primeira'], 'Novo', 'Recorrente')

# Calcular o ticket médio (média de total_item) por ano e por tipo de cliente
ticket_medio_por_tipo = df_vendas.groupby(['ano', 'tipo_cliente_ano'])['total_item'].mean().reset_index()

print(ticket_medio_por_tipo)


    ano tipo_cliente_ano   total_item
0  2021             Novo   812.170707
1  2022             Novo  1129.245120
2  2022       Recorrente   749.091049
3  2023             Novo  1069.118454
4  2023       Recorrente   821.791611
5  2024             Novo  1089.675117
6  2024       Recorrente   768.656690
