In [18]:
import pandas as pd
import psycopg2
import dotenv
import os
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import numpy as np
from mpl_toolkits.mplot3d import Axes3D
import warnings
from lifetimes import BetaGeoFitter

#### PUXANDO DADOS DA GCP

In [None]:
warnings.filterwarnings('ignore', category=DeprecationWarning)
warnings.filterwarnings('ignore', category=FutureWarning)

dotenv.load_dotenv()
# Configuração da conexão
config = {
    "host":     os.getenv("host_gcp"),
    "dbname":   "espantalhopneus",
    "user":     os.getenv("meuUser"),
    "password": os.getenv("minhaSenha"),
    "port":     os.getenv("port_gcp")
}

try:
    # Conectar ao banco e criar cursor
    conn = psycopg2.connect(**config)
    cursor = conn.cursor()
    print("Conectado!")

    # Executar a query na tabela vendas
    query = "SELECT * FROM vendas;"
    cursor.execute(query)
    
    # Obter todas as linhas retornadas
    linhas = cursor.fetchall()
    
    # Obter os nomes das colunas a partir do cursor.description
    colunas = [desc[0] for desc in cursor.description]
    
    # Criar o DataFrame com os dados e as colunas
    df_vendas = pd.DataFrame(linhas, columns=colunas)

    query = "SELECT * FROM clientes;"
    cursor.execute(query)
    linhas = cursor.fetchall()
    colunas = [desc[0] for desc in cursor.description]
    df_clientes = pd.DataFrame(linhas, columns=colunas)

    query = "SELECT * FROM clientesPessoaJuridica;"
    cursor.execute(query)
    linhas = cursor.fetchall()
    colunas = [desc[0] for desc in cursor.description]
    df_clientes_PJ = pd.DataFrame(linhas, columns=colunas)
    
    # Exibir as primeiras linhas do DataFrame vendas e clientes
    print("TABLE VENDAS")
    print(df_vendas.head())
    
    print("\n\nTABLE CLIENTES")
    print(df_clientes.head())

    print("\n\nTABLE CLIENTES_PJ")
    print(df_clientes_PJ.head())
    
    # Fechar cursor e conexão
    cursor.close()
    conn.close()
except Exception as e:
    print(f"Erro ao conectar ou executar a query: {e}")

#### ANÁLISE EXPLORATÓRIA VENDAS E CLIENTES

In [None]:
# 1. Quantos id_cliente únicos?
unique_clientes = df_vendas['id_cliente'].nunique()
print(f"Quantidade de id_cliente únicos: {unique_clientes}")

# 2. Quantos id_loja únicos?
unique_lojas = df_vendas['id_loja'].nunique()
print(f"Quantidade de id_loja únicos: {unique_lojas}")

# 3. Quantos status únicos?
unique_status = df_vendas['status'].nunique()
print(f"Quantidade de status únicos: {unique_status}")

# Imprime os valores únicos de status
status_valores = df_vendas['status'].unique()
print("Status encontrados:", status_valores)

# 4. Análise exploratória sobre a receita utilizando total_venda
print("\nAnálise exploratória da receita (total_venda):")
print(df_vendas['total_venda'].describe())

In [None]:
clientes_por_tipo = df_clientes.groupby('tipo_cliente')['id_cliente'].nunique()

print("Quantidade de clientes únicos por tipo_cliente:")
print(clientes_por_tipo)

# Opcional: Visualizando o resultado com um gráfico de barras
clientes_por_tipo.plot(kind='bar', color='skyblue', figsize=(8,6))
plt.title('Quantidade de Clientes Únicos por Tipo')
plt.xlabel('Tipo de Cliente')
plt.ylabel('Número de Clientes Únicos')
plt.xticks(rotation=0)
plt.show()

#### ADICIONAR COLUNA TIPO_CLIENTE NA BASE DE VENDAS E FILTRAR PARA TER SOMENTE PJ

In [None]:
df_vendas = df_vendas.merge(df_clientes[['id_cliente', 'tipo_cliente']], on='id_cliente', how='left')
df_vendas = df_vendas[df_vendas['tipo_cliente'] == 'J']
#print do nunero de clientes deve ser igual ao numero de clientes únicos PF, que foi apresentado na análise exploratória dos clientes
unique_clientes = df_vendas['id_cliente'].nunique()
print(f"Número de Clientes PJ: {unique_clientes}")

#### ANÁLISE DE RECORRÊNCIA MENSAL

In [None]:
# Criar um DataFrame com mês e cliente
df_vendas['data_venda'] = pd.to_datetime(df_vendas['data_venda'])
monthly_customers = df_vendas.groupby([df_vendas['data_venda'].dt.strftime('%Y-%m'), 'id_cliente']).size().reset_index()
monthly_customers.columns = ['yearmonth', 'id_cliente', 'count']

# Criar um pivot para facilitar a comparação entre meses
customer_matrix = monthly_customers.pivot_table(
    index='id_cliente',
    columns='yearmonth',
    values='count',
    fill_value=0
).astype(bool).astype(int)

# Calcular retenção
retention_rates = []
months = sorted(customer_matrix.columns)

for i in range(1, len(months)):
    prev_month = months[i-1]
    current_month = months[i]
    
    # Total de clientes no mês anterior
    prev_customers = customer_matrix[prev_month].sum()
    
    # Clientes que permaneceram
    retained = ((customer_matrix[prev_month] == 1) & (customer_matrix[current_month] == 1)).sum()
    
    # Calcular taxa
    retention_rate = (retained / prev_customers * 100) if prev_customers > 0 else 0
    
    retention_rates.append({
        'yearmonth': current_month,
        'retained_customers': retained,
        'prev_total_customers': prev_customers,
        'retention_rate': retention_rate
    })

retention_metrics = pd.DataFrame(retention_rates)

# Visualizar resultado
plt.figure(figsize=(15, 6))
sns.lineplot(data=retention_metrics, x='yearmonth', y='retention_rate', marker='o', color='#FF9999')
plt.title('Taxa de Recorrência Mensal (%)')
plt.xlabel('Mês')
plt.ylabel('Taxa de Retenção (%)')
plt.xticks(rotation=90)

# Adicionar valores sobre os pontos
for i, v in enumerate(retention_metrics['retention_rate']):
    if pd.notnull(v) and v != 0:
        plt.text(i, v, f'{v:.1f}%', ha='center', va='bottom')

plt.tight_layout()
plt.show()

# Salvar resultados
retention_metrics.to_excel('metricas_recorrencia_mensal.xlsx', index=False)
print("\nResultados salvos em metricas_recorrencia_mensal.xlsx")

# Imprimir métricas
print("\nMétricas de Recorrência:")
print(retention_metrics.to_string(index=False))


# Estatísticas resumidas
print("\nEstatísticas de Recorrência:")
print(f"Taxa média de retenção: {retention_metrics['retention_rate'].mean():.1f}%")
print(f"Taxa máxima de retenção: {retention_metrics['retention_rate'].max():.1f}%")
print(f"Taxa mínima de retenção: {retention_metrics['retention_rate'].min():.1f}%")

#### ANÁLISE DE RECORRÊNCIA TRIMESTRAL

In [None]:
# Criar trimestre para cada compra
df_vendas['trimestre'] = df_vendas['data_venda'].dt.to_period('Q')

# Criar DataFrame de clientes por trimestre
quarterly_customers = df_vendas.groupby(['trimestre', 'id_cliente']).size().reset_index()
quarterly_customers.columns = ['trimestre', 'id_cliente', 'count']

# Criar pivot para análise trimestral
customer_matrix = quarterly_customers.pivot_table(
    index='id_cliente',
    columns='trimestre',
    values='count',
    fill_value=0
).astype(bool).astype(int)

# Calcular recorrência trimestral
quarterly_metrics = []
quarters = sorted(customer_matrix.columns)

for i in range(1, len(quarters)):
    current_quarter = quarters[i]
    prev_quarter = quarters[i-1]
    
    # Total de clientes no trimestre anterior
    prev_customers = customer_matrix[prev_quarter].sum()
    
    # Clientes que voltaram
    returning = ((customer_matrix[prev_quarter] == 1) & (customer_matrix[current_quarter] == 1)).sum()
    
    # Novos clientes (não compraram no trimestre anterior)
    new_customers = (customer_matrix[current_quarter] & ~customer_matrix[prev_quarter]).sum()
    
    # Total de clientes no trimestre atual
    total_customers = customer_matrix[current_quarter].sum()
    
    # Calcular taxas
    recurrence_rate = (returning / prev_customers * 100) if prev_customers > 0 else 0
    
    quarterly_metrics.append({
        'trimestre': str(current_quarter),  # Convertendo para string
        'trimestre_obj': current_quarter,   # Mantendo o objeto período para ordenação
        'total_customers': total_customers,
        'returning_customers': returning,
        'new_customers': new_customers,
        'recurrence_rate': recurrence_rate
    })

quarterly_df = pd.DataFrame(quarterly_metrics)
quarterly_df = quarterly_df.sort_values('trimestre_obj')  # Ordenar pelos trimestres

# Visualizações
plt.figure(figsize=(15, 10))

# Gráfico 1: Taxa de Recorrência
plt.subplot(2, 1, 1)
sns.lineplot(data=quarterly_df, x='trimestre', y='recurrence_rate', marker='o', color='#FF9999', linewidth=2)
plt.title('Taxa de Recorrência Trimestral')
plt.xlabel('Trimestre')
plt.ylabel('Taxa de Recorrência (%)')
plt.xticks(rotation=45)

# Adicionar valores sobre os pontos
for i, row in enumerate(quarterly_df.itertuples()):
    if pd.notnull(row.recurrence_rate) and row.recurrence_rate != 0:
        plt.text(i, row.recurrence_rate, f'{row.recurrence_rate:.1f}%', ha='center', va='bottom')

# Gráfico 2: Composição de Clientes por Trimestre
plt.subplot(2, 1, 2)
width = 0.35
x = range(len(quarterly_df))

plt.bar(x, quarterly_df['new_customers'], width, label='Novos Clientes', color='#66B2FF')
plt.bar(x, quarterly_df['returning_customers'], width, bottom=quarterly_df['new_customers'],
        label='Clientes Recorrentes', color='#99FF99')

plt.xlabel('Trimestre')
plt.ylabel('Número de Clientes')
plt.title('Composição de Clientes por Trimestre')
plt.xticks(x, quarterly_df['trimestre'], rotation=45)
plt.legend()

# Adicionar valores nas barras
for i in range(len(quarterly_df)):
    # Valor para novos clientes
    plt.text(i, quarterly_df['new_customers'].iloc[i]/2, 
             str(quarterly_df['new_customers'].iloc[i]),
             ha='center', va='center')
    
    # Valor para clientes recorrentes
    plt.text(i, quarterly_df['new_customers'].iloc[i] + quarterly_df['returning_customers'].iloc[i]/2,
             str(quarterly_df['returning_customers'].iloc[i]),
             ha='center', va='center')

plt.tight_layout()
plt.show()

# Salvar resultados
quarterly_df.to_excel('metricas_recorrencia_trimestral.xlsx', index=False)
print("\nResultados salvos em metricas_recorrencia_trimestral.xlsx")

# Imprimir métricas (removendo a coluna trimestre_obj para melhor visualização)
print("\nMétricas Trimestrais:")
print(quarterly_df.drop('trimestre_obj', axis=1).to_string(index=False))

# Estatísticas resumidas
print("\nEstatísticas de Recorrência Trimestral:")
print(f"Taxa média de recorrência: {quarterly_df['recurrence_rate'].mean():.1f}%")
print(f"Taxa máxima de recorrência: {quarterly_df['recurrence_rate'].max():.1f}%")
print(f"Taxa mínima de recorrência: {quarterly_df['recurrence_rate'].min():.1f}%")
print(f"\nMédia de novos clientes por trimestre: {quarterly_df['new_customers'].mean():.0f}")
print(f"Média de clientes recorrentes por trimestre: {quarterly_df['returning_customers'].mean():.0f}")

#### ANÁLISE DE RECORRÊNCIA ANUAL

In [None]:
# Criar ano para cada compra
df_vendas['ano'] = df_vendas['data_venda'].dt.to_period('Y')

# Criar DataFrame de clientes por ano
annual_customers = df_vendas.groupby(['ano', 'id_cliente']).size().reset_index()
annual_customers.columns = ['ano', 'id_cliente', 'count']

# Criar pivot para análise anual
customer_matrix = annual_customers.pivot_table(
    index='id_cliente',
    columns='ano',
    values='count',
    fill_value=0
).astype(bool).astype(int)

# Calcular métricas anuais
annual_metrics = []
years = sorted(customer_matrix.columns)

for i in range(1, len(years)):
    current_year = years[i]
    prev_year = years[i-1]
    
    # Total de clientes no ano anterior
    prev_customers = customer_matrix[prev_year].sum()
    
    # Clientes que voltaram
    returning = ((customer_matrix[prev_year] == 1) & (customer_matrix[current_year] == 1)).sum()
    
    # Novos clientes (não compraram no ano anterior)
    new_customers = (customer_matrix[current_year] & ~customer_matrix[prev_year]).sum()
    
    # Total de clientes no ano atual
    total_customers = customer_matrix[current_year].sum()
    
    # Calcular taxas
    retention_rate = (returning / prev_customers * 100) if prev_customers > 0 else 0
    new_rate = (new_customers / total_customers * 100) if total_customers > 0 else 0
    returning_rate = (returning / total_customers * 100) if total_customers > 0 else 0
    
    annual_metrics.append({
        'ano': str(current_year),
        'ano_obj': current_year,
        'total_customers': total_customers,
        'returning_customers': returning,
        'new_customers': new_customers,
        'retention_rate': retention_rate,  # Taxa de retenção em relação ao ano anterior
        'new_rate': new_rate,  # % de novos clientes no total
        'returning_rate': returning_rate  # % de clientes recorrentes no total
    })

annual_df = pd.DataFrame(annual_metrics)
annual_df = annual_df.sort_values('ano_obj')

# Visualização
plt.figure(figsize=(12, 7))  # Aumentado ligeiramente a altura para acomodar a legenda
ax1 = plt.gca()
x = np.arange(len(annual_df))
width = 0.35

# Plotar barras empilhadas com percentuais
bars1 = ax1.bar(x, annual_df['new_rate'], width, label='Novos Clientes (%)', color='#66B2FF')
bars2 = ax1.bar(x, annual_df['returning_rate'], width, bottom=annual_df['new_rate'],
                label='Clientes Recorrentes (%)', color='#99FF99')

# Plotar linha de retenção
ax2 = ax1.twinx()
line = ax2.plot(x, annual_df['retention_rate'], 'r--', label='Taxa de Retenção',
                color='#FF9999', linewidth=2, marker='o')

# Adicionar valores
for i in range(len(annual_df)):
    # Valores percentuais de novos clientes
    ax1.text(i, annual_df['new_rate'].iloc[i]/2,
             f'{annual_df["new_rate"].iloc[i]:.1f}%\n({annual_df["new_customers"].iloc[i]:,})',
             ha='center', va='center')
    
    # Valores percentuais de clientes recorrentes
    ax1.text(i, annual_df['new_rate'].iloc[i] + annual_df['returning_rate'].iloc[i]/2,
             f'{annual_df["returning_rate"].iloc[i]:.1f}%\n({annual_df["returning_customers"].iloc[i]:,})',
             ha='center', va='center')
    
    # Valores de taxa de retenção
    ax2.text(i, annual_df['retention_rate'].iloc[i],
             f'{annual_df["retention_rate"].iloc[i]:.1f}%',
             ha='center', va='bottom')

# Configurar eixos
ax1.set_xlabel('Ano')
ax1.set_ylabel('Distribuição de Clientes (%)')
ax2.set_ylabel('Taxa de Retenção em Relação ao Ano Anterior (%)')

# Ajustar limites
ax1.set_ylim(0, 100)
ax2.set_ylim(0, max(annual_df['retention_rate']) * 1.2)

# Configurar ticks
plt.xticks(x, annual_df['ano'], rotation=45)

# Adicionar legendas fora do gráfico
lines1, labels1 = ax1.get_legend_handles_labels()
lines2, labels2 = ax2.get_legend_handles_labels()
# Posicionar a legenda abaixo do gráfico
ax1.legend(lines1 + lines2, labels1 + labels2, 
           bbox_to_anchor=(0.5, -0.15),  # Posição x, y da legenda
           loc='upper center',  # Ponto de ancoragem da legenda
           ncol=3,  # Número de colunas na legenda
           bbox_transform=ax1.transAxes)  # Usar coordenadas do eixo

plt.title('Composição de Clientes e Taxa de Recorrência Anual')
plt.tight_layout()  # Ajustar layout para acomodar a legenda
plt.subplots_adjust(bottom=0.2)  # Ajustar espaço inferior para a legenda
plt.show()

# Salvar resultados
annual_df.to_excel('metricas_recorrencia_anual.xlsx', index=False)
print("\nResultados salvos em metricas_recorrencia_anual.xlsx")

# Imprimir estatísticas
print("\nMétricas Anuais:")
print(annual_df.drop('ano_obj', axis=1).to_string(index=False))

print("\nEstatísticas de Recorrência Anual:")
print(f"Taxa média de retenção: {annual_df['retention_rate'].mean():.1f}%")
print(f"Taxa média de novos clientes: {annual_df['new_rate'].mean():.1f}%")
print(f"Taxa média de recorrentes: {annual_df['returning_rate'].mean():.1f}%")

#### ANÁLISE TRIMESTRAL DE RETENÇÃO POR SAFRAS DE CLIENTES

In [None]:
# ---- Análise de Cohort: Agrupando Clientes em Coortes Trimestrais com Base na Primeira Compra ----

# Utilizaremos a base mesclada (merged_data) que já possui a coluna 'emissao_analise' em formato datetime.
# Cada pedido será associado a um período trimestral, e cada cliente receberá a coorte (trimestre) de sua primeira compra.

# 1. Definir o período do pedido como trimestre
df_vendas['order_period'] = df_vendas['data_venda'].dt.to_period('Q')

# 2. Para cada cliente, identificar a data da primeira compra e definir sua coorte trimestral
first_purchase = df_vendas.groupby('id_cliente')['data_venda'].min().reset_index()
first_purchase.columns = ['id_cliente', 'first_purchase_date']
first_purchase['cohort_quarter'] = first_purchase['first_purchase_date'].dt.to_period('Q')

# 3. Mesclar a informação da coorte (trimestre da primeira compra) de volta à base de pedidos
df_vendas = pd.merge(df_vendas, first_purchase[['id_cliente', 'cohort_quarter']], on='id_cliente')

# 4. Calcular o índice do período (em trimestres) para cada pedido: quantos trimestres se passaram desde a coorte
# Se order_period e cohort_quarter forem do tipo Period, podemos subtraí-los diretamente
df_vendas['period_index'] = (df_vendas['order_period'] - df_vendas['cohort_quarter']).apply(lambda x: x.n)

# 5. Agregar os dados para contar o número de clientes únicos por coorte e por período
cohort_data = df_vendas.groupby(['cohort_quarter', 'period_index'])['id_cliente'].nunique().reset_index()
cohort_data.rename(columns={'id_cliente': 'num_customers'}, inplace=True)

# 6. Obter o tamanho inicial de cada coorte (ou seja, o número de clientes no período 0)
cohort_sizes = cohort_data[cohort_data['period_index'] == 0][['cohort_quarter', 'num_customers']]
cohort_sizes.rename(columns={'num_customers': 'cohort_size'}, inplace=True)

# 7. Mesclar o tamanho da coorte com os dados agregados
cohort_data = pd.merge(cohort_data, cohort_sizes, on='cohort_quarter')

# 8. Calcular a taxa de retenção para cada coorte e período:
#    Retention Rate = Número de clientes ativos no período / Tamanho inicial da coorte
cohort_data['retention_rate'] = cohort_data['num_customers'] / cohort_data['cohort_size']

# 9. Criar uma tabela dinâmica (pivot table) para visualizar a retenção ao longo dos trimestres
cohort_pivot = cohort_data.pivot(index='cohort_quarter', columns='period_index', values='retention_rate')

# 10. Plotar um mapa de calor para visualizar a evolução da retenção ao longo do tempo
plt.figure(figsize=(12, 8))
sns.heatmap(cohort_pivot, annot=True, fmt='.0%', cmap='YlGnBu')
plt.title('Cohort Analysis - Taxa de Retenção (Trimestral)')
plt.ylabel('Coorte (Trimestre da Primeira Compra)')
plt.xlabel('Período (Trimestres desde a Primeira Compra)')
plt.show()

# Exibir a tabela de retenção
print("Tabela de Retenção por Coorte (Trimestral):")
print(cohort_pivot)

#### ANÁLISE ANUAL DE RETENÇÃO POR SAFRAS DE CLIENTES

In [None]:
# ---- Análise de Cohort: Agrupando Clientes em Coortes Anuais com Base na Primeira Compra ----

# Utilizaremos a base de dados df_vendas que já possui a coluna 'data_venda' no formato datetime.
# Cada pedido será associado a um período anual, e cada cliente receberá a coorte (ano) de sua primeira compra.

# 1. Definir o período do pedido como ano
df_vendas['order_period'] = df_vendas['data_venda'].dt.to_period('A')

# 2. Para cada cliente, identificar a data da primeira compra e definir sua coorte anual
first_purchase = df_vendas.groupby('id_cliente')['data_venda'].min().reset_index()
first_purchase.columns = ['id_cliente', 'first_purchase_date']
first_purchase['cohort_year'] = first_purchase['first_purchase_date'].dt.to_period('A')

# 3. Mesclar a informação da coorte (ano da primeira compra) de volta à base de pedidos
df_vendas = pd.merge(df_vendas, first_purchase[['id_cliente', 'cohort_year']], on='id_cliente')

# 4. Calcular o índice do período (em anos) para cada pedido: quantos anos se passaram desde a coorte
df_vendas['period_index'] = (df_vendas['order_period'] - df_vendas['cohort_year']).apply(lambda x: x.n)

# 5. Agregar os dados para contar o número de clientes únicos por coorte e por período
cohort_data = df_vendas.groupby(['cohort_year', 'period_index'])['id_cliente'].nunique().reset_index()
cohort_data.rename(columns={'id_cliente': 'num_customers'}, inplace=True)

# 6. Obter o tamanho inicial de cada coorte (ou seja, o número de clientes no período 0)
cohort_sizes = cohort_data[cohort_data['period_index'] == 0][['cohort_year', 'num_customers']]
cohort_sizes.rename(columns={'num_customers': 'cohort_size'}, inplace=True)

# 7. Mesclar o tamanho da coorte com os dados agregados
cohort_data = pd.merge(cohort_data, cohort_sizes, on='cohort_year')

# 8. Calcular a taxa de retenção para cada coorte e período:
#    Taxa de Retenção = Número de clientes ativos no período / Tamanho inicial da coorte
cohort_data['retention_rate'] = cohort_data['num_customers'] / cohort_data['cohort_size']

# 9. Criar uma tabela dinâmica (pivot table) para visualizar a retenção ao longo dos anos
cohort_pivot = cohort_data.pivot(index='cohort_year', columns='period_index', values='retention_rate')

# 10. Plotar um mapa de calor para visualizar a evolução da retenção ao longo do tempo
plt.figure(figsize=(12, 8))
sns.heatmap(cohort_pivot, annot=True, fmt='.0%', cmap='YlGnBu')
plt.title('Cohort Analysis - Taxa de Retenção (Anual)')
plt.ylabel('Coorte (Ano da Primeira Compra)')
plt.xlabel('Período (Anos desde a Primeira Compra)')
plt.show()

# Exibir a tabela de retenção
print("Tabela de Retenção por Coorte (Anual):")
cohort_data.to_excel('metricas_retencao_anual.xlsx', index=False)
print(cohort_pivot)

#### CÁLCULO RFMA

In [None]:
# Recency: Número de dias desde a última compra
data_referencia = df_vendas['data_venda'].max()
recency = df_vendas.groupby('id_cliente')['data_venda'].max().apply(lambda x: (data_referencia - x).days)

# Frequency: Número de pedidos únicos por cliente
frequency = df_vendas.groupby('id_cliente')['id_venda'].nunique()

# Monetary: Valor total gasto
monetary = df_vendas.groupby('id_cliente').apply(
    lambda x: (x['total_venda'] * np.where(x['status'] == 'Devolução', -1, 1)).sum()
)

# Age (Antiguidade): Dias desde a primeira compra
age = df_vendas.groupby('id_cliente')['data_venda'].min().apply(lambda x: (data_referencia - x).days)

# Combinar métricas em um único DataFrame
rfma = pd.DataFrame({
    'Recency': recency,
    'Frequency': frequency,
    'Monetary': monetary,
    'Age': age
})

# Resetar o índice para ter id_cliente como coluna
rfma = rfma.reset_index()

# Adicionar algumas verificações
print("\nEstatísticas das métricas RFMA:")
print("\nRecency (dias):")
print(rfma['Recency'].describe())
print("\nFrequency (número de pedidos):")
print(rfma['Frequency'].describe())
print("\nMonetary (valor total):")
print(rfma['Monetary'].describe())
print("\nAge (dias desde primeira compra):")
print(rfma['Age'].describe())

#Salvar o resultado em um arquivo CSV
# rfma.to_csv('RFMA_por_cliente.csv', index=False)

# Exibir o DataFrame RFMA
print("\nPrimeiras linhas do RFMA:")
print(rfma.head())

# Verificações adicionais
print("\nContagens de controle:")
print(f"Número total de clientes: {len(rfma)}")

# Verificação adicional para Age
print("\nVerificação de coerência:")
print("Clientes com Age menor que Recency:", len(rfma[rfma['Age'] < rfma['Recency']]))

In [None]:
# Configuração básica do seaborn
sns.set(style="whitegrid")

# Criar bins e labels para cada métrica
def create_range_labels(data, bins):
    labels = []
    for i in range(len(bins)-1):
        labels.append(f'{bins[i]:.0f}-{bins[i+1]:.0f}')
    return labels

# Definir uma paleta de cores atraente
colors = ['#FF9999', '#66B2FF', '#99FF99', '#FFCC99']

# Recency
r_bins = np.linspace(rfma['Recency'].min(), rfma['Recency'].max(), 11)
r_labels = create_range_labels(rfma['Recency'], r_bins)
rfma['R_range'] = pd.cut(rfma['Recency'], bins=r_bins, labels=r_labels)

# Frequency
f_bins = np.linspace(rfma['Frequency'].min(), rfma['Frequency'].max(), 11)
f_labels = create_range_labels(rfma['Frequency'], f_bins)
rfma['F_range'] = pd.cut(rfma['Frequency'], bins=f_bins, labels=f_labels)

# Monetary
m_bins = np.linspace(rfma['Monetary'].min(), rfma['Monetary'].max(), 11)
m_labels = create_range_labels(rfma['Monetary'], m_bins)
rfma['M_range'] = pd.cut(rfma['Monetary'], bins=m_bins, labels=m_labels)

# Age (Antiguidade)
a_bins = np.linspace(rfma['Age'].min(), rfma['Age'].max(), 11)
a_labels = create_range_labels(rfma['Age'], a_bins)
rfma['A_range'] = pd.cut(rfma['Age'], bins=a_bins, labels=a_labels)

# Criar gráficos
fig, axes = plt.subplots(2, 2, figsize=(20, 12))

# Gráfico de Recency
r_counts = rfma['R_range'].value_counts().sort_index()
sns.barplot(x=r_counts.index, y=r_counts.values, ax=axes[0,0], color=colors[0])
axes[0,0].set_title('Distribuição de Recency', fontsize=12, pad=20)
axes[0,0].set_xlabel('Dias desde última compra', fontsize=10)
axes[0,0].set_ylabel('Número de Clientes', fontsize=10)
axes[0,0].tick_params(axis='x', rotation=45)

# Gráfico de Frequency
f_counts = rfma['F_range'].value_counts().sort_index()
sns.barplot(x=f_counts.index, y=f_counts.values, ax=axes[0,1], color=colors[1])
axes[0,1].set_title('Distribuição de Frequency', fontsize=12, pad=20)
axes[0,1].set_xlabel('Número de Compras', fontsize=10)
axes[0,1].set_ylabel('Número de Clientes', fontsize=10)
axes[0,1].tick_params(axis='x', rotation=45)

# Gráfico de Monetary
m_counts = rfma['M_range'].value_counts().sort_index()
sns.barplot(x=m_counts.index, y=m_counts.values, ax=axes[1,0], color=colors[2])
axes[1,0].set_title('Distribuição de Monetary', fontsize=12, pad=20)
axes[1,0].set_xlabel('Valor Total Gasto (R$)', fontsize=10)
axes[1,0].set_ylabel('Número de Clientes', fontsize=10)
axes[1,0].tick_params(axis='x', rotation=45)

# Gráfico de Age (Antiguidade)
a_counts = rfma['A_range'].value_counts().sort_index()
sns.barplot(x=a_counts.index, y=a_counts.values, ax=axes[1,1], color=colors[3])
axes[1,1].set_title('Distribuição de Age (Antiguidade)', fontsize=12, pad=20)
axes[1,1].set_xlabel('Dias desde primeira compra', fontsize=10)
axes[1,1].set_ylabel('Número de Clientes', fontsize=10)
axes[1,1].tick_params(axis='x', rotation=45)

# Ajustar o layout
plt.tight_layout()
plt.show()

# Imprimir distribuição
print("\nDistribuição de clientes por faixa:")
print("\nRecency (dias):")
print(r_counts)
print("\nFrequency (compras):")
print(f_counts)
print("\nMonetary (R$):")
print(m_counts)
print("\nAge (dias desde primeira compra):")
print(a_counts)

# Análises adicionais de correlação
correlation_matrix = rfma[['Recency', 'Frequency', 'Monetary', 'Age']].corr()

# Plotar mapa de calor das correlações
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1, center=0)
plt.title('Correlação entre métricas RFMA')
plt.tight_layout()
plt.show()

#### RFMA - ANÁLISE DE CLIENTES POR DECIS

In [None]:
# Converter as colunas para float (caso estejam em decimal.Decimal)
for col in ['Recency', 'Frequency', 'Monetary', 'Age']:
    rfma[col] = rfma[col].astype(float)

# Criar decis para cada métrica RFMA
# Primeiro vamos obter os bins para cada métrica
_, r_bins = pd.qcut(rfma['Recency'], q=10, duplicates='drop', retbins=True)
_, f_bins = pd.qcut(rfma['Frequency'], q=10, duplicates='drop', retbins=True)
_, m_bins = pd.qcut(rfma['Monetary'], q=10, duplicates='drop', retbins=True)
_, a_bins = pd.qcut(rfma['Age'], q=10, duplicates='drop', retbins=True)

# Agora criar os labels com o número correto de categorias
r_labels = list(range(len(r_bins)-1, 0, -1))  # Ordem inversa para Recency
f_labels = list(range(1, len(f_bins)))  # Ordem normal para os demais
m_labels = list(range(1, len(m_bins)))
a_labels = list(range(1, len(a_bins)))

# Aplicar os decis
rfma['R_decil'] = pd.qcut(rfma['Recency'], q=10, labels=r_labels, duplicates='drop')
rfma['F_decil'] = pd.qcut(rfma['Frequency'], q=10, labels=f_labels, duplicates='drop')
rfma['M_decil'] = pd.qcut(rfma['Monetary'], q=10, labels=m_labels, duplicates='drop')
rfma['A_decil'] = pd.qcut(rfma['Age'], q=10, labels=a_labels, duplicates='drop')

# Criar ranges para visualização
r_bins = pd.qcut(rfma['Recency'], q=10, duplicates="drop", retbins=True)[1]
rfma['R_range'] = pd.cut(
    rfma['Recency'], 
    bins=r_bins, 
    labels=[f"{r_bins[i]:.1f}-{r_bins[i+1]:.1f}" for i in range(len(r_bins)-1)], 
    include_lowest=True
)

f_bins = pd.qcut(rfma['Frequency'], q=10, duplicates="drop", retbins=True)[1]
rfma['F_range'] = pd.cut(
    rfma['Frequency'], 
    bins=f_bins, 
    labels=[f"{f_bins[i]:.1f}-{f_bins[i+1]:.1f}" for i in range(len(f_bins)-1)], 
    include_lowest=True
)

m_bins = pd.qcut(rfma['Monetary'], q=10, duplicates="drop", retbins=True)[1]
rfma['M_range'] = pd.cut(
    rfma['Monetary'], 
    bins=m_bins, 
    labels=[f"{m_bins[i]:.1f}-{m_bins[i+1]:.1f}" for i in range(len(m_bins)-1)], 
    include_lowest=True
)

a_bins = pd.qcut(rfma['Age'], q=10, duplicates="drop", retbins=True)[1]
rfma['A_range'] = pd.cut(
    rfma['Age'], 
    bins=a_bins, 
    labels=[f"{a_bins[i]:.1f}-{a_bins[i+1]:.1f}" for i in range(len(a_bins)-1)], 
    include_lowest=True
)

# Configurar estilo do gráfico
sns.set(style="whitegrid")
fig, axes = plt.subplots(2, 2, figsize=(20, 12))

# Gráfico de Recency
r_counts = rfma['R_range'].value_counts().sort_index()
sns.barplot(x=r_counts.index, y=r_counts.values, ax=axes[0,0], color='#FF9999')
axes[0,0].set_title('Distribuição de Recency (Decis)', fontsize=12)
axes[0,0].set_xlabel('Intervalos de Recency (dias)', fontsize=10)
axes[0,0].set_ylabel('Número de Clientes', fontsize=10)
axes[0,0].tick_params(axis='x', rotation=45)

# Adicionar valores e decis no topo das barras de Recency
for i, v in enumerate(r_counts):
    decil = 10 - i  # Decil invertido para Recency
    axes[0,0].text(i, v, f'D{decil}\n({int(v)})', ha='center', va='bottom')

# Gráfico de Frequency
f_counts = rfma['F_range'].value_counts().sort_index()
sns.barplot(x=f_counts.index, y=f_counts.values, ax=axes[0,1], color='#66B2FF')
axes[0,1].set_title('Distribuição de Frequency (Decis)', fontsize=12)
axes[0,1].set_xlabel('Intervalos de Frequency (compras)', fontsize=10)
axes[0,1].set_ylabel('Número de Clientes', fontsize=10)
axes[0,1].tick_params(axis='x', rotation=45)

# Adicionar valores e decis no topo das barras de Frequency
for i, v in enumerate(f_counts):
    decil = i + 1
    axes[0,1].text(i, v, f'D{decil}\n({int(v)})', ha='center', va='bottom')

# Gráfico de Monetary
m_counts = rfma['M_range'].value_counts().sort_index()
sns.barplot(x=m_counts.index, y=m_counts.values, ax=axes[1,0], color='#99FF99')
axes[1,0].set_title('Distribuição de Monetary (Decis)', fontsize=12)
axes[1,0].set_xlabel('Intervalos de Monetary (R$)', fontsize=10)
axes[1,0].set_ylabel('Número de Clientes', fontsize=10)
axes[1,0].tick_params(axis='x', rotation=45)

# Adicionar valores e decis no topo das barras de Monetary
for i, v in enumerate(m_counts):
    decil = i + 1
    axes[1,0].text(i, v, f'D{decil}\n({int(v)})', ha='center', va='bottom')

# Gráfico de Age (Antiguidade)
a_counts = rfma['A_range'].value_counts().sort_index()
sns.barplot(x=a_counts.index, y=a_counts.values, ax=axes[1,1], color='#FFCC99')
axes[1,1].set_title('Distribuição de Age (Decis)', fontsize=12)
axes[1,1].set_xlabel('Intervalos de Age (dias)', fontsize=10)
axes[1,1].set_ylabel('Número de Clientes', fontsize=10)
axes[1,1].tick_params(axis='x', rotation=45)

# Adicionar valores e decis no topo das barras de Age
for i, v in enumerate(a_counts):
    decil = i + 1
    axes[1,1].text(i, v, f'D{decil}\n({int(v)})', ha='center', va='bottom')

plt.tight_layout()
plt.show()

# Imprimir exemplo dos primeiros registros com os decis
print("\nExemplo dos primeiros registros com decis:")
print(rfma[['Recency', 'R_decil', 'Frequency', 'F_decil', 
            'Monetary', 'M_decil', 'Age', 'A_decil']].head())

# Imprimir distribuição
print("\nDistribuição de clientes por faixa:")
print("\nRecency (Ranges):")
print(r_counts)
print("\nFrequency (Ranges):")
print(f_counts)
print("\nMonetary (Ranges):")
print(m_counts)
print("\nAge (Ranges):")
print(a_counts)

#### RFMA - SEGMENTAÇÃO BASEADA EM REGRAS

In [None]:
def segment_customers(df):
    """
    Segmenta clientes com base em regras atualizadas, de acordo com a análise da distribuição por faixa.
    
    Parâmetros:
    - Recency: dias desde a última compra
    - Age: dias desde a primeira compra (antiguidade)
    - Frequency: número de compras
    - Monetary: valor médio das compras
    """
    # Criar cópia do dataframe
    df_seg = df.copy()
    
    cond_novos = (df_seg['Recency'] <= 30) & (df_seg['Age'] <= 30) # compraram no mês anterior
    
    cond_campeoes = (df_seg['Recency'] <= 180) & \
                    (df_seg['Frequency'] >= 37) & (df_seg['M_decil'] == 10) # compraram nos últimos 6 meses, possuem frequência de 8 ou mais e valor monetário acima da média 
                    
    cond_fieis_baixo_valor = (df_seg['Recency'] <= 365) & (df_seg['Age'] >= 1095) & \
                 (df_seg['Frequency'] >= 4) & (df_seg['M_decil'] <= 8) # clientes há mais de 3 anos que compraram no último ano e possuem valor monetário menor ou igua a média
    
    cond_fieis_alto_valor = (df_seg['Recency'] <= 365) & (df_seg['Age'] >= 1095) & \
                 (df_seg['Frequency'] >= 4) & (df_seg['M_decil'] > 8) # clientes há mais de 3 anos que compraram no último ano e possuem valor monetário acima da média
                 
    cond_recentes_alto = (df_seg['Recency'] <= 365) & \
                         (df_seg['Frequency'] >= 1) & (df_seg['M_decil'] > 4) # clientes que compraram no último ano, com frequência maior ou igual a 1 e possui valor monetário acima da média
                         
    cond_recentes_baixo = (df_seg['Recency'] <= 365) & \
                          (df_seg['Frequency'] >= 1) & (df_seg['M_decil'] <= 4) # clientes que compraram no último ano, com frequência maior ou igual a 1 e possui valor monetário abaixo da média
    
    # Clientes menos ativos
    cond_sumidos = (df_seg['Recency'] > 365) & (df_seg['Recency'] <= 730) # última compra entre 1 e 2 anos
    cond_inativos = (df_seg['Recency'] > 730) # sem comprar faz 2 anos
    
    # Lista de condições e respectivos rótulos
    conditions = [
        cond_novos,
        cond_campeoes,
        cond_fieis_baixo_valor,
        cond_fieis_alto_valor,
        cond_recentes_alto,
        cond_recentes_baixo,
        cond_sumidos,
        cond_inativos
    ]
    
    labels = [
        'Novos',
        'Campeões',
        'Fiéis Baixo Valor',
        'Fiéis Alto Valor',
        'Recentes Alto Valor',
        'Recentes Baixo Valor',
        'Sumidos',
        'Inativos'
    ]
    
    # Aplicar segmentação
    df_seg['Segmento'] = np.select(conditions, labels, default='Não Classificado')
    
    # Definir cores para cada segmento
    cores_segmento = {
        'Novos': '#2ecc71',               # Verde
        'Campeões': '#9b59b6',            # Roxo
        'Fiéis Baixo Valor': '#e74c3c',   # Vermelho
        'Fiéis Alto Valor' : '#e7443c',  
        'Recentes Alto Valor': '#f1c40f', # Amarelo
        'Recentes Baixo Valor': '#3498db',# Azul
        'Sumidos': '#1abc9c',             # Turquesa
        'Inativos': '#e67e22'             # Laranja
    }
    
    # Agregar dados para análise dos segmentos
    analise_segmentos = df_seg.groupby('Segmento').agg({
        'id_cliente': 'count',
        'Recency': 'mean',
        'Frequency': 'mean',
        'Monetary': 'mean',
        'Age': 'mean'
    }).round(2)
    
    analise_segmentos.columns = [
        'Quantidade Clientes',
        'Média Recency (dias)',
        'Média Frequency',
        'Média Monetary (R$)',
        'Média Age (dias)'
    ]
    
    # Ordenar por quantidade de clientes
    analise_segmentos = analise_segmentos.sort_values('Quantidade Clientes', ascending=False)
    
    # Visualização dos segmentos
    plt.figure(figsize=(15, 10))
    total_clientes = analise_segmentos['Quantidade Clientes'].sum()
    
    bars = plt.bar(
        analise_segmentos.index,
        analise_segmentos['Quantidade Clientes'],
        color=[cores_segmento.get(seg, '#95a5a6') for seg in analise_segmentos.index]
    )
    
    plt.title('Segmentação de Clientes - Pessoa jurídica', pad=20)
    plt.xlabel('Segmentos')
    plt.ylabel('Quantidade de Clientes')
    plt.xticks(rotation=45, ha='right')
    
    # Adicionar valores e porcentagens nas barras
    for bar in bars:
        height = bar.get_height()
        percentage = (height / total_clientes) * 100
        
        plt.text(
            bar.get_x() + bar.get_width()/2,
            height,
            f'{int(height):,}',
            ha='center',
            va='bottom'
        )
        
        plt.text(
            bar.get_x() + bar.get_width()/2,
            height * 0.9,
            f'({percentage:.2f}%)',
            ha='center',
            va='top'
        )
    
    plt.tight_layout()
    plt.show()
    
    return df_seg, analise_segmentos

# Usar a função
rfma_segmentado, analise = segment_customers(rfma)

# Salvar resultados
# rfma_segmentado.to_excel('rfma_segmentado_regras.xlsx', index=False)
# print("\nResultados salvos em 'rfma_segmentado_regras.xlsx'")

# Exibir análise
print("\nAnálise Detalhada por Segmento:")
print("=" * 120)
print(analise)

#### Preparando dados para o Dashboard da espantalho

In [None]:
rfma_segmentado = rfma_segmentado.merge(df_clientes_PJ[['id_cliente', 'razao_social', 'nome_fantasia', 'cnpj']], on='id_cliente', how='left')
rfma_segmentado = rfma_segmentado.merge(df_clientes[['id_cliente', 'email', 'telefone']], on='id_cliente', how='left')
print(rfma_segmentado.columns)
#Arquivo usado para o dash de segmentação
rfma_segmentado.to_csv('analytics_cliente_Espantalho_PJ.csv', index=False)

#### PREDIÇÃO DE COMPRAS POR CLIENTE NOS PRÓXIMOS 30 DIAS

In [None]:
# Pré-processamento para o modelo BG/NBD
rfma = rfma_segmentado.copy()

# Limpeza e tratamento dos dados
rfma = rfma[rfma['Frequency'] > 2]

# Ajustar os valores para evitar problemas numéricos
rfma['frequency_adjusted'] = rfma['Frequency'] - 1
rfma['recency_bg'] = (rfma['Age'] - rfma['Recency']).clip(lower=1)  # Garantir valores positivos
rfma['T'] = rfma['Age'].clip(lower=1)  # Garantir valores positivos

# Remover outliers extremos
for col in ['frequency_adjusted', 'recency_bg', 'T']:
    Q1 = rfma[col].quantile(0.01)
    Q3 = rfma[col].quantile(0.99)
    IQR = Q3 - Q1
    rfma = rfma[
        (rfma[col] >= Q1 - 1.5 * IQR) &
        (rfma[col] <= Q3 + 1.5 * IQR)
    ]

# Ajuste do Modelo BG/NBD com parâmetros para melhor convergência
bgf = BetaGeoFitter(penalizer_coef=0.8)  # Aumentar penalizador
bgf.fit(
    rfma['frequency_adjusted'],
    rfma['recency_bg'],
    rfma['T'],
    iterative_fitting=2,          # Reduzir número de iterações
    tol=1e-4,                     # Aumentar tolerância
    initial_params=None,          # Permitir estimativa automática
    verbose=True                  # Mostrar progresso
)

# Calcular previsões para 30 dias
rfma['predicted_purchases_30d'] = bgf.conditional_expected_number_of_purchases_up_to_time(
    30,
    rfma['frequency_adjusted'],
    rfma['recency_bg'],
    rfma['T']
)

# Remover previsões extremas ou inválidas
rfma = rfma[rfma['predicted_purchases_30d'].between(
    rfma['predicted_purchases_30d'].quantile(0.01),
    rfma['predicted_purchases_30d'].quantile(0.99)
)]

# Imprimir parâmetros do modelo
print("\nParâmetros do Modelo:")
print(bgf)
print("\nEstatísticas das Previsões:")
print(rfma['predicted_purchases_30d'].describe())

# Definir limiar usando método mais robusto
limiar = rfma['predicted_purchases_30d'].median() + \
         rfma['predicted_purchases_30d'].std() * 0.5

# Classificar clientes
rfma['categoria_previsao'] = np.where(
    rfma['predicted_purchases_30d'] >= limiar,
    'Alta Probabilidade de Compra',
    'Baixa Probabilidade de Compra'
)

# Visualizações
plt.figure(figsize=(15, 5))

# 1. Distribuição das Previsões
plt.subplot(1, 3, 1)
sns.histplot(data=rfma, x='predicted_purchases_30d', bins=50)
plt.axvline(x=limiar, color='r', linestyle='--', label=f'Limiar ({limiar:.2f})')
plt.title('Distribuição das Previsões')
plt.xlabel('Previsão (30 dias)')
plt.ylabel('Contagem')
plt.legend()

# 2. QQ-Plot para verificar normalidade
plt.subplot(1, 3, 2)
from scipy.stats import probplot
probplot(rfma['predicted_purchases_30d'], dist="norm", plot=plt)
plt.title('Q-Q Plot das Previsões')

# 3. Contagem por Categoria
plt.subplot(1, 3, 3)
contagem = rfma['categoria_previsao'].value_counts()
plt.pie(contagem, labels=contagem.index, autopct='%1.1f%%',
        colors=['#2ecc71', '#e74c3c'])
plt.title('Distribuição das Categorias')

plt.tight_layout()
plt.show()

# Análise por categoria
print("\nAnálise por Categoria de Previsão:")
analise_categoria = rfma.groupby('categoria_previsao').agg({
    'Frequency': ['mean', 'median', 'count'],
    'Recency': ['mean', 'median'],
    'Monetary': ['mean', 'median'],
    'predicted_purchases_30d': ['mean', 'median', 'min', 'max']
}).round(2)

print(analise_categoria)

# Validação das previsões
print("\nValidação do Modelo:")
print(f"Média de transações previstas: {rfma['predicted_purchases_30d'].mean():.2f}")
print(f"Mediana de transações previstas: {rfma['predicted_purchases_30d'].median():.2f}")
print(f"% de clientes com alta probabilidade: {(rfma['categoria_previsao'] == 'Alta Probabilidade de Compra').mean()*100:.1f}%")

# Salvar resultados
rfma.to_excel('rfma_previsoes_ajustado.xlsx', index=False)
print("\nResultados salvos em 'rfma_previsoes_ajustado.xlsx'")

In [None]:
# Filtrar os clientes com previsão de compras > 0 utilizando .loc para garantir que uma Series seja retornada
dados = rfma.loc[rfma['predicted_purchases_30d'] > 0.8, 'predicted_purchases_30d']
plt.figure(figsize=(10, 6))
# Se o parâmetro edgecolor continuar causando problemas, remova-o:
sns.histplot(dados, bins=20, kde=True, color='blue')
# Caso deseje usar edgecolor, tente:
# sns.histplot(dados, bins=20, kde=True, color='blue', edgecolor='k')
plt.title('Distribuição da Quantidade de Compras Previstas (Clientes com Previsão > 0)', fontsize=14)
plt.xlabel('Compras Previstas nos Próximos 30 Dias', fontsize=12)
plt.ylabel('Número de Clientes', fontsize=12)
plt.tight_layout()
plt.show()