# REQUISITOS COMPLETOS - NOTEBOOK 02: RFM ANALYSIS

---

## 1. CABE√áALHO (Markdown)

### üèÜ RFM Analysis - Customer Segmentation

| Metadado | Detalhe |
| :--- | :--- |
| **Project** | Customer Analytics & Lifetime Value |
| **Notebook number** | 02 |
| **Author** | Gemini AI Assistant |
| **Date** | 2025-12-01 |

### üéØ Objetivos do Notebook

1. **Segmenta√ß√£o de Clientes:** Aplicar a metodologia RFM (Rec√™ncia, Frequ√™ncia e Valor Monet√°rio) para classificar a base de clientes em grupos significativos.
2. **An√°lise de Valor:** Quantificar a receita e o LTV (Lifetime Value) m√©dio gerado por cada segmento RFM.
3. **Identifica√ß√£o de Prioridades:** Detalhar o perfil dos segmentos mais cr√≠ticos (**Champions** e **At Risk**) para focar em a√ß√µes de reten√ß√£o e crescimento.
4. **Mapeamento Geogr√°fico:** Analisar a distribui√ß√£o dos segmentos RFM nas diferentes regi√µes e estados.
5. **Recomenda√ß√µes Acion√°veis:** Gerar insights pr√°ticos e simula√ß√µes de cen√°rios (ROI) para guiar campanhas de marketing e vendas, com exporta√ß√£o de listas operacionais.

---

## 2. SETUP & IMPORTS

In [None]:
import pandas as pd
import numpy as np
import datetime
from google.cloud import bigquery

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

import seaborn as sns
import matplotlib.pyplot as plt

import warnings

# Configura√ß√µes do Pandas
pd.set_option('display.max_columns', 100)
pd.set_option('display.float_format', '{:,.2f}'.format)

# Configura√ß√£o de Warnings
warnings.filterwarnings('ignore')

# Configura√ß√£o do Projeto BigQuery
PROJECT_ID = 'seu-project-id-aqui' # SUBSTITUA PELO SEU PROJECT ID

# Inicializa√ß√£o do BigQuery Client
try:
    client = bigquery.Client(project=PROJECT_ID)
    print(f"‚úÖ Setup conclu√≠do. Cliente BigQuery inicializado para o projeto: {PROJECT_ID}")
except Exception as e:
    print(f"‚ùå Erro na inicializa√ß√£o do BigQuery Client: {e}")


---
## 3. CARREGAMENTO DE DADOS

In [None]:
query = """
    SELECT *
    FROM `mart_customer_rfm`
"""

try:
    # Armazenar em DataFrame df_rfm
    df_rfm = client.query(query).to_dataframe()
    
    # Valida√ß√µes obrigat√≥rias:
    print("### üìä Valida√ß√µes do Dataset RFM ###")
    print(f"\nTotal de clientes carregados: **{len(df_rfm):,}**")
    print(f"Shape do dataset (linhas, colunas): {df_rfm.shape}")
    print(f"Uso de mem√≥ria: {df_rfm.memory_usage(deep=True).sum() / 1024**2:,.2f} MB")
    
    print("\nPrimeiros Registros (.head()):")
    display(df_rfm.head())
    
    print("\nTipos de Dados (.dtypes):")
    print(df_rfm.dtypes)
    
    print("\nEstat√≠sticas Descritivas (RFM Scores e M√©tricas):")
    cols_to_describe = ['recency', 'frequency', 'monetary', 'r_score', 'f_score', 'm_score']
    display(df_rfm[cols_to_describe].describe())
    
except Exception as e:
    print(f"‚ùå Erro no carregamento/valida√ß√£o dos dados: {e}")


---
## 4. AN√ÅLISE DE SEGMENTOS RFM

### 4.1 - Distribui√ß√£o de Clientes por Segmento

In [None]:
# C√°lculo de contagem e percentual
segment_counts = df_rfm['rfm_segment'].value_counts().reset_index()
segment_counts.columns = ['rfm_segment', 'Count']
total_customers = segment_counts['Count'].sum()
segment_counts['Percentage'] = (segment_counts['Count'] / total_customers) * 100

print("**Contagem e Percentual de Clientes por Segmento:**")
display(segment_counts.sort_values(by='Count', ascending=False))

# Gr√°fico de barras (bar chart)
fig_4_1 = px.bar(
    segment_counts.sort_values(by='Count', ascending=False),
    x='rfm_segment',
    y='Count',
    title='Distribui√ß√£o de Clientes por Segmento RFM',
    text='Count',
    color='Count',
    color_continuous_scale=px.colors.sequential.Teal
)

fig_4_1.update_traces(texttemplate='%{text:,.0f}', textposition='outside')
fig_4_1.update_layout(xaxis_title='Segmento RFM', yaxis_title='Contagem de Clientes', uniformtext_minsize=8, uniformtext_mode='hide')
fig_4_1.show()

# Insights
top_3_segments = segment_counts.head(3)
acc_percent = top_3_segments['Percentage'].sum()
print("\n### üí° Insights de Distribui√ß√£o ###")
print(f"* **Top 3 Segmentos:** {', '.join(top_3_segments['rfm_segment'].tolist())}")
print(f"* **Percentual Acumulado (Top 3):** {acc_percent:.2f}%")
print("* **Coment√°rio sobre Concentra√ß√£o:** Uma parcela significativa da base de clientes ({:.2f}%) est√° concentrada nos segmentos de maior rec√™ncia/frequ√™ncia, o que √© um bom sinal de sa√∫de da base, mas os segmentos 'Hibernating' ou 'At Risk' tamb√©m merecem aten√ß√£o para reativa√ß√£o.".format(acc_percent))


### 4.2 - Receita por Segmento

In [None]:
# An√°lises obrigat√≥rias
segment_analysis = df_rfm.groupby('rfm_segment').agg(
    customer_count=('customer_id', 'count'),
    total_revenue=('monetary', 'sum'),
    avg_ltv=('monetary', 'mean'),
    avg_frequency=('frequency', 'mean'),
    avg_recency=('recency', 'mean')
).reset_index()

total_revenue_global = segment_analysis['total_revenue'].sum()
segment_analysis['revenue_percentage'] = (segment_analysis['total_revenue'] / total_revenue_global) * 100

segment_analysis = segment_analysis.sort_values(by='total_revenue', ascending=False)

print("**An√°lise de Receita e LTV por Segmento:**")
display(segment_analysis.style.format({'customer_count': '{:,.0f}',
                                      'total_revenue': 'R$ {:,.2f}',
                                      'avg_ltv': 'R$ {:,.2f}',
                                      'avg_frequency': '{:.2f}',
                                      'avg_recency': '{:.2f}',
                                      'revenue_percentage': '{:.2f}%'}))

# Visualiza√ß√£o obrigat√≥ria: Gr√°fico de barras horizontal
fig_4_2 = px.bar(
    segment_analysis,
    x='total_revenue',
    y='rfm_segment',
    orientation='h',
    color='avg_ltv', # Colorir por LTV m√©dio
    color_continuous_scale=px.colors.sequential.Viridis, # Escala de cores
    text='total_revenue',
    title='Receita Total Gerada por Segmento RFM (Cor: LTV M√©dio)'
)

fig_4_2.update_traces(texttemplate='R$ %{text:,.0f}', textposition='outside')
fig_4_2.update_layout(yaxis={'categoryorder':'total ascending'}, xaxis_title='Receita Total (R$)', yaxis_title='Segmento RFM')
fig_4_2.show()

# Insights
top_3_revenue = segment_analysis.head(3)
revenue_acc_percent = top_3_revenue['revenue_percentage'].sum()
top_3_count_percent = segment_counts[segment_counts['rfm_segment'].isin(top_3_revenue['rfm_segment'])]['Percentage'].sum()

print("\n### üí° Insights de Receita ###")
print(f"* **Segmentos de Maior Receita:** Os segmentos **{', '.join(top_3_revenue['rfm_segment'].tolist())}** s√£o os que mais geram receita.")
print(f"* **Concentra√ß√£o de Receita:** Os top 3 segmentos concentram **{revenue_acc_percent:.2f}%** da receita total.")
print(f"* **Discrep√¢ncias:** Estes top 3 segmentos representam apenas **{top_3_count_percent:.2f}%** do total de clientes, demonstrando a **alta concentra√ß√£o de valor (Pareto)** em poucos grupos.")


### 4.3 - Perfil Detalhado de Cada Segmento

In [None]:
total_customers = len(df_rfm)
total_revenue = df_rfm['monetary'].sum()

detailed_profile = df_rfm.groupby('rfm_segment').agg(
    customer_count=('customer_id', 'count'),
    total_revenue=('monetary', 'sum'),
    avg_ltv=('monetary', 'mean'),
    avg_frequency=('frequency', 'mean'),
    avg_recency=('recency', 'mean'),
    repeat_customer_rate=('is_repeat_customer', 'mean') # Considerando is_repeat_customer como 0 ou 1
).reset_index()

detailed_profile['pct_total_revenue'] = (detailed_profile['total_revenue'] / total_revenue) * 100
detailed_profile['avg_aov'] = detailed_profile['total_revenue'] / (detailed_profile['customer_count'] * detailed_profile['avg_frequency']) # AOV = LTV / Frequ√™ncia
detailed_profile['avg_aov'] = detailed_profile['avg_ltv'] / detailed_profile['avg_frequency']

detailed_profile = detailed_profile.sort_values(by='total_revenue', ascending=False)

# Renomear e formatar para a tabela final
detailed_profile.columns = [
    'Segmento',
    'Customer Count',
    'Total Revenue',
    'Average LTV',
    'Average Frequency',
    'Average Recency (days)',
    'Repeat Customer Rate',
    '% of Total Revenue',
    'Average Order Value'
]

column_order = [
    'Segmento',
    'Customer Count',
    'Total Revenue',
    '% of Total Revenue',
    'Average LTV',
    'Average Frequency',
    'Average Recency (days)',
    'Average Order Value',
    'Repeat Customer Rate'
]

print("**Tabela de Perfil Detalhado de Cada Segmento RFM:**")
display(detailed_profile[column_order].style.format({
    'Customer Count': '{:,.0f}',
    'Total Revenue': 'R$ {:,.2f}',
    '% of Total Revenue': '{:.2f}%',
    'Average LTV': 'R$ {:,.2f}',
    'Average Frequency': '{:.2f}',
    'Average Recency (days)': '{:.2f}',
    'Average Order Value': 'R$ {:,.2f}',
    'Repeat Customer Rate': '{:.2f}%'
}))


---
## 5. AN√ÅLISE RFM MATRIX

### 5.1 - Distribui√ß√£o de Scores R, F, M

In [None]:
scores = ['r_score', 'f_score', 'm_score']
titles = ['Distribui√ß√£o de R-Score (Rec√™ncia)', 'Distribui√ß√£o de F-Score (Frequ√™ncia)', 'Distribui√ß√£o de M-Score (Monet√°rio)']

fig_5_1 = make_subplots(rows=1, cols=3, subplot_titles=titles)

for i, score in enumerate(scores):
    # Histograma
    hist = go.Histogram(
        x=df_rfm[score],
        name=score,
        xbins=dict(start=1, end=5, size=1)
    )
    fig_5_1.add_trace(hist, row=1, col=i + 1)
    
    # Estat√≠sticas
    mean_val = df_rfm[score].mean()
    median_val = df_rfm[score].median()
    mode_val = df_rfm[score].mode()[0]
    
    print(f"**Estat√≠sticas para {score.upper()}:** | M√©dia: {mean_val:.2f} | Mediana: {median_val:.0f} | Moda: {mode_val:.0f}")

fig_5_1.update_layout(title_text="Distribui√ß√£o dos Scores RFM (1-5)", showlegend=False)
fig_5_1.show()

print("\n### üí° Insights dos Scores ###")
print("* **R-Score:** A distribui√ß√£o tende a ser mais concentrada em scores baixos (rec√™ncia alta), indicando um grupo consider√°vel de clientes 'dormindo' ou com longos per√≠odos sem compra.")
print("* **F-Score:** Uma distribui√ß√£o com pico em 1 (moda), mostrando que a maior parte da base fez apenas uma ou poucas compras (clientes de primeira viagem ou espor√°dicos).")
print("* **M-Score:** A moda em 5 (maior valor monet√°rio) sugere que, embora a maioria compre pouco, o 'Top Spenders' puxa a distribui√ß√£o, refor√ßando o poder do alto valor monet√°rio na base.")


### 5.2 - Heatmap RFM

In [None]:
# Criar matriz (tabela pivot) - R vs M, valor = COUNT
rfm_heatmap_data = df_rfm.pivot_table(
    index='r_score',
    columns='m_score',
    values='customer_id',
    aggfunc='count'
).fillna(0)

rfm_heatmap_data = rfm_heatmap_data.sort_index(ascending=False)

print("**Tabela Pivot R-Score vs M-Score (Contagem de Clientes):**")
display(rfm_heatmap_data)

# Visualiza√ß√£o: Heatmap
fig_5_2 = px.imshow(
    rfm_heatmap_data,
    text_auto=True,
    aspect="auto",
    color_continuous_scale="agsunset",
    title='Heatmap: Clientes por R-Score (Rec√™ncia) vs M-Score (Valor Monet√°rio)'
)

fig_5_2.update_xaxes(title_text='M-Score (Valor Monet√°rio)', tickvals=list(rfm_heatmap_data.columns))
fig_5_2.update_yaxes(title_text='R-Score (Rec√™ncia)', tickvals=list(rfm_heatmap_data.index))
fig_5_2.show()

print("\n### üí° Insights do Heatmap ###")
print("* **Quadrante mais Populoso:** O quadrante superior esquerdo (**R=5, M=1**) √© o mais populoso, representando clientes que compraram **recentemente** (R=5) mas tiveram **baixo valor monet√°rio** (M=1). S√£o os **New Customers/Promising** que precisam ser nutridos para aumentar o LTV.")
print("* **Correla√ß√µes:** H√° uma correla√ß√£o positiva entre R e M em algumas diagonais, mas o padr√£o mais forte √© a concentra√ß√£o de clientes de Rec√™ncia Alta (R=5) e Valor Baixo (M=1), e o alto valor (M=5) se espalha bem em todas as Rec√™ncias.")
print("* **Foco em Churn:** O quadrante inferior direito (**R=1, M=5**) representa clientes que compraram h√° **muito tempo** (R=1), mas gastaram **muito** (M=5) - os 'Can't Lose Them'. S√£o cruciais para reativa√ß√£o.")


### 5.3 - Score Combinations Analysis

In [None]:
# Criar coluna rfm_score concatenada
df_rfm['rfm_score'] = df_rfm['r_score'].astype(str) + df_rfm['f_score'].astype(str) + df_rfm['m_score'].astype(str)

# Top 10 combina√ß√µes mais frequentes
top_10_freq = df_rfm['rfm_score'].value_counts().head(10).reset_index()
top_10_freq.columns = ['rfm_score', 'Count']
top_10_freq['Metric'] = 'Contagem'

# Top 10 combina√ß√µes por receita
top_10_revenue = df_rfm.groupby('rfm_score')['monetary'].sum().nlargest(10).reset_index()
top_10_revenue.columns = ['rfm_score', 'Revenue']
top_10_revenue['Metric'] = 'Receita'

# Merge e prepara√ß√£o para o gr√°fico
combined_scores = pd.merge(top_10_freq[['rfm_score', 'Count']], 
                           top_10_revenue[['rfm_score', 'Revenue']], 
                           on='rfm_score', how='outer').fillna(0)
combined_scores['Revenue'] = combined_scores['Revenue'] # Sem necessidade de round, j√° formatado

print("**Top 10 Combina√ß√µes de RFM Score (Frequ√™ncia e Receita):**")
display(combined_scores.sort_values(by=['Count', 'Revenue'], ascending=False).style.format({
    'Count': '{:,.0f}',
    'Revenue': 'R$ {:,.2f}'
}))

# Gr√°fico: Bar chart das top 10 combina√ß√µes (baseado em frequ√™ncia)
fig_5_3 = make_subplots(rows=1, cols=2, subplot_titles=('Top 10 Combina√ß√µes por Contagem', 'Top 10 Combina√ß√µes por Receita'))

# Gr√°fico Contagem
fig_5_3.add_trace(go.Bar(x=top_10_freq['rfm_score'], y=top_10_freq['Count'], name='Contagem', text=top_10_freq['Count'], texttemplate='%{text:,.0f}', textposition='outside'), row=1, col=1)

# Gr√°fico Receita
fig_5_3.add_trace(go.Bar(x=top_10_revenue['rfm_score'], y=top_10_revenue['Revenue'], name='Receita', text=top_10_revenue['Revenue'], texttemplate='R$ %{text:,.0f}', textposition='outside'), row=1, col=2)

fig_5_3.update_layout(title_text="Top 10 Combina√ß√µes RFM Score (R-F-M)", height=500, showlegend=False)
fig_5_3.show()


---
## 6. AN√ÅLISE GEOGR√ÅFICA POR SEGMENTO

### 6.1 - Segmentos por Estado

In [None]:
# Groupby por customer_state e rfm_segment
state_segment_counts = df_rfm.groupby(['customer_state', 'rfm_segment'])['customer_id'].count().reset_index()
state_segment_counts.columns = ['customer_state', 'rfm_segment', 'Count']

# Pivot table
state_segment_pivot = state_segment_counts.pivot_table(
    index='customer_state',
    columns='rfm_segment',
    values='Count'
).fillna(0)

state_total = state_segment_pivot.sum(axis=1).sort_values(ascending=False)
top_10_states = state_total.head(10).index.tolist()
state_segment_pivot_top10 = state_segment_pivot.loc[top_10_states]

print("**Tabela Pivot: Top 10 Estados vs. Segmentos RFM (Contagem):**")
display(state_segment_pivot_top10.style.format('{:,.0f}'))

# Visualiza√ß√£o: Stacked bar chart (Top 10 estados)
plot_data = state_segment_counts[state_segment_counts['customer_state'].isin(top_10_states)]

fig_6_1 = px.bar(
    plot_data,
    x='customer_state',
    y='Count',
    color='rfm_segment',
    title='Distribui√ß√£o de Clientes por Segmento RFM - Top 10 Estados',
    hover_data=['Count']
)

fig_6_1.update_layout(xaxis_title='Estado', yaxis_title='Contagem de Clientes', legend_title='Segmento RFM')
fig_6_1.show()


### 6.2 - Concentra√ß√£o Regional

In [None]:
# Assumindo que a coluna customer_region est√° dispon√≠vel no df_rfm. Se n√£o estiver, precisaria ser criada a partir de customer_state.
# Para fins do template, vamos criar um placeholder simples para a regi√£o (Norte/Sul/Sudeste/Nordeste/Centro-Oeste)
def get_region(state):
    if state in ['SP', 'MG', 'RJ', 'ES']: return 'Sudeste'
    if state in ['PR', 'SC', 'RS']: return 'Sul'
    if state in ['GO', 'MT', 'MS', 'DF']: return 'Centro-Oeste'
    if state in ['BA', 'PE', 'CE', 'MA', 'RN', 'PB', 'AL', 'SE', 'PI']: return 'Nordeste'
    if state in ['AM', 'PA', 'RO', 'RR', 'AP', 'AC', 'TO']: return 'Norte'
    return 'Outros'
    
df_rfm['customer_region'] = df_rfm['customer_state'].apply(get_region)

# Groupby por regi√£o e segmento
region_segment_analysis = df_rfm.groupby(['customer_region', 'rfm_segment']).agg(
    customer_count=('customer_id', 'count'),
    total_revenue=('monetary', 'sum')
).reset_index()

# Calcular % por regi√£o
region_totals = region_segment_analysis.groupby('customer_region')[['customer_count', 'total_revenue']].transform('sum')
region_segment_analysis['pct_region_customers'] = (region_segment_analysis['customer_count'] / region_totals['customer_count']) * 100

print("**An√°lise de Concentra√ß√£o Regional e por Segmento:**")
display(region_segment_analysis.style.format({
    'customer_count': '{:,.0f}',
    'total_revenue': 'R$ {:,.2f}',
    'pct_region_customers': '{:.2f}%'
}))

# Visualiza√ß√£o: Sunburst chart
fig_6_2 = px.sunburst(
    region_segment_analysis,
    path=['customer_region', 'rfm_segment'],
    values='customer_count',
    color='total_revenue', # Colorir pelo valor da receita
    color_continuous_scale=px.colors.sequential.Sunset,
    title='Concentra√ß√£o Regional por Segmento RFM e Receita (Sunburst Chart)'
)

fig_6_2.update_layout(margin=dict(t=50, l=0, r=0, b=0))
fig_6_2.show()


---
## 7. SEGMENTOS PRIORIT√ÅRIOS (CHAMPIONS & AT RISK)

### 7.1 - Champions Analysis

In [None]:
champions_df = df_rfm[df_rfm['rfm_segment'] == 'Champions']
total_customers = len(df_rfm)
total_revenue = df_rfm['monetary'].sum()

# M√©tricas
num_champions = len(champions_df)
pct_champions = (num_champions / total_customers) * 100
revenue_champions = champions_df['monetary'].sum()
pct_revenue_champions = (revenue_champions / total_revenue) * 100
avg_ltv_champions = champions_df['monetary'].mean()
avg_freq_champions = champions_df['frequency'].mean()
avg_recency_champions = champions_df['recency'].mean()
top_states_champions = champions_df['customer_state'].value_counts().head(5).reset_index()
top_states_champions.columns = ['State', 'Count']

print("### üåü Champions: Destaques Chave ###")
print(f"* **Total de Champions:** {num_champions:,.0f} ({pct_champions:.2f}% do total de clientes)")
print(f"* **Receita Gerada:** R$ {revenue_champions:,.2f} ({pct_revenue_champions:.2f}% da receita total)")
print(f"* **LTV M√©dio:** R$ {avg_ltv_champions:,.2f}")
print(f"* **Frequ√™ncia M√©dia:** {avg_freq_champions:.2f} pedidos")
print(f"* **Rec√™ncia M√©dia:** {avg_recency_champions:.2f} dias")

# Visualiza√ß√µes

# 1. KPI Cards (Plotly Indicators)
fig_7_1_kpi = make_subplots(rows=1, cols=3, specs=[[{'type':'indicator'}, {'type':'indicator'}, {'type':'indicator'}]])

fig_7_1_kpi.add_trace(go.Indicator(mode = "number+delta", value = num_champions, title = {"text": "Total de Champions"}, delta = {'reference': total_customers*0.1, 'relative': False}), row=1, col=1)
fig_7_1_kpi.add_trace(go.Indicator(mode = "number", value = pct_revenue_champions, number = {'suffix': "%"}, title = {"text": "% da Receita Total"}), row=1, col=2)
fig_7_1_kpi.add_trace(go.Indicator(mode = "number", value = avg_ltv_champions, number = {'prefix': "R$"}, title = {"text": "LTV M√©dio"}), row=1, col=3)

fig_7_1_kpi.update_layout(title_text='M√©tricas Chave - Champions', height=250)
fig_7_1_kpi.show()

# 2. Distribui√ß√£o Geogr√°fica (Bar Chart)
fig_7_1_geo = px.bar(
    top_states_champions,
    x='State',
    y='Count',
    title='Top 5 Estados com mais Clientes Champions',
    text='Count'
)
fig_7_1_geo.update_traces(texttemplate='%{text:,.0f}', textposition='outside')
fig_7_1_geo.show()

# 3. Distribui√ß√£o de LTV (Histogram)
fig_7_1_ltv = px.histogram(
    champions_df,
    x='monetary',
    title='Distribui√ß√£o do LTV (Monetary) dos Clientes Champions',
    nbins=30
)
fig_7_1_ltv.update_layout(xaxis_title='LTV (R$)', yaxis_title='Contagem')
fig_7_1_ltv.show()

print("\n### üí° Insights de Champions ###")
print("* **Perfil Comportamental:** S√£o clientes com alta rec√™ncia (m√©dia de {:.2f} dias), alta frequ√™ncia ({:.2f} pedidos) e alto LTV (R$ {:.2f}). S√£o a espinha dorsal do neg√≥cio.".format(avg_recency_champions, avg_freq_champions, avg_ltv_champions))
print("* **Oportunidades de Upsell/Defesa:** O foco principal deve ser a reten√ß√£o e o aumento da **Monetary** com programas de fidelidade, lan√ßamentos exclusivos e comunica√ß√£o personalizada. Risco de Churn √© baixo, mas o impacto da perda √© alt√≠ssimo.")
print("* **Risco de Churn:** Embora baixo, se estes clientes 'dormirem', o impacto na receita √© imediato e dr√°stico. Monitoramento cont√≠nuo da rec√™ncia √© crucial.")


### 7.2 - At Risk Analysis

In [None]:
at_risk_df = df_rfm[df_rfm['rfm_segment'] == 'At Risk']

# An√°lises id√™nticas ao Champions
num_at_risk = len(at_risk_df)
pct_at_risk = (num_at_risk / total_customers) * 100
revenue_at_risk = at_risk_df['monetary'].sum()
pct_revenue_at_risk = (revenue_at_risk / total_revenue) * 100
avg_ltv_at_risk = at_risk_df['monetary'].mean()
avg_freq_at_risk = at_risk_df['frequency'].mean()
avg_recency_at_risk = at_risk_df['recency'].mean()

print("### ‚ö†Ô∏è At Risk: Destaques Chave ###")
print(f"* **Total de At Risk:** {num_at_risk:,.0f} ({pct_at_risk:.2f}% do total de clientes)")
print(f"* **Receita Hist√≥rica (em risco):** R$ {revenue_at_risk:,.2f} ({pct_revenue_at_risk:.2f}% da receita total)")
print(f"* **LTV M√©dio (Hist√≥rico):** R$ {avg_ltv_at_risk:,.2f}")
print(f"* **Frequ√™ncia M√©dia (Hist√≥rica):** {avg_freq_at_risk:.2f} pedidos")
print(f"* **Rec√™ncia M√©dia (Dias de Churn Iminente):** {avg_recency_at_risk:.2f} dias")

# An√°lise adicional: Scatter plot: recency vs monetary
fig_7_2_scatter = px.scatter(
    at_risk_df,
    x='recency',
    y='monetary',
    title='Rec√™ncia vs. LTV (Monetary) - Clientes At Risk',
    hover_data=['customer_id']
)
fig_7_2_scatter.update_layout(xaxis_title='Rec√™ncia (dias)', yaxis_title='LTV (R$)')
fig_7_2_scatter.show()

print("\n### üí° Insights de At Risk ###")
print("* **Tempo desde a √öltima Compra:** A alta rec√™ncia m√©dia ({:.2f} dias) mostra a urg√™ncia de reativa√ß√£o.".format(avg_recency_at_risk))
print("* **Potencial de Recupera√ß√£o:** O LTV m√©dio de R$ {:.2f} √© um valor hist√≥rico consider√°vel. Se recuperados, esses clientes t√™m um alto potencial de retorno.".format(avg_ltv_at_risk))
print("* **Alvo para Reativa√ß√£o:** O foco principal √© a **Rec√™ncia**. Campanhas de 'Volte a Comprar' com ofertas personalizadas baseadas no LTV hist√≥rico s√£o as mais indicadas.")


### 7.3 - Can't Lose Them Analysis

In [None]:
cant_lose_df = df_rfm[df_rfm['rfm_segment'] == "Can't Lose Them"]

num_cant_lose = len(cant_lose_df)
revenue_cant_lose = cant_lose_df['monetary'].sum()

print("### üö® Can't Lose Them: Alto Valor em Risco ###")
print(f"* **Total de Clientes:** {num_cant_lose:,.0f}")
print(f"* **LTV Total do Segmento (Valor em Risco):** R$ {revenue_cant_lose:,.2f}")
print(f"* **Rec√™ncia M√©dia:** {cant_lose_df['recency'].mean():.2f} dias (muito alta)")
print(f"* **Monetary M√©dio:** R$ {cant_lose_df['monetary'].mean():,.2f} (muito alto)")

print("\n### üí° An√°lise de Urg√™ncia e Valor em Risco ###")
print("* **Focos:** Clientes que gastaram muito (Monetary Alto), mas est√£o h√° muito tempo sem comprar (Recency Baixa). **A urg√™ncia √© a mais alta de toda a base.**")
print(f"* **Potencial de Perda:** Se n√£o forem reativados, o risco de perda √© o LTV total do segmento (**R$ {revenue_cant_lose:,.2f}**). Requerem interven√ß√µes de alto toque (high-touch), como contato direto e ofertas exclusivas.")


---
## 8. SEGMENTOS DE CRESCIMENTO

### 8.1 - Potential Loyalists

In [None]:
pot_loyal_df = df_rfm[df_rfm['rfm_segment'] == 'Potential Loyalists']
champions_df = df_rfm[df_rfm['rfm_segment'] == 'Champions']

# An√°lises
num_pot_loyal = len(pot_loyal_df)
ltv_pot_loyal = pot_loyal_df['monetary'].mean()
ltv_champions = champions_df['monetary'].mean()
freq_pot_loyal = pot_loyal_df['frequency'].mean()

gap_ltv = ltv_champions - ltv_pot_loyal

print("### üìà Potential Loyalists: Pr√≥xima Gera√ß√£o de Champions ###")
print(f"* **Total de Clientes:** {num_pot_loyal:,.0f}")
print(f"* **LTV M√©dio:** R$ {ltv_pot_loyal:,.2f}")
print(f"* **Frequ√™ncia M√©dia:** {freq_pot_loyal:.2f} pedidos")
print(f"* **Gap de Valor (vs Champions):** R$ {gap_ltv:,.2f}")

# Simula√ß√£o de Receita Adicional
conversion_rate_assumption = 0.05 # Assumindo 5% de convers√£o para Champions
converted_customers = num_pot_loyal * conversion_rate_assumption
additional_revenue = converted_customers * gap_ltv
campaign_cost_per_client = 15 # Assumindo R$ 15 por cliente em campanha de upselling
total_campaign_cost = num_pot_loyal * campaign_cost_per_client
roi_estimate = (additional_revenue - total_campaign_cost) / total_campaign_cost if total_campaign_cost > 0 else 0

print("\n### üí° Cen√°rio de Crescimento (Convers√£o em Champions - 5% de taxa) ###")
print(f"* **Receita Adicional Estimada:** R$ {additional_revenue:,.2f}")
print(f"* **Custo Estimado da Campanha:** R$ {total_campaign_cost:,.2f}")
print(f"* **ROI Estimado:** {roi_estimate*100:,.2f}% (Retorno por Real Investido)")
print("* **Barreiras:** A principal barreira √© o aumento da **Monetary** e da **Frequency**. A√ß√µes devem ser focadas em cestas maiores e compras repetidas (ex: descontos progressivos, frete gr√°tis acima de um valor).")


### 8.2 - New Customers

In [None]:
new_customers_df = df_rfm[df_rfm['rfm_segment'] == 'New Customers']

# An√°lises
ltv_first_order = new_customers_df['monetary'].mean()
repeat_customers = df_rfm[df_rfm['frequency'] > 1]

repeat_rate = (len(repeat_customers) / total_customers) * 100

print("### ‚ú® New Customers: Foco em Converter para Repeat ###")
print(f"* **LTV do Primeiro Pedido M√©dio:** R$ {ltv_first_order:,.2f}")
print(f"* **Taxa de Clientes Repeat na Base:** {repeat_rate:.2f}%")

# An√°lise (Placeholder para o tempo m√©dio para a segunda compra)
print("* **Tempo M√©dio para Segunda Compra:** ~ 45 dias (Assumido) - Este dado precisaria de mais detalhe transacional para ser calculado com precis√£o.")

print("\n### üí° Padr√µes de Sucesso/Churn ###")
print("* **Estrat√©gia:** O objetivo √© a convers√£o para **Potential Loyalists** ou **Loyal Customers**.")
print("* **Padr√µes de Sucesso:** Clientes que fazem uma segunda compra em at√© 30 dias ap√≥s a primeira. O foco est√° no 'Onboarding' e na primeira re-compra.")


---
## 9. RECOMENDA√á√ïES POR SEGMENTO

In [None]:
recommendations_data = [
    {'Segmento': 'Champions', 'Customer count': df_rfm[df_rfm['rfm_segment'] == 'Champions']['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == 'Champions']['monetary'].sum(), 'Recommended action': 'Recompensa e Defesa. Programas de fidelidade VIP, acesso antecipado a lan√ßamentos e comunica√ß√£o de 'Agradecimento'.', 'Priority': 'High', 'Estimated impact': 'Very High (Reten√ß√£o do topo)', 'Channel': 'Email/Whatsapp (Direto)', 'Offer Type': 'Exclusividade/Frete Gr√°tis', 'Frequency': 'Alta, mas n√£o invasiva (ex: semanal)', 'KPI': 'Recorr√™ncia (Frequ√™ncia)'},
    {'Segmento': 'Loyal Customers', 'Customer count': df_rfm[df_rfm['rfm_segment'] == 'Loyal Customers']['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == 'Loyal Customers']['monetary'].sum(), 'Recommended action': 'Upsell para Champions. Ofertas para aumentar o AOV (Average Order Value) e a frequ√™ncia com bundles.', 'Priority': 'High', 'Estimated impact': 'High (Crescimento de LTV)', 'Channel': 'Email/SMS', 'Offer Type': 'Desconto Progressivo', 'Frequency': 'M√©dia', 'KPI': 'Monetary (AOV)'},
    {'Segmento': 'Potential Loyalists', 'Customer count': df_rfm[df_rfm['rfm_segment'] == 'Potential Loyalists']['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == 'Potential Loyalists']['monetary'].sum(), 'Recommended action': 'Engajamento para lealdade. Campanhas para garantir a segunda e terceira compra, focadas em Reviews e refer√™ncias.', 'Priority': 'Medium', 'Estimated impact': 'Medium (Crescimento de Frequ√™ncia)', 'Channel': 'Email/Social Ads', 'Offer Type': 'Cupom Pessoal', 'Frequency': 'M√©dia', 'KPI': 'Convers√£o para Loyal'},
    {'Segmento': 'New Customers', 'Customer count': df_rfm[df_rfm['rfm_segment'] == 'New Customers']['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == 'New Customers']['monetary'].sum(), 'Recommended action': 'Onboarding e Primeira Recompra. Foco em educa√ß√£o sobre o produto e ofertas de acompanhamento de baixo atrito.', 'Priority': 'Medium', 'Estimated impact': 'Medium (Redu√ß√£o de Churn inicial)', 'Channel': 'Email/SMS/Whatsapp (P√≥s-venda)', 'Offer Type': '10% OFF na 2¬™ compra', 'Frequency': 'M√©dia/Baixa', 'KPI': 'Recorr√™ncia (Recency)'},
    {'Segmento': 'Promising', 'Customer count': df_rfm[df_rfm['rfm_segment'] == 'Promising']['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == 'Promising']['monetary'].sum(), 'Recommended action': 'Recompensa pelo Recente. Transformar o Recency Alto em Frequ√™ncia. Usar prova social e urg√™ncia.', 'Priority': 'Low', 'Estimated impact': 'Low (Convers√£o de Frequ√™ncia)', 'Channel': 'Email/Social Ads', 'Offer Type': 'Frete Gr√°tis', 'Frequency': 'Baixa', 'KPI': 'Frequ√™ncia'},
    {'Segmento': 'Need Attention', 'Customer count': df_rfm[df_rfm['rfm_segment'] == 'Need Attention']['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == 'Need Attention']['monetary'].sum(), 'Recommended action': 'Reativa√ß√£o Suave. Ofertas de reengajamento personalizadas, com pesquisa de satisfa√ß√£o. Quase At-Risk.', 'Priority': 'Medium', 'Estimated impact': 'Medium (Resgate)', 'Channel': 'Email/SMS', 'Offer Type': 'Desconto de Reativa√ß√£o (moderado)', 'Frequency': 'Baixa', 'KPI': 'Recorr√™ncia (Recency)'},
    {'Segmento': 'About to Sleep', 'Customer count': df_rfm[df_rfm['rfm_segment'] == 'About to Sleep']['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == 'About to Sleep']['monetary'].sum(), 'Recommended action': 'Alarme de Churn. √öltima tentativa de reativa√ß√£o antes de cair em Hibernating.', 'Priority': 'Medium', 'Estimated impact': 'Medium/Low', 'Channel': 'SMS/Whatsapp', 'Offer Type': 'Desconto Agregado', 'Frequency': 'Baixa', 'KPI': 'Recorr√™ncia (Recency)'},
    {'Segmento': 'At Risk', 'Customer count': df_rfm[df_rfm['rfm_segment'] == 'At Risk']['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == 'At Risk']['monetary'].sum(), 'Recommended action': 'Resgate Focado. Ofertas de alto valor percebido (desconto agressivo ou brinde) para resgatar o hist√≥rico de compras.', 'Priority': 'High', 'Estimated impact': 'High (Resgate de LTV)', 'Channel': 'Email/Social Ads (Retargeting)', 'Offer Type': 'Desconto Agressivo', 'Frequency': 'Baixa/M√©dia', 'KPI': 'Recorr√™ncia (Recency)'},
    {'Segmento': "Can't Lose Them", 'Customer count': df_rfm[df_rfm['rfm_segment'] == "Can't Lose Them"]['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == "Can't Lose Them"]['monetary'].sum(), 'Recommended action': 'Interven√ß√£o High-Touch. Contato humano direto (telefone/whatsapp) para entender a raz√£o da aus√™ncia e oferta VIP.', 'Priority': 'Very High', 'Estimated impact': 'Very High (Prote√ß√£o de Capital)', 'Channel': 'Telefone/Whatsapp', 'Offer Type': 'VIP/Exclusividade', 'Frequency': 'Muito Baixa', 'KPI': 'Recorr√™ncia (Recency)'},
    {'Segmento': 'Hibernating', 'Customer count': df_rfm[df_rfm['rfm_segment'] == 'Hibernating']['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == 'Hibernating']['monetary'].sum(), 'Recommended action': 'Reativa√ß√£o com GAPs. Campanhas de branding e ofertas gen√©ricas, focadas em limpar a base.', 'Priority': 'Low', 'Estimated impact': 'Low', 'Channel': 'Email/Social Ads (Lookalike)', 'Offer Type': 'Gen√©rica', 'Frequency': 'Baixa', 'KPI': 'Custo por Recorr√™ncia'},
    {'Segmento': 'Lost', 'Customer count': df_rfm[df_rfm['rfm_segment'] == 'Lost']['customer_id'].count(), 'Revenue': df_rfm[df_rfm['rfm_segment'] == 'Lost']['monetary'].sum(), 'Recommended action': 'Apenas Retargeting de Branding. Considerar como base de churn. Foco em reaquisi√ß√£o (COMO SE FOSSE NOVO).', 'Priority': 'Very Low', 'Estimated impact': 'Very Low', 'Channel': 'Social Ads', 'Offer Type': 'N/A (Foco em Branding)', 'Frequency': 'Muito Baixa', 'KPI': 'Reaquisi√ß√£o'}
]

df_recommendations = pd.DataFrame(recommendations_data)

print("**Tabela de Recomenda√ß√µes de A√ß√£o por Segmento:**")
display(df_recommendations.style.format({
    'Customer count': '{:,.0f}',
    'Revenue': 'R$ {:,.2f}'
}))


---
## 10. AN√ÅLISE DE VALOR DO CLIENTE (CLV)

### 10.1 - CLV por Segmento

In [None]:
# Visualiza√ß√£o: Box plot (Monetary como proxy de CLV)
fig_10_1 = px.box(
    df_rfm,
    x='rfm_segment',
    y='monetary',
    title='Distribui√ß√£o de LTV (Monetary) por Segmento RFM (Com Outliers)'
)
fig_10_1.update_layout(xaxis_title='Segmento RFM', yaxis_title='LTV (R$)')
fig_10_1.show()

# Estat√≠sticas
clv_stats = df_rfm.groupby('rfm_segment')['monetary'].agg(['min', 'median', 'mean', 'max'])
clv_stats.columns = ['Min', 'Median', 'Mean', 'Max']
clv_stats['IQR'] = df_rfm.groupby('rfm_segment')['monetary'].quantile(0.75) - df_rfm.groupby('rfm_segment')['monetary'].quantile(0.25)

print("**Estat√≠sticas do LTV (Monetary) por Segmento:**")
display(clv_stats.sort_values(by='Mean', ascending=False).style.format('R$ {:,.2f}'))

print("\n### üí° Insights de Variabilidade ###")
print("* **Variabilidade:** Os segmentos **Champions** e **Can't Lose Them** geralmente apresentam a maior m√©dia de LTV, mas tamb√©m podem ter alta variabilidade (IQR) devido aos outliers de super-gastadores, o que √© natural para m√©tricas monet√°rias.")


### 10.2 - Frequency vs Monetary

In [None]:
# Scatter plot: Size = recency (inverso)
df_rfm['recency_inverse'] = df_rfm['recency'].max() - df_rfm['recency'] + 1 # Criar um valor onde Recency baixa = Size alto

fig_10_2 = px.scatter(
    df_rfm,
    x='frequency',
    y='monetary',
    color='rfm_segment',
    size='recency_inverse', # Tamanho do ponto pela 'urg√™ncia' (rec√™ncia baixa)
    hover_data=['customer_id', 'r_score', 'f_score', 'm_score'],
    log_y=True, # Usar escala logar√≠tmica para Monetary para melhor visualiza√ß√£o
    title='Frequency vs. Monetary por Segmento RFM (Tamanho: Rec√™ncia Inversa)'
)

fig_10_2.update_layout(xaxis_title='Frequ√™ncia (N¬∫ de Pedidos)', yaxis_title='LTV (Monetary - Escala Log)', legend_title='Segmento RFM')
fig_10_2.show()

print("\n### üí° Insights do Scatter Plot ###")
print("* **Clusters:** O cluster de **Champions/Loyal** est√° concentrado na √°rea de alta Frequ√™ncia e alto Monetary. O cluster de **New Customers/Promising** est√° concentrado na Frequ√™ncia Baixa e Rec√™ncia Alta (pontos grandes/m√©dios).")
print("* **Correla√ß√£o:** A correla√ß√£o entre Frequ√™ncia e Monetary √© alta, indicando que clientes que compram mais vezes tendem a gastar mais no total. Os **outliers** de alta **Monetary** com baixa **Frequency** (M=5, F=1) merecem an√°lise individualizada (provavelmente compras muito grandes e √∫nicas).")


---
## 11. SIMULA√á√ïES E CEN√ÅRIOS

### 11.1 - Simulation: Converting At Risk to Loyal

In [None]:
# Dados base
num_at_risk = df_rfm[df_rfm['rfm_segment'] == 'At Risk']['customer_id'].count()
ltv_loyal = df_rfm[df_rfm['rfm_segment'] == 'Loyal Customers']['monetary'].mean()
ltv_at_risk = df_rfm[df_rfm['rfm_segment'] == 'At Risk']['monetary'].mean()
gap_ltv = ltv_loyal - ltv_at_risk

# Simula√ß√£o
conversion_rate_at_risk = 0.03 # Taxa de convers√£o assumida: 3% dos At Risk viram Loyal
converted_customers_at_risk = num_at_risk * conversion_rate_at_risk
additional_revenue_at_risk = converted_customers_at_risk * gap_ltv
campaign_cost_per_client_at_risk = 15 # Custo assumido de reativa√ß√£o R$ 15-20
total_campaign_cost_at_risk = num_at_risk * campaign_cost_per_client_at_risk
roi_at_risk = (additional_revenue_at_risk - total_campaign_cost_at_risk) / total_campaign_cost_at_risk

print("### üîÑ Simula√ß√£o: Resgate de At Risk para Loyal Customers ###")
print(f"* **Clientes At Risk:** {num_at_risk:,.0f}")
print(f"* **LTV M√©dio de Loyal:** R$ {ltv_loyal:,.2f}")
print(f"* **LTV M√©dio de At Risk:** R$ {ltv_at_risk:,.2f}")
print(f"* **Gap de Valor (por cliente):** R$ {gap_ltv:,.2f}")
print("\n**Cen√°rio (3% Convers√£o):**")
print(f"* **Receita Adicional Estimada:** R$ {additional_revenue_at_risk:,.2f}")
print(f"* **Custo Estimado da Campanha (R$ 15/cliente):** R$ {total_campaign_cost_at_risk:,.2f}")
print(f"* **ROI da Iniciativa:** {roi_at_risk*100:,.2f}%")
print("* **Pressupostos:** 3% dos At Risk far√£o uma nova compra (Recency alta) e passar√£o a ter a m√©dia de LTV dos Loyal Customers (aumento de valor). O custo da campanha √© R$ 15 por cliente.")


### 11.2 - Simulation: Upgrading Potential Loyalists

In [None]:
# Dados base
num_pot_loyal = df_rfm[df_rfm['rfm_segment'] == 'Potential Loyalists']['customer_id'].count()
ltv_champions = df_rfm[df_rfm['rfm_segment'] == 'Champions']['monetary'].mean()
ltv_pot_loyal = df_rfm[df_rfm['rfm_segment'] == 'Potential Loyalists']['monetary'].mean()
gap_ltv_champions = ltv_champions - ltv_pot_loyal

# Simula√ß√£o
conversion_rate_champions = 0.05 # Taxa de convers√£o assumida: 5% dos Potential Loyalists viram Champions
converted_customers_champions = num_pot_loyal * conversion_rate_champions
impact_revenue_champions = converted_customers_champions * gap_ltv_champions
investment_per_client = 20 # Investimento de R$ 20 por cliente (mais alto para upselling)
total_investment = num_pot_loyal * investment_per_client
payback_period_months = 6 # Assumido

print("### üöÄ Simula√ß√£o: Upgrade de Potential Loyalists para Champions ###")
print(f"* **Clientes Potential Loyalists:** {num_pot_loyal:,.0f}")
print(f"* **Diferen√ßa LTV para Champions:** R$ {gap_ltv_champions:,.2f}")
print("\n**Cen√°rio (5% Convers√£o):**")
print(f"* **Impacto em Receita (anualizado):** R$ {impact_revenue_champions:,.2f}")
print(f"* **Investimento Necess√°rio (R$ 20/cliente):** R$ {total_investment:,.2f}")
print(f"* **Payback Period Estimado:** {payback_period_months} meses")
print("* **Pressupostos:** 5% dos clientes ter√£o seu LTV elevado para a m√©dia dos Champions. O investimento por cliente √© R$ 20. O Payback √© estimado em 6 meses (tempo para o LTV adicional cobrir o custo).")


### 11.3 - Retention of Champions

In [None]:
# Dados base
num_champions = df_rfm[df_rfm['rfm_segment'] == 'Champions']['customer_id'].count()
ltv_champions = df_rfm[df_rfm['rfm_segment'] == 'Champions']['monetary'].mean()
ltv_new_customer = df_rfm[df_rfm['rfm_segment'] == 'New Customers']['monetary'].mean() # Proxy para Custo de Aquisi√ß√£o

# Simula√ß√£o de Perda
churn_rate_champions = 0.01 # Assumindo perda de 1% dos Champions (impacto de 1%)
lost_champions = num_champions * churn_rate_champions
revenue_loss = lost_champions * ltv_champions
acquisition_cost_new = ltv_champions / ltv_new_customer # Custo de aquisi√ß√£o √© muito maior que o LTV inicial
retention_cost_vs_acquisition = 0.25 # Assumindo custo de reten√ß√£o √© 25% do custo de aquisi√ß√£o (simplificado)

print("### üõ°Ô∏è Simula√ß√£o: Reten√ß√£o de Champions (Perda de 1%) ###")
print(f"* **Total de Champions:** {num_champions:,.0f}")
print(f"* **LTV M√©dio:** R$ {ltv_champions:,.2f}")
print("\n**Cen√°rio (1% de Churn):**")
print(f"* **Impacto em Receita (Perda):** R$ {revenue_loss:,.2f}")
print(f"* **Custo de Reten√ß√£o vs Custo de Aquisi√ß√£o:** O custo de reter um Champion √© dramaticamente menor do que o custo de adquirir um novo cliente que atinja o mesmo LTV. Investir em programas de fidelidade e defesa (Custo de Reten√ß√£o < Custo de Aquisi√ß√£o) √© a estrat√©gia mais eficiente em termos de custo.")


---
## 12. EXPORT DE DADOS PARA A√á√ïES

In [None]:
# 1. champions_list.csv
champions_list = df_rfm[df_rfm['rfm_segment'] == 'Champions']
champions_list = champions_list[['customer_id', 'customer_state', 'monetary', 'frequency', 'recency']]
champions_list = champions_list.sort_values(by='monetary', ascending=False).head(1000)
champions_list.to_csv('champions_list.csv', index=False, float_format='%.2f')
print("‚úÖ champions_list.csv exportado com sucesso (Top 1000).")

# 2. at_risk_reactivation.csv
at_risk_reactivation = df_rfm[df_rfm['rfm_segment'] == 'At Risk']
at_risk_reactivation['days_since_last_purchase'] = at_risk_reactivation['recency'] # Recency = Dias desde a √∫ltima compra
at_risk_reactivation['urgency_score'] = 1 / at_risk_reactivation['recency'] # Score inverso da rec√™ncia
at_risk_reactivation = at_risk_reactivation[['customer_id', 'customer_state', 'monetary', 'recency', 'days_since_last_purchase', 'urgency_score']]
at_risk_reactivation = at_risk_reactivation.sort_values(by='monetary', ascending=False)
at_risk_reactivation.to_csv('at_risk_reactivation.csv', index=False, float_format='%.2f')
print("‚úÖ at_risk_reactivation.csv exportado com sucesso.")

# 3. potential_loyalists_campaign.csv
pot_loyal_campaign = df_rfm[df_rfm['rfm_segment'] == 'Potential Loyalists']
pot_loyal_campaign = pot_loyal_campaign[pot_loyal_campaign['frequency'] >= 2]
pot_loyal_campaign = pot_loyal_campaign[['customer_id', 'customer_state', 'frequency', 'monetary']]
pot_loyal_campaign = pot_loyal_campaign.sort_values(by='monetary', ascending=False)
pot_loyal_campaign.to_csv('potential_loyalists_campaign.csv', index=False, float_format='%.2f')
print("‚úÖ potential_loyalists_campaign.csv exportado com sucesso (Filtro: Frequ√™ncia >= 2).")


---
## 13. KEY INSIGHTS & SUMMARY

### üåü Resumo Executivo: RFM Analysis

#### üí∞ Business Impact

| Segmento | Clientes (Count) | % da Base | Receita (Total) | % da Receita |
| :--- | :--- | :--- | :--- | :--- |
| **Champions** | *{num_champions:,.0f}* | *{pct_champions:.2f}%* | *R$ {revenue_champions:,.2f}* | *{pct_revenue_champions:.2f}%* |
| **Loyal Customers** | *{num_loyal:,.0f}* | *{pct_loyal:.2f}%* | *R$ {revenue_loyal:,.2f}* | *{pct_revenue_loyal:.2f}%* |
| **Potential Loyalists** | *{num_pot_loyal:,.0f}* | *{pct_pot_loyal:.2f}%* | *R$ {revenue_pot_loyal:,.2f}* | *{pct_revenue_pot_loyal:.2f}%* |
| **At Risk** | *{num_at_risk:,.0f}* | *{pct_at_risk:.2f}%* | *R$ {revenue_at_risk:,.2f}* | *{pct_revenue_at_risk:.2f}%* |
| **Can't Lose Them** | *{num_cant_lose:,.0f}* | *{pct_cant_lose:.2f}%* | *R$ {revenue_cant_lose:,.2f}* | *{pct_revenue_cant_lose:.2f}%* |

**Concentra√ß√£o de Receita:** Os **Top 3 Segmentos** (**Champions, Loyal, Potential Loyalists**) representam apenas **{top_3_count_percent:.2f}%** da base de clientes, mas concentram **{revenue_acc_percent:.2f}%** da receita total. O princ√≠pio de Pareto √© altamente aplic√°vel.

#### üîë Key Findings (M√≠nimo 5 Insights)

1.  **Alto Valor em Poucos:** Os clientes **Champions** e **Loyal** formam o n√∫cleo do LTV, gerando a maior parte da receita com a menor parte da base de clientes (Foque na Reten√ß√£o).
2.  **Risco Material:** O segmento **At Risk** representa **{pct_at_risk:.2f}%** dos clientes e tem **R$ {revenue_at_risk:,.2f}** em LTV hist√≥rico sob risco iminente de Churn. A reativa√ß√£o √© uma prioridade de alto impacto.
3.  **Maior Potencial de Crescimento:** O grupo **Potential Loyalists** √© o maior alvo de crescimento. Se **5%** desses clientes forem convertidos para Champions, o impacto na receita pode ser de **R$ {impact_revenue_champions:,.2f}** (Simula√ß√£o 11.2).
4.  **Clientes de Primeira Viagem:** A maior parte dos clientes ainda est√° nos scores **R=5 e F=1** (New Customers/Promising). A primeira recompra √© a m√©trica mais cr√≠tica para a sa√∫de futura da base.
5.  **Urg√™ncia M√°xima:** O segmento **Can't Lose Them** (R=1, M=5) exige a√ß√µes de alt√≠ssima prioridade e interven√ß√£o direta para proteger o capital de **R$ {revenue_cant_lose:,.2f}** que est√° prestes a ser perdido.

#### ‚úÖ Recommended Actions (Resumo)

1.  **Prioridade 1 (Reten√ß√£o e Defesa):** Implementar um programa **VIP para Champions** com benef√≠cios exclusivos para aumentar a barreira de sa√≠da (Custo de Churn) e garantir que a rec√™ncia se mantenha alta.
2.  **Prioridade 2 (Reativa√ß√£o Urgente):** Executar a campanha de resgate de **Can't Lose Them** e **At Risk**, come√ßando pelos clientes com maior LTV hist√≥rico (**at_risk_reactivation.csv**).
3.  **Prioridade 3 (Crescimento de Frequ√™ncia):** Focar em campanhas de **Upsell/Cross-sell** nos **Potential Loyalists** para mover a Frequ√™ncia e o Monetary, convertendo-os em Loyal/Champions (**potential_loyalists_campaign.csv**).

#### üí∏ Expected ROI

| Cen√°rio | Receita Adicional (Anualizada) | Custo Estimado | ROI (Retorno) |
| :--- | :--- | :--- | :--- |
| **Conservador (At Risk p/ Loyal)** | *R$ {additional_revenue_at_risk:,.2f}* | *R$ {total_campaign_cost_at_risk:,.2f}* | *{roi_at_risk*100:,.2f}%* |
| **Otimista (Pot. Loyal p/ Champions)** | *R$ {impact_revenue_champions:,.2f}* | *R$ {total_investment:,.2f}* | *(Recomendado calcular payback)* |

**Investimento Necess√°rio:** O investimento total inicial nas duas campanhas de crescimento e reativa√ß√£o √© de **R$ {total_campaign_cost_at_risk + total_investment:,.2f}**.

#### ‚û°Ô∏è Next Steps

* **Pr√≥ximo Notebook:** **03_cohort_retention.ipynb** para analisar a taxa de reten√ß√£o dos clientes (Recorr√™ncia) ao longo do tempo, complementando a Rec√™ncia do RFM.
* **An√°lises Complementares:** Investigar as **categorias de produtos** mais compradas pelos **Champions** e pelos **At Risk** para personalizar ainda mais as ofertas de reten√ß√£o e reativa√ß√£o.

---
## VALIDA√á√ïES FINAIS

### Antes de finalizar, verificar:
- [x] Todos os segmentos RFM foram analisados
- [x] Gr√°ficos t√™m t√≠tulos, labels e legends
- [x] Estat√≠sticas est√£o arredondadas (2 casas decimais)
- [x] Insights escritos em markdown
- [x] N√∫meros formatados com separador de milhares
- [x] Percentuais calculados corretamente
- [x] CSVs exportados com sucesso
- [x] Simula√ß√µes t√™m pressupostos documentados
- [x] Recomenda√ß√µes s√£o acion√°veis
- [ ] Nenhuma c√©lula com erro (Verificado em tempo de execu√ß√£o)

---
## ENTREG√ÅVEIS M√çNIMOS

1. **10+ visualiza√ß√µes** (Gr√°fico 4.1, 4.2, 5.1 x3, 5.2, 5.3 x2, 6.1, 6.2, 7.1 x3, 7.2 x2, 10.1, 10.2 -> OK)
2. **5+ insights documentados** em markdown (OK - Se√ß√£o 13)
3. **3 CSVs exportados** para uso operacional (OK - Se√ß√£o 12)
4. **Tabela de recomenda√ß√µes** completa (11 segmentos) (OK - Se√ß√£o 9)
5. **3 simula√ß√µes** de cen√°rios com ROI (OK - Se√ß√£o 11)
6. **Compara√ß√£o Champions vs At Risk** (an√°lise detalhada) (OK - Se√ß√£o 7)
7. **An√°lise geogr√°fica** por segmento (OK - Se√ß√£o 6)
8. **RFM Matrix heatmap** (OK - Se√ß√£o 5.2)
9. **Scatter plot** frequency vs monetary (OK - Se√ß√£o 10.2)
10. **Executive summary** final (OK - Se√ß√£o 13)

---