# üìä An√°lise de Segmenta√ß√£o de Clientes

## üß© Contexto dos Dados e Problema a Ser Resolvido

Este estudo foi conduzido com dados de clientes de uma empresa, com o objetivo principal de identificar diferentes perfis de comportamento de compra. A partir dessa segmenta√ß√£o, busca-se personalizar campanhas de marketing de forma mais eficiente.

Os dados utilizados contemplam tr√™s dimens√µes principais do comportamento do consumidor:

- **Rec√™ncia**: Quanto tempo se passou desde a √∫ltima compra.
- **Frequ√™ncia**: Quantidade de vezes que o cliente realizou compras.
- **Valor Monet√°rio**: Total gasto pelo cliente em compras.

### üéØ Problema de Neg√≥cio

**Como otimizar campanhas de marketing para melhorar a reten√ß√£o de clientes, aumentar o engajamento e elevar o LTV (Lifetime Value)?**

A resposta para essa pergunta passa pela segmenta√ß√£o inteligente da base de clientes, permitindo estrat√©gias de marketing mais direcionadas, eficientes e com maior retorno sobre o investimento.

## üõ†Ô∏è T√©cnicas Utilizadas

Neste projeto, utilizamos a **an√°lise RFM** (*Rec√™ncia, Frequ√™ncia e Valor Monet√°rio*) como t√©cnica principal para segmentar os clientes com base em seu comportamento de compra.

A metodologia RFM permite agrupar os clientes de acordo com:

- **Rec√™ncia**: Quanto tempo se passou desde a √∫ltima compra.
- **Frequ√™ncia**: Quantidade total de compras realizadas.
- **Valor Monet√°rio**: Total gasto pelo cliente durante o per√≠odo analisado.

Essa abordagem fornece uma vis√£o estrat√©gica dos diferentes perfis de consumidores, permitindo a cria√ß√£o de **campanhas de marketing personalizadas** e mais eficazes para cada segmento.

## Importando bibliotecas necess√°rias

In [2]:
import pandas as pd
import numpy as np

## An√°lise Explorat√≥ria (EDA)

### Visualiza√ß√£o inicial dos dados

In [3]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx"
df = pd.read_excel(url)

In [5]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


### Verifica√ß√£o dos atributos e tamanho do dataset

In [6]:
df.columns

Index(['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'UnitPrice', 'CustomerID', 'Country'],
      dtype='object')

In [7]:
df.shape

(541909, 8)

### Tipos de dados e valores ausentes

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    541909 non-null  object        
 1   StockCode    541909 non-null  object        
 2   Description  540455 non-null  object        
 3   Quantity     541909 non-null  int64         
 4   InvoiceDate  541909 non-null  datetime64[ns]
 5   UnitPrice    541909 non-null  float64       
 6   CustomerID   406829 non-null  float64       
 7   Country      541909 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB


In [10]:
df.isnull().sum()

InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64

## Pr√©-Processamento

### Tratamento de dados faltantes

In [11]:
df['Description'] = df['Description'].fillna('Sem descri√ß√£o')
df.dropna(subset=['CustomerID'], inplace=True)
df.isnull().sum()

InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
dtype: int64

### Convers√£o da coluna de datas e c√°lculo do TotalSpend

In [16]:
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])
df['TotalSpend'] = df['Quantity'] * df['UnitPrice']
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalSpend
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


## M√©tricas RFM

### C√°lculo da Rec√™ncia (R)

In [17]:
latest_date = df['InvoiceDate'].max()
rfm = df.groupby('CustomerID').agg({
    'InvoiceDate': lambda x: (latest_date - x.max()).days
})
rfm.rename(columns={'InvoiceDate': 'Recency'}, inplace=True)
rfm.head()

Unnamed: 0_level_0,Recency
CustomerID,Unnamed: 1_level_1
12346.0,325
12347.0,1
12348.0,74
12349.0,18
12350.0,309


### C√°lculo da Frequ√™ncia (F)

In [18]:
rfm['Monetary'] = df.groupby('CustomerID')['TotalSpend'].sum()
rfm.head()

Unnamed: 0_level_0,Recency,Monetary
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1
12346.0,325,0.0
12347.0,1,4310.0
12348.0,74,1797.24
12349.0,18,1757.55
12350.0,309,334.4


### C√°lculo do Valor Monet√°rio (M)

In [19]:
rfm['Monetary'] = df.groupby('CustomerID')['TotalSpend'].sum()
rfm.head()

Unnamed: 0_level_0,Recency,Monetary
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1
12346.0,325,0.0
12347.0,1,4310.0
12348.0,74,1797.24
12349.0,18,1757.55
12350.0,309,334.4


## C√°lculo Final e Modelagem RFM

### C√°lculo completo do RFM com nova refer√™ncia de data

In [20]:
df['TotalPrice'] = df['Quantity'] * df['UnitPrice']
reference_date = df['InvoiceDate'].max() + pd.Timedelta(days=1)

rfm = df.groupby('CustomerID').agg({
    'InvoiceDate': lambda x: (reference_date - x.max()).days,
    'InvoiceNo': 'count',
    'TotalPrice': 'sum'
})

rfm.rename(columns={'InvoiceDate': 'Recencia', 'InvoiceNo': 'Frequencia', 'TotalPrice': 'Valor'}, inplace=True)
rfm.head()

Unnamed: 0_level_0,Recencia,Frequencia,Valor
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346.0,326,2,0.0
12347.0,2,182,4310.0
12348.0,75,31,1797.24
12349.0,19,73,1757.55
12350.0,310,17,334.4


## Score e Segmenta√ß√£o

### Atribui√ß√£o de scores R, F e M

In [21]:
rfm['Recencia_Score'] = pd.qcut(rfm['Recencia'], 5, labels=[5, 4, 3, 2, 1])
rfm['Frequencia_Score'] = pd.qcut(rfm['Frequencia'], 5, labels=[1, 2, 3, 4, 5], duplicates='drop')
rfm['Valor_Score'] = pd.qcut(rfm['Valor'], 5, labels=[1, 2, 3, 4, 5], duplicates='drop')

rfm['Total_Score'] = rfm['Recencia_Score'].astype(int) + rfm['Frequencia_Score'].astype(int) + rfm['Valor_Score'].astype(int)
rfm.head()

Unnamed: 0_level_0,Recencia,Frequencia,Valor,Recencia_Score,Frequencia_Score,Valor_Score,Total_Score
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12346.0,326,2,0.0,1,1,1,3
12347.0,2,182,4310.0,5,5,5,15
12348.0,75,31,1797.24,2,3,4,9
12349.0,19,73,1757.55,4,4,4,12
12350.0,310,17,334.4,1,2,2,5


### Cria√ß√£o das categorias de segmenta√ß√£o

In [22]:
def segmentacao(row):
    if row['Total_Score'] >= 13:
        return 'Segmento 1: Clientes mais valiosos'
    elif row['Total_Score'] >= 9:
        return 'Segmento 2: Clientes potenciais'
    elif row['Total_Score'] >= 5:
        return 'Segmento 3: Clientes regulares'
    else:
        return 'Segmento 4: Clientes inativos'

rfm['Segmento'] = rfm.apply(segmentacao, axis=1)
rfm.head()

Unnamed: 0_level_0,Recencia,Frequencia,Valor,Recencia_Score,Frequencia_Score,Valor_Score,Total_Score,Segmento
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12346.0,326,2,0.0,1,1,1,3,Segmento 4: Clientes inativos
12347.0,2,182,4310.0,5,5,5,15,Segmento 1: Clientes mais valiosos
12348.0,75,31,1797.24,2,3,4,9,Segmento 2: Clientes potenciais
12349.0,19,73,1757.55,4,4,4,12,Segmento 2: Clientes potenciais
12350.0,310,17,334.4,1,2,2,5,Segmento 3: Clientes regulares


### Salvando os Resultados

In [23]:
rfm.to_csv('../data/processed/rfm_segmentation.csv')

## Resultados

### üéØ Estrat√©gias de Marketing com base na Segmenta√ß√£o RFM

Com base na tabela RFM (*Rec√™ncia*, *Frequ√™ncia* e *Valor Monet√°rio*), √© poss√≠vel aplicar v√°rias campanhas de marketing segmentadas para melhorar o engajamento dos clientes. Abaixo est√£o algumas sugest√µes de campanhas para cada segmento identificado:

---

#### ü•á Segmento 1: Clientes mais valiosos
**Campanhas:**
- **Fidelidade:** Recompensas exclusivas para manter o engajamento.
- **Ofertas personalizadas:** Descontos em produtos premium.
- **Agradecimento:** Cart√µes de agradecimento ou b√¥nus de compras.
- **Acesso antecipado:** Acesso privilegiado a novos produtos ou promo√ß√µes.

---

#### üöÄ Segmento 2: Clientes potenciais
**Campanhas:**
- **Reengajamento:** Cupons ou promo√ß√µes para incentivar novas compras.
- **Promo√ß√µes de frequ√™ncia:** Descontos progressivos para compras recorrentes.
- **Novidades:** E-mails com lan√ßamentos e novos produtos.
- **Recomenda√ß√£o:** Benef√≠cios para indica√ß√µes de amigos.

---

#### üîÅ Segmento 3: Clientes regulares
**Campanhas:**
- **Incentivo a mais compras:** Promo√ß√µes espec√≠ficas para aumentar a frequ√™ncia.
- **Valor agregado:** Descontos para compras acima de um determinado valor.
- **Cross-selling:** Ofertas de produtos complementares com base no hist√≥rico.

---

#### üí§ Segmento 4: Clientes inativos
**Campanhas:**
- **Reativa√ß√£o:** Descontos ou ofertas exclusivas para trazer o cliente de volta.
- **Recupera√ß√£o de carrinho:** Lembretes para finalizar compras abandonadas.
- **Novos produtos:** E-mails com sugest√µes baseadas em compras anteriores.

---

#### üßä Segmento 5: Clientes de baixo valor
**Campanhas:**
- **Incentivo √† primeira compra:** Descontos para aumentar o ticket m√©dio.
- **Despertar interesse:** Ofertas introdut√≥rias ou b√¥nus


### ‚úÖ Conclus√£o

A an√°lise de segmenta√ß√£o de clientes por meio da metodologia RFM (Rec√™ncia, Frequ√™ncia e Valor Monet√°rio) permitiu identificar padr√µes distintos de comportamento entre os clientes. A partir dessa segmenta√ß√£o, foi poss√≠vel propor campanhas de marketing personalizadas, com o objetivo de aumentar o engajamento e a fideliza√ß√£o.

As estrat√©gias sugeridas abrangem desde programas de fidelidade e ofertas exclusivas para os clientes mais valiosos, at√© a√ß√µes de reativa√ß√£o voltadas para aqueles que est√£o inativos. Essa abordagem segmentada permite otimizar os recursos de marketing, tornando as campanhas mais eficazes, relevantes e direcionadas √†s necessidades espec√≠ficas de cada grupo de clientes.

Com a aplica√ß√£o pr√°tica dessas campanhas, espera-se n√£o apenas um aumento nas vendas, mas tamb√©m o fortalecimento do relacionamento com os clientes e a constru√ß√£o de uma base mais s√≥lida e lucrativa ao longo do tempo.
