# Projeto Final - Segmentação de Usuários com Base no Histórico de Compras

## Objetivo

O objetivo deste projeto é segmentar os usuários com base no seu histórico de compras, a fim de identificar diferentes padrões de comportamento de consumo. Isso permitirá a criação de ofertas personalizadas, campanhas direcionadas e estratégias de fidelização mais eficazes.

---

## Perguntas que orientam o projeto:

- O que você quer alcançar e por quê?

> Entender os padrões de consumo dos clientes para melhorar a personalização de ofertas e aumentar a retenção.

- Quem se interessa pelo que você produz?

> Equipes de marketing, produto e atendimento ao cliente.

- Quais decisões serão baseadas nas suas análises?

> Estratégias de marketing, promoções sazonais e fidelização de clientes com alto potencial de valor.

---

## Tarefa Reformulada

Segmentar os usuários com base em seus padrões de compra (valor, frequência, categorias preferidas) e identificar grupos com comportamentos semelhantes.

---

## Hipóteses iniciais

* Hipótese 1: Clientes que compram frequentemente pertencem a um segmento de alta fidelidade
H0 (Hipótese Nula): A frequência de compra dos clientes considerados fiéis não é significativamente diferente da frequência de compra dos clientes não fiéis.

H1 (Hipótese Alternativa): A frequência de compra dos clientes considerados fiéis é significativamente maior do que a dos não fiéis.

Teste sugerido: Teste t para diferença de médias de frequência de compra entre grupos (fiéis vs. não fiéis).

* Hipótese 2: Clientes que não compram há muito tempo podem estar em risco de churn
H0: O tempo desde a última compra de clientes churn não é maior do que o tempo de clientes ativos.

H1: O tempo desde a última compra de clientes churn é maior do que o de clientes ativos.

Teste sugerido: Teste t para comparar médias de tempo desde última compra.

* Hipótese 3: O valor total gasto pode indicar clientes de alto potencial
H0: O valor total gasto não é significativamente maior nos clientes de alto potencial.

H1: O valor total gasto é significativamente maior nos clientes de alto potencial.

Teste sugerido: Teste t entre grupos (alto potencial vs. outros, ou quartis).

## Dataset Utilizado

Arquivo: `ecommerce_dataset_us.csv`  
Colunas:
- `InvoiceNo`: número da fatura (pedido)
- `StockCode`: código do item
- `Description`: nome do produto
- `Quantity`: quantidade comprada
- `InvoiceDate`: data da compra
- `UnitPrice`: preço por item
- `CustomerID`: identificador único do cliente

## Pré-processamento dos Dados

Nesta etapa, serão realizados os seguintes passos:
- Corrigir nomes de colunas
- Verificar valores ausentes
- Verificar duplicatas
- Converter tipos de dados

# Iniciando o Projeto

* Nome: Maria Sofia
* Data: Abril de 2025

In [1]:
# Bibliotecas principais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Carregar dados
df = pd.read_csv('ecommerce_dataset_us.csv', sep='\t')

# Visualizar amostra
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,11/29/2018 08:26,2.55,17850.0
1,536365,71053,WHITE METAL LANTERN,6.0,11/29/2018 08:26,3.39,17850.0
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,11/29/2018 08:26,2.75,17850.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,11/29/2018 08:26,3.39,17850.0
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,11/29/2018 08:26,3.39,17850.0


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 79088 entries, 0 to 119212
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   InvoiceNo    79088 non-null  object        
 1   StockCode    79088 non-null  object        
 2   Description  79088 non-null  object        
 3   Quantity     79088 non-null  float64       
 4   InvoiceDate  79088 non-null  datetime64[ns]
 5   UnitPrice    79088 non-null  float64       
 6   CustomerID   79088 non-null  int64         
dtypes: datetime64[ns](1), float64(2), int64(1), object(3)
memory usage: 4.8+ MB


In [4]:
# Verificar valores ausentes em cada coluna
df.isnull().sum()

InvoiceNo          0
StockCode          0
Description      339
Quantity           1
InvoiceDate        1
UnitPrice          1
CustomerID     39070
dtype: int64

In [5]:
# Remover linhas com dados faltantes essenciais para RFM
df = df.dropna(subset=['CustomerID', 'Quantity', 'UnitPrice', 'InvoiceDate'])

# Preencher 'Description' com valor genérico
df['Description'] = df['Description'].fillna('No Description')

### Tratamento de Dados Faltantes

Removemos as linhas com valores nulos em `CustomerID`, `Quantity`, `UnitPrice` e `InvoiceDate`, pois esses campos são essenciais para a análise RFM.

Isso reduziu o total de registros de **118.146 para 79.088**. Apesar da redução (~33%), mantivemos somente os dados úteis para segmentação, preservando a integridade da análise.

Além disso, foi substituído os valores ausentes em `Description` por "No Description", uma vez que essa coluna pode ser útil para análises futuras, mas não é obrigatória para RFM.


In [6]:
# Verificar número total de linhas duplicadas
df.duplicated().sum()

1056

In [7]:
# Remover duplicatas
df = df.drop_duplicates()

In [8]:
# Corrigir tipos de dados
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])  # Corrigir tipo de data
df['CustomerID'] = df['CustomerID'].astype(int)        # Converter ID para int

In [9]:
df.dtypes

InvoiceNo              object
StockCode              object
Description            object
Quantity              float64
InvoiceDate    datetime64[ns]
UnitPrice             float64
CustomerID              int64
dtype: object

<div class="alert alert-block alert-success">
<b>Comentário: </b> <a class="tocSkip"></a>

Entendo que nesta etapa do projeto, será apenas a descrição do mesmo, sem código. Pórem já trouxe alguns ajustes nos dados
</div>


<div style="background-color: yellow; padding: 10px; border-radius: 4px;">

# 1a Revisão do Bruno
Maria, você começou muito bem a sua decomposição! Você definiu claramente o objetivo e a tarefa e o pré-processamento bem organizado.
Na Análise Exploratória dos Dados (EDA) você pode sugerir algumas das análises (contagens, soma) que podem ser feitas e também as comparações entre grupos. Pense na EDA como a fase que vai **gerar as análises a partir das quais formularemos, e depois testaremos, as hipóteses**.
    
Na parte de definir a hipótese, apesar de você ter sugerido 4 hipóteses lembre-se que precisamos testa-las depois (teste de hipóteses), então precisamos formular o teste. Por Ex: Clientes que não compram há muito tempo podem estar em risco de churn, concordo. Porém como testariámos isso confirmando com um rigor estatístico? Um exemplo correto seria:

- Hipótese Nula (H0): Os clientes de churn NÃO tem uma média de tempo da última compra maior que os clientes de não churn. 
- Hipótese Alternativa (H1): Os clientes de churn tem uma média de tempo da última compra maior que os clientes de não churn. 
    
Perceba que neste caso estamos testando a diferença entre as médias dos dois grupos. O correto seria fazer um teste t então para validar essa hipótese que levantamos, se o valor p desse teste for menor que 0.05 nossa hipótese alternativa será confirmada. Vale a pena dar uma revisada em teste de hipóteses, é um conceito bem importante pra conseguir justamente aplicar na prática as análises e insights que geramos.

Outra possibilidade:

- Hipótese Nula (H0): Os clientes de churn NÃO tem um ticket médio menor que os clientes de não churn.
- Hipótese Alteranativa (H1): Os clientes de churn tem um ticket médio menor que os clientes de não churn.
    
Os indicadores também são os mais relevantes pro churn, porém pense em novas variáveis que podemos criar a partir das que já temos e que vão ser úteis nas nossas análises de churn (ajudando a diferenciar o cliente churn do cliente não-churn). Esse processo é o feature engineering (engenharia de variáveis) e costuma ser muito útil pra conseguirmos extrair insights mais profundos com os dados que já temos, ou inclusive aliar as variáveis que já temos com variáveis externas. Um exemplo seria incluir dados macroeconômicos demográficos, que em um contexto de churn costumam ser bem úteis (intuição: posso não conseguir estimar a renda do cliente BRUNO, mas consigo estimar a renda do estado, ou cidade dele - o que pode nos ajudar nas análises de churn).

E pra finalizar, na parte de análise de churn você pode complementar justamente com os testes para validar cada hipótese que vc levantou anteriormente.

Foi um bom começo, Maria! Foque nesses ajustes. Qualquer dúvida é só chamar.

## Teste de hipótese 

### Clientes fiéis compram com maior frequência

In [15]:
from scipy.stats import ttest_ind
# Frequência de compras por cliente
frequencia = df.groupby('CustomerID')['InvoiceNo'].nunique()

# Definir clientes fiéis (ex: top 25%)
limiar_fidelidade = frequencia.quantile(0.75)
clientes_fieis = frequencia[frequencia >= limiar_fidelidade]
clientes_nao_fieis = frequencia[frequencia < limiar_fidelidade]

# Teste t (duas amostras independentes)
t_stat, p_value = ttest_ind(clientes_fieis, clientes_nao_fieis, equal_var=False)

print(f"Estatística t: {t_stat:.4f}")
print(f"Valor p: {p_value:.4f}")

Estatística t: 20.2087
Valor p: 0.0000


Rejeitamos a hipótese nula (H0) com altíssima confiança. Isso indica que clientes considerados fiéis realmente têm uma frequência de compra significativamente maior do que os não fiéis.

A hipótese alternativa (H1) foi confirmada estatisticamente.

### Clientes churn têm tempo maior desde a última compra

In [16]:
from datetime import timedelta
from scipy.stats import ttest_ind

# Última data de compra do dataset
data_ref = df['InvoiceDate'].max()

# Última data de compra por cliente
ultima_compra = df.groupby('CustomerID')['InvoiceDate'].max()
dias_desde_ultima_compra = (data_ref - ultima_compra).dt.days

# Definir churn (ex: clientes sem compra nos últimos 90 dias)
clientes_churn = dias_desde_ultima_compra[dias_desde_ultima_compra > 90]
clientes_ativos = dias_desde_ultima_compra[dias_desde_ultima_compra <= 90]

# Teste t
t_stat, p_value = ttest_ind(clientes_churn, clientes_ativos, equal_var=False)

print(f"Estatística t: {t_stat:.4f}")
print(f"Valor p: {p_value:.4f}")


Estatística t: 97.8676
Valor p: 0.0000


Mais uma vez, rejeitamos a hipótese nula com segurança. Os clientes identificados como "churn" (sem compras recentes) realmente ficaram mais tempo sem comprar do que os clientes ativos.

A hipótese H1 é fortemente suportada pelos dados.

### Clientes de alto potencial gastam mais

In [19]:
# Valor total gasto por cliente
df['TotalGasto'] = df['Quantity'] * df['UnitPrice']
gasto_total = df.groupby('CustomerID')['TotalGasto'].sum()

# Definir alto potencial (ex: top 25%)
limiar_top = gasto_total.quantile(0.75)
clientes_top = gasto_total[gasto_total >= limiar_top]
clientes_restantes = gasto_total[gasto_total < limiar_top]

# Teste t
t_stat, p_value = ttest_ind(clientes_top, clientes_restantes, equal_var=False)

print(f"Estatística t: {t_stat:.4f}")
print(f"Valor p: {p_value:.4f}")


Estatística t: 10.6583
Valor p: 0.0000


Também rejeitamos a hipótese nula aqui. Clientes classificados como de "alto potencial" (top 25% em valor gasto) realmente gastam significativamente mais do que os demais.

A hipótese H1 é confirmada com significância estatística.

# Conclusão

1. **Clientes fiéis compram com maior frequência**, permitindo segmentações para programas de fidelidade e ofertas exclusivas.
2. **Clientes churn apresentam um intervalo significativamente maior desde a última compra**, viabilizando campanhas de reativação direcionadas.
3. **Clientes de alto potencial gastam mais**, justificando ações de fidelização e priorização estratégica.

Esses resultados sustentam decisões práticas de negócio, como a criação de campanhas personalizadas, promoções sazonais segmentadas e estratégias de retenção com foco em valor de cliente.

<div style="background-color: yellow; padding: 10px; border-radius: 4px;">

# 2a Revisão do Bruno
Perfeito, Maria! Bom trabalho.