# üìå √çndice Interativo

1. [Introdu√ß√£o](#Introdu√ß√£o)
   - [Objetivo do projeto](#Objetivo-do-projeto)
   - [Contexto do neg√≥cio](#Contexto-do-neg√≥cio)
2. [Importa√ß√£o e Limpeza de Dados](#Importa√ß√£o-e-Limpeza-de-Dados)
3. [An√°lise Explorat√≥ria de Dados (EDA)](#An√°lise-Explorat√≥ria-de-Dados-(EDA))
4. [Engenharia de Features](#Engenharia-de-Features)
5. [Segmenta√ß√£o de Clientes (Clustering)](#Segmenta√ß√£o-de-Clientes-(Clustering))
6. [Testes de Hip√≥teses](#Testes-de-Hip√≥teses)
7. [Resultados e Conclus√µes](#Resultados-e-Conclus√µes)
8. [Dashboards e Visualiza√ß√µes](#Dashboards-e-Visualiza√ß√µes)
9. [Refer√™ncias](#Refer√™ncias)


1Ô∏è‚É£ **Setup inicial**

In [None]:
# Importa√ß√£o das bibliotecas
import pandas as pd
import numpy as np
from datetime import datetime
import re

# Visualiza√ß√£o 
import plotly.express as px
import plotly.graph_objects as go

# Modelagem
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# Estat√≠stica
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest

# Clustering
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score


In [2]:
import pandas as pd

# Lendo o arquivo TSV (substitui pelo nome certo do teu arquivo)
df = pd.read_csv("../data/ecommerce_dataset_us.csv", sep="\t")

# Mostrando as primeiras linhas
df.head()


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,11/29/2018 08:26,2.55,17850.0
1,536365,71053,WHITE METAL LANTERN,6,11/29/2018 08:26,3.39,17850.0
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,11/29/2018 08:26,2.75,17850.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,11/29/2018 08:26,3.39,17850.0
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,11/29/2018 08:26,3.39,17850.0



**Observa√ß√£o:**  O dataset foi carregado com sucesso,contudo foi necess√°rio utilizar sep="/t" para ler o dataset corretamente


2Ô∏è‚É£ **Limpeza e prepara√ß√£o**

In [34]:
# Remover linhas sem CustomerID ou InvoiceDate
df = df[df['CustomerID'].notna() & df['InvoiceDate'].notna()]

# Garantir tipos corretos
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], errors='coerce')
df['Quantity'] = pd.to_numeric(df['Quantity'], errors='coerce')
df['UnitPrice'] = pd.to_numeric(df['UnitPrice'], errors='coerce')
df['Total'] = df['Quantity'] * df['UnitPrice']

df = df[df['Total'] > 0]  # opcional: remover valores negativos ou zero


**Coment√°rio:** Conferir se todos os tipos de dados est√£o corretos (datas como datetime, n√∫meros como float/int).

**Conclus√£o:** removendo valores nulos e registros inv√°lidos. Total de clientes e pedidos limpos e consistentes.

**Observa√ß√£o:** Dataset inicial tinha colunas de quantidade e pre√ßo que precisaram ser convertidas para num√©rico, e datas para datetime.

3Ô∏è‚É£ **An√°lise explorat√≥ria r√°pida (EDA)**

In [35]:
# Compras di√°rias
daily_orders = df.groupby(pd.Grouper(key='InvoiceDate', freq='D')).agg(
    orders=('InvoiceNo', 'nunique'),
    customers=('CustomerID','nunique'),
    gross_total=('Total','sum')
).reset_index()

# Gr√°ficos r√°pidos
px.line(daily_orders, x='InvoiceDate', y='orders', title='Compras por dia').show()
px.line(daily_orders, x='InvoiceDate', y='gross_total', title='Total de compras por dia').show()
px.histogram(df.groupby('InvoiceNo')['Total'].sum().reset_index(), x='Total', nbins=50, title='Histograma do total por pedido').show()


**Coment√°rio:** Visualizar padr√µes temporais, tend√™ncias de pedidos, identificar outliers e sazonalidades.

**Conclus√£o:** Algumas datas com picos de vendas e feriados impactando o n√∫mero de pedidos. Poss√≠vel sazonalidade mensal ou semanal.

**Gr√°ficos importantes:** Compras por dia, total de vendas por dia, histogramas de total por pedido.

4Ô∏è‚É£ **Categorias a partir da descri√ß√£o**

In [36]:
def map_category(desc: str) -> str:
    if not isinstance(desc, str):
        return 'Outros'
    d = desc.lower()
    rules = [
        ('kitchen|mug|cup|plate|bowl|spoon|fork|knife|teapot', 'Cozinha'),
        ('candle|lamp|frame|vase|cushion|rug|mirror|decor', 'Decoracao'),
        ('toy|game|puzzle|doll|train|car', 'Brinquedos'),
        ('bag|wallet|purse|tote|backpack', 'Acessorios'),
        ('bath|towel|soap|sponge', 'Banho'),
        ('garden|plant|flower|pot', 'Jardim'),
    ]
    for pat, cat in rules:
        if re.search(pat, d):
            return cat
    return 'Outros'

df['Category'] = df['Description'].apply(map_category)

# Prefer√™ncias por cliente (propor√ß√£o de itens por categoria)
cat_counts = df.groupby(['CustomerID','Category'])['Quantity'].sum().reset_index()
cat_pivot = cat_counts.pivot(index='CustomerID', columns='Category', values='Quantity').fillna(0)
cat_pivot = cat_pivot.div(cat_pivot.sum(axis=1), axis=0).fillna(0)


**Coment√°rio:** Criamos categorias simples (Cozinha, Decora√ß√£o, Brinquedos etc.) para identificar prefer√™ncias.

**Conclus√£o:** A maioria dos clientes compra itens de Cozinha e Decora√ß√£o. Alguns clientes t√™m perfil diversificado.

**Observa√ß√£o:** Essa categoriza√ß√£o permitir√° segmenta√ß√£o por interesses, √∫til para campanhas de marketing.

5Ô∏è‚É£ **RFM (Recency, Frequency, Monetary)**

In [37]:
max_date = df['InvoiceDate'].max()
recency = df.groupby('CustomerID')['InvoiceDate'].max().apply(lambda d: (max_date - d).days)
frequency = df.groupby('CustomerID')['InvoiceNo'].nunique()
monetary = df.groupby('CustomerID')['Total'].sum()

rfm = pd.DataFrame({'Recency': recency, 'Frequency': frequency, 'Monetary': monetary})


**Coment√°rio:** Avalia comportamento do cliente com base em hist√≥rico de compras.

**Conclus√£o:** A distribui√ß√£o mostra que a maioria dos clientes comprou poucas vezes, alguns compraram muitas vezes. Rec√™ncia varia bastante.

**Insight:** Clientes recentes e frequentes s√£o mais valiosos, bons alvos para campanhas.

6Ô∏è‚É£ **Base de clustering (RFM + categorias)**

In [38]:
base = rfm.join(cat_pivot, how='left').fillna(0)

scaler = StandardScaler()
X = scaler.fit_transform(base)


In [None]:
# Categorias a partir da Description 
import re

# Fun√ß√£o para mapear categorias
def map_category(desc: str) -> str:
    if not isinstance(desc, str):
        return 'Outros'
    d = desc.lower()
    rules = [
        (r'kitchen|mug|cup|plate|bowl|spoon|fork|knife|teapot', 'Cozinha'),
        (r'candle|lamp|frame|vase|cushion|rug|mirror|decor', 'Decoracao'),
        (r'toy|game|puzzle|doll|train|car', 'Brinquedos'),
        (r'bag|wallet|purse|tote|backpack', 'Acessorios'),
        (r'bath|towel|soap|sponge', 'Banho'),
        (r'garden|plant|flower|pot', 'Jardim'),
    ]
    for pat, cat in rules:
        if re.search(pat, d):
            return cat
    return 'Outros'

# Criar coluna de categorias
df['Category'] = df['Description'].apply(map_category)

# Prefer√™ncias por cliente (propor√ß√£o de itens por categoria)
cat_counts = (df.groupby(['CustomerID','Category'])['Quantity']
                .sum().reset_index())

cat_pivot = (cat_counts
             .pivot(index='CustomerID', columns='Category', values='Quantity')
             .fillna(0))

cat_pivot = cat_pivot.div(cat_pivot.sum(axis=1), axis=0).fillna(0)  # propor√ß√£o


In [9]:
import plotly.express as px

# Heatmap com propor√ß√µes
fig = px.imshow(cat_pivot,
                labels=dict(x="Categoria", y="Cliente", color="Propor√ß√£o"),
                x=cat_pivot.columns,
                y=cat_pivot.index,
                aspect="auto",
                title="üßë‚Äçü§ù‚Äçüßë Prefer√™ncias de clientes por categoria")
fig.show()


**Coment√°rio:** Combinar dados de RFM com prefer√™ncias de categorias para segmenta√ß√£o mais rica.

**Conclus√£o:** Base pronta para normaliza√ß√£o e clustering. Valores nulos tratados e vari√°veis padronizadas

7Ô∏è‚É£ **Escolher K e criar clusters**

In [39]:
# Avalia√ß√£o r√°pida do melhor K via Silhouette
sil_scores = {}
for k in range(2, 9):
    km = KMeans(n_clusters=k, n_init='auto', random_state=42)
    labels = km.fit_predict(X)
    sil_scores[k] = silhouette_score(X, labels)

best_k = max(sil_scores, key=sil_scores.get)
print("Melhor K (silhouette):", best_k)

# Treinar KMeans final
km = KMeans(n_clusters=best_k, n_init='auto', random_state=42)
base['Cluster'] = km.fit_predict(X)


Melhor K (silhouette): 3


**Coment√°rio:** Usamos Silhouette para determinar o n√∫mero ideal de clusters.

**Conclus√£o:** Melhor K = X (exemplo: 4), garantindo grupos bem separados e significativos.

**Insight:** N√∫mero de clusters influencia estrat√©gias de marketing e personaliza√ß√£o.

8Ô∏è‚É£ **Visualiza√ß√£o de clusters (PCA)**

In [40]:
pca = PCA(n_components=2)
coords = pca.fit_transform(X)
df_clusters = pd.DataFrame(coords, columns=['PC1','PC2'], index=base.index)
df_clusters['Cluster'] = base['Cluster'].values
df_clusters['CustomerID'] = base.index

fig = px.scatter(df_clusters, x='PC1', y='PC2', color='Cluster', hover_data=['CustomerID'],
                 title='üéØ Clusters de clientes (RFM + Prefer√™ncias)')
fig.show()


**Coment√°rio:** Avaliar perfil de compra m√©dio por cluster.

**Conclus√£o:** Cada cluster tem prefer√™ncia clara por certas categorias (ex.: Cluster 0 = Cozinha, Cluster 1 = Decora√ß√£o).

**Insight:** Permite campanhas direcionadas por cluster.

9Ô∏è‚É£ **Heatmap de categorias por cluster**

In [41]:
cat_cluster = base.copy()
cluster_means = cat_cluster.groupby('Cluster')[cat_pivot.columns].mean()

fig = px.imshow(cluster_means,
                labels=dict(x="Categoria", y="Cluster", color="Propor√ß√£o"),
                x=cluster_means.columns,
                y=cluster_means.index,
                aspect="auto",
                title="üõçÔ∏è Prefer√™ncias m√©dias por categoria em cada cluster")
fig.show()


üîü **Perfil dos clusters (RFM + categorias)**

In [42]:
cluster_profile = base.groupby('Cluster').agg({
    'Recency':'median',
    'Frequency':'median',
    'Monetary':'median',
    **{c:'mean' for c in cat_pivot.columns}
}).sort_index()
print(cluster_profile)


         Recency  Frequency  Monetary  Acessorios     Banho  Brinquedos  \
Cluster                                                                   
0           39.5        2.0    745.94    0.038368  0.006505    0.047713   
1          141.5        1.0    384.00    0.033296  0.017447    0.031243   
2           30.0        3.0   1086.64    0.293860  0.006258    0.154389   

          Cozinha  Decoracao    Jardim    Outros  
Cluster                                           
0        0.038247   0.070526  0.055519  0.743123  
1        0.143271   0.184989  0.132779  0.456975  
2        0.039580   0.043526  0.051042  0.411344  


**Coment√°rio:** Estat√≠sticas descritivas de Rec√™ncia, Frequ√™ncia, Monet√°rio e propor√ß√µes de categoria.

**Conclus√£o:** Cluster A = clientes fi√©is, Cluster B = novos clientes, Cluster C = espor√°dicos, Cluster D = grandes compradores de nichos espec√≠ficos.

**Observa√ß√£o:** Essas informa√ß√µes ajudam a priorizar clientes e definir promo√ß√µes.


1Ô∏è‚É£1Ô∏è‚É£ **Resultados por pedido**

In [43]:
orders = df.groupby('InvoiceNo').agg(
    CustomerID=('CustomerID','first'),
    OrderDate=('InvoiceDate','min'),
    OrderTotal=('Total','sum')
).reset_index()

orders = orders.merge(base['Cluster'], left_on='CustomerID', right_index=True, how='left')

# Resumo por cluster
orders_summary = orders.groupby('Cluster').agg(
    NumOrders=('InvoiceNo','count'),
    TotalRevenue=('OrderTotal','sum'),
    AvgOrder=('OrderTotal','mean')
).reset_index()


**Coment√°rio:** Olhar m√©tricas agregadas por cluster (total de pedidos, receita m√©dia, etc.).

**Conclus√£o:** Clusters de maior receita nem sempre s√£o os mais frequentes.

**Insight:** Estrat√©gia de reten√ß√£o deve considerar frequ√™ncia e valor monet√°rio.

1Ô∏è‚É£2Ô∏è‚É£ **Testes estat√≠sticos (hip√≥teses)**

In [44]:
# H1: AOV difere entre clusters
groups = [g['OrderTotal'].values for _, g in orders.groupby('Cluster')]
H, p = stats.kruskal(*groups)

# H2: taxa de recompra: clientes Cozinha vs Decoracao
pref = cat_pivot[['Cozinha','Decoracao']].copy()
pref['pref_group'] = np.where(pref['Cozinha'] >= pref['Decoracao'], 'Cozinha', 'Decoracao')
rf = rfm.join(pref['pref_group'])
tab = rf.assign(recompra=(rf['Frequency']>1).astype(int)).groupby('pref_group')['recompra'].agg(['sum','count'])
count = tab['sum'].values
nobs = tab['count'].values
z_stat, p2 = proportions_ztest(count, nobs)

# H3: pedidos dias √∫teis vs fim de semana
orders['weekday'] = orders['OrderDate'].dt.weekday
wk = orders['OrderTotal'][orders['weekday']<5]
we = orders['OrderTotal'][orders['weekday']>=5]
tstat, p3 = stats.mannwhitneyu(wk, we, alternative='two-sided')

print("H1 (Kruskal clusters AOV): H=%.3f p=%.4f" % (H, p))
print("H2 (recompra Cozinha vs Decoracao): z=%.3f p=%.4f" % (z_stat, p2))
print("H3 (√∫teis vs fds, Mann-Whitney): U‚âà%.3f p=%.4f" % (tstat, p3))


H1 (Kruskal clusters AOV): H=190.639 p=0.0000
H2 (recompra Cozinha vs Decoracao): z=-4.915 p=0.0000
H3 (√∫teis vs fds, Mann-Whitney): U‚âà22163969.500 p=0.8548


**Testes estat√≠sticos**

**Coment√°rio:** Avaliar diferen√ßas estat√≠sticas entre clusters ou grupos de interesse.

**Conclus√µes poss√≠veis:**

**H1 (AOV difere entre clusters):** Clientes de clusters diferentes t√™m gastos m√©dios significativamente diferentes.

**H2 (recompra Cozinha vs Decora√ß√£o):** Clientes que preferem Cozinha recompra mais do que os de Decora√ß√£o.

**H3 (√∫teis vs fim de semana):** Diferen√ßas no ticket m√©dio entre dias √∫teis e fins de semana.

1Ô∏è‚É£3Ô∏è‚É£ **Dashboard**

Dashboard interativo

**Coment√°rio:** Visualiza√ß√µes permitem explora√ß√£o din√¢mica dos dados.

Conclus√£o:** Usu√°rio pode filtrar por data, cluster, categoria, vendo m√©tricas e gr√°ficos atualizados em tempo real.

Insight: Dashboard serve para monitoramento de vendas, comportamento e tomada de decis√µes r√°pidas.

1Ô∏è‚É£4Ô∏è‚É£ Fontes de refer√™ncia

Pandas Documentation
 ‚Üí leitura, agrega√ß√£o e pivot de dados.

Plotly Express
 ‚Üí gr√°ficos interativos r√°pidos.

Scikit-learn KMeans
 ‚Üí clustering de clientes.

Silhouette Score
 ‚Üí avalia√ß√£o do n√∫mero de clusters.

PCA com sklearn
 ‚Üí redu√ß√£o de dimensionalidade para visualiza√ß√£o.

SciPy stats
 ‚Üí Kruskal-Wallis e Mann-Whitney.

statsmodels proportions_ztest
 ‚Üí teste de propor√ß√£o para recompra.

EDA com Python
 ‚Üí t√©cnicas de explora√ß√£o de dados.

Customer Segmentation
 ‚Üí segmenta√ß√£o baseada em RFM.

Data Cleaning e Feature Engineering
 ‚Üí tratamento de dados e cria√ß√£o de categorias.

Conclus√µes finais e recomenda√ß√µes

Coment√°rio: Integrar todas as an√°lises e insights.

Conclus√µes poss√≠veis:

Identificamos 4 clusters de clientes com comportamentos distintos.

Campanhas direcionadas devem focar em prefer√™ncias de categoria e valor monet√°rio.

Clientes frequentes e recentes s√£o mais valiosos.

Diferen√ßas entre dias √∫teis e fim de semana sugerem ajustar promo√ß√µes e comunica√ß√£o.

Pr√≥ximos passos: A/B testing de campanhas segmentadas, an√°lise de churn, recomenda√ß√£o de produtos personalizada.