## Imports

In [None]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## C√≥digos √∫teis

In [None]:
# Configura√ß√µes visuais
sns.set(style="whitegrid")

# Carregar os dados
df = pd.read_csv("sua planilha CSV")

# When to use ISO-8859-1:
#The file contains special characters (e.g., accented characters like √©, √±, √º) that are not handled properly with the default 'utf-8' encoding.
#You encounter an error like UnicodeDecodeError when trying to read the file with 'utf-8'.
df = pd.read_csv("sua planilha CSV", encoding="ISO-8859-1")

# Visualiza√ß√£o das 5 primeiras linhas
df.head()

# Verificando informa√ß√µes gerais
df.info()

# Estat√≠sticas descritivas
df.describe()

# Verificando valores nulos
df.isnull().sum()

# Remover linhas com valores nulos da respectiva coluna que est√° entre conchete
df.dropna(subset=["nome da coluna"], inplace=True)

# Remover linhas com um come√ßo ou final espec√≠fico (startswith(X)) ou (endswith(X)) da coluna especificada no conchete
df = df[~df['nome da coluna'].astype("classe sem √°spas").str.startswith('X')]

# criar coluna com base em outras colunas coloque os nomes, ser√° o nome da coluna
df['coluna 1 * coluna 2'] = df['coluna 1'] * df['coluna 2']

# Voc√™ tem uma planilha com v√°rias linhas. √Äs vezes, por erro ou por juntar informa√ß√µes de v√°rios lugares,
# podem aparecer linhas exatamente iguais. √© tipo um remover duplicadas, s√≥ que verificando uma linha inteira que √© igual a de baixo.
df.drop_duplicates(inplace=True)

#Colocar titulos nos gr√°ficos. o "\n" faz uma quebra de linha anterior
print("\n### Informa√ß√µes Iniciais ###")

## Metricas RFM

In [None]:
# Essas 3 m√©tricas ajudam empresas a entender quem s√£o seus melhores clientes, com base nos h√°bitos de compra.

# üìä O que √© RFM?
# RFM √© uma sigla em ingl√™s que significa:

# R: Rec√™ncia (Recency)

# F: Frequ√™ncia (Frequency)

# M: Valor Monet√°rio (Monetary)

# üîç Explicando cada uma:
# 1. Rec√™ncia (R - Recency)
# ‚Üí Quanto tempo faz desde a √∫ltima compra do cliente.
# Quanto menor esse n√∫mero, melhor (ele comprou recentemente!).

# 2. Frequ√™ncia (F - Frequency)
# ‚Üí Quantas vezes o cliente comprou.
# Quanto maior, melhor (ele compra com frequ√™ncia!).

# 3. Valor Monet√°rio (M - Monetary)
# ‚Üí Quanto dinheiro o cliente gastou no total.
# Quanto maior, melhor (ele gasta bastante!).


# üß† Exemplo simples:
# Imagine 3 clientes em uma loja:

# Cliente	√öltima Compra	N¬∫ de Compras	Total Gasto
# Ana	    2 dias atr√°s    5 vezes	        R$ 500
# Jo√£o	    30 dias atr√°s	2 vezes	        R$ 150
# Carla	    10 dias atr√°s	8 vezes	        R$ 800

# A Ana comprou recentemente, com frequ√™ncia m√©dia, e gastou um valor bom.
# O Jo√£o est√° sumido, comprou pouco e gastou pouco.
# A Carla √© excelente: compra bastante, gastou bastante, e n√£o faz tanto tempo que comprou.

# Com essas informa√ß√µes, a empresa pode fazer campanhas direcionadas:

# Recompensar os bons clientes,

# Reativar clientes inativos,

# Estimular quem compra pouco.

In [None]:
# Data de refer√™ncia
ref_date = df['InvoiceDate'].max() + pd.Timedelta(days=1)

# Agrupar por cliente e calcular RFM
rfm = df.groupby('CustomerID').agg({
    'InvoiceDate': lambda x: (ref_date - x.max()).days,
    'InvoiceNo': 'nunique',
    'TotalPrice': 'sum'
}).reset_index()

rfm.columns = ['CustomerID', 'Recency', 'Frequency', 'Monetary']

# Verificar outliers com boxplot
fig, axes = plt.subplots(1, 3, figsize=(18, 5))
sns.boxplot(data=rfm, y='Recency', ax=axes[0])
sns.boxplot(data=rfm, y='Frequency', ax=axes[1])
sns.boxplot(data=rfm, y='Monetary', ax=axes[2])
plt.show()