## Imports

In [None]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Códigos úteis

In [None]:
# Configurações visuais
sns.set(style="whitegrid")

# Carregar os dados
df = pd.read_csv("sua planilha CSV")

# When to use ISO-8859-1:
#The file contains special characters (e.g., accented characters like é, ñ, ü) that are not handled properly with the default 'utf-8' encoding.
#You encounter an error like UnicodeDecodeError when trying to read the file with 'utf-8'.
df = pd.read_csv("sua planilha CSV", encoding="ISO-8859-1")

# Visualização das 5 primeiras linhas
df.head()

# Verificando informações gerais
df.info()

# Estatísticas descritivas
df.describe()

# Verificando valores nulos
df.isnull().sum()

# Remover linhas com valores nulos da respectiva coluna que está entre conchete
df.dropna(subset=["nome da coluna"], inplace=True)

# Remover linhas com um começo ou final específico (startswith(X)) ou (endswith(X)) da coluna especificada no conchete
df = df[~df['nome da coluna'].astype("classe sem áspas").str.startswith('X')]

# criar coluna com base em outras colunas coloque os nomes, será o nome da coluna
df['coluna 1 * coluna 2'] = df['coluna 1'] * df['coluna 2']

# Você tem uma planilha com várias linhas. Às vezes, por erro ou por juntar informações de vários lugares,
# podem aparecer linhas exatamente iguais. é tipo um remover duplicadas, só que verificando uma linha inteira que é igual a de baixo.
df.drop_duplicates(inplace=True)

#Colocar titulos nos gráficos. o "\n" faz uma quebra de linha anterior
print("\n### Informações Iniciais ###")

## Metricas RFM

In [None]:
# Essas 3 métricas ajudam empresas a entender quem são seus melhores clientes, com base nos hábitos de compra.

# 📊 O que é RFM?
# RFM é uma sigla em inglês que significa:

# R: Recência (Recency)

# F: Frequência (Frequency)

# M: Valor Monetário (Monetary)

# 🔍 Explicando cada uma:
# 1. Recência (R - Recency)
# → Quanto tempo faz desde a última compra do cliente.
# Quanto menor esse número, melhor (ele comprou recentemente!).

# 2. Frequência (F - Frequency)
# → Quantas vezes o cliente comprou.
# Quanto maior, melhor (ele compra com frequência!).

# 3. Valor Monetário (M - Monetary)
# → Quanto dinheiro o cliente gastou no total.
# Quanto maior, melhor (ele gasta bastante!).


# 🧠 Exemplo simples:
# Imagine 3 clientes em uma loja:

# Cliente	Última Compra	Nº de Compras	Total Gasto
# Ana	    2 dias atrás    5 vezes	        R$ 500
# João	    30 dias atrás	2 vezes	        R$ 150
# Carla	    10 dias atrás	8 vezes	        R$ 800

# A Ana comprou recentemente, com frequência média, e gastou um valor bom.
# O João está sumido, comprou pouco e gastou pouco.
# A Carla é excelente: compra bastante, gastou bastante, e não faz tanto tempo que comprou.

# Com essas informações, a empresa pode fazer campanhas direcionadas:

# Recompensar os bons clientes,

# Reativar clientes inativos,

# Estimular quem compra pouco.

In [None]:
# Data de referência
ref_date = df['InvoiceDate'].max() + pd.Timedelta(days=1)

# Agrupar por cliente e calcular RFM
rfm = df.groupby('CustomerID').agg({
    'InvoiceDate': lambda x: (ref_date - x.max()).days,
    'InvoiceNo': 'nunique',
    'TotalPrice': 'sum'
}).reset_index()

rfm.columns = ['CustomerID', 'Recency', 'Frequency', 'Monetary']

# Verificar outliers com boxplot
fig, axes = plt.subplots(1, 3, figsize=(18, 5))
sns.boxplot(data=rfm, y='Recency', ax=axes[0])
sns.boxplot(data=rfm, y='Frequency', ax=axes[1])
sns.boxplot(data=rfm, y='Monetary', ax=axes[2])
plt.show()