In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df_customers = pd.read_csv('../data/unprocessed/olist_customers_dataset.csv')
df_orders = pd.read_csv('../data/unprocessed/olist_orders_dataset.csv')
df_order_items = pd.read_csv('../data/unprocessed/olist_order_items_dataset.csv')
df_products = pd.read_csv('../data/unprocessed/olist_products_dataset.csv')
df_sellers = pd.read_csv('../data/unprocessed/olist_sellers_dataset.csv')
df_geolocation = pd.read_csv('../data/unprocessed/olist_geolocation_dataset.csv')   
df_marketing = pd.read_csv('../data/unprocessed/olist_marketing_qualified_leads_dataset.csv')
df_order_payments = pd.read_csv('../data/unprocessed/olist_order_payments_dataset.csv')
df_order_reviews = pd.read_csv('../data/unprocessed/olist_order_reviews_dataset.csv')
df_category_name_translation = pd.read_csv('../data/unprocessed/product_category_name_translation.csv')
df_closed_deals = pd.read_csv('../data/unprocessed/olist_closed_deals_dataset.csv')



# Análise exploratória inicial, conhecendo o escopo de cada CSV
---

### Análise do dataset "Customers"

- **Estrutura:** A tabela tem 5 colunas e 99441 linhas
- **Qualidade:** Dataset não apresenta valores nulos.
- **Insights:** As colunas `customer_unique` e `customer_unique_id` são prováveis chaves, e serão usadas para unificação dos dados

In [None]:
print("--- Informações Estruturais (info) ---")
df_customers.info()

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_customers.isnull().sum())

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_customers.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_customers.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_customers.shape

### Análise do dataset "Orders"

- **Estrutura:** A tabela tem 8 colunas e 99441 linhas
- **Qualidade:** A coluna "order_approved_at" tem 160 valores nulos, a coluna "order_delivered_carrier_date" tem 1783 valores nulos e a coluna "order_delivered_customer_date" tem 2965 valores nulos.
- **Insights:** A coluna `customer_unique` é a provável chave, e será usada para unificação dos dados. Verificar também as colunas que contém data (que precisam ser convertidas) e estão nulas.

In [None]:
print("--- Informações Estruturais (info) ---")
df_orders.info()

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_orders.isnull().sum())

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_orders.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_orders.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_orders.shape

### Análise do dataset "Order_items"

- **Estrutura:** A tabela tem 7 colunas e 112650 linhas
- **Qualidade:** Dataset não apresenta valores nulos.
- **Insights:** Temos 3 prováveis chaves, `order_id`, `product_id` e `seller_id`, que podem ser usadas para futuros relacionamentos. Coluna shipping_limit_date de data que precisa ser convertida.

In [None]:
print("--- Informações Estruturais (info) ---")
df_order_items.info() 

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_order_items.isnull().sum()) 

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_order_items.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_order_items.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_order_items.shape

### Análise do dataset "Products"

- **Estrutura:** A tabela tem 9 colunas e 32951 linhas
- **Qualidade:** As colunas "product_category_name", "product_name_lenght","product_description_lenght" e "product_photos_qty", são pontos de atenção, com 610 valores nulos. Ponto de observação: Há 2 valores nulos nas colunas que se referem a "descrição fisica" do produto
- **Insights:** Temos a chave principal =  `product_id`. A coluna de categoria também será extremamente importante.

In [None]:
print("--- Informações Estruturais (info) ---")
df_products.info() 

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_products.isnull().sum()) 

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_products.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_products.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_products.shape

### Análise do dataset "Sellers"

- **Estrutura:** A tabela tem 4 colunas e 3095 linhas
- **Qualidade:** Não há valores nulos.
- **Insights:** Temos as chave =  `seller_id` e `seller_zip_code_prefix`. A coluna de estado e cidade também serão extremamente importantes para caracterização em mapa.

In [None]:
print("--- Informações Estruturais (info) ---")
df_sellers.info() 

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_sellers.isnull().sum()) 

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_sellers.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_sellers.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_sellers.shape

### Análise do dataset "Geolocation"

- **Estrutura:** A tabela tem 5 colunas e 1000163 linhas
- **Qualidade:** Não há valores nulos.
- **Insights:** Temos a chave principal =  `geolocation_zip_code_prefix`. A coluna de estado e cidade também serão extremamente importantes para caracterização em mapa.

In [None]:
print("--- Informações Estruturais (info) ---")
df_geolocation.info() 

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_geolocation.isnull().sum()) 

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_geolocation.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_geolocation.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_geolocation.shape

### Análise do dataset "Marketing_qualified"

- **Estrutura:** A tabela tem 4 colunas e 8000 linhas
- **Qualidade:** A coluna "origin" possui 60 valores nulos
- **Insights:** Temos as chaves =  `mql_id` e `landing_page_id`. Verificar o campo de origem, que pode ser importante para rastreamento dos dados.

In [None]:
print("--- Informações Estruturais (info) ---")
df_marketing.info() 

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_marketing.isnull().sum()) 

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_marketing.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_marketing.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_marketing.shape

### Análise do dataset "Order_payments"

- **Estrutura:** A tabela tem 5 colunas e 103886 linhas.
- **Qualidade:** Não há valores nulos.
- **Insights:** Temos a chave =  `order_id`. A coluna payment_type parece um dado importante.

In [None]:
print("--- Informações Estruturais (info) ---")
df_order_payments.info() 

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_order_payments.isnull().sum()) 

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_order_payments.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_order_payments.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_order_payments.shape

### Análise do dataset "Order_reviews"

- **Estrutura:** A tabela tem 7 colunas e 99224 linhas.
- **Qualidade:** As colunas review_comment_title e review_comment_message, possuem respectivamente 87656 e 58247 valores nulos.
- **Insights:** Temos a chave =  `order_id`. Os valores nulos de titulo de comentário, mesmos nulos não parecem ter um peso tão alto a depender do score.

In [None]:
print("--- Informações Estruturais (info) ---")
df_order_reviews.info() 

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_order_reviews.isnull().sum()) 

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_order_reviews.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_order_reviews.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_order_reviews.shape

### Análise do dataset "closed_deals"

- **Estrutura:** A tabela tem 14 colunas e 842 linhas.
- **Qualidade:** As colunas business_segment, lead_type, lead_behaviour_profile, has_company, has_gtin, average_stock, business_type e declared_product_catalog_size, possuem respectivamente 
  1, 6, 177, 779, 778 ,776, 10, 773, valores nulos.
- **Insights:** Temos as chaves =  `mql_id`, `seller_id`, `sdr_id` e `sr_id`, (verificar a importancia real das duas ultimas). 

In [None]:
print("--- Informações Estruturais (info) ---")
df_closed_deals.info() 

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_closed_deals.isnull().sum()) 

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_closed_deals.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_closed_deals.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_closed_deals.shape

### Análise do dataset "Category_name"

- **Estrutura:** A tabela tem 2 colunas e 71 linhas.
- **Qualidade:** Não há valores nulos.
- **Insights:** Temos a chave =  `product_category_name`. Basicamente uma coluna de tradução do nome da categoria, de portugues para ingles.

In [None]:
print("--- Informações Estruturais (info) ---")
df_category_name_translation.info() 

In [None]:
print("\n--- Contagem de Nulos (isnull) ---")
print(df_category_name_translation.isnull().sum()) 

In [None]:
print("\n--- Visualização Inicial (head) ---")
df_category_name_translation.head()

In [None]:
print("--- Informações descritivas (describe) ---")
df_category_name_translation.describe()

In [None]:
print("--- Informações descritivas (tamanho) ---")
df_category_name_translation.shape

# Limpeza e tratamento de dados nulos e tipo de colunas
___

## Tratamento no dataset orders

### Anomalia de valores nulos no campo "order_approved_at"

- **Insight:** Dos 160 valores nulos, 141 foram cancelados, 5 criados (mas não entregues) e 14 entregues. A anomalia está exatamente nos pedidos entregues sem data de criação.

In [None]:
# Filtrar o DataFrame para mostrar apenas as linhas onde 'order_approved_at' é nulo
df_pedidos_nao_aprovados = df_orders[df_orders['order_approved_at'].isnull()]
# Conta o número de ocorrências de cada status de pedido entre os pedidos não aprovados
contagem_status = df_pedidos_nao_aprovados['order_status'].value_counts()
print(contagem_status)

### Tratamento da Anomalia de Dados 

A análise exploratória revelou 14 pedidos com status `delivered` na coluna `order_approved_at`. A investigação mostrou que estes pedidos são legítimos (possuem pagamentos, itens e avaliações), indicando uma provável falha no registo da data.
Também foram encontradas nas colunas `order_delivered_carrier_date` e `order_delivered_customer_date` um total de 9 pedidos únicoos que foram marcados como `delivered` mas que possuem datas de entrega nulas. Esta é uma inconsistência crítica.

**Decisão:** Para garantir a integridade dos nossos cálculos de tempo de entrega, dado o volume estatisticamente insignificante e para garantir a integridade dos cálculos de tempo de processamento, estas 23 linhas serão removidas do nosso conjunto de dados de análise.


In [None]:
def remover_pedidos_anomalos(df_pedidos):
    """
    Identifica e remove os pedidos marcados como 'delivered' mas sem data de aprovação.
    Recebe o DataFrame de pedidos e retorna uma nova versão limpa.

    Args:
        df_pedidos (pd.DataFrame): O DataFrame original de pedidos.

    Returns:
        pd.DataFrame: Um novo DataFrame sem as linhas anómalas.
    """
    # 1. Identificar os IDs dos pedidos anómalos
    pedidos_nao_aprovados = df_pedidos[df_pedidos['order_approved_at'].isnull()]
    ids_anomalia_1 = pedidos_nao_aprovados[pedidos_nao_aprovados['order_status'] == 'delivered']['order_id']
    df_sem_envio = df_pedidos[df_pedidos['order_delivered_carrier_date'].isnull()] # Adicionado para clareza
    ids_anomalia_2 = df_sem_envio[df_sem_envio['order_status'] == 'delivered']['order_id']
    df_sem_entrega_cliente = df_pedidos[df_pedidos['order_delivered_customer_date'].isnull()] # Adicionado para clareza
    ids_anomalia_3 = df_sem_entrega_cliente[df_sem_entrega_cliente['order_status'] == 'delivered']['order_id']
    
    # A correção está aqui: concatenamos as Séries e DEPOIS aplicamos .unique()
    lista_id_anomalia = pd.concat([ids_anomalia_1, ids_anomalia_2, ids_anomalia_3]).unique().tolist()

    # 2. Registrar a ação
    print(f"Encontradas {len(lista_id_anomalia)} linhas anómalas para remover.")
    print(f"Número de linhas antes da limpeza: {df_pedidos.shape[0]}")

    # 3. Remover as linhas e criar um novo DataFrame
    df_limpo = df_pedidos[~df_pedidos['order_id'].isin(lista_id_anomalia)].copy()

    # 4. Verificar e retornar o resultado
    print(f"Número de linhas após a limpeza: {df_limpo.shape[0]}")
    
    return df_limpo

In [None]:
# Chamar a nossa função de limpeza para tratar o DataFrame de pedidos
df_orders_tratado = remover_pedidos_anomalos(df_orders)

# A partir de agora, use a versão tratada: df_orders_tratado
df_orders_tratado.info()
print(df_orders_tratado.isnull().sum())

## Tratamento no dataset products


### Tratando valores

- **Categoria:** Para categoria, usar "Desconhecido" é o mais ideal e quantificavel. Já quanto ao tamanho do nome do produto, da descrição e da quantidade de fotos, substituir por zero foi o mais seguro.
- **Dimensões fisicas:** Para dimensões fisicas, preferi usar a mediana, visto que o peso medio de de 2,2kg e a mediana é de 700g, é mais ideal e mais proximo da realidade utilizar o valor mediano para não gerar anomalias.

In [None]:
# Verifique os nulos antes do tratamento para confirmar
print("--- Nulos ANTES do tratamento em df_products: ---")
print(df_products.isnull().sum())

# Crie uma cópia para trabalhar de forma segura, evitando o SettingWithCopyWarning
df_products_tratado = df_products.copy()

# Para a categoria do produto, 'desconhecido' é uma boa opção.
df_products_tratado['product_category_name'] = df_products_tratado['product_category_name'].fillna('desconhecido')

# Para comprimento do nome, descrição e quantidade de fotos, 0 é um valor neutro e seguro.
colunas_para_preencher_com_zero = ['product_name_lenght', 'product_description_lenght', 'product_photos_qty']
for coluna in colunas_para_preencher_com_zero:
    df_products_tratado[coluna] = df_products_tratado[coluna].fillna(0)

# Para as dimensões físicas, a mediana é mais robusta a outliers que a média.
colunas_dimensoes = ['product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm']
for coluna in colunas_dimensoes:
    mediana = df_products_tratado[coluna].median()
    df_products_tratado[coluna] = df_products_tratado[coluna].fillna(mediana)

# Verifique os nulos depois do tratamento (o resultado deve ser uma lista de zeros)
print("\n--- Nulos APÓS o tratamento em df_products: ---")
print(df_products_tratado.isnull().sum())

## Tratamento de Nulos em closed_deals

In [None]:
# Verifique os nulos antes do tratamento para confirmar
print("--- Nulos ANTES do tratamento em df_closed_deals: ---")
print(df_closed_deals.isnull().sum())

# Crie uma cópia para trabalhar de forma segura, evitando o SettingWithCopyWarning
df_closed_deals_tratado = df_closed_deals.copy()

# Para as colunas de texto
closed_deals_texto = ['business_segment', 'lead_type', 'lead_behaviour_profile', 'business_type']
for coluna in closed_deals_texto:
    df_closed_deals_tratado[coluna] = df_closed_deals_tratado[coluna].fillna('desconhecido')

# Para as colunas de Sim/Não (booleans)
closed_deals_bool = ['has_company', 'has_gtin']
for coluna in closed_deals_bool:
    df_closed_deals_tratado[coluna] = df_closed_deals_tratado[coluna].fillna(False)

# Para as colunas numericas
closed_deals_numericas = ['average_stock', 'declared_product_catalog_size']
for coluna in closed_deals_numericas:
    df_closed_deals_tratado[coluna] = df_closed_deals_tratado[coluna].fillna(0)

# Verifique os nulos depois do tratamento (o resultado deve ser uma lista de zeros)
print("\n--- Nulos APÓS o tratamento em df_products: ---")
print(df_closed_deals_tratado.isnull().sum())

# Tratando e convertendo colunas de string para data

### Convertendo no dataset "orders"

In [None]:
coluna_data_orders = ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_estimated_delivery_date']
for coluna in coluna_data_orders:
    df_orders_tratado[coluna] = pd.to_datetime(df_orders_tratado[coluna], errors='coerce')

df_orders_tratado.info()
print(df_orders_tratado.isnull().sum())

### Convertendo no dataset "order_items"


In [None]:
df_order_items['shipping_limit_date'] = pd.to_datetime(df_order_items['shipping_limit_date'], errors='coerce')
df_order_items.info()

### Convertendo no dataset "order_reviews"


In [None]:
colunas_data_reviews = ['review_creation_date', 'review_answer_timestamp']
for coluna in colunas_data_reviews:
    df_order_reviews[coluna] = pd.to_datetime(df_order_reviews[coluna], errors='coerce')
df_order_reviews.info()

### Convertendo no dataset "closed_deals"


In [None]:
df_closed_deals_tratado['won_date'] = pd.to_datetime(df_closed_deals_tratado['won_date'], errors='coerce')
df_closed_deals_tratado.info()

### Convertendo no dataset "marketing"


In [None]:
df_marketing['first_contact_date'] = pd.to_datetime(df_marketing['first_contact_date'], errors='coerce')
df_marketing.info()


# Unificação dos datasets (merge)
---

In [None]:
# Passo 1: Comece pelo coração. Junte os pedidos com os seus itens.
print("Iniciando a unificação...")
df_master = pd.merge(df_orders_tratado, df_order_items, on='order_id', how='left')
print(f"Shape após merge com order_items: {df_master.shape}")

# Passo 2: Adicionar os dados de pagamento
df_master = pd.merge(df_master, df_order_payments, on='order_id', how='left')
print(f"Shape após merge com order_payments: {df_master.shape}")

# Passo 3: Adicionar os dados das reviews
df_master = pd.merge(df_master, df_order_reviews, on='order_id', how='left')
print(f"Shape após merge com order_reviews: {df_master.shape}")

# Passo 4: Adicionar os dados dos produtos
df_master = pd.merge(df_master, df_products_tratado, on='product_id', how='left')
print(f"Shape após merge com products_tratado: {df_master.shape}")

# Passo 5: Adicionar os dados dos clientes
df_master = pd.merge(df_master, df_customers, on='customer_id', how='left')
print(f"Shape após merge com customers: {df_master.shape}")

# Passo 6: Adicionar os dados dos vendedores
df_master = pd.merge(df_master, df_sellers, on='seller_id', how='left')
print(f"Shape após merge com sellers: {df_master.shape}")

# Verificação final
print("\n--- Verificação final do df_master ---")
print((df_master).isnull().sum())

## Análise Pós-Unificação: Investigação de Nulos.

**Decisão Final de Tratamento:** O pedido anómalo `shipped` foi removido para garantir a integridade da análise logística. Os restantes nulos informativos (pedidos cancelados, etc.) serão mantidos. O DataFrame df_master está agora considerado limpo e validado para a próxima fase."

In [None]:
# Filtrar o df_master para encontrar as linhas onde 'order_item_id' é nulo
df_pedidos_vazios = df_master[df_master['order_item_id'].isnull()]
id_anomalo_shipped = df_pedidos_vazios[df_pedidos_vazios['order_status'] == 'shipped']['order_id'].iloc[0]

# Verificar o número de linhas antes da limpeza
print(f"Número de linhas em df_master antes da limpeza final: {df_master.shape[0]}")

# Remover os pedidos anômalos do df_master
df_master = df_master[df_master['order_id'] != id_anomalo_shipped]
print(f"Número de linhas em df_master após a remoção do pedido anômalo: {df_master.shape[0]}")

# Verificar o número de linhas depois da limpeza
print(f"Número de linhas em df_master após a limpeza final: {df_master.shape[0]}")




## Análise do Negócio

**Processo:** Visto que, alguns pagamentos foram parcelados, foi criado um uma copia da master e um DataFrame para agregar esses pagamentos em um unico lugar.

In [None]:
df_analise = df_master.copy()


print("Criando tabela de pagamentos...")
df_pagamentos_agregado = df_analise.groupby('order_id').agg(
    total_parcelas = ('payment_installments', 'sum'),
    valor_total_pagamento = ('payment_value', 'sum'),
    tipo_pagamento_principal = ('payment_type', 'first')
).reset_index()

print("Visão Agregada dos Pagamentos:")
print(df_pagamentos_agregado.info())

### Engenharia de Atributos

**Processo:** Para realizar algumas analises temporais, foi necessário fazer alguns calculos para conseguir os dados referente ao tempo de entrega, a diferença entre a data real e a data estimada, e separar ano, mês e dia da semana.

In [None]:
# Tempo de entrega em dias
df_analise['tempo_entrega'] = (df_analise['order_delivered_customer_date'] - df_analise['order_purchase_timestamp']).dt.days

# Diferença entre a data estimada e a data real de entrega
df_analise['diferenca_entrega_estimada'] = (df_analise['order_estimated_delivery_date'] - df_analise['order_delivered_customer_date']).dt.days

# Extrair ano, mês, dia da semana, focada em sazonalidade
df_analise['ano_compra'] = df_analise['order_purchase_timestamp'].dt.year
df_analise['mes_compra'] = df_analise['order_purchase_timestamp'].dt.month
df_analise['dia_semana_compra'] = df_analise['order_purchase_timestamp'].dt.day_name()

# Verificar novas colunas
print("\n--- Novas colunas em df_analise ---")
df_analise[['tempo_entrega', 'diferenca_entrega_estimada', 'ano_compra', 'mes_compra', 'dia_semana_compra']].head()

# 1. Perguntas de Negócio

### 1.1 Análise Geral de Vendas

**Processo:** O foco aqui é criar algumas visões de negócio. As visões escolhidas foram as de receita total, Quantidade de Pedidos por mês e o TOP 10 categorias vendidas. 
Para isso foram criadas 3 variaveis: `receita_total`, `sazonalidade_vendas` e `categorias_mais_vendidas`.

In [None]:
# Qual a receita total? Usar a df_pagamentos_agregado para isso, para evitar duplicidade de valores.
receita_total = df_pagamentos_agregado['valor_total_pagamento'].sum()
print(f"A Receita total foi de: R$ {receita_total:,.2f}")

# Qual a sazonalidade das vendas ao longo do ano?
sazonalidade_vendas = df_analise.groupby('mes_compra')['order_id'].nunique().sort_index()
print("Quantidade de Pedidos por Mês:")
print(sazonalidade_vendas)

# Quais categorias de produtos mais vendidas?
categorias_mais_vendidas = df_analise['product_category_name'].value_counts().head(10)
print("Top 10 Categorias de Produtos mais Vendidas:")
print(categorias_mais_vendidas)

### 1.2 Análise de Clientes e RFM

In [None]:
# Definir a data de referência como o dia após a última compra no dataset
snapshot_data = df_analise['order_purchase_timestamp'].max() + pd.Timedelta(days=1)

# Calcular RFM (Recência, Frequência, Valor Monetário)
# Agrupar por cliente unico e calcular as métricas RFM
df_rfm = df_analise.groupby('customer_unique_id').agg({
    'order_purchase_timestamp': lambda date: (snapshot_data - date.max()).days, # Recência
    'order_id':'nunique', # Frequência
    'price': "sum" # Valor Monetário
})

# Renomear as colunas 
df_rfm.rename(columns = {
    'order_purchase_timestamp': 'recencia',
    'order_id': 'frequencia',
    'price': 'valor_monetario'}, inplace=True)  

print("Visão Geral do RFM:")
print(df_rfm.describe())

# Criar os scores de RFM
df_rfm['R_Score'] = pd.qcut(df_rfm['recencia'], 4, labels=[4, 3, 2, 1]) #Maior recência (menos dias), maior score
df_rfm['F_Score'] = pd.qcut(df_rfm['frequencia'].rank(method='first'), 4, labels=[1, 2, 3, 4]) #Maior frequência, maior score
df_rfm['M_Score'] = pd.qcut(df_rfm['valor_monetario'], 4, labels=[1, 2, 3, 4]) #Maior valor monetário, maior score

df_rfm['RFM_SCORE'] = df_rfm['R_Score'].astype(str) + df_rfm['F_Score'].astype(str) + df_rfm['M_Score'].astype(str)

print("Tabela RFM criada com sucesso")
print(df_rfm.head())
