# Desafio: Crie um modelo de análise das métricas RFV

- [**Python Graph Gallery**](https://www.python-graph-gallery.com/): repositório com o passo a passo de como gerar gráficos utilizando as principais bibliotecas de Python
- [**SciKit Learn](https://scikit-learn.org/stable/modules/clustering.html#clustering):** documentação com os principais modelos utilizados para clusterização
- [**ChatGPT](https://chat.openai.com/):** Pode ser útil para iniciar sua pesquisa!

### Elabore um modelo de Clustering
Você deverá utilizar um modelo de Clustering para criar um sistema de agrupamento de perfis de clientes para um e-commerce. Deverá analisar o modelo mais eficiente, capaz de tornar as análises mais simplificadas para a empresa.

### 🚨 Atente-se ao formato de entrega deste desafio!

1. Nomeie o seu colab com o RID e o número do desafio. Exemplo: RID1234_Desafio01
2. Vá em Arquivo > Fazer download > Baixar o .ipynb
3. Faça o upload do arquivo no drive
4. Altere as configurações do arquivo para deixá-lo público. 
5. Copie o link após alterar a permissão de acesso.
6. Submeta o link do arquivo (e não da pasta do drive!) na plataforma.

## Contexto

Você foi contratado por uma empresa de e-commerce que está buscando entender melhor o comportamento de seus clientes para personalizar as suas campanhas de marketing. Para isso, a empresa disponibilizou uma base de dados em csv contendo dados sobre clientes, produtos e transações da loja realizadas entre os anos de 2010 e 2011.

Com base nesses dados, você precisa agrupar os clientes em clusters com base em seu comportamento de compra. Isso irá permitir identificar padrões e características em comum entre os clientes, como:

- Clientes que compram os mesmos produtos;
- Clientes que possuem a mesma frequência de compras;
- Clientes que gastam mais dinheiro em suas compras.

A partir desses clusters, gere insights para que a empresa possa segmentar melhor a sua base de clientes e personalizar as suas campanhas de marketing, direcionando promoções e ofertas aos clientes com base no comportamento de compras.

### Sobre os dados

Acesse os dados aqui: https://www.kaggle.com/datasets/carrie1/ecommerce-data

Os dados fornecidos possuem informações de transações de compras de uma loja de e-commerce em 38 países e territórios, com mais de 4.000 clientes únicos e mais de 540.000 transações.

Atenção: as datas estão no formato MM/DD/YYYY HH:mm:ss; existem dados nulos que precisam ser tratados antes da realização da análise; por mais que os códigos de identificação sejam numéricos, o modelo não pode considerá-los como grandezas numéricas.

| Coluna      | Descrição                        | Tipo     |
|-------------|----------------------------------|----------|
| InvoiceNo   | Identificação da transação       | Int      |
| StockCode   | Código de estoque do produto     | String   |
| Description | Descrição do produto             | String   |
| Quantity    | Quantidade de produtos por transação | Int      |
| InvoiceDate | Data da transação                | Datetime |
| UnitPrice   | Preço unitário do produto        | Float    |
| CustomerID  | Identificação do cliente         | Int      |
| Country     | País de origem da transação      | String   |


## Como começar?

Desenvolva um modelo de clusterização que seja capaz de agrupar os clientes conforme o seu comportamento de compras levando em consideração o RFM calculado no desafio 4.

Analise os clusters obtidos para identificar o perfil de cliente, como padrões e características em comum para determinar o seu comportamento de compra. Utilize gráficos e visualizações para auxiliar na análise.

Não se esqueça de documentar cada etapa, justificando as escolhas realizadas. É essencial informar os insights obtidos e as recomendações de ações futuras para que a empresa possa colocá-los em prática. Boa sorte!

# 🎯 Etapas de Desenvolvimento

## **Etapa 01) Análise exploratória dos dados**

1. Carregue a base de dados;

In [None]:
!pip install kagglehub

In [11]:
import kagglehub
import pandas as pd
import os

path = kagglehub.dataset_download("carrie1/ecommerce-data")
df = pd.read_csv(os.path.join(path, 'data.csv'), encoding='ISO-8859-1')

2. Realize uma descrição estatística dos dados;

In [12]:
!pip install summarytools



3. Visualize as distribuições e identifique a relevância das colunas para a análise;

4. Verifique a presença de dados nulos, duplicados, outliers e demais inconsistências nos dados.

Dica: certifique-se de que os dados estejam no formato ideal para as análises; por mais que os códigos de identificação sejam numéricos, sua análise não pode considerá-los como grandezas numéricas.

## Etapa 02) Pré-processamento dos dados

1. Realize a normalização dos dados

2. Faça uma seleção das variáveis mais relevantes para o modelo;

3. Remova os dados nulos, duplicados, outliers e inconsistentes

## Etapa 03) Selecione um algoritmo de clusterização

1. Escolha um algoritmo adequado para base de dados, como o K0Means, DBSCAN, Hierarquia ou Mean Shift

2. Encontre a quantidade ideal de clusters através dos métodos de Elbow ou Silhouette Score

3. Implemente o algoritmo escolhido

## Etapa 04) Analise os clusters obtidos

1. Identifique os padrões e características em comum entre os clientes

2. Plote gráficos para auxiliar na análise

## Etapa 05) Interpretação dos resultados obtidos

1. Descreva o perfil de compras dos clientes de cada cluster

2. Justifique como essa análise pode ser útil para empresa para segmentação de seus clientes e personalização das campanhas de marketing

3. Sugira ações possíveis com base nas ações realizadas

# 📝 Critérios de Avaliação

Os critérios de avaliação mostram como você será avaliado em relação ao seu desafio. 

| Critérios                           | Atendeu às Especificações                                                                                       | Pontos |
|-------------------------------------|-----------------------------------------------------------------------------------------------------------------|--------|
| Qualidade da análise exploratória   | Carregue os dados e verifique a presença de dados nulos, duplicados, outliers e demais inconsistências nos dados.| 20     |
| Pré-processamento dos Dados         | Faça uma seleção das variáveis mais relevantes do modelo, removendo os dados nulos, outliers e inconsistentes.   | 20     |
| Qualidade da análise dos clusters   | Identifique os padrões e características em comum entre os clientes.                                             | 20     |
| Interpretação dos Resultados Obtidos| Descreva o perfil de compras para cada cluster de clientes, justifique a utilidade dessa análise para a segmentação e personalização das campanhas de marketing da empresa, e sugira ações de marketing baseadas nos insights obtidos. | 20     |


# 📆 Entrega

Atente-se a forma de nomear o arquivo: ele deve contar com o seu RID. Exemplo: (RID01234_Desafio07). O RID pode ser encontrado dentro da sua plataforma em "meu perfil” e é composto por 5 números. 

### Atente-se ao formato de entrega deste desafio!

1. Nomeie o seu colab com o RID e o número do desafio. Exemplo: RID1234_Desafio01
2. Vá em Arquivo > Fazer download > Baixar o .ipynb
3. Faça o upload do arquivo no drive
4. Altere as configurações do arquivo para deixá-lo público. 
5. Copie o link após alterar a permissão de acesso.
6. Submeta o link do arquivo (e não da pasta do drive!) na plataforma.

Dica: Evite sequências longas de código sem explicação do que está sendo realizado. Pense que essa documentação está sendo apresentada para o cliente final, seu modelo não pode ser uma “caixa preta”.