# Desafio: Crie um modelo de an√°lise das m√©tricas RFV

- [**Python Graph Gallery**](https://www.python-graph-gallery.com/): reposit√≥rio com o passo a passo de como gerar gr√°ficos utilizando as principais bibliotecas de Python
- [**SciKit Learn](https://scikit-learn.org/stable/modules/clustering.html#clustering):** documenta√ß√£o com os principais modelos utilizados para clusteriza√ß√£o
- [**ChatGPT](https://chat.openai.com/):** Pode ser √∫til para iniciar sua pesquisa!

### Elabore um modelo de Clustering
Voc√™ dever√° utilizar um modelo de Clustering para criar um sistema de agrupamento de perfis de clientes para um e-commerce. Dever√° analisar o modelo mais eficiente, capaz de tornar as an√°lises mais simplificadas para a empresa.

### üö®¬†Atente-se ao formato de entrega deste desafio!

1. Nomeie o seu colab com o RID e o n√∫mero do desafio. Exemplo: RID1234_Desafio01
2. V√° em Arquivo > Fazer download > Baixar o .ipynb
3. Fa√ßa o upload do arquivo no drive
4. Altere as configura√ß√µes do arquivo para deix√°-lo p√∫blico. 
5. Copie o link ap√≥s alterar a permiss√£o de acesso.
6. Submeta o link do arquivo (e n√£o da pasta do drive!) na plataforma.

## Contexto

Voc√™ foi contratado por uma empresa de e-commerce que est√° buscando entender melhor o comportamento de seus clientes para personalizar as suas campanhas de marketing. Para isso, a empresa disponibilizou uma base de dados em csv contendo dados sobre clientes, produtos e transa√ß√µes da loja realizadas entre os anos de 2010 e 2011.

Com base nesses dados, voc√™ precisa agrupar os clientes em clusters com base em seu comportamento de compra. Isso ir√° permitir identificar padr√µes e caracter√≠sticas em comum entre os clientes, como:

- Clientes que compram os mesmos produtos;
- Clientes que possuem a mesma frequ√™ncia de compras;
- Clientes que gastam mais dinheiro em suas compras.

A partir desses clusters, gere insights para que a empresa possa segmentar melhor a sua base de clientes e personalizar as suas campanhas de marketing, direcionando promo√ß√µes e ofertas aos clientes com base no comportamento de compras.

### Sobre os dados

Acesse os dados aqui: https://www.kaggle.com/datasets/carrie1/ecommerce-data

Os dados fornecidos possuem informa√ß√µes de transa√ß√µes de compras de uma loja de e-commerce em 38 pa√≠ses e territ√≥rios, com mais de 4.000 clientes √∫nicos e mais de 540.000 transa√ß√µes.

Aten√ß√£o: as datas est√£o no formato MM/DD/YYYY HH:mm:ss; existem dados nulos que precisam ser tratados antes da realiza√ß√£o da an√°lise; por mais que os c√≥digos de identifica√ß√£o sejam num√©ricos, o modelo n√£o pode consider√°-los como grandezas num√©ricas.

| Coluna      | Descri√ß√£o                        | Tipo     |
|-------------|----------------------------------|----------|
| InvoiceNo   | Identifica√ß√£o da transa√ß√£o       | Int      |
| StockCode   | C√≥digo de estoque do produto     | String   |
| Description | Descri√ß√£o do produto             | String   |
| Quantity    | Quantidade de produtos por transa√ß√£o | Int      |
| InvoiceDate | Data da transa√ß√£o                | Datetime |
| UnitPrice   | Pre√ßo unit√°rio do produto        | Float    |
| CustomerID  | Identifica√ß√£o do cliente         | Int      |
| Country     | Pa√≠s de origem da transa√ß√£o      | String   |


## Como come√ßar?

Desenvolva um modelo de clusteriza√ß√£o que seja capaz de agrupar os clientes conforme o seu comportamento de compras levando em considera√ß√£o o RFM calculado no desafio 4.

Analise os clusters obtidos para identificar o perfil de cliente, como padr√µes e caracter√≠sticas em comum para determinar o seu comportamento de compra. Utilize gr√°ficos e visualiza√ß√µes para auxiliar na an√°lise.

N√£o se esque√ßa de documentar cada etapa, justificando as escolhas realizadas. √â essencial informar os insights obtidos e as recomenda√ß√µes de a√ß√µes futuras para que a empresa possa coloc√°-los em pr√°tica. Boa sorte!

# üéØ Etapas de Desenvolvimento

## **Etapa 01) An√°lise explorat√≥ria dos dados**

1. Carregue a base de dados;

In [None]:
!pip install kagglehub

In [11]:
import kagglehub
import pandas as pd
import os

path = kagglehub.dataset_download("carrie1/ecommerce-data")
df = pd.read_csv(os.path.join(path, 'data.csv'), encoding='ISO-8859-1')

2. Realize uma descri√ß√£o estat√≠stica dos dados;

3. Visualize as distribui√ß√µes e identifique a relev√¢ncia das colunas para a an√°lise;

4. Verifique a presen√ßa de dados nulos, duplicados, outliers e demais inconsist√™ncias nos dados.

Dica: certifique-se de que os dados estejam no formato ideal para as an√°lises; por mais que os c√≥digos de identifica√ß√£o sejam num√©ricos, sua an√°lise n√£o pode consider√°-los como grandezas num√©ricas.

## Etapa 02) Pr√©-processamento dos dados

1. Realize a normaliza√ß√£o dos dados

2. Fa√ßa uma sele√ß√£o das vari√°veis mais relevantes para o modelo;

3. Remova os dados nulos, duplicados, outliers e inconsistentes

## Etapa 03) Selecione um algoritmo de clusteriza√ß√£o

1. Escolha um algoritmo adequado para base de dados, como o K0Means, DBSCAN, Hierarquia ou Mean Shift

2. Encontre a quantidade ideal de clusters atrav√©s dos m√©todos de Elbow ou Silhouette Score

3. Implemente o algoritmo escolhido

## Etapa 04) Analise os clusters obtidos

1. Identifique os padr√µes e caracter√≠sticas em comum entre os clientes

2. Plote gr√°ficos para auxiliar na an√°lise

## Etapa 05) Interpreta√ß√£o dos resultados obtidos

1. Descreva o perfil de compras dos clientes de cada cluster

2. Justifique como essa an√°lise pode ser √∫til para empresa para segmenta√ß√£o de seus clientes e personaliza√ß√£o das campanhas de marketing

3. Sugira a√ß√µes poss√≠veis com base nas a√ß√µes realizadas

# üìù Crit√©rios de Avalia√ß√£o

Os crit√©rios de avalia√ß√£o mostram como voc√™ ser√° avaliado em rela√ß√£o ao seu desafio. 

| Crit√©rios                           | Atendeu √†s Especifica√ß√µes                                                                                       | Pontos |
|-------------------------------------|-----------------------------------------------------------------------------------------------------------------|--------|
| Qualidade da an√°lise explorat√≥ria   | Carregue os dados e verifique a presen√ßa de dados nulos, duplicados, outliers e demais inconsist√™ncias nos dados.| 20     |
| Pr√©-processamento dos Dados         | Fa√ßa uma sele√ß√£o das vari√°veis mais relevantes do modelo, removendo os dados nulos, outliers e inconsistentes.   | 20     |
| Qualidade da an√°lise dos clusters   | Identifique os padr√µes e caracter√≠sticas em comum entre os clientes.                                             | 20     |
| Interpreta√ß√£o dos Resultados Obtidos| Descreva o perfil de compras para cada cluster de clientes, justifique a utilidade dessa an√°lise para a segmenta√ß√£o e personaliza√ß√£o das campanhas de marketing da empresa, e sugira a√ß√µes de marketing baseadas nos insights obtidos. | 20     |


# üìÜ Entrega

Atente-se a forma de nomear o arquivo: ele deve contar com o seu RID. Exemplo: (RID01234_Desafio07). O RID pode ser encontrado dentro da sua plataforma em "meu perfil‚Äù e √© composto por 5 n√∫meros. 

### Atente-se ao formato de entrega deste desafio!

1. Nomeie o seu colab com o RID e o n√∫mero do desafio. Exemplo: RID1234_Desafio01
2. V√° em Arquivo > Fazer download > Baixar o .ipynb
3. Fa√ßa o upload do arquivo no drive
4. Altere as configura√ß√µes do arquivo para deix√°-lo p√∫blico. 
5. Copie o link ap√≥s alterar a permiss√£o de acesso.
6. Submeta o link do arquivo (e n√£o da pasta do drive!) na plataforma.

Dica: Evite sequ√™ncias longas de c√≥digo sem explica√ß√£o do que est√° sendo realizado. Pense que essa documenta√ß√£o est√° sendo apresentada para o cliente final, seu modelo n√£o pode ser uma ‚Äúcaixa preta‚Äù.