# Bemol AI Engineering Challenge

## O desafio consiste em:

* Uma análise do perfil do público de clientes da base de dados;
* Segmentar os perfis identificados com base em características úteis para o time de vendas e marketing;
* Fornecer os dados a partir de uma API utilizada para consultas. Disponível em `/src/api/`.

## Perguntas iniciais:

Talvez algumas dessas não possam ser respondidas pela base de dados, mas é um ponto de partida:

#### Sobre os dados:

* Como separar clientes entre pontuais (que realizam uma ou poucas compras) e clientes recorrentes?
* Será que é possível extrair informações que ajudem a tornar um cliente pontual em um cliente recorrente?
* Dado que existem clientes recorrentes, o que os tornam recorrentes? É possível melhorar esse relacionamento?

#### Sobre o problema:

* Quais métricas são importantes de usar para o problema de segmentação?
   - [Recency, Frequency, Monetary Value (RFM)](https://www.investopedia.com/terms/r/rfm-recency-frequency-monetary-value.asp) Analysis parece ser um bom ponto de partida. Segundo algumas breves pesquisas, queremos entender o quão recente um cliente fez uma compra, o quão frequente um cliente compra e o quanto o cliente gasta em suas compras.
* Que algorítmos são mais indicados para esses casos?

# 1. Exploração dos Dados

In [14]:
import pandas as pd

Para este desafio, será utilizado o dataset [Online Retail K-means & Hierarchical Clustering](https://www.kaggle.com/hellbuoy/online-retail-customer-clustering) que consiste em dados de transações ocorridas entre 01/12/2010 e 09/12/2011 em lojas baseadas no Reino Unido. A empresa vende presentes para todas as ocasiões e a maioria dos seus clientes são atacadistas.

O motivo para seleção deste foi pela maior quantidade de exemplos existente na base, maior quantidade de atributos e pelos atributos aparentarem ter informações mais relevantes para segmentação de clientes quando comparado a outra base sugerida.

#### Perguntas:

* Se a maioria dos clientes são atacadistas, então a maior parte das vendas são em grandes volumes?

#### 1.1 Explorando atributos

Temos na base de dados os seguintes atributos:

* `InvoiceNo`: ID numérico da nota associada a venda do produto.
* `StockCode`: ID numérico do produto [?]
* `Description`: Descrição textual do produto.
* `Quantity`: Quantidade de peças do produto comprada.
* `InvoiceDate`: Data da compra.
* `UnitPrice`: Preço da unidade do produto.
* `CustomerID`: ID numérico que identifica o cliente.
* `Country`: País onde compra foi realizada [?]

In [15]:
data = pd.read_csv('../data/raw/online-retail-k-means/data.csv')
data.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01-12-2010 08:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01-12-2010 08:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01-12-2010 08:26,3.39,17850.0,United Kingdom


In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


In [17]:
data.describe()

Unnamed: 0,Quantity,UnitPrice,CustomerID
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0
