# PA005: High Values Customer Identification (Insiders)

# Imports

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns

import matplotlib.pyplot as plt
from IPython.display import HTML

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from yellowbrick.cluster import KElbowVisualizer

# Helper Functions

## 0.0 Planejamento da Solução  (IOT)

### Input - Entrada

1. Problema de Negócio
  - Selecionar os clientes mais valiosos para integrar um programa de Fidelização
  

2. Conjunto de dados
  - Vendas de um  e-commerce online, durante o período de uma ano

### Output - Saída

1. A indicação das pessoas que farão parte do programa Insiders.
  - Lista cliente_id | is_insider|
  
    
2. Relátorio com as respostas das perguntas de negócio.

  - Quem são as pessoas elegíveis para participar do programa de Insiders ?
  -  Quantos clientes farão parte do grupo?
  -  Quais as principais características desses clientes ?
  -  Qual a porcentagem de contribuição do faturamento, vinda do Insiders ?
  -  Qual a expectativa de faturamento desse grupo para os próximos meses ?
  -  Quais as condições para uma pessoa ser elegível ao Insiders ?
  -  Quais as condições para uma pessoa ser removida do Insiders ?
  -  Qual a garantia que o programa Insiders é melhor que o restante da base ?
  -  Quais ações o time de marketing pode realizar para aumentar o faturamento?

### Task - Tarefas

1. Quem são as pessoas elegíveis para participar do programa de Insiders ?
   - O que é ser elegível? O que são cliente de maior "valor"?
   - Faturamento:
     - Alto Ticket Médio.
     - Alto LTV.
     - Baixo  Recência.
     - Alto basket size.
     - Baixa probabilidade de Churn.
     
   - Custo:
     - Baixo taxa de devolução.
   - Experiência de compra:
     - Média alta das avaliação

2. Quantos clientes farão parte do grupo?
   - Número total de clientes
   - % do grupo Insidiers
   
3. Quais as principais características desses clientes ?
   - Escrever caracteristicas do cliente:
     - Idade
     - Localização
     
   - Escrever caracteristicas de consumo.
     - Atributos da clusterização
   
   
4. Qual a porcentagem de contribuição do faturamento, vinda do Insiders ?
    - Faturamento total ao ano
    - Faturamento do grupo Insiders

5. Qual a expectativa de faturamento desse grupo para os próximos meses ?
    - LTV do grupo Insiders
    - Análise de Cohort
    
6. Quais as condições para uma pessoa ser elegível ao Insiders ?
    - A pessoa precisa ser similar com uma pessoa do grupo.
    - Definir a periodicidade (1 mes, 3 meses)

7. Quais as condições para uma pessoa ser removida do Insiders ?
    - A pessoa precisa ser não-similar com uma pessoa do grupo.
    - Definir a periodicidade (1 mes, 3 meses)

8. Qual a garantia que o programa Insiders é melhor que o restante da base ?
   - Teste A/B
   - Teste A/B Bayesiano
   - Teste de hipótese

9. Quais ações o time de marketing pode realizar para aumentar o faturamento?
   - Desconto
   - Frete
   - Preferência de compra

## 0.1 Benchmark de Soluções

### Desk Research

- RFM Model - Recency, Frequency and Monetary por id
 - Passo 01:

 Ordenar os clientes por Recency

 - Passo2:

 a. Dividir a base de clientes de acordo com as notas

    i. notas de 1-5.

    ii. 5 grupos de 20% cada.

 - Passo3:

 Repetir os Passos1 e 2 para Frequency e Monetary

 - Passo4:

 RFM Score - Média das notas.
 Grafico Frequency Score vs Recency Score - Mapeamento dos segmentos de clientes

## 0.2 Load Dataset

In [3]:
df_raw = pd.read_csv('../data/raw/Ecommerce.csv')
df_raw.drop('Unnamed: 8', inplace=True, axis=1)

In [4]:
df_raw.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,29-Nov-16,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,29-Nov-16,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,29-Nov-16,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,29-Nov-16,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,29-Nov-16,3.39,17850.0,United Kingdom


# 1.0 Descrição dos Dados

## 1.1 Rename Columns

In [5]:
df_raw.columns

Index(['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'UnitPrice', 'CustomerID', 'Country'],
      dtype='object')

In [6]:
cols_new = ['invoice_no', 'stock_code', 'descriiption', 'quantity', 'invoice_date', 'unit_price', 'customer_id', 'country']
df_raw.columns = cols_new

In [7]:
df_raw.sample()

Unnamed: 0,invoice_no,stock_code,descriiption,quantity,invoice_date,unit_price,customer_id,country
57413,541206,21509,COWBOYS AND INDIANS BIRTHDAY CARD,72,12-Jan-17,0.36,14646.0,Netherlands


## 1.2 General Describe

In [None]:
%%time
# General describer
pd.DataFrame({'dtypes': df_raw.dtypes,
              'missing': df_raw.isna().mean(),
              'uniques': df_raw.nunique(),
              'min': df_raw.min(),
              'max': df_raw.max(),
              'mean':df_raw.mean() ,
              'median':df_raw.median() ,
              'skew': df_raw.skew() ,
              'kurt': df_raw.kurt()})

### 1.2.1 Data Dimensions

In [None]:
# Original data dimensions
df_raw.shape

## 1.3 Missing Values

### 1.3.1 Replace NAs

In [None]:
# Just Droping the NAs for now
df_raw = df_raw.dropna(subset = ['descriiption','customer_id'])
df_raw.isna().mean()

In [11]:
# New dimensions
df_raw.shape

(406829, 8)

## 1.4 Change dtypes

In [None]:
# invoice_data
df_raw['invoice_date'] = pd.to_datetime(df_raw['invoice_date'], format= '%d-%b-%y')


#customer_id
df_raw['customer_id'] = df_raw['customer_id'].astype(int)
df_raw.head()

In [None]:
df_raw.dtypes

# 2.0 Feature Engineering

In [None]:
df1 = df_raw.copy()

### 2.1 Feature Creation

In [None]:
# data reference 
df_ref = df1.drop(['invoice_no', 
                   'stock_code', 
                   'descriiption', 
                   'quantity', 
                   'invoice_date', 
                   'unit_price', 
                   'country'], axis=1).drop_duplicates(ignore_index=True)
df_ref.head()

In [None]:
# Gross Revenue (Faturamento) quantity * price
df1['gross_revenue'] = df1['quantity'] * df1['unit_price']

# Monetary
df_monetary = df1[['customer_id','gross_revenue']].groupby('customer_id').sum().reset_index()
df_ref = df_ref.merge(df_monetary, on="customer_id", how="left")

# Recency - Last day purchase
df_recency = df1[['customer_id','invoice_date']].groupby('customer_id').max().reset_index()
df_recency['recency_days'] = (df1['invoice_date'].max() - df_recency['invoice_date']).dt.days
df_recency = df_recency[['customer_id','recency_days']]
df_ref = df_ref.merge(df_recency, on='customer_id', how='left')

# Frequency
df_freq = df1[['customer_id','invoice_no']].drop_duplicates().groupby('customer_id').count().reset_index()
df_ref = df_ref.merge(df_freq, on='customer_id', how='left')

In [None]:
df_ref.isna().mean()

# 3.0 Filtragem de Variáveis

In [18]:
df2 = df_ref.copy()

# 4.0 EDA 

In [19]:
df3 = df2.copy()

# 5.0 Data Preparation

In [20]:
df4 = df3.copy()

# 6.0 Feature Selection

In [21]:
df5=df4.copy()

# 7.0 Hyperparameter Fine-Tunning

In [None]:
df6=df5.drop(columns=['customer_id'], axis=1)

In [None]:
clusters = [2, 3, 4, 5, 6]

### 7.1 Within-Cluster Sum of Square (WSS)

In [None]:
# Roots
wss = []
for k in clusters:
    # model definition
    kmeans = KMeans(init='random', n_clusters=k, n_init=10, max_iter=300, random_state=42)
    
    # model training
    kmeans.fit(df6)
    
    # validation
    wss.append(kmeans.inertia_)
    
# plot wss - elbow method
plt.plot(clusters, wss, linestyle='--', marker='o', color='b' )
plt.xlabel('K')
plt.ylabel('WSS')
plt.title('K vs WSS');

In [None]:
# Nuttela
kmeans = KElbowVisualizer( KMeans(), k=clusters, timings=False )
kmeans.fit(df6)
kmeans.show()

### 7.2 Sillhoute Score

In [None]:
# Nuttela
kmeans = KElbowVisualizer( KMeans(), k=clusters,metric='silhouette', timings=False )
kmeans.fit(df6)
kmeans.show()

# 8.0 ModelTraining

## Kmeans

In [None]:
#model definition
k=3
kmeans = KMeans(init='random', n_clusters=k, n_init=10, max_iter=300, random_state=42)

#model training
kmeans.fit(df6)

#model clustering
labels = kmeans.labels_

## Cluster Validation

### wss (Within-cluster sum of squares)

In [None]:
print( f'WWS Value: {kmeans.inertia_}')

### SS (Silhoute Score)

In [None]:
score = silhouette_score(df6, labels, metric='euclidean')
print(f'SS Value: {score}')

# 9.0 Cluster Analysis

In [None]:
df9 = df5.copy()
df9['cluster'] = labels
df9.head()

## Visualization Inspection

In [None]:
from plotly import express as px
fig  = px.scatter_3d(df9, x='recency_days', y='invoice_no', z='gross_revenue', color='cluster')
fig.show()

## Cluster Profile

In [None]:
# Number of customers
df_cluster = df9[['customer_id','cluster']].groupby('cluster').count().reset_index()
df_cluster['perc_customer'] = 100*(df_cluster['customer_id']/df_cluster['customer_id'].sum())

# Avg Gross revenue
df_avg_gross_revenue = df9[['gross_revenue','cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_avg_gross_revenue, how='inner', on='cluster')

# Avg rececy days
df_avg_recency_days = df9[['recency_days','cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_avg_recency_days, how='inner', on='cluster')

# Avg invoice_no
df_avg_invoice_no = df9[['invoice_no','cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_avg_invoice_no, how='inner', on='cluster')

# Report
df_cluster

**Cluster 01: (Candidatos a Insider)**

   - Número de customers: 6 (0,14% do customers)
   - Recência em média: 7 dias
   - Compras em média: 89 compras
   - Receita em média: $182.182,00 dólares
    
**Cluster 02:**

   - Números de customers: 31 (0,71% dos customers)
   - Recência em média: 14 dias
   - Compras em média: 53 compras
   - Receita em média: $40.543,52 dólares
   
**Cluster 03:**

   - Número de customers: 4.335 (99% do customers)
   - Recência em média: 92 dias
   - Compras em médias: 5 compras
   - Receita em média: $1.372,57 dólares

# 10.0 Deploy in production