# DS em Clusterizacao - Customer Segmentation

### 0.0 - Imports

In [1]:
# Biblioteca para a manipulação de dados em estrutura de dataframe
import pandas as pd
# Manipulação dados em vetor
import numpy as np
# Pacote para modificar strings
import inflection 
# Biblioteca para gerar gráficos 
import seaborn as sns
# Manipulação de strings
import regex as re

# Biblioteca para gerar e modificar gráficos
import matplotlib.pyplot as plt
# Gerar colormap para gráficos
import matplotlib.cm as cm

# Biblioteca que contém os algoritmos de clusterização
from sklearn import cluster as cl
# Biblioteca que contém os algoritmos de pre processamento
from sklearn import preprocessing as pp
# Biblioteca que contém os algoritmos de clusterização
from sklearn import decomposition as dd
# Biblioteca que contém os algoritmos para projeção e diminuição de dimensionalidade 
from sklearn.manifold import TSNE
# Biblioteca que contém os algoritmos de clusterização
from sklearn import ensemble as en
from sklearn import mixture

# Biblioteca que contém os algoritmos de clusterização
import scipy.stats as stats

# Biblioteca que contém o cálculo de diversas métricas de algoritmos de ML
from sklearn import metrics

# Biblioteca que permite a implementação do algoritmo UMAP para projeção de dados
import umap.umap_ as umap

import sqlite3
from sqlalchemy import create_engine
import boto3
import io
import credentials

  from .autonotebook import tqdm as notebook_tqdm


### 0.2 - Coleta dos dados

In [2]:
client = boto3.client(
    's3',
    aws_access_key_id=credentials.access_credential['awskey'],
    aws_secret_access_key=credentials.access_credential['secretkey']
)

In [3]:
obj = client.get_object(Bucket= credentials.access_credential['bucket_name'], Key= 'data.csv') 

In [4]:
df_0 = pd.read_csv(io.BytesIO(obj['Body'].read()),delimiter = ',',encoding = 'windows-1252')

## 1 - Limpeza dos dados

In [5]:
# Todo começo de seção realiza-se a cópia do dataframe para facilitar o 'debug do código'
df_1 = df_0

###  1.1 - Rename Columns

In [6]:
# Colunas com os nomes das colunas antigas
old_columns_name = df_1.columns

# Aplica a transformação utilizando a biblioteca inflection e a função underscore
snakecase = lambda x: inflection.underscore(x)

# Aplica a função snakescase a todos elementos da coluna de nomes
cols_new = list(map(snakecase,old_columns_name))

# Aplica os nomes novos no dataframe original
df_1.columns = cols_new

###  1.2 - Data Dimensions

In [7]:
# Imprime as dimensões dos dados
print("O dataframe possui {} linhas".format(df_1.shape[0]))
print("O dataframe possui {} colunas".format(df_1.shape[1]))

O dataframe possui 541909 linhas
O dataframe possui 8 colunas


###  1.4 - Check NA

In [8]:
# Realiza a checagem dos valores NA dentro do dataframe
df_1.isna().sum()

invoice_no           0
stock_code           0
description       1454
quantity             0
invoice_date         0
unit_price           0
customer_id     135080
country              0
dtype: int64

###  1.5 - Data Imputation

In [9]:
# Caso dos dados faltantes é possível que ao comprar, alguns customer_id não sejam registrados. Então é possível utilizar um invoice number que possua o 
# mesmo customer id
df_missing = df_1.loc[df_1['customer_id'].isna(),:]
df_not_missing = df_1.loc[~df_1['customer_id'].isna(),:]

missing_invoice = df_missing['invoice_no'].drop_duplicates().tolist()

In [10]:
# create reference

# Cria um dataframe com os invoices unicos e customer id faltantes
df_backup = pd.DataFrame(df_missing['invoice_no'].drop_duplicates())
# Preenche a coluna de costumer id com valores a partir de 19000
df_backup['customer_id'] = np.arange(19000,19000+len(df_backup),1)

# Realiza a junção da tabela original com a dos customer id faltantes
df_1 = pd.merge(df_1,df_backup,on = 'invoice_no',how='left')
df_1.head()

# Como a tabela original e tabela backup possuem a coluna customer id, irá gerar duas colunas de costumer no mereg.
# coalece - Quando utilizar o pd merge e tiver as colunas com dados  faltantes, utilizar o combine first para juntar as colunas
df_1['customer_id'] = df_1['customer_id_x'].combine_first(df_1['customer_id_y'])
df_1 = df_1.drop(columns = ['customer_id_x','customer_id_y'],axis = 1)

In [11]:
# remover a linha com os NA da coluna customer_id para o primeiro ciclo
df_1 = df_1.dropna(subset={'description','customer_id'})

###  1.6 - Change Data Types and Remove Columns

In [12]:
# Modifica a data de criação do invoice para para datetime
df_1.loc[:,'invoice_date'] = pd.to_datetime(df_1['invoice_date'], format ='%m/%d/%Y %H:%M')

###  1.7 - Descriptive Statistics

In [13]:
num_attributes = df_1.select_dtypes(include =['float64','int64'])
cat_attributes = df_1.select_dtypes(exclude =['float64','int64','datetime64[ns]'])

####  1.7.1 - Numerical Attributes

Dados a serem investigados:

    - Quantidade negativa
    - Preço zero

#### 1.7.2 - Categorical Attributes

##### 1.7.2.1 - Unique Values

In [14]:
stock_code_letters = df_1.loc[cat_attributes['stock_code'].
                              apply(lambda x: bool(re.search('^[a-zA-Z]+$',x))),'stock_code'].unique()

## 2 - Filtragem de variáveis

In [15]:
df_2 = df_1.copy()

### 2.1 - Categorical attibutes

In [16]:
# Removendo stock code que contenham ['POST','D','M','DOT','CRUK','C2'] e manter os referentes a devolucao
# Em um proximo ciclo esses valores podem ser usados paora criar um novo cluster

df_2 = df_2.loc[~df_2['stock_code'].isin(stock_code_letters),:]

# Map - Remove countries with no match
df_2 = df_2[~df_2['country'].isin(['European Community','Unspecified'])]


### 2.2 - Numerical Attributes

In [17]:
# Atributos numericos

# Removendo valores de preço muito pequenos ou zeros, podem ser considerados brindes 
df_2 = df_2.loc[df_2['unit_price']>=0.04,:]

# Clientes ruins - No caso possuei muita devolução
bad_costumers = [16446]
df_2 = df_2.loc[~df_2['customer_id'].isin(bad_costumers),:]

# Separando os retornos e compras para realizar as análises dos dados
df_returns =  df_2.loc[df_2['quantity']<0,:]
df_purchase = df_2.loc[df_2['quantity']>0,:]

## 3 - Feature Engineering

In [18]:
## Ideias para criacao de features
## Moving Average - 7d, 14d, 21d e 30d
## Compra em relação a data - Antes do dia 15 e depois

In [19]:
df_3 = df_2.copy() 

### 3.4 - Criando e Modificacao de Variáveis

In [20]:
# Remove colunas e permanece com os customer id únicos 
df_ref = df_3.drop(['invoice_no','stock_code','description','quantity',
                    'invoice_date','unit_price','country'],axis = 1).drop_duplicates(ignore_index = True)

Cria-se diversas variáveis novas para ajudar no processo de clusterização. Esas variáveis estão relacionadas as métricas de negócios.
Nota-se que certas operações serão realizadas em cima do dataframe referente a compras, sem as devoluções, e outras somente com os dados das devoluções. Isso irá gerar novos dados faltantes devido a diferença de tamanho entre os dataframes.

In [21]:
# Algumas linhas irao possuir valores negativos
# Gross Revenue (quantity * price) somente para as compras
df_purchase.loc[:,'gross_revenue'] = df_purchase.loc[:,'unit_price']*df_purchase.loc[:,'quantity']
#df_2['gross_revenue'].head()

# Realiza o agrupamento dos gross revenues por cliente
df_monetary = df_purchase.loc[:,['customer_id','gross_revenue']].groupby('customer_id').sum().reset_index()

# Uunta as tabelas utilizando o customer id como chave
# Sempre calcular a quantidade de valores NaN depois de realziar o merge como garantia
df_ref = pd.merge(df_ref,df_monetary, on = 'customer_id', how = 'left')
df_ref.isna().sum()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_purchase.loc[:,'gross_revenue'] = df_purchase.loc[:,'unit_price']*df_purchase.loc[:,'quantity']


customer_id       0
gross_revenue    91
dtype: int64

In [22]:
# Calcula a recência de cada cliente. A recência é a distância em dias em relação a última compra de cada usuário
# Define a última data de compra
df_recency = df_purchase[['customer_id','invoice_date']].groupby('customer_id').max().reset_index()
# Cálcula a diferenca entre as datas. O 'dt' é para serializar a aplicação do days
df_recency['recency_days'] = (df_purchase['invoice_date'].max() - df_recency['invoice_date']).dt.days
df_recency = df_recency[['customer_id','recency_days']].copy()

df_ref = pd.merge(df_ref,df_recency, on = 'customer_id', how = 'left')
df_ref.isna().sum()

customer_id       0
gross_revenue    91
recency_days     91
dtype: int64

In [23]:
# Quantity of items bought
# Realiza o agrupamento por usuário e utiliza o comando 'sum' para realizar a soma da quantidade de produtos comprados
df_freq = df_purchase[['customer_id','quantity']].groupby('customer_id').sum().reset_index()
df_ref = pd.merge(df_ref,df_freq, on = 'customer_id', how = 'left')
df_ref= df_ref.rename(columns = {'quantity':'quantity_of_products'})
df_ref.isna().sum()

customer_id              0
gross_revenue           91
recency_days            91
quantity_of_products    91
dtype: int64

In [24]:
# Number of returns
# Realiza o agrupamento por usuário e utiliza o comando 'count' para calcular a quantidade de retornos por clientes
df_ref_returns  = df_returns[['customer_id','invoice_no']].drop_duplicates().groupby('customer_id').count().reset_index().rename(columns = {'invoice_no':'returns'})
df_ref = pd.merge(df_ref,df_ref_returns, on = 'customer_id', how = 'left')
df_ref.isna().sum()

customer_id                0
gross_revenue             91
recency_days              91
quantity_of_products      91
returns                 4191
dtype: int64

In [25]:
# Utilza-se o método 'agg' após o 'group by' para realizar múltiplas operações de agrupamento
# utilizando esta técnica nova, cria-se a colunas com aa diferença entre a primeira e última compra e o número único de compras
df_aux = (df_purchase[['customer_id','invoice_no','invoice_date']].drop_duplicates()
                                                           .groupby('customer_id')
                                                           .agg( days_ = ('invoice_date',lambda x: (x.max() - x.min()).days),
                                                                 buy_  = ('invoice_no','nunique'))).reset_index()

# Frquency 
# Calcula a frequência média de compra por usuário dividindo o número de compras únicas e o período de tempo entre a primeira e última compra e 
df_aux['frequency'] = df_aux[['days_','buy_']].apply(lambda x: x['buy_'] /x['days_'] if x['days_'] != 0 else 0, axis = 1 )
df_ref = pd.merge(df_ref, df_aux[['customer_id','frequency']], on = 'customer_id', how = 'left')
df_ref.isna().sum()

customer_id                0
gross_revenue             91
recency_days              91
quantity_of_products      91
returns                 4191
frequency                 91
dtype: int64

### 3.5 - Removendo colunas e Selecionando dados

In [26]:
# Caso o número de retornos calculados seja dado faltante, preencher com o 0
df_ref.loc[df_ref['returns'].isna(),'returns'] = 0
# Para este ciclo do desenvolvimento os valores faltantes serão descartados
df_ref = df_ref.dropna()
df_ref.isna().sum()

customer_id             0
gross_revenue           0
recency_days            0
quantity_of_products    0
returns                 0
frequency               0
dtype: int64

## 4 - EDA

In [27]:
df_4 = df_ref.copy()

Métricas a serem analisadas no pandas profiling:
   - Min, Max , Range (Dispersão)
   - Média e Mediana
   - Desvio Padrão e Variância
   - Coeficiente de variação
   - Distribuição
   
As métricas mencionadas acima são indicadores de variância dos dados

### 4.3 - Estudo do espaço

In [28]:
# Seleciona as colunas que irão continuar para o resto do projeto. Quantidade de produtos será mantida porque possui uma correlação alto com 
# tamanho médio da cesta e quantidade média de compras
cols_select = ['gross_revenue','recency_days','quantity_of_products','frequency','returns']
#df_standard = df_4.drop(columns = 'customer_id',axis = 1).copy()
df_standard = df_4.loc[:,cols_select].copy()

In [29]:
# Como todas as variáveis não possuem uma distribuição normal e possuem muitos valores extremos é recomendado utilizar Min Max Scaler para 
# resscalar os dados

ss = pp.MinMaxScaler()

df_standard['gross_revenue']        = ss.fit_transform(df_standard[['gross_revenue']])
df_standard['recency_days']         = ss.fit_transform(df_standard[['recency_days']])
df_standard['quantity_of_products'] = ss.fit_transform(df_standard[['quantity_of_products']])
df_standard['returns']              = ss.fit_transform(df_standard[['returns']])
df_standard['frequency']            = ss.fit_transform(df_standard[['frequency']])

#### 4.3.4 - Tree Based Embedding

A mudança do espaço de dados também pode ser dar através da realização de um random forest. O problema para este trecho passará a ser um problema supervisionado.

In [30]:
# Como é pedido para definir os grupos que mais gastam, junto com outras características. A variável alvo será a receita de cada usuário e o resto será utilizado
# como features.

X = df_standard.drop(columns = ['gross_revenue'], axis = 1).values
y = np.ravel(df_standard[['gross_revenue']].values)

In [31]:
# model definition
rf_model = en.RandomForestRegressor(random_state = 42)

# model training 
rf_model.fit(X,y)

RandomForestRegressor(random_state=42)

Descrição da função apply 

apply(X):

   - Apply trees in the forest to X, return leaf indices.

  Parameters:

   - X{array-like, sparse matrix} of shape (n_samples, n_features)

  Returns:

   - X_leavesndarray of shape (n_samples, n_estimators)

        For each datapoint x in X and for each tree in the forest, return the index of the leaf x ends up in.



In [32]:
# O número de colunas no dataframe df_leaf será igual ao número de árvores criadas pelo modelo random forest. E o número de linhas será igual ao número de linhas do 
# dataframe original e indicará em qual folha cada ponto de dados caiu.
df_leaf = pd.DataFrame(rf_model.apply(X))

In [33]:
# Esse espaço criado pelo random forest será reduzido pelo UMAP para duas dimensões para ser analisado
reducer = umap.UMAP(random_state = 42,n_neighbors = 90)
embedding = reducer.fit_transform(df_leaf)

df_tree = pd.DataFrame(columns = ['embedding_x','embedding_y'])

In [None]:
# Embedding
df_tree['embedding_x'] = embedding[:,0]
df_tree['embedding_y'] = embedding[:,1]

sns.scatterplot(x = 'embedding_x', y = 'embedding_y', data = df_tree);

## 7 - Hyperparameter Fine Tunning

In [None]:
df_7 = df_tree.copy()
df_model = df_7.copy()
df_7.to_csv('tree_embedding_insiders.csv', index = False)

In [None]:
# Define o número de clusters
clusters = np.arange(2,20,1)

### 7.1 - K-Means

In [None]:
kmeans_scores = []

for k in clusters:    
    
    # Model Definition
    kmeans_model = cl.KMeans(n_clusters = k)

    # Model Traning
    kmeans_model.fit(df_model)

    # Model Predction
    labels = kmeans_model.predict(df_model)

    # Model Performance
    # Para calcular a nota da silhoueta é necessário passar os dados do modelo e o resultado da predição
    silhouette_score = metrics.silhouette_score(df_model,labels, metric = 'euclidean')
    kmeans_scores.append(silhouette_score)
    

## 8 - Model Training

### 8.1 - K-Means

In [None]:
# model definition

# K = 10 definido pela análise de silhuoeta
k = 11
kmeans = cl.KMeans(init = 'random', n_clusters = k, n_init = 300, max_iter = 300, random_state = 42)

# model training
kmeans.fit(df_model)

# clustering
labels = kmeans.labels_

### 8.2 - Cluster Validation

In [None]:
# WSS
print('WSS values: {}'.format(kmeans.inertia_))

#SS
print('SS values: {}'.format(metrics.silhouette_score(df_model,labels, metric = 'euclidean')))

In [None]:
df_9 = df_4.copy()
df_9['labels'] = labels

## 9 - Cluster Analysis

### 9.2 - Cluster Profile

Esse tipo de profile pode ser feito porque possui a necessidade de agrupar as pessoas sem mostrar porque tal elemento pertence a tal grupo. Não possível devolver o espaço de agrupamento porque passou para uma transformação, caso seja necessário, utilizar o espaço de features.

In [None]:
# number of customers
df_cluster = df_9[['customer_id','labels']].groupby('labels').count().reset_index()
df_cluster['perc_customer'] = (df_cluster['customer_id']/df_cluster['customer_id'].sum())*100

# Avg. Gross revenue
df_avg_revenue = df_9[['gross_revenue','labels']].groupby('labels').mean().reset_index()
df_cluster =pd.merge(df_cluster,df_avg_revenue, how = 'left', on = 'labels')

# Avg. recency days
df_avg_recency = df_9[['frequency','labels']].groupby('labels').mean().reset_index()
df_cluster =pd.merge(df_cluster,df_avg_recency, how = 'left', on = 'labels')

# Avg. returns
df_avg_tickets = df_9[['returns','labels']].groupby('labels').mean().reset_index()
df_cluster =pd.merge(df_cluster,df_avg_tickets, how = 'left', on = 'labels')

# Avg. quantity of products
df_avg_tickets = df_9[['recency_days','labels']].groupby('labels').mean().reset_index()
df_cluster =pd.merge(df_cluster,df_avg_tickets, how = 'left', on = 'labels')


In [None]:
df_9['customer_id'] = df_9['customer_id'].astype(int)
df_9['recency_days'] = df_9['recency_days'].astype(int)
df_9['quantity_of_products'] = df_9['quantity_of_products'].astype(int)
df_9['returns'] = df_9['returns'].astype(int)

In [None]:
df_cluster_sorted = df_cluster.sort_values(by = 'gross_revenue', ascending = False, ignore_index = True)
biggest_gmv_index = df_cluster_sorted['labels'][0]
df_cluster_sorted

## 11. Deploy to Production

### 11.1 - Insert into SQLite

In [None]:
# Cell to connect to RDS database

# informações para se conectar no banco de dados na nuvem
host = 'dbclientes.ccoaeknlpyyh.sa-east-1.rds.amazonaws.com/'
port = credentials.access_credential['db_port']
database_type = 'postgresql'
user = credentials.access_credential['db_user']
pwd = credentials.access_credential['db_password']
db = 'postgres'

# Estrutura de cosntrução de conexão utilizando o sqlalchemy
# database://user:pwd@host/db_name:port
endpoint = database_type+'://'+user+':'+pwd+'@'+host+db

In [None]:
# create table
query_create_table = """
    CREATE TABLE insiders (
    
    customer_id           INTEGER,
    gross_revenue         REAL,
    recency_days          INTEGER,
    quantity_of_products  INTEGER,
    returns               INTEGER,
    frequency             REAL,
    labels                INTEGER 
    
    )
"""
# Conecta-se ao banco de dados, caso nao exista cria um 
#conn = create_engine(endpoint)
#conn.execute(query_create_table)
#conn.commit()
#conn.close()



In [None]:
# Insert Data
# Primeira conecta ao banco de dados através do métodos Create_engine do SQLAlchemy. Um obejto com as informações dos bancos de 
# dados deve ser fornecido para se criar a engine e conectar ao DB
conn = create_engine(endpoint)
# Necessário colocar index = False para ignorar o indice do dataframe

In [None]:
df_9.to_sql('insiders',con = conn, if_exists = 'replace', index = False)