# DS em Clusterizacao - Customer Segmentation

### 0.0 - Imports

In [1]:
#papermill_description=importing_libraries
# Biblioteca para a manipulação de dados em estrutura de dataframe
import pandas as pd
# Manipulação dados em vetor
import numpy as np
# Pacote para modificar strings
import inflection 
# Biblioteca para gerar gráficos 
import seaborn as sns
# Manipulação de strings
import regex as re

# Biblioteca para gerar e modificar gráficos
import matplotlib.pyplot as plt
# Gerar colormap para gráficos
import matplotlib.cm as cm

# Biblioteca que contém os algoritmos de clusterização
from sklearn import cluster as cl
# Biblioteca que contém os algoritmos de pre processamento
from sklearn import preprocessing as pp
# Biblioteca que contém os algoritmos de clusterização
from sklearn import decomposition as dd
# Biblioteca que contém os algoritmos para projeção e diminuição de dimensionalidade 
from sklearn.manifold import TSNE
# Biblioteca que contém os algoritmos de clusterização
from sklearn import ensemble as en
from sklearn import mixture

# Biblioteca que contém os algoritmos de clusterização
import scipy.stats as stats

# Biblioteca que contém o cálculo de diversas métricas de algoritmos de ML
from sklearn import metrics

# Biblioteca que permite a implementação do algoritmo UMAP para projeção de dados
import umap.umap_ as umap

# Biblioteca para se conectar ao banco de dados do tipo postgresql da amzon
from sqlalchemy import create_engine
# Biblioteca para realizar  a transferência de dados com o serviço S3 da Amazon
import boto3

# Conversão de dados compostos de bytes
import io
# Arquivo contendo as credenciais para acesso ao AWS
import credentials
# Biblioteca para compressão de modelos de ML
import pickle
import tracemalloc
import gc

  from .autonotebook import tqdm as notebook_tqdm


### 0.2 - Coleta dos dados

In [2]:
# Monitorando memoria 
tracemalloc.start()

In [2]:
# Para se conectar ao repositório de dados S3 será necessário utilizar o pacote boto3
# É necessário inserir as credenciais criadas para usuário IAM da AWS e definir o tipo de instância, que no caso será S3

#papermill_description=collecting_data
client = boto3.client(
    's3',
    aws_access_key_id=credentials.access_credential['awskey'],
    aws_secret_access_key=credentials.access_credential['secretkey']
)

In [3]:
# O client possui o método get_object para extrair objetos dentro do serviço S3
# Será necessário inserir o nome do bucket e o arquivo a ser extraído 

obj = client.get_object(Bucket= credentials.access_credential['bucket_name'], Key= 'data.csv') 

In [4]:
# O arquivo extraído do S3 virá em um formato BodyStream que é um sequência de Bytes
# Então será necessário converter esse formato para ser lido pelo pd.read_csv

df_0 = pd.read_csv(io.BytesIO(obj['Body'].read()),delimiter = ',',encoding = 'windows-1252')

## 1 - Limpeza dos dados

In [5]:
#papermill_description=cleaning_data
# Todo começo de seção realiza-se a cópia do dataframe para facilitar o 'debug do código'
df_1 = df_0.copy()

###  1.1 - Rename Columns

In [6]:
# Colunas com os nomes das colunas antigas
old_columns_name = df_1.columns

# Aplica a transformação utilizando a biblioteca inflection e a função underscore
snakecase = lambda x: inflection.underscore(x)

# Aplica a função snakescase a todos elementos da coluna de nomes
cols_new = list(map(snakecase,old_columns_name))

# Aplica os nomes novos no dataframe original
df_1.columns = cols_new

###  1.2 - Data Dimensions

In [7]:
# Imprime as dimensões dos dados
print("O dataframe possui {} linhas".format(df_1.shape[0]))
print("O dataframe possui {} colunas".format(df_1.shape[1]))

O dataframe possui 541909 linhas
O dataframe possui 8 colunas


###  1.4 - Check NA

In [8]:
# Realiza a checagem dos valores NA dentro do dataframe
df_1.isna().sum()

invoice_no           0
stock_code           0
description       1454
quantity             0
invoice_date         0
unit_price           0
customer_id     135080
country              0
dtype: int64

###  1.5 - Data Imputation

In [9]:
# Caso dos dados faltantes é possível que ao comprar, alguns customer_id não sejam registrados. Então é possível utilizar um invoice number que possua o 
# mesmo customer id
df_missing = df_1.loc[df_1['customer_id'].isna(),:]
df_not_missing = df_1.loc[~df_1['customer_id'].isna(),:]

missing_invoice = df_missing['invoice_no'].drop_duplicates().tolist()

In [10]:
# create reference

# Cria um dataframe com os invoices unicos e customer id faltantes
df_backup = pd.DataFrame(df_missing['invoice_no'].drop_duplicates())
# Preenche a coluna de costumer id com valores a partir de 19000
df_backup['customer_id'] = np.arange(19000,19000+len(df_backup),1)

# Realiza a junção da tabela original com a dos customer id faltantes
df_1 = pd.merge(df_1,df_backup,on = 'invoice_no',how='left')
df_1.head()

# Como a tabela original e tabela backup possuem a coluna customer id, irá gerar duas colunas de costumer no mereg.
# coalece - Quando utilizar o pd merge e tiver as colunas com dados  faltantes, utilizar o combine first para juntar as colunas
df_1['customer_id'] = df_1['customer_id_x'].combine_first(df_1['customer_id_y'])
df_1 = df_1.drop(columns = ['customer_id_x','customer_id_y'],axis = 1)

In [11]:
# remover a linha com os NA da coluna customer_id para o primeiro ciclo
df_1 = df_1.dropna(subset={'description','customer_id'})

###  1.6 - Change Data Types and Remove Columns

In [12]:
# Modifica a data de criação do invoice para para datetime
df_1.loc[:,'invoice_date'] = pd.to_datetime(df_1['invoice_date'], format ='%m/%d/%Y %H:%M')

###  1.7 - Descriptive Statistics

In [13]:
# Separa as variáveis entre categóricas e numéricas
num_attributes = df_1.select_dtypes(include =['float64','int64'])
cat_attributes = df_1.select_dtypes(exclude =['float64','int64','datetime64[ns]'])

####  1.7.1 - Numerical Attributes

Dados a serem investigados:

    - Quantidade negativa
    - Preço zero

#### 1.7.2 - Categorical Attributes

##### 1.7.2.1 - Unique Values

In [14]:
# Realiza uma busca realizando Regex de todos os códigos de estoque que começam com letras
stock_code_letters = df_1.loc[cat_attributes['stock_code'].
                              apply(lambda x: bool(re.search('^[a-zA-Z]+$',x))),'stock_code'].unique()

## 2 - Filtragem de variáveis

In [15]:
#papermill_description=filtering_variables
#df_2 = df_1.copy()

### 2.1 - Categorical attibutes

In [16]:
# Removendo stock code que contenham ['POST','D','M','DOT','CRUK','C2'] e manter os referentes a devolucao
# Em um proximo ciclo esses valores podem ser usados paora criar um novo cluster

df_1 = df_1.loc[~df_1['stock_code'].isin(stock_code_letters),:]

# Map - Remove countries with no match
df_1 = df_1[~df_1['country'].isin(['European Community','Unspecified'])]


### 2.2 - Numerical Attributes

In [17]:
# Atributos numericos

# Removendo valores de preço muito pequenos ou zeros, podem ser considerados brindes 
df_1 = df_1.loc[df_1['unit_price']>=0.04,:]

# Clientes ruins - No caso possuei muita devolução
bad_costumers = [16446]
df_1 = df_1.loc[~df_1['customer_id'].isin(bad_costumers),:]

# Separando os retornos e compras para realizar as análises dos dados
df_returns =  df_1.loc[df_1['quantity']<0,:]
df_purchase = df_1.loc[df_1['quantity']>0,:]

## 3 - Feature Engineering

In [18]:
#papermill_description=feature_engineering
## Ideias para criacao de features
## Moving Average - 7d, 14d, 21d e 30d
## Compra em relação a data - Antes do dia 15 e depois

In [20]:
#df_3 = df_2.copy() 

### 3.4 - Criando e Modificacao de Variáveis

In [19]:
# Remove colunas e permanece com os customer id únicos 
df_ref = df_1.drop(['invoice_no','stock_code','description','quantity',
                    'invoice_date','unit_price','country'],axis = 1).drop_duplicates(ignore_index = True)

In [20]:
# deletando df_1 depois de realizar a copia
del df_1
gc.collect();

0

Cria-se diversas variáveis novas para ajudar no processo de clusterização. Esas variáveis estão relacionadas as métricas de negócios.
Nota-se que certas operações serão realizadas em cima do dataframe referente a compras, sem as devoluções, e outras somente com os dados das devoluções. Isso irá gerar novos dados faltantes devido a diferença de tamanho entre os dataframes.

In [22]:
# Algumas linhas irao possuir valores negativos
# Gross Revenue (quantity * price) somente para as compras
df_purchase.loc[:,'gross_revenue'] = df_purchase.loc[:,'unit_price']*df_purchase.loc[:,'quantity']
#df_2['gross_revenue'].head()

# Realiza o agrupamento dos gross revenues por cliente
df_monetary = df_purchase.loc[:,['customer_id','gross_revenue']].groupby('customer_id').sum().reset_index()

# Uunta as tabelas utilizando o customer id como chave
# Sempre calcular a quantidade de valores NaN depois de realziar o merge como garantia
df_ref = pd.merge(df_ref,df_monetary, on = 'customer_id', how = 'left')
df_ref.isna().sum()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_purchase.loc[:,'gross_revenue'] = df_purchase.loc[:,'unit_price']*df_purchase.loc[:,'quantity']


customer_id       0
gross_revenue    91
dtype: int64

In [23]:
# Calcula a recência de cada cliente. A recência é a distância em dias em relação a última compra de cada usuário
# Define a última data de compra
df_recency = df_purchase[['customer_id','invoice_date']].groupby('customer_id').max().reset_index()
# Cálcula a diferenca entre as datas. O 'dt' é para serializar a aplicação do days
df_recency['recency_days'] = (df_purchase['invoice_date'].max() - df_recency['invoice_date']).dt.days
df_recency = df_recency[['customer_id','recency_days']].copy()

df_ref = pd.merge(df_ref,df_recency, on = 'customer_id', how = 'left')
df_ref.isna().sum()

customer_id       0
gross_revenue    91
recency_days     91
dtype: int64

In [24]:
# Quantity of items bought
# Realiza o agrupamento por usuário e utiliza o comando 'sum' para realizar a soma da quantidade de produtos comprados
df_freq = df_purchase[['customer_id','quantity']].groupby('customer_id').sum().reset_index()
df_ref = pd.merge(df_ref,df_freq, on = 'customer_id', how = 'left')
df_ref= df_ref.rename(columns = {'quantity':'quantity_of_products'})
df_ref.isna().sum()

customer_id              0
gross_revenue           91
recency_days            91
quantity_of_products    91
dtype: int64

In [25]:
# Number of returns
# Realiza o agrupamento por usuário e utiliza o comando 'count' para calcular a quantidade de retornos por clientes
df_ref_returns  = df_returns[['customer_id','invoice_no']].drop_duplicates().groupby('customer_id').count().reset_index().rename(columns = {'invoice_no':'returns'})
df_ref = pd.merge(df_ref,df_ref_returns, on = 'customer_id', how = 'left')
df_ref.isna().sum()

customer_id                0
gross_revenue             91
recency_days              91
quantity_of_products      91
returns                 4191
dtype: int64

In [26]:
# Utilza-se o método 'agg' após o 'group by' para realizar múltiplas operações de agrupamento
# utilizando esta técnica nova, cria-se a colunas com aa diferença entre a primeira e última compra e o número único de compras
df_aux = (df_purchase[['customer_id','invoice_no','invoice_date']].drop_duplicates()
                                                           .groupby('customer_id')
                                                           .agg( days_ = ('invoice_date',lambda x: (x.max() - x.min()).days),
                                                                 buy_  = ('invoice_no','nunique'))).reset_index()

# Frquency 
# Calcula a frequência média de compra por usuário dividindo o número de compras únicas e o período de tempo entre a primeira e última compra e 
df_aux['frequency'] = df_aux[['days_','buy_']].apply(lambda x: x['buy_'] /x['days_'] if x['days_'] != 0 else 0, axis = 1 )
df_ref = pd.merge(df_ref, df_aux[['customer_id','frequency']], on = 'customer_id', how = 'left')
df_ref.isna().sum()

customer_id                0
gross_revenue             91
recency_days              91
quantity_of_products      91
returns                 4191
frequency                 91
dtype: int64

### 3.5 - Removendo colunas e Selecionando dados

In [27]:
# Caso o número de retornos calculados seja dado faltante, preencher com o 0
df_ref.loc[df_ref['returns'].isna(),'returns'] = 0
# Para este ciclo do desenvolvimento os valores faltantes serão descartados
df_ref = df_ref.dropna()
df_ref.isna().sum()

customer_id             0
gross_revenue           0
recency_days            0
quantity_of_products    0
returns                 0
frequency               0
dtype: int64

## 4 - EDA

In [None]:
# deletando df_purchase e df_returns depois de realizar a copia
del df_returns
del df_purchase
gc.collect()

In [28]:
#df_4 = df_ref.copy()

Métricas a serem analisadas no pandas profiling:
   - Min, Max , Range (Dispersão)
   - Média e Mediana
   - Desvio Padrão e Variância
   - Coeficiente de variação
   - Distribuição
   
As métricas mencionadas acima são indicadores de variância dos dados

### 4.3 - Estudo do espaço

In [29]:
# Seleciona as colunas que irão continuar para o resto do projeto. Quantidade de produtos será mantida porque possui uma correlação alto com 
# tamanho médio da cesta e quantidade média de compras
cols_select = ['gross_revenue','recency_days','quantity_of_products','frequency','returns']
#df_standard = df_4.drop(columns = 'customer_id',axis = 1).copy()
df_standard = df_ref.loc[:,cols_select].copy()

In [30]:
# Como todas as variáveis não possuem uma distribuição normal e possuem muitos valores extremos é recomendado 
# utilizar Min Max Scaler para resscalar os dados

# Para script de produção, deve-se evitar treinar modelos pelo fato de consumir muita memória, então 
# o modelo treinada será salvo em um arquivo Pickle e inserido no S3. Quando estiver em produção,
# o arquivo será extraído do S3 e ser utilizado

# Utilizar o método get_object para extrair o pkl
# E neste caso não será necessário converter da sequência de bytes, porque o método pickle.lodas utiliza a sequência de bytes

#papermill_description=data_scaling
# Carrega scaler do gross revenue
obj = client.get_object(Bucket= credentials.access_credential['bucket_name'], Key= 'gross_revenue_scaler.pkl') 
gross_revenue_scaler = pickle.loads(obj['Body'].read())
df_standard['gross_revenue']        = gross_revenue_scaler.fit_transform(df_standard[['gross_revenue']])

# Carrega scaler do recency days
obj = client.get_object(Bucket= credentials.access_credential['bucket_name'], Key= 'recency_days_scaler.pkl') 
recency_days_scaler = pickle.loads(obj['Body'].read())
df_standard['recency_days']         = recency_days_scaler.fit_transform(df_standard[['recency_days']])

# Carrega scaler da quantity of products
obj = client.get_object(Bucket= credentials.access_credential['bucket_name'], Key= 'quantity_of_products_scaler.pkl') 
quantity_of_products_scaler = pickle.loads(obj['Body'].read())
df_standard['quantity_of_products'] = quantity_of_products_scaler.fit_transform(df_standard[['quantity_of_products']])

# Carrega scaler para o número de returno
obj = client.get_object(Bucket= credentials.access_credential['bucket_name'], Key= 'returns_scaler.pkl') 
returns_scaler = pickle.loads(obj['Body'].read())
df_standard['returns']              = returns_scaler.fit_transform(df_standard[['returns']])

# Carrega scaler para a frequência de compra
obj = client.get_object(Bucket= credentials.access_credential['bucket_name'], Key= 'frequency_scaler.pkl') 
frequency_scaler = pickle.loads(obj['Body'].read())
df_standard['frequency']            = frequency_scaler.fit_transform(df_standard[['frequency']])

#### 4.3.4 - Tree Based Embedding

A mudança do espaço de dados também pode ser dar através da realização de um random forest. O problema para este trecho passará a ser um problema supervisionado.

In [31]:
# Como é pedido para definir os grupos que mais gastam, junto com outras características. A variável alvo será a receita de cada usuário e o resto será utilizado
# como features.

X = df_standard.drop(columns = ['gross_revenue'], axis = 1).values
y = np.ravel(df_standard[['gross_revenue']].values)

In [32]:
# model training 
# O modelo será carregado de um arquivo pickle presente no serviço S3

#papermill_description=rf_model_loading
# Carrega o modelo de random forest para gerar o espaço de embedding
obj = client.get_object(Bucket= credentials.access_credential['bucket_name'], Key= 'rf_model_embedding.pkl') 
rf_model = pickle.loads(obj['Body'].read())

Descrição da função apply 

apply(X):

   - Apply trees in the forest to X, return leaf indices.

  Parameters:

   - X{array-like, sparse matrix} of shape (n_samples, n_features)

  Returns:

   - X_leavesndarray of shape (n_samples, n_estimators)

        For each datapoint x in X and for each tree in the forest, return the index of the leaf x ends up in.



In [33]:
# O número de colunas no dataframe df_leaf será igual ao número de árvores criadas pelo modelo random forest. E o número de linhas será igual ao número de linhas do 
# dataframe original e indicará em qual folha cada ponto de dados caiu.
#papermill_description=applying_rf_model
df_leaf = pd.DataFrame(rf_model.apply(X))

In [34]:
# Esse espaço criado pelo random forest será reduzido pelo UMAP para duas dimensões para ser analisado

#papermill_description=UMAP_model_loading
# O modelo do UMAP será carregado do S3 para evitar processamento
obj = client.get_object(Bucket= credentials.access_credential['bucket_name'], Key= 'umap_reducer_embedding.pkl') 
reducer = pickle.loads(obj['Body'].read())

#papermill_description=UMAP_model_transforming
#papermill_description=hyper_parameter_tuning
# Transforma os dados do espaço de embedding para 2-D 
embedding = reducer.transform(df_leaf)
df_tree = pd.DataFrame(columns = ['embedding_x','embedding_y'])

In [35]:
# Embedding
df_tree['embedding_x'] = embedding[:,0]
df_tree['embedding_y'] = embedding[:,1]

#sns.scatterplot(x = 'embedding_x', y = 'embedding_y', data = df_tree);

## 7 - Hyperparameter Fine Tunning

In [36]:
#papermill_description=hyperparameter_fine_tunning
#df_7 = df_tree.copy()
#df_model = df_7.copy()

# Salva o modelo do espaço de embedding
#df_7.to_csv('tree_embedding_insiders.csv', index = False)

## 8 - Model Training

### 8.1 - K-Means

In [37]:
# model definition
#papermill_description=k_means_model_training
k = 11
kmeans = cl.KMeans(init = 'random', n_clusters = k, n_init = 300, max_iter = 300, random_state = 42)

# model training
kmeans.fit(df_tree)

# clustering
labels = kmeans.labels_

### 8.2 - Cluster Validation

In [39]:
# WSS
print('WSS values: {}'.format(kmeans.inertia_))

#SS
print('SS values: {}'.format(metrics.silhouette_score(df_tree,labels, metric = 'euclidean')))

WSS values: 34056.5390625
SS values: 0.5860722064971924


In [40]:
df_ref['labels'] = labels

## 9 - Cluster Analysis

### 9.2 - Cluster Profile

Esse tipo de profile pode ser feito porque possui a necessidade de agrupar as pessoas sem mostrar porque tal elemento pertence a tal grupo. Não possível devolver o espaço de agrupamento porque passou para uma transformação, caso seja necessário, utilizar o espaço de features.

In [41]:
#papermill_description=cluster_profiling
# number of customers
df_cluster = df_ref[['customer_id','labels']].groupby('labels').count().reset_index()
df_cluster['perc_customer'] = (df_cluster['customer_id']/df_cluster['customer_id'].sum())*100

# Avg. Gross revenue
df_avg_revenue = df_ref[['gross_revenue','labels']].groupby('labels').mean().reset_index()
df_cluster =pd.merge(df_cluster,df_avg_revenue, how = 'left', on = 'labels')

# Avg. recency days
df_avg_recency = df_ref[['frequency','labels']].groupby('labels').mean().reset_index()
df_cluster =pd.merge(df_cluster,df_avg_recency, how = 'left', on = 'labels')

# Avg. returns
df_avg_tickets = df_ref[['returns','labels']].groupby('labels').mean().reset_index()
df_cluster =pd.merge(df_cluster,df_avg_tickets, how = 'left', on = 'labels')

# Avg. quantity of products
df_avg_tickets = df_ref[['recency_days','labels']].groupby('labels').mean().reset_index()
df_cluster =pd.merge(df_cluster,df_avg_tickets, how = 'left', on = 'labels')


In [43]:
df_ref['customer_id'] = df_ref['customer_id'].astype(int)
df_ref['recency_days'] = df_ref['recency_days'].astype(int)
df_ref['quantity_of_products'] = df_ref['quantity_of_products'].astype(int)
df_ref['returns'] = df_ref['returns'].astype(int)

In [45]:
df_cluster.sort_values(by = 'gross_revenue', ascending = False, ignore_index = True, inplace = True)
biggest_gmv_index = df_cluster['labels'][0]
df_cluster

Unnamed: 0,labels,customer_id,perc_customer,gross_revenue,frequency,returns,recency_days
0,1,648,11.378402,9109.407299,0.09986,2.597222,31
1,5,477,8.375768,2462.910294,0.027193,1.129979,58
2,9,517,9.078139,1617.32588,0.033591,0.626692,63
3,7,338,5.935031,1373.886361,0.028521,0.508876,78
4,2,445,7.813872,1002.680742,0.03653,0.397753,90
5,0,521,9.148376,925.477121,0.009291,0.161228,135
6,6,905,15.891133,516.265105,0.025716,0.311602,134
7,10,756,13.274802,293.358717,0.00638,0.055556,151
8,4,486,8.533802,182.362716,0.011881,0.076132,191
9,3,488,8.56892,40.499795,0.000527,0.018443,185


## 11. Deploy to Production

### 11.1 - Insert into SQLite

In [None]:
#papermill_description=connecting_to_database
# Cell to connect to RDS database

# informações para se conectar no banco de dados na nuvem
host = 'dbclientes.ccoaeknlpyyh.sa-east-1.rds.amazonaws.com/'
port = credentials.access_credential['db_port']
database_type = 'postgresql'
user = credentials.access_credential['db_user']
pwd = credentials.access_credential['db_password']
db = 'postgres'

# Estrutura de cosntrução de conexão utilizando o sqlalchemy
# database://user:pwd@host/db_name:port
endpoint = database_type+'://'+user+':'+pwd+'@'+host+db

In [None]:
# Insert Data
# Primeira conecta ao banco de dados através do métodos Create_engine do SQLAlchemy. Um obejto com as informações dos bancos de 
# dados deve ser fornecido para se criar a engine e conectar ao DB
conn = create_engine(endpoint)
# Necessário colocar index = False para ignorar o indice do dataframe

In [None]:
#papermill_description=Inserting_data_to_DB
df_ref.to_sql('insiders',con = conn, if_exists = 'replace', index = False);

In [None]:
# Desativando tracemalloc
# displaying the memory
print(tracemalloc.get_traced_memory())
 # stopping the library
tracemalloc.stop()