# 0.0 Imports and Load Data

## 0.1 Imports

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px
import datetime
import warnings
import re
import s3fs
import awswrangler as wr

import umap.umap_ as umap
import scipy.stats as st

from sklearn import cluster       as c
from sklearn import metrics       as m
from sklearn import ensemble      as en
from sklearn import preprocessing as pp
from sklearn import decomposition as dd
from sklearn import manifold      as mn
from sklearn import mixture       as mx

import sqlite3
from sqlalchemy import create_engine

import pickle
import os

warnings.filterwarnings('ignore')



In [2]:
# # acesso ao S3
# os.environ.get('arn:aws:kms:us-east-1:679236183272:key/6042566d-1d31-4e13-a535-d44fe4d7bf8b')

## 0.2 Load Data

In [3]:
# df = pd.read_excel('C:/Users/micro/Desktop/repos/3_ciclo_intermediario/3_ds_em_clusterizacao/data_original/online_retail.xlsx')

path = 's3://insiders-cds-bhmr240324/online_retail.xlsx'
# path_csv_s3 = 's3://insiders-cds-bhmr240324/Ecommerce.csv'

# wr.config.aws_profile = 'default' # define o perfil padrão logado na AWS
# wr.config.region = 'us-east-1'
# df = wr.s3.read_excel(path)

df = pd.read_excel(path)
# df = pd.read_csv(path_csv_s3, encoding = 'iso8859-1')

df.head()

PermissionError: Forbidden

# 1.0 Data Cleaning

## 1.1 Initial Cleaning

In [None]:
df1 = df.copy()

In [None]:
# renomeando colunas
cols_new = ['invoice_no','stock_code','description','quantity','invoice_date','unit_price','customer_id','country']
df1.columns = cols_new

In [None]:
# alterando os tipos dos dados
df1['invoice_date'] = pd.to_datetime(df1['invoice_date'], format = '%d-%b-%y')
df1['invoice_no'] = df1['invoice_no'].astype(str)
df1['stock_code'] = df1['stock_code'].astype(str)

## 1.2 Replacing NaN Values

### Second Cicle

In [None]:
# checando clientes sem id
df_missing = df1.loc[df1['customer_id'].isna(), :]
df_missing.head()

In [None]:
# dropando transações duplicadas para que cada transação represente um único cliente
# essa solução não é a ideal, visto que um mesmo cliente pode realizar várias transações
# porém, como não temos a identificação destes clientes, é uma solução plausível para este ciclo de projeto
df_backup = pd.DataFrame(df_missing['invoice_no'].drop_duplicates())
df_backup.head()

In [None]:
# substituindo os valores faltantes dos clientes por um número muito alto, para ficar fácil de diferenciar
# cada cliente será representado pelo id do cliente anterior + 1, para que não haja nenhum cliente repetido
df_backup['customer_id'] = np.arange(19000, 19000+len(df_backup), 1)

In [None]:
# unindo o dataset original com o dataset dos clientes NaNs preenchido
df1 = pd.merge(df1, df_backup, on = 'invoice_no', how = 'left')
df1.head()

In [None]:
# unindo o id do cliente que for igual nos 2 datasets em uma nova coluna
df1['customer_id'] = df1['customer_id_x'].combine_first(df1['customer_id_y'])
df1.head()

In [None]:
# dropando as colunas extras
df1 = df1.drop(columns = ['customer_id_x', 'customer_id_y'], axis = 1)
df1.head()

In [None]:
# alterando os clientes de float para int
df1['customer_id'] = df1['customer_id'].astype(int)

# 2.0 Data Description

## 2.1 Checking Categorical Attributes

In [None]:
df2 = df1.copy()

## 2.3 Filtering

In [None]:
# removendo preços nulos e quase nulos
df2 = df2.loc[df2['unit_price'] >= 0.04, :]

# removendo produtos com códigos que não representam compras
df2 = df2[~df2['stock_code'].isin(['POST','D','DOT','M','S','AMAZONFEE','m','DCGSSBOY','DCGSSGIRL','PADS','B','CRUK'])]

# removendo a coluna description
df2 = df2.drop(columns = 'description', axis = 1)

# removendo clientes de países não específicados
# foi escolhido remover estes clientes por representarem uma quantidade muito baixa de clientes em relação ao todo
df2 = df2[~df2['country'].isin(['European Community','Unspecified'])]

In [None]:
# cliente com compra/devolução estranha (valor muito alto/outlier)
df2_bad_users = df2[df2['customer_id'] == 16446]
df2_bad_users

In [None]:
# removendo maus usuários (cliente com comportamento estranho)
df2 = df2[~df2['customer_id'].isin([16446])]

In [None]:
# criando dataframes de devoluções e de compras para avaliar as compras e as devoluções posteriormente na EDA
df2_returns = df2.loc[df2['quantity'] < 0, :]
df2_purchases = df2.loc[df2['quantity'] >= 0, :]

# 3.0 Feature Engineering

## 3.1 Feature Creation

In [None]:
df3 = df2.copy()

In [None]:
# remove possíveis linhas duplicadas
df_ref = df3.drop(['invoice_no','stock_code','quantity','invoice_date','unit_price','country'], axis = 1).drop_duplicates(ignore_index = True)
df_ref.shape # verifica a quantidade de linhas remanescentes

In [None]:
df_ref.head()

In [None]:
# faturamento
df2['gross_revenue'] = df2['quantity']*df2['unit_price']

# monetary
df_monetary = df2[['customer_id', 'gross_revenue']].groupby('customer_id').sum().reset_index()

# merge
df_ref = pd.merge(df_ref, df_monetary, on = 'customer_id', how = 'left')

# verifica se algum cliente do dataframe de referência não tem correspondente no dataframe monetary
# se isso acontecesse, as linhas da coluna 'gross_revenue' sem clientes correspondentes iriam ser preenchidas com NaN
print(df_ref.isna().sum())

In [None]:
# compra mais recente de cada cliente
df_recency = df2_purchases[['customer_id', 'invoice_date']].groupby('customer_id').max().reset_index()

# data da compra mais recente no geral - data da compra mais recente de cada cliente
df_recency['recency_days'] = (df2_purchases['invoice_date'].max() - df_recency['invoice_date']).dt.days

# invertendo a data da recência, pois o modelo entende que quanto maior o valor, melhor
df_recency['recency_days'] = df_recency['recency_days'].apply(lambda x: 1/x if x != 0 else 1)

# merge
df_recency = df_recency[['customer_id', 'recency_days']].copy()
df_ref = pd.merge(df_ref, df_recency, on = 'customer_id', how = 'left')

In [None]:
# quantidade de transações por cliente
df_qt_invoices = df2_purchases[['customer_id', 'invoice_no']].drop_duplicates().groupby('customer_id').count().reset_index()
df_qt_invoices = df_qt_invoices.rename(columns = {'invoice_no': 'qt_invoices'})

# drop_duplicates: é necessário, pois ao selecionar o id da compra e o id cliente aparecem linhas repetidas.
df_ref = pd.merge(df_ref, df_qt_invoices, on = 'customer_id', how = 'left')

In [None]:
# quantidade de produtos únicos comprados por cliente
df_qt_products = df2_purchases[['customer_id', 'stock_code']].groupby('customer_id').count().reset_index()
df_qt_products = df_qt_products.rename(columns = {'stock_code': 'qt_products'})

df_ref = pd.merge(df_ref, df_qt_products, on = 'customer_id', how = 'left')

In [None]:
# quantidade de itens totais comprados por cliente
df_qt_items = df2[['customer_id', 'quantity']].groupby('customer_id').sum().reset_index()
df_qt_items = df_qt_items.rename(columns = {'quantity': 'qt_items'})

df_ref = pd.merge(df_ref, df_qt_items, on = 'customer_id', how = 'left')

In [None]:
# ticket médio por cliente
df_avg_ticket = df2[['customer_id', 'gross_revenue']].groupby('customer_id').mean().reset_index()
df_avg_ticket = df_avg_ticket.rename(columns = {'gross_revenue': 'avg_ticket'})

df_ref = pd.merge(df_ref, df_avg_ticket, on = 'customer_id', how = 'left')

In [None]:
# quantidade de devoluções por cliente
df_returns = df2_returns[['customer_id','quantity']].groupby('customer_id').sum().reset_index()
df_returns = df_returns.rename(columns = {'quantity': 'qt_returns'})

# multiplica por -1, pois as quantidades são negativas
df_returns['qt_returns'] = df_returns['qt_returns'] * -1

df_ref = pd.merge(df_ref, df_returns, how = 'left', on = 'customer_id' )

# caso a quantidade de returns for vazia, preenche a linha com 0 devoluções
df_ref.loc[df_ref['qt_returns'].isna(),'qt_returns'] = 0
df_ref.isna().sum()

In [None]:
# data da primeira compra - data da última compra
df_aux = df2_purchases[['customer_id', 'invoice_no', 'invoice_date']].drop_duplicates().groupby('customer_id')
df_aux = df_aux.agg(max_ = ('invoice_date', 'max'), min_ = ('invoice_date', 'min'), days_= ('invoice_date', lambda x: ((x.max() - x.min()).days) + 1), buy_ = ('invoice_no', 'count'))
# precisa somar 1, pois esta diferença entre as datas irá no denominador quando calcular a frequência
# se houve só uma compra, a diferença entre as datas é 0
# logo, se não somar 1, será feita uma divisão por 0 e ocorrerá uma indeterminação
df_aux = df_aux.reset_index()

In [None]:
df_aux.head()

In [None]:
# frequência: quantidade de compras / diferença entre datas
df_aux['frequency'] = df_aux[['buy_', 'days_']].apply(lambda x: x['buy_']/x['days_'] if x['days_'] != 0 else 0, axis = 1)

df_ref = pd.merge(df_ref, df_aux[['customer_id', 'frequency']], on = 'customer_id', how = 'left')
df_ref.isna().sum()

In [None]:
# quantidade de compras únicas e quantidade total de produtos por cliente
df_aux = df2[['customer_id', 'invoice_no', 'quantity']].groupby('customer_id')
df_aux = df_aux.agg(n_purchases = ('invoice_no', 'nunique'), n_products = ('quantity', 'sum')).reset_index()

# average basket size: quantidade total de produtos por cliente / quantidade de compras únicas
df_aux['basket_size'] = df_aux['n_products']/df_aux['n_purchases']

df_ref = pd.merge(df_ref, df_aux[['customer_id', 'basket_size']], how = 'left', on = 'customer_id')
df_ref.isna().sum()

In [None]:
df_ref.head()

# 4.0 EDA

## 4.1 Univariate and Bivariate Analysis

In [None]:
df4 = df_ref.dropna()
df4.isna().sum()

# 5.0 Data Preparation and Feature Selection

## 5.1 Feature Selection and Preparation

In [None]:
# selecionando as features para o estudo do espaço de dados
cols_selected = ['customer_id','gross_revenue','recency_days','frequency','qt_invoices',
                 'qt_products','qt_items','qt_returns','basket_size','avg_ticket']
df42 = df4[cols_selected].copy() 

In [None]:
# reescala dos dados para poder realizar o estudo
mm = pp.MinMaxScaler()

# distribuição não normal
df42['gross_revenue'] = mm.fit_transform(df42[['gross_revenue']] )
df42['recency_days'] = mm.fit_transform(df42[['recency_days']] )
df42['qt_invoices'] = mm.fit_transform(df42[['qt_invoices']])
df42['qt_products'] = mm.fit_transform(df42[['qt_products']])
df42['qt_items'] = mm.fit_transform(df42[['qt_items']])
df42['avg_ticket'] = mm.fit_transform(df42[['avg_ticket']])
df42['frequency'] = mm.fit_transform(df42[['frequency']])
df42['qt_returns'] = mm.fit_transform(df42[['qt_returns']])
df42['basket_size'] = mm.fit_transform(df42[['basket_size']])

X = df42.copy()

## 5.2 PCA

In [None]:
X_pca = X.drop(['customer_id'], axis = 1)
pca = dd.PCA(n_components = X_pca.shape[1])

In [None]:
principal_components = pca.fit_transform(X_pca)

In [None]:
# 6 features
features = range(pca.n_components_)

In [None]:
df_pca = pd.DataFrame(principal_components)

In [None]:
# o componente 0 é referente à primeira feature selecionada anteriormente (gross_revenue)
# quanto maior a variação do eixo y, mais a variável ajuda a selecionar os clusters
# com o PCA não é possível visualizar com clareza os clusters

## 5.4 t-SNE

In [None]:
# redutor de dimensionalidade, funciona semelhante ao UMAP
reducer = mn.TSNE(n_components = 2, n_jobs = -1, random_state = 42)
embedding = reducer.fit_transform(X)

df_pca['embedding_x'] = embedding[:, 0]
df_pca['embedding_y'] = embedding[:, 1]

sns.scatterplot(x = 'embedding_x', y = 'embedding_y', data = df_pca)

## 5.5 Tree-Based Embedding

In [None]:
# escolhendo a variável gross_revenue como label, pois para construir um grupo de clientes fiéis
# uma das principais características desejadas é que este grupo gaste mais
X_tree = df42.drop(columns = ['customer_id', 'gross_revenue'], axis = 1)
y_tree = df42['gross_revenue']

rf_model = en.RandomForestRegressor(n_estimators = 1000, random_state = 42)
rf_model.fit(X_tree, y_tree)

In [None]:
# shape que tem como quantidade de linhas os clientes (cada linha é um cliente) e como colunas os estimators
# cada par de linha-coluna indica em qual posição o cliente daquela linha caiu naquela árvore
# Se as posições são próximas ao longo das árvores, significa que provavelmente aquele cliente está bem clusterizado
df_leaf = pd.DataFrame(rf_model.apply(X_tree))
df_leaf.head()

In [None]:
# redutor de dimensionalidade UMAP sobre o espaço criado pela Random Forest
reducer = umap.UMAP(random_state = 42, n_components = 3)
embedding = reducer.fit_transform(df_leaf)

df_tree = pd.DataFrame()
df_tree['embedding_x'] = embedding[:, 0]
df_tree['embedding_y'] = embedding[:, 1]
df_tree['embedding_z'] = embedding[:, 2]

# sns.scatterplot(x = 'embedding_x', y = 'embedding_y', data = df_tree)
fig = px.scatter_3d(df_tree, x = 'embedding_x', y = 'embedding_y', z = 'embedding_z')
fig.show()

In [None]:
# # passando o dataframe do embedding para um csv
# df_tree.to_csv('tree_based_embedding.csv', index = False)

# 6.0 Modeling

## 6.1 Fine-Tuning

In [None]:
# df_tsne = df_pca[['embedding_x', 'embedding_y']]
# df_tsne.head()

In [None]:
# como os dados já foram reorganizados pelos embeddings da etapa anterior
# não é necessária uma nova preparação dos dados
# X = X.copy() # opção 1: clusterizar em cima do conjunto original (espaço de features)
# X = df_tsne.copy() # opção 2: clusterizar em cima do embedding criado pelo t-sne
X = df_tree.copy() # opção 3: clusterizar em cima do embedding criado pela random forest
X.head()

In [None]:
# fine tuning da quantidade de clusters
clusters = np.arange(5, 13, 1)

In [None]:
# checando se há valores do tipo None
none_check = X.applymap(lambda x: x is None)
print(none_check)

In [None]:
none_check.value_counts()

## 6.2 K-Means

In [None]:
kmeans_list = []

for k in clusters:
    
    kmeans_model = c.KMeans(n_clusters = k, random_state = 42)
    kmeans_model.fit(X)
    
    labels = kmeans_model.predict(X)

    sil = m.silhouette_score(X, labels, metric = 'euclidean')
    kmeans_list.append(sil)

## 6.8 Final Model

In [None]:
k = 11

kmeans_model = c.KMeans(n_clusters = k, random_state = 42) # se usar o parâmetro n_init = 300 os clusters se repetem
kmeans_model.fit(X)
    
labels = kmeans_model.predict(X)

print('SS value: {}'.format(m.silhouette_score(X, labels, metric = 'euclidean')))

# 7.0 Cluster Analysis

## 7.1 Inspection

In [None]:
df7 = X.copy()
df7['cluster'] = labels

## 7.2 Clusters Profiles

In [None]:
df72 = df4[cols_selected].copy()
df72['cluster'] = labels
df72.head()

In [None]:
# percentual de clientes no cluster
df_cluster = df72[['customer_id', 'cluster']].groupby('cluster').count().reset_index()
df_cluster['perc_customer'] = 100*(df_cluster['customer_id']/df_cluster['customer_id'].sum())

# avg gross revenue
df_avg_gross_revenue = df72[['gross_revenue', 'cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_avg_gross_revenue, how = 'inner', on = 'cluster')

# avg recency days
df72['recency_days'] = df72['recency_days'].apply(lambda x: 1/x if x != 1 else 0)
df_avg_recency_days = df72[['recency_days', 'cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_avg_recency_days, how = 'inner', on = 'cluster')

# avg frequency
df_frequency = df72[['frequency', 'cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_frequency, how = 'inner', on = 'cluster')

# avg invoices
df_qt_invoices = df72[['qt_invoices', 'cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_qt_invoices, how = 'inner', on = 'cluster')

# avg items
df_qt_items = df72[['qt_items', 'cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_qt_items, how = 'inner', on = 'cluster')

# avg products
df_qt_products = df72[['qt_products', 'cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_qt_products, how = 'inner', on = 'cluster')

# avg returns
df_qt_returns = df72[['qt_returns', 'cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_qt_returns, how = 'inner', on = 'cluster')

# avg basket size
df_basket_size = df72[['basket_size', 'cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_basket_size, how = 'inner', on = 'cluster')

# avg ticket
df_avg_ticket = df72[['avg_ticket', 'cluster']].groupby('cluster').mean().reset_index()
df_cluster = pd.merge(df_cluster, df_avg_ticket, how = 'inner', on = 'cluster')

df_cluster.sort_values('gross_revenue', ascending = False)

In [None]:
# teste t-student para gerar intervalos de confiança (variação dos valores médios do gross_revenue)
# pode servir como critério estatístico para eleger ou remover um cliente do Insiders
df_insiders = df72.loc[df72['cluster'] == 5, 'gross_revenue']

# df: degrees of freedom (graus de liberdade)
st.t.interval(confidence = 0.95, df = len(df_insiders)-1, loc = np.mean(df_insiders), scale = st.sem(df_insiders))

## 8.2 Insiders Customers

In [None]:
df82 = df72[df72['cluster'] == 5]['customer_id']
df82.head()

In [None]:
# # Exportando conjunto csv
# df82.to_csv('insiders.csv', header = 'customer_id', index = False) 

# 9.0 Deploy

In [None]:
df72.dtypes

In [None]:
# conectando ao sqlite
# host = 'sqlite:///insiders_db.sqlite'

# conectando ao postgres RDS AWS:
host = 'db-insiders.cvik2cisqfe9.us-east-1.rds.amazonaws.com'
port = '5432'
database = 'db-insiders'
user = 'postgres'
pwd = 'insidersPA005'

endpoint = 'postgresql://postgres:insidersPA005@db-insiders.cvik2cisqfe9.us-east-1.rds.amazonaws.com/postgres:5432'

conn = create_engine(host)

In [None]:
# drop table (caso já exista uma tabela)
# query_drop_insiders = """
#     DROP TABLE insiders
# """

In [None]:
# criação da tabela (rodar só uma vez)
query_create_table_insiders = """
    CREATE TABLE insiders (
        customer_id   INTEGER,
        gross_revenue REAL,
        recency_days  INTEGER,
        frequency     INTEGER,
        qt_invoices   INTEGER,
        qt_products   INTEGER,
        qt_items      INTEGER,
        qt_returns    INTEGER,
        basket_size   INTEGER,
        avg_ticket    INTEGER,
        cluster       INTEGER)
"""

conn.execute(query_create_table_insiders)

In [None]:
# # dropar a tabela caso já exista
# conn.execute(query_drop_insiders)
# conn.commit()
# conn.close()

In [None]:
# inserindo os dados na tabela criada
df72.to_sql('insiders', con = conn, if_exists = 'append', index = False)

In [None]:
# trazendo os dados
query = """
    SELECT * FROM insiders
"""

df = pd.read_sql_query(query, conn)
df.head()

# 10. Saving Pickle Files

In [None]:
# features local
