# Recompra Bázica

In [286]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns 
import plotly.express as px
import plotly.graph_objs as go 
from sklearn.cluster import KMeans

# Evitar exibir Warnings
import warnings
warnings.filterwarnings("ignore")


## Base de dados

In [228]:
base_compras = pd.read_csv('data-set/vendas_de_produtos.csv', dtype={'ID_Cliente': 'Int64', 'ID_Produto': 'Int64'}, parse_dates=["Data"])

In [229]:
base_clientes = pd.read_csv('data-set/clientes.csv', dtype={'ID_Cliente': 'Int64'})

### Exploração dos dados 

In [230]:
base_compras

Unnamed: 0,ID_Cliente,Data,ID_Produto,Descrição_Produto,Quantidade,Preço_Unitário,ID_Pedido,Desconto,Frete,Total_do_Pedido
0,12429082030,2021-05-27,14,Bázica Gola C - Air - Azul Marinho - M,1,109.0,1000000401,0.0,4.90,113.90
1,12793619292,2021-05-27,,Bázica Gola C - Powerful - Preto - P,1,109.0,1000000400,0.0,4.90,113.90
2,1,2021-05-27,,Bázica Gola C - Powerful - Preto - M,1,109.0,1000000399,0.0,4.90,113.90
3,2,2021-05-26,,Bázica Gola C - Powerful - Preto - M,2,109.0,1000000398,0.0,4.90,301.90
4,2,2021-05-26,,Bázica Gola C - Powerful - Branco - M,1,109.0,1000000398,0.0,4.90,301.90
...,...,...,...,...,...,...,...,...,...,...
17023,15990665892,2022-12-31,2,Bázica Gola C - Preta - Powerful - M,1,119.0,9017,0.0,21.19,140.19
17024,15896646324,2022-12-31,192,Bázica Vibe - Azul Cobalto - Viscose - M,1,223.0,9018,0.0,0.00,223.00
17025,12268398905,2022-12-31,211,Bázica Lord - Branca - Pima - GG,1,247.0,9019,0.0,0.00,247.00
17026,15990672946,2022-12-31,461,Bázica Long - Ocean - Air - G,1,119.0,9020,23.8,0.00,214.20


**Verificando Informações da Base de Dados**

In [231]:
base_compras.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17028 entries, 0 to 17027
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ID_Cliente         17026 non-null  Int64         
 1   Data               17028 non-null  datetime64[ns]
 2   ID_Produto         16625 non-null  Int64         
 3   Descrição_Produto  17028 non-null  object        
 4   Quantidade         17028 non-null  int64         
 5   Preço_Unitário     16804 non-null  float64       
 6   ID_Pedido          17028 non-null  int64         
 7   Desconto           16984 non-null  float64       
 8   Frete              17028 non-null  float64       
 9   Total_do_Pedido    17028 non-null  float64       
dtypes: Int64(2), datetime64[ns](1), float64(4), int64(2), object(1)
memory usage: 1.3+ MB


**Verificando a soma de dados ausentes em cada coluna**

In [232]:
base_compras.isnull().sum()

ID_Cliente             2
Data                   0
ID_Produto           403
Descrição_Produto      0
Quantidade             0
Preço_Unitário       224
ID_Pedido              0
Desconto              44
Frete                  0
Total_do_Pedido        0
dtype: int64

In [233]:
np.round(base_compras.isnull().sum()['ID_Cliente']/ base_compras.shape[0] * 100, 2)

0.01

Como é percebido, existem dois pedidos com id de cliente nulos que equivalem a $0.01$%, então irei analisar se existem outros pedidos de venda com o mesmo código do pedido para subtituir o ID de cliente nulo desses pedidos,  caso contrário irei optar por remover esses dados devido que a quantidade pedidos não irá influenciar tanto no resultado final.

**Verificando os ID de Clientes Nulos**

In [234]:
base_compras[base_compras['ID_Cliente'].isnull()]

Unnamed: 0,ID_Cliente,Data,ID_Produto,Descrição_Produto,Quantidade,Preço_Unitário,ID_Pedido,Desconto,Frete,Total_do_Pedido
483,,2020-09-10,,Bázica Gola C - Powerful - Branco - G,1,,1000000044,0.0,0.0,109.0
485,,2020-08-30,,Bázica Gola C - Powerful - Preto - GG,1,,1000000039,0.0,0.0,197.0


**Verificando se existem outra venda com número de pedido igual**

In [235]:
base_compras[base_compras['ID_Pedido'] == 1000000044]

Unnamed: 0,ID_Cliente,Data,ID_Produto,Descrição_Produto,Quantidade,Preço_Unitário,ID_Pedido,Desconto,Frete,Total_do_Pedido
483,,2020-09-10,,Bázica Gola C - Powerful - Branco - G,1,,1000000044,0.0,0.0,109.0


In [236]:
base_compras[base_compras['ID_Pedido'] == 1000000039]

Unnamed: 0,ID_Cliente,Data,ID_Produto,Descrição_Produto,Quantidade,Preço_Unitário,ID_Pedido,Desconto,Frete,Total_do_Pedido
485,,2020-08-30,,Bázica Gola C - Powerful - Preto - GG,1,,1000000039,0.0,0.0,197.0


**Como não existe outra venda com mesmo código de pedido essas linhas serão removidas**  

In [237]:
base_compras = base_compras.dropna(subset=['ID_Cliente'])
base_compras.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17026 entries, 0 to 17027
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ID_Cliente         17026 non-null  Int64         
 1   Data               17026 non-null  datetime64[ns]
 2   ID_Produto         16625 non-null  Int64         
 3   Descrição_Produto  17026 non-null  object        
 4   Quantidade         17026 non-null  int64         
 5   Preço_Unitário     16804 non-null  float64       
 6   ID_Pedido          17026 non-null  int64         
 7   Desconto           16982 non-null  float64       
 8   Frete              17026 non-null  float64       
 9   Total_do_Pedido    17026 non-null  float64       
dtypes: Int64(2), datetime64[ns](1), float64(4), int64(2), object(1)
memory usage: 1.5+ MB


**Verificando os dtypes das colunas**

In [238]:
base_compras.dtypes

ID_Cliente                    Int64
Data                 datetime64[ns]
ID_Produto                    Int64
Descrição_Produto            object
Quantidade                    int64
Preço_Unitário              float64
ID_Pedido                     int64
Desconto                    float64
Frete                       float64
Total_do_Pedido             float64
dtype: object

**Informações sobre as datas**

In [239]:
base_compras.head()

Unnamed: 0,ID_Cliente,Data,ID_Produto,Descrição_Produto,Quantidade,Preço_Unitário,ID_Pedido,Desconto,Frete,Total_do_Pedido
0,12429082030,2021-05-27,14.0,Bázica Gola C - Air - Azul Marinho - M,1,109.0,1000000401,0.0,4.9,113.9
1,12793619292,2021-05-27,,Bázica Gola C - Powerful - Preto - P,1,109.0,1000000400,0.0,4.9,113.9
2,1,2021-05-27,,Bázica Gola C - Powerful - Preto - M,1,109.0,1000000399,0.0,4.9,113.9
3,2,2021-05-26,,Bázica Gola C - Powerful - Preto - M,2,109.0,1000000398,0.0,4.9,301.9
4,2,2021-05-26,,Bázica Gola C - Powerful - Branco - M,1,109.0,1000000398,0.0,4.9,301.9


In [240]:
pd.DataFrame(base_compras.Data.describe())

  pd.DataFrame(base_compras.Data.describe())


Unnamed: 0,Data
count,17026
unique,636
top,2022-10-14 00:00:00
freq,484
first,2020-08-19 00:00:00
last,2022-12-31 00:00:00


Vemos que as compras online foram feitas no perido de 19-08-2020 a 31-12-2022

# <font color="red"> Se der tempo Fazer analise inicial com outro dataset </font>

### Prevendo compra do cliente



O objetivo desta seção é criar um modelo usando o dataframe df_data fornecido, para estimar se um determinado cliente comprará algo novamente na loja online.

O dataframe é dividido em dois:

   * O primeiro sub-dataframe atribuído à variável Python cliente_comp_dt contém compras feitas por clientes de 19-08-2020 a 30-09-2022. Este dataframe será usado para estudar as compras comportamentais dos clientes online.

   * O segundo sub-dataframe atribuído à variável Python cliente_prox_tri será usado para estudar as compras comportamentais dos clientes no próximo trimestre. Ou seja, de 01-10-2022 a 31-12-2022, com ênfase de localizar os clientes que irão comprar no período **01-01-2023** e **14-01-2023**.


In [241]:
cliente_comp_dt = base_compras[(base_compras.Data < pd.Timestamp(2022, 10, 1)) & 
                               (base_compras.Data >= pd.Timestamp(2020, 8, 19))].reset_index(drop=True)

cliente_prox_tri = base_compras[(base_compras.Data < pd.Timestamp(2023,1,1)) & 
                                (base_compras.Data >= pd.Timestamp(2022, 10, 1))].reset_index(drop=True)

In [242]:
# Obtenha os clientes distintos no dataframe cliente_comp_dt
dados_clientes = pd.DataFrame(cliente_comp_dt['ID_Cliente'].unique())
# Renomeio a Coluna para ID_Cliente 
dados_clientes.columns = ['ID_Cliente']

Agora vamos encontrar a primeira compra feita por cada cliente no próximo trimestre.

In [243]:
# Criei um dataframe com Id do Cliente e a primeira data de compra do cliente em cliente_prox_tri 
cliente_1_cmp_tri = cliente_prox_tri.groupby('ID_Cliente').Data.min().reset_index()
cliente_1_cmp_tri.columns =  ['ID_Cliente', 'PrimeiraDataCompraTrimestre']
cliente_1_cmp_tri.head()

Unnamed: 0,ID_Cliente,PrimeiraDataCompraTrimestre
0,12268398905,2022-10-05
1,12378697829,2022-12-16
2,12383774078,2022-10-06
3,12384988715,2022-10-29
4,12385092320,2022-10-14


E então, agora vamos encontrar a última compra feita por cada cliente no dataframe cliente_comp_dt.

In [244]:
cliente_ult_cmp = cliente_comp_dt.groupby('ID_Cliente').Data.max().reset_index()
cliente_ult_cmp.columns = ['ID_Cliente', 'UltDataCompraAnteriorAoTrismestre']
cliente_ult_cmp

Unnamed: 0,ID_Cliente,UltDataCompraAnteriorAoTrismestre
0,1,2021-05-27
1,2,2021-05-26
2,3,2021-05-17
3,4,2021-05-17
4,5,2021-05-16
...,...,...
2443,15889151369,2022-09-30
2444,15889169723,2022-09-30
2445,15889184513,2022-09-30
2446,15889232166,2022-09-30


Vamos mesclar os dois dataframes cliente_ult_cmp e cliente_1_cmp_tri. 

In [245]:
clientes_data_compras = pd.merge(cliente_ult_cmp, cliente_1_cmp_tri, on='ID_Cliente', how='left')

In [246]:
clientes_data_compras.head()

Unnamed: 0,ID_Cliente,UltDataCompraAnteriorAoTrismestre,PrimeiraDataCompraTrimestre
0,1,2021-05-27,NaT
1,2,2021-05-26,NaT
2,3,2021-05-17,NaT
3,4,2021-05-17,NaT
4,5,2021-05-16,NaT


Vamos calcular a diferença de tempo em dias entre a última compra do cliente no dataframe cliente_ult_cmp e a primeira compra no dataframe cliente_1_cmp_tri.

In [247]:
clientes_data_compras['ProximoDiaCompra'] = (clientes_data_compras['PrimeiraDataCompraTrimestre'] -
                                             clientes_data_compras['UltDataCompraAnteriorAoTrismestre']).dt.days

clientes_data_compras.head()

Unnamed: 0,ID_Cliente,UltDataCompraAnteriorAoTrismestre,PrimeiraDataCompraTrimestre,ProximoDiaCompra
0,1,2021-05-27,NaT,
1,2,2021-05-26,NaT,
2,3,2021-05-17,NaT,
3,4,2021-05-17,NaT,
4,5,2021-05-16,NaT,


In [248]:
# Mescla com dados_clientes
dados_clientes = pd.merge(dados_clientes, clientes_data_compras[['ID_Cliente', 'ProximoDiaCompra']], on='ID_Cliente', how='left')
dados_clientes.head()

Unnamed: 0,ID_Cliente,ProximoDiaCompra
0,12429082030,
1,12793619292,
2,1,
3,2,
4,12732289533,27.0


Irei atualizar o dataframe dados_clientes preenchendo todos os valores ausentes com 9999

In [253]:
dados_clientes = dados_clientes.fillna(9999)
dados_clientes.head()

Em seguida, definiremos alguns recursos e os adicionaremos ao dataframe dados_clientes para construir nosso modelo de aprendizado de máquina. Usaremos o método de segmentação Recência - Frequência - Valor Monetário. Ou seja, vamos colocar os clientes em grupos com base no seguinte:

   *  Recência: o comportamento de compra dos clientes com base na data de compra mais recente e quantos dias eles ficaram inativos desde a última compra.

   *  Frequência: Comportamento de compra dos clientes com base no número de vezes que compram na loja de varejo online.

   *  Valor/receita monetária: comportamento de compra dos clientes com base na receita que geram.

Depois, aplicaremos o agrupamento de K-means para atribuir aos clientes uma pontuação para cada um dos recursos.


**Recency** - **Recência**

Vamos encontrar a data de compra mais recente de cada cliente e ver quantos dias ele está inativo. Depois, podemos aplicar o agrupamento de K-means para atribuir aos clientes uma pontuação de recência

In [261]:
cliente_compra_recente = cliente_comp_dt.groupby('ID_Cliente').Data.max().reset_index()
cliente_compra_recente.columns = ['ID_Cliente', 'CompraMaisRecente']
cliente_compra_recente.head()

In [268]:
# Encontrando a Recência em Dias
cliente_compra_recente['Recencia'] = (cliente_compra_recente['CompraMaisRecente'].max() - 
                                      cliente_compra_recente['CompraMaisRecente']).dt.days

# Mescle os dataframes dados_clientes e cliente_compra_recente[['ID_Cliente', 'Recencia']] na coluna CustomerID. 
dados_clientes = pd.merge(dados_clientes, cliente_compra_recente[['ID_Cliente', 'Recencia']], on='ID_Cliente')
dados_clientes.head()

In [276]:
pd.DataFrame(dados_clientes.Recencia.describe())

Unnamed: 0,Recencia
count,2448.0
mean,160.996732
std,154.353439
min,0.0
25%,50.0
50%,109.0
75%,256.25
max,772.0


A recência média é de aproximadamente 161 dias, enquanto a mediana é de 109 dias.

In [281]:
hist_fig = px.histogram(dados_clientes, 
                        x="Recencia", 
                        title="Recência dos clientes em dias"                      
)

hist_fig.update_layout(title_x=0.5, 
                       xaxis_title="Recência em grupos de 20 dias", 
                       yaxis_title="Número de clientes"
)

hist_fig.show(config={'displaylogo': False})

No passo seguinte, irei aplicar o agrupamento K-means para atribuir uma pontuação de recência. No entanto, precisamos saber quantos clusters para usar o algoritmo K-means. Aplicaremos o método Elbow para determinar quantos clusters precisaremos. O método Elbow simplesmente informa o número de cluster ideal para a inércia ideal. 

In [287]:
my_dict = {}
cliente_recencia = dados_clientes[['Recencia']]

for idx in range(1, 10):
    kmeans = KMeans(n_clusters=idx, max_iter=1000).fit(cliente_recencia)
    cliente_recencia['clusters'] = kmeans.labels_
    my_dict[idx] = kmeans.inertia_
    
line_fig = px.line(x=list(my_dict.keys()), 
                   y=list(my_dict.values()), 
                   template="plotly_dark"
                  )

line_fig.update_layout(title_x=0, 
                       xaxis_title="Número de cluster", 
                       yaxis_title=""
                      )

line_fig.show(config={'displaylogo': False})

In [288]:
numero_de_clusters = 4
kmeans = KMeans(n_clusters=numero_de_clusters)
kmeans.fit(dados_clientes[['Recencia']])
dados_clientes['RecenciaCluster'] = kmeans.predict(dados_clientes[['Recencia']])
dados_clientes.head()

Unnamed: 0,ID_Cliente,ProximoDiaCompra,Recencia,RecenciaCluster
0,12429082030,9999.0,490,3
1,12793619292,9999.0,100,0
2,1,9999.0,491,3
3,2,9999.0,492,3
4,12732289533,27.0,13,2
...,...,...,...,...
2443,15889151369,9999.0,0,2
2444,15889169723,9999.0,0,2
2445,15889184513,9999.0,0,2
2446,15889232166,9999.0,0,2


In [289]:
def order_cluster(df, target_field_name, cluster_field_name, ascending):
    """
    INPUT:
        - df                  - pandas DataFrame
        - target_field_name   - str - A column in the pandas DataFrame df
        - cluster_field_name  - str - Expected to be a column in the pandas DataFrame df
        - ascending           - Boolean
        
    OUTPUT:
        - df_final            - pandas DataFrame with target_field_name and cluster_field_name as columns
    
    """
    # Add the string "new_" to cluster_field_name
    new_cluster_field_name = "new_" + cluster_field_name
    
    # Create a new dataframe by grouping the input dataframe by cluster_field_name and extract target_field_name 
    # and find the mean
    df_new = df.groupby(cluster_field_name)[target_field_name].mean().reset_index()
    
    # Sort the new dataframe df_new, by target_field_name in descending order
    df_new = df_new.sort_values(by=target_field_name, ascending=ascending).reset_index(drop=True)
    
    # Create a new column in df_new with column name index and assign it values to df_new.index
    df_new["index"] = df_new.index
    
    # Create a new dataframe by merging input dataframe df and part of the columns of df_new based on 
    # cluster_field_name
    df_final = pd.merge(df, df_new[[cluster_field_name, "index"]], on=cluster_field_name)
    
    # Update the dataframe df_final by deleting the column cluster_field_name
    df_final = df_final.drop([cluster_field_name], axis=1)
    
    # Rename the column index to cluster_field_name
    df_final = df_final.rename(columns={"index": cluster_field_name})
    
    return df_final


In [291]:
dados_clientes = order_cluster(dados_clientes, 'Recencia', 'RecenciaCluster', False)

In [296]:
#Imprima características do cluster
dados_clientes.groupby('RecenciaCluster')['Recencia'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
RecenciaCluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,143.0,591.657343,90.296078,455.0,507.0,613.0,672.0,772.0
1,506.0,316.063241,52.516475,231.0,281.0,291.5,346.0,452.0
2,787.0,138.179161,39.473052,90.0,108.0,125.0,169.0,226.0
3,1012.0,40.353755,26.24305,0.0,15.0,44.0,60.0,89.0


Observe acima que 3 cobre os clientes mais recentes, enquanto 0 tem os clientes mais inativos. 