# **CASE: eCOMMERCE**

---

### Instalação de bibliotecas

In [1]:
# # Para utilização do algoritmo k-medoides
# install.packages("cluster")

### Carregamento de bibliotecas

In [2]:
library(tidyverse) # já pré-instalado, se for em Google Colab
library(cluster)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.1     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


### Leitura da base de dados

In [3]:
dados_ecommerce <- read.table(file   = "../Dados/eCommerce.txt",
                              sep    = "\t",
                              header = TRUE)

### Visualização da base de dados

In [4]:
View(dados_ecommerce)

ID_CLIENTE,CATEGORIA,VALOR_PAGO,NOTA_SATISFACAO
<int>,<chr>,<int>,<int>
1,televisao,2190,6
2,celular,1140,9
3,celular,1570,7
4,celular,970,6
5,celular,970,10
6,computador,1800,6
7,televisao,1690,0
8,celular,1070,10
9,televisao,1610,7
10,computador,1870,2


### Análise exploratória breve

In [5]:
# Medidas resumo
summary(dados_ecommerce)

   ID_CLIENTE      CATEGORIA           VALOR_PAGO   NOTA_SATISFACAO
 Min.   :   1.0   Length:2992        Min.   : 910   Min.   : 0.00  
 1st Qu.: 748.8   Class :character   1st Qu.:1120   1st Qu.: 6.00  
 Median :1496.5   Mode  :character   Median :1530   Median : 8.00  
 Mean   :1496.5                      Mean   :1609   Mean   : 7.42  
 3rd Qu.:2244.2                      3rd Qu.:1880   3rd Qu.:10.00  
 Max.   :2992.0                      Max.   :3660   Max.   :10.00  

In [6]:
# Tabela de frequências: categoria
table(dados_ecommerce$CATEGORIA)
prop.table(table(dados_ecommerce$CATEGORIA))


   celular computador  televisao 
      1446        690        856 


   celular computador  televisao 
 0.4832888  0.2306150  0.2860963 

### Agrupamento pelo algoritmo k-medoides

In [7]:
# Transformação das variáveis qualitativas em 'fatores' (requisito para o algoritmo k-medoides no R)
dados_ecommerce$CATEGORIA <- as.factor(dados_ecommerce$CATEGORIA)

In [8]:
# Cálculo da matriz de distâncias para as variáveis de interesse, utilizando a distância de Gower
dist_ecommerce_gower <- daisy(dados_ecommerce[, c("CATEGORIA",
                                                  "VALOR_PAGO",
                                                  "NOTA_SATISFACAO")],
                              metric = "gower")

In [9]:
# Definição de semente aleatória, para reprodutibilidade dos resultados
set.seed(12345)

In [10]:
# Execução do algoritmo para diferentes valores de k
clust_ecommerce_k3 <- pam(dist_ecommerce_gower, diss = TRUE, k = 3)
clust_ecommerce_k4 <- pam(dist_ecommerce_gower, diss = TRUE, k = 4)
clust_ecommerce_k5 <- pam(dist_ecommerce_gower, diss = TRUE, k = 5)

In [11]:
# Registrando os clusters das simulações como novas colunas na base de dados
dados_ecommerce$cluster_k3 <- clust_ecommerce_k3$clustering
dados_ecommerce$cluster_k4 <- clust_ecommerce_k4$clustering
dados_ecommerce$cluster_k5 <- clust_ecommerce_k5$clustering

### Análise descritiva dos clusters do algoritmo k-medoides

### k = 3

In [12]:
# Médias das variáveis quantitativas
dados_ecommerce %>%
  group_by(cluster_k3) %>%
  summarise(valor_pago_medio      = round(mean(VALOR_PAGO), 0),
            nota_satisfacao_media = round(mean(NOTA_SATISFACAO), 1),
            qtde_clientes         = n(),
            perc_clientes         = round(n()/nrow(dados_ecommerce),2)) %>%
  View()

cluster_k3,valor_pago_medio,nota_satisfacao_media,qtde_clientes,perc_clientes
<int>,<dbl>,<dbl>,<int>,<dbl>
1,1822,6.2,856,0.29
2,1201,8.6,1446,0.48
3,2201,6.5,690,0.23


In [13]:
# Distribuição (em %) da variável qualitativa, por cluster
round(prop.table(table(dados_ecommerce$cluster_k3, dados_ecommerce$CATEGORIA), 1), 2)

   
    celular computador televisao
  1       0          0         1
  2       1          0         0
  3       0          1         0

### k = 4

In [14]:
# Médias das variáveis quantitativas
dados_ecommerce %>%
  group_by(cluster_k4) %>%
  summarise(valor_pago_medio      = round(mean(VALOR_PAGO), 0),
            nota_satisfacao_media = round(mean(NOTA_SATISFACAO), 1),
            qtde_clientes         = n(),
            perc_clientes         = round(n()/nrow(dados_ecommerce),2)) %>%
  View()

cluster_k4,valor_pago_medio,nota_satisfacao_media,qtde_clientes,perc_clientes
<int>,<dbl>,<dbl>,<int>,<dbl>
1,1822,6.2,856,0.29
2,1205,9.6,941,0.31
3,1193,6.8,505,0.17
4,2201,6.5,690,0.23


In [15]:
# Distribuição (em %) da variável qualitativa, por cluster
round(prop.table(table(dados_ecommerce$cluster_k4, dados_ecommerce$CATEGORIA), 1), 2)

   
    celular computador televisao
  1       0          0         1
  2       1          0         0
  3       1          0         0
  4       0          1         0

### k = 5

In [16]:
# Médias das variáveis quantitativas
dados_ecommerce %>%
  group_by(cluster_k5) %>%
  summarise(valor_pago_medio      = round(mean(VALOR_PAGO), 0),
            nota_satisfacao_media = round(mean(NOTA_SATISFACAO), 1),
            qtde_clientes         = n(),
            perc_clientes         = round(n()/nrow(dados_ecommerce),2)) %>%
  View()

cluster_k5,valor_pago_medio,nota_satisfacao_media,qtde_clientes,perc_clientes
<int>,<dbl>,<dbl>,<int>,<dbl>
1,1822,6.2,856,0.29
2,1205,9.6,941,0.31
3,1193,6.8,505,0.17
4,1809,3.9,342,0.11
5,2585,9.0,348,0.12


In [17]:
# Distribuição (em %) da variável qualitativa, por cluster
round(prop.table(table(dados_ecommerce$cluster_k5, dados_ecommerce$CATEGORIA), 1), 2)

   
    celular computador televisao
  1       0          0         1
  2       1          0         0
  3       1          0         0
  4       0          1         0
  5       0          1         0