# **Create Next Best Offering to Drive Revenue and Loyalty**
DQLab.id Fashion adalah sebuah toko fashion yang menjual berbagai produk seperti jeans, kemeja, kosmetik, dan lain-lain. Walaupun cukup berkembang, namun dengan semakin banyaknya kompetitor dan banyak produk yang stoknya masih banyak tentunya membuat khawatir Pak Agus, manajer DQLab.id Fashion.

Salah satu solusi adalah membuat paket yang inovatif. Dimana produk yang sebelumnya tidak terlalu laku tapi punya pangsa pasar malah bisa dipaketkan dan laku.

Anda sebagai seorang data scientist, akan ditugaskan membantu Pak Agus untuk mengidentifikasi paket produk yang menarik untuk dipaketkan sehingga akhirnya bisa meningkatkan keuntungan dan loyalitas para pelanggan DQLab.id Fashion. Dan untuk wewujudkan ini, Anda akan menggunakan R dan algoritma aproriari dari paket **arules** di sepanjang project ini.

# **Dataset Transaksi Penjualan DQLab.id Fashion**

Untuk memulai project ini, Pak Agus meminta **Pak Charlie**, data engineer dari DQLab.id Fashion memberikan data transaksi 3 bulan kepada Anda dalam bentuk format **TSV (Tab Separated Value)** dengan nama **transaksi_dqlab_retail.tsv** dengan jumlah baris 33,669 baris data (3,450 kode transaksi).

Berikut adalah tampilan datanya.
![sample Dataset](https://drive.google.com/uc?export=view&id=1RtCk9Ju9i8ybP6gJcB0Wf1LMrwYOM1F7)

Data transaksi ini telah dirapikan untuk Anda dengan hanya mengandung dua variabel, yaitu:

> * Kode Transaksi
> * Nama Barang
Variabel lain seperti harga, tanggal, jumlah pembelian, dan lain-lain – tidak dimasukkan sesuai permintaan pihak DQLab.id Academy kepada DQLab.id Fashion dengan alasan dua variabel tersebut sudah cukup.

# **Petunjuk Penyelesaian Project**
Untuk menyelesaikan project, maka kita akan mengetikkan code yang perlu di-submit untuk dicek jawabannya benar atau salah. Berbeda dengan course, setiap code yang di-submit akan otomatis disimpan dan dimunculkan kondisi code terakhir setiap kali Anda buka soal terkait.

Project ini terdiri dari 3 soal, yaitu:

> * Mendapatkan insight top 10 dan bottom 10 dari produk yang terjual.
> * Mendapatkan daftar seluruh kombinasi paket produk dengan korelasi yang kuat.
> * Mendapatkan daftar seluruh kombinasi paket produk dengan item tertentu.

Tiap soal memerlukan input dataset yang telah dijelaskan pada subbab sebelumnya. Setelah diproses maka Anda perlu menuliskan dalam nama file sesuai petunjuk.

In [None]:
install.packages("arules")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [None]:
library(arules)
transaksi_tabular <- read.transactions(file="https://storage.googleapis.com/dqlab-dataset/transaksi_dqlab_retail.tsv", format="single", sep="\t", cols=c(1,2), skip=1)
write(transaksi_tabular, file="test_project_retail_1.txt", sep=",")


Loading required package: Matrix


Attaching package: ‘arules’


The following objects are masked from ‘package:base’:

    abbreviate, write




# **Output Awal: Statistik Top 10**

Tahap pertama sebenarnya yang diinginkan oleh Pak Agus adalah melihat apakah Anda mampu memberikan info top 10 dari dataset transaksi yang diberikan.

Buatlah script R untuk menghasilkan daftar tersebut, dan hasilnya disimpan ke dalam file top10_item_retail.txt

Gunakan dataset **transaksi_dqlab_retail.tsv** pada saat membaca data.

Jika script-nya berjalan dengan lancar, maka isi dari file tersebut akan terlihat sebagai berikut.

```
"","Nama.Produk","Jumlah"
"1","Shampo Biasa",2075
"2","Serum Vitamin",1685
"3","Baju Batik Wanita",1312
"4","Baju Kemeja Putih",1255
"5","Celana Jogger Casual",1136
"6","Cover Koper",1086
"7","Sepatu Sandal Anak",1062
"8","Tali Pinggang Gesper Pria",1003
"9","Sepatu Sport merk Z",888
"10","Wedges Hitam",849
```



In [None]:
library(arules)
transaksi <- read.transactions(file="https://drive.google.com/file/d/1sOb8Nc3mJ547xOysDJidmDlagOV1TH8D/view?usp=sharing", format="single", sep="\t", cols=c(1,2), skip=1)
data_item <- itemFrequency(transaksi, type="absolute")
data_item <- sort(data_item, decreasing = TRUE)
data_item <- data_item[1:10]
data_item <- data.frame("Nama Produk"=names(data_item), "Jumlah"=data_item, row.names=NULL)
print(data_item)
write.csv(data_item, file="top10_item_retail.txt")

“EOF within quoted string”
“number of items read is not a multiple of the number of columns”


                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        

# **Output Awal: Statistik Bottom 10**
Tahap berikutnya adalah Anda harus bisa memberikan informasi bottom 10 dari dataset transaksi yang diberikan.

Tahap pertama sebenarnya yang diinginkan oleh Pak Agus adalah melihat apakah Anda mampu memberikan info top 10 dari dataset transaksi yang diberikan.

Buatlah script R untuk menghasilkan daftar tersebut, dan hasilnya disimpan ke dalam file bottom10_item_retail.txt.

Gunakan dataset transaksi_dqlab_retail.tsv pada saat membaca data.

Jika script-nya berjalan dengan lancar, maka isi dari file tersebut akan terlihat sebagai berikut.

```
"","Nama.Produk","Jumlah"
"1","Celana Jeans Sobek Pria",9
"2","Tas Kosmetik",11
"3","Stripe Pants",19
"4","Pelembab",24
"5","Tali Ban Ikat Pinggang",27
"6","Baju Renang Pria Anak-anak",32
"7","Hair Dye",46
"8","Atasan Baju Belang",56
"9","Tas Sekolah Anak Perempuan",71
"10","Dompet Unisex",75
```



In [None]:
library(arules)
nama_file <- "https://drive.google.com/uc?export=download&id=1sOb8Nc3mJ547xOysDJidmDlagOV1TH8D"
transaksi_tabular <- read.transactions(file=nama_file, format="single", sep="\t", cols=c(1,2), skip=1)
itemurut <- sort(itemFrequency(transaksi_tabular, type="absolute"), decreasing = FALSE)[1:10]
sorteditem <- data.frame("Nama Produk"=names(itemurut), Jumlah=itemurut, row.names=NULL)
sorteditem
write.csv(sorteditem, file="bottom10_item_retail.txt")

Nama.Produk,Jumlah
<chr>,<int>
Celana Jeans Sobek Pria,9
Tas Kosmetik,11
Stripe Pants,19
Pelembab,24
Tali Ban Ikat Pinggang,27
Baju Renang Pria Anak-anak,32
Hair Dye,46
Atasan Baju Belang,56
Tas Sekolah Anak Perempuan,71
Dompet Unisex,75


# **Mendapatkan Kombinasi Produk yang menarik**
Setelah yakin Anda dapat melakukannya Pak Agus ingin Anda mengirimkan file yang berisi daftar 10 paket kombinasi produk yang paling "menarik".

Anda pertamanya bingung, apa sih definisi menarik versi Pak Agus ini. Setelah wawancara intensif, ternyata pengertiannya adalah sebagai berikut:

> * Memiliki asosiasi atau hubungan erat.
> * Kombinasi produk minimal 2 item, dan maksimum 3 item.
> * Kombinasi produk itu muncul setidaknya 10 dari dari seluruh transaksi.
> * Memiliki tingkat confidence minimal 50 persen.

Buatlah script R untuk menghasilkan daftar tersebut dan hasilnya disimpan ke dalam file kombinasi_retail.txt. Namun untuk menulis hasil dari rules yang akan tampak seperti di bawah ini, Anda tidak perlu melakukan konversi rules menjadi data.frame. Gunakan langsung fungsi write dengan syntax berikut:

```
write(variable_untuk_rules, file="nama_file_yang_diinginkan.txt")
```



In [None]:
library(arules)
nama_file <- "https://drive.google.com/uc?export=download&id=1sOb8Nc3mJ547xOysDJidmDlagOV1TH8D"
transaksi_tabular <- read.transactions(file=nama_file, format="single", sep="\t", cols=c(1,2), skip=1)
mba <- apriori(transaksi_tabular, parameter=list(supp=10/nrow(transaksi_tabular), minlen=2, maxlen=3, confidence=0.5))
data <- sort(mba, by="lift", decreasing="TRUE")
data <- data[1:10]
write(data, file="kombinasi_retail.txt")

Apriori

Parameter specification:
 confidence minval smax arem  aval originalSupport maxtime     support minlen
        0.5    0.1    1 none FALSE            TRUE       5 0.002898551      2
 maxlen target  ext
      3  rules TRUE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

Absolute minimum support count: 10 

set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[69 item(s), 3450 transaction(s)] done [0.00s].
sorting and recoding items ... [68 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3

“Mining stopped (maxlen reached). Only patterns up to a length of 3 returned!”


 done [0.01s].
writing ... [4637 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].


# **Mencari Paket Produk yang bisa dipasangkan dengan Item Slow-Moving**

Slow-moving item adalah produk yang pergerakan penjualannya lambat atau kurang cepat. Ini akan bermasalah apabila item produk tersebut masih menumpuk.

Kadang kala item ini belum tentu tidak laku, hanya saja mungkin harganya tidak bagus dan jarang dibutuhkan jika dijual satuan.  Nah, jika tidak dijual satuan kita perlu cari asosiasi kuat dari item produk ini dengan produk lain sehingga jika dipaketkan akan menjadi lebih menarik.


Dua item produk tersebut adalah "Tas Makeup" dan "Baju Renang Pria Anak-anak". Pak Agus ingin meminta kombinasi yang bisa dipaketkan dengan kedua produk tersebut.

Masing-masing produk tersebut dikeluarkan 3 rules yang asosiasinya paling kuat, sehingga total ada 6 rules. Persyaratan-persyaratan asosiasi kuat ini masih sama dengan yang telah disebutkan Pak Agus sebelumnya, kecuali tingkat confidence dicoba pada tingkat minimal 0.1.

Buatlah script R untuk menghasilkan daftar tersebut dan hasilnya disimpan ke dalam file kombinasi_retail_slow_moving.txt. Dan untuk menghasilkan file ini, rules tidak usah dikonversi menjadi data frame dan bisa  langsung ditulis dengan write seperti syntax berikut.

```
write(variable_untuk_rules, file="nama_file_yang_diinginkan.txt")
```



In [None]:
library(arules)
nama_file <- "https://drive.google.com/uc?export=download&id=1sOb8Nc3mJ547xOysDJidmDlagOV1TH8D"
transaksi_tabular <- read.transactions(file=nama_file, format="single", sep="\t", cols=c(1,2), skip=1)
jumlah_transaksi<-length(transaksi_tabular)
jumlah_kemunculan_minimal <- 10
apriori_rules <- apriori(transaksi_tabular,parameter=list(supp=jumlah_kemunculan_minimal/jumlah_transaksi,conf=0.1, minlen=2, maxlen=3))
#Filter
apriori_rules1 <- subset(apriori_rules, lift > 1 & rhs %in% "Tas Makeup")
apriori_rules1 <- sort(apriori_rules1, by='lift', decreasing = T)[1:3]
apriori_rules2 <- subset(apriori_rules, lift > 1 & rhs %in% "Baju Renang Pria Anak-anak")
apriori_rules2 <- sort(apriori_rules2, by='lift', decreasing = T)[1:3]
apriori_rules <- c(apriori_rules1, apriori_rules2)
inspect(apriori_rules)
write(apriori_rules,file="kombinasi_retail_slow_moving.txt")

Apriori

Parameter specification:
 confidence minval smax arem  aval originalSupport maxtime     support minlen
        0.1    0.1    1 none FALSE            TRUE       5 0.002898551      2
 maxlen target  ext
      3  rules TRUE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

Absolute minimum support count: 10 

set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[69 item(s), 3450 transaction(s)] done [0.00s].
sorting and recoding items ... [68 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3

“Mining stopped (maxlen reached). Only patterns up to a length of 3 returned!”


 done [0.01s].
writing ... [39832 rule(s)] done [0.01s].
creating S4 object  ... done [0.01s].
    lhs                              rhs                              support confidence   coverage     lift count
[1] {Baju Renang Anak Perempuan,                                                                                  
     Tas Pinggang Wanita}         => {Tas Makeup}                 0.010434783  0.8000000 0.01304348 19.57447    36
[2] {Baju Renang Anak Perempuan,                                                                                  
     Tas Ransel Mini}             => {Tas Makeup}                 0.011304348  0.7959184 0.01420290 19.47460    39
[3] {Baju Renang Anak Perempuan,                                                                                  
     Celana Pendek Green/Hijau}   => {Tas Makeup}                 0.010144928  0.7777778 0.01304348 19.03073    35
[4] {Gembok Koper,                                                                                  