# Machine Learning for Retail

## Create Next Best Offering to Drive Revenue and Loyalty

**DQLab.id** Fashion adalah sebuah toko fashion yang menjual berbagai produk seperti jeans, kemeja, kosmetik, dan lain-lain. Walaupun cukup berkembang, namun dengan semakin banyaknya kompetitor dan banyak produk yang stoknya masih banyak tentunya membuat kuatir Pak Agus, manajer DQLab.id Fashion. 

Salah satu solusi adalah membuat paket yang inovatif. Dimana produk yang sebelumnya tidak terlalu laku tapi punya pangsa pasar malah bisa dipaketkan dan laku.

Anda sebagai seorang data scientist, akan ditugaskan membantu Pak Agus untuk mengidentifikasi paket produk yang menarik untuk dipaketkan sehingga akhirnya bisa meningkatkan keuntungan dan loyalitas para pelanggan DQLab.id Fashion. Dan untuk wewujudkan ini, Anda akan menggunakan R dan algoritma aproriari dari paket **arules** di sepanjang project ini.

## Dataset Transaksi Penjualan DQLab.id Fashion
Untuk memulai project ini, Pak Agus meminta **Pak Charlie**, data engineer dari DQLab.id Fashion memberikan data transaksi 3 bulan kepada Anda dalam bentuk format TSV (Tab Separated Value) dengan nama **transaksi_dqlab_retail.tsv** dengan jumlah baris 33,669 baris data (3,450 kode transaksi).

Berikut adalah tampilan datanya.

<img src='1.png'>

Data transaksi ini telah dirapikan untuk Anda dengan hanya mengandung dua variable, yaitu:

- Kode Transaksi
- Nama Produk

Variable lain seperti harga, tanggal, jumlah pembelian, dan lain-lain – tidak dimasukkan sesuai permintaan pihak DQLab.id Academy kepada DQLab.id Fashion dengan alasan dua variable tersebut sudah cukup.

## Petunjuk Penyelesaian Project
Untuk menyelesaikan project, maka kita akan mengetikkan code yang perlu disubmit untuk dicek jawabannya benar atau salah. Berbeda dengan course, setiap code yang disubmit akan otomatis disimpan dan dimunculkan kondisi code terakhir setiap kali Anda buka soal terkait.

Project ini terdiri dari 3 soal, yaitu:

- Mendapatkan insight top 10 dan bottom 10 dari produk yang terjual.
- Mendapatkan daftar seluruh kombinasi paket produk dengan korelasi yang kuat.
- Mendapatkan daftar seluruh kombinasi paket produk dengan item tertentu.

Tiap soal memerlukan input dataset yang telah dijelaskan pada subbab sebelumnya. Setelah diproses maka Anda perlu menuliskan dalam nama file sesuai petunjuk.

Tugas Praktek

Cobalah jalankan code yang sudah ada pada code editor berikut di mana file dataset dibaca dan kemudian langsung ditulis menggunakan function **write** dari package arules.

Jika berjalan dengan lancar maka pada saat klik icon **Download Output File** seperti berikut.

<img src='2.png'>

Kita akan mendapatkan daftar file dimana salah satunya adalah file bernama **test_project_retail1.txt** seperti terlihat pada gambar berikut. Catatan: tampilan daftar file dapat berbeda dengan daftar milik Anda.

<img src='2.png'>

Tampilan di dalam file test_project_retail1.txt sebagian isinya akan terlihat sebagai berikut.

<img src='4.png'>

In [2]:
library(arules)
transaksi_tabular <- read.transactions(file="transaksi_dqlab_retail.tsv", format="single", sep="\t", cols=c(1,2), skip=1)
write(transaksi_tabular, file="test_project_retail_2.txt", sep=",")


"package 'arules' was built under R version 3.6.2"Loading required package: Matrix

Attaching package: 'arules'

The following objects are masked from 'package:base':

    abbreviate, write



## Output Awal: Statistik Top 10
Tahap pertama sebenarnya yang diinginkan oleh Pak Agus adalah melihat apakah Anda mampu memberikan info top 10 dari dataset transaksi yang diberikan.

Buatlah script R untuk menghasilkan daftar tersebut, dan hasilnya disimpan ke dalam file **top10_item_retail.txt**.

Gunakan dataset **transaksi_dqlab_retail.tsv** pada saat membaca data.

Jika scriptnya berjalan dengan lancar, maka isi dari file tersebut akan terlihat sebagai berikut.
```
"","Nama.Produk","Jumlah"
"1","Shampo Biasa",2075
"2","Serum Vitamin",1685
"3","Baju Batik Wanita",1312
"4","Baju Kemeja Putih",1255
"5","Celana Jogger Casual",1136
"6","Cover Koper",1086
"7","Sepatu Sandal Anak",1062
"8","Tali Pinggang Gesper Pria",1003
"9","Sepatu Sport merk Z",888
"10","Wedges Hitam",849
```
Klik tombol Submit Code untuk pengecekan hasil.

Hint: Gunakan kombinasi function itemFrequency, names, sort, dan data.frame.

In [7]:
data_item <- itemFrequency(transaksi_tabular, type = "absolute")

In [9]:
data_item <- sort(x = data_item, decreasing = TRUE)

In [10]:
data_item <- data_item[1:10]

In [11]:
data_item <- data.frame("Nama.Produk" = names(data_item), "Jumlah" = data_item, row.names = NULL)

In [13]:
write.table(x = data_item,file = "top10_item_retail2.txt", sep = ",")

## Output Awal: Statistik Bottom 10
Tahap berikutnya adalah Anda harus bisa memberikan informasi bottom 10 dari dataset transaksi yang diberikan.

Tahap pertama sebenarnya yang diinginkan oleh Pak Agus adalah melihat apakah Anda mampu memberikan info top 10 dari dataset transaksi yang diberikan.

Buatlah script R untuk menghasilkan daftar tersebut, dan hasilnya disimpan ke dalam file **bottom10_item_retail.txt**.

Gunakan dataset **transaksi_dqlab_retail.tsv** pada saat membaca data.

Jika scriptnya berjalan dengan lancar, maka isi dari file tersebut akan terlihat sebagai berikut.
```
"","Nama.Produk","Jumlah"
"1","Celana Jeans Sobek Pria",9
"2","Tas Kosmetik",11
"3","Stripe Pants",19
"4","Pelembab",24
"5","Tali Ban Ikat Pinggang",27
"6","Baju Renang Pria Anak-anak",32
"7","Hair Dye",46
"8","Atasan Baju Belang",56
"9","Tas Sekolah Anak Perempuan",71
"10","Dompet Unisex",75
```
**Perhatikan urutan (sort) terhadap Nama Produk dan Jumlah.**


In [16]:
bottom10 <- itemFrequency(transaksi_tabular, type = 'absolute')
bottom10 <- sort(bottom10)


In [18]:
bottom10 <- bottom10[1:10]

In [20]:
bottom10 <- data.frame("Nama.Produk" = names(bottom10), "Jumlah" = bottom10, row.names = NULL)

In [21]:
bottom10

Nama.Produk,Jumlah
Celana Jeans Sobek Pria,9
Tas Kosmetik,11
Stripe Pants,19
Pelembab,24
Tali Ban Ikat Pinggang,27
Baju Renang Pria Anak-anak,32
Hair Dye,46
Atasan Baju Belang,56
Tas Sekolah Anak Perempuan,71
Dompet Unisex,75


In [23]:
write.table(x = bottom10,file = "bottom10_item_retail.txt", sep = ",")

In [62]:
transaksi_tabular

transactions in sparse format with
 3450 transactions (rows) and
 69 items (columns)

In [63]:
nrow(transaksi_tabular)

## Mendapatkan Kombinasi Produk yang menarik
Setelah yakin Anda dapat melakukannya Pak Agus ingin Anda mengirimkan file yang berisi daftar 10 paket kombinasi produk yang paling "menarik".

Anda pertamanya bingung, apa sih definisi menarik versi Pak Agus ini. Setelah wawancara intensif, ternyata pengertiannya adalah sebagai berikut:

- Memiliki asosiasi atau hubungan erat.
- Kombinasi produk minimal 2 item, dan maksimum 3 item.
- Kombinasi produk itu muncul setidaknya **10 dari dari seluruh transaksi**.
- Memiliki tingkat confidence minimal 50 persen.

Buatlah script R untuk menghasilkan daftar tersebut dan hasilnya disimpan ke dalam file **kombinasi_retail.txt**. Namun untuk menulis hasil dari rules yang akan tampak seperti di bawah ini, Anda tidak perlu melakukan konversi rules menjadi data.frame. Gunakan langsung fungsi write dengan syntax berikut:

    write(variable_untuk_rules, file="nama_file_yang_diinginkan.txt")

Gunakan dataset **transaksi_dqlab_retail.tsv** pada saat membaca data.

Jika berjalan dengan lancar maka outputnya adalah sebagai berikut.
```
"rules" "support" "confidence" "lift"
"797" "{Tas Makeup,Tas Pinggang Wanita} => {Baju Renang Anak Perempuan}" 0.0104347826086957 0.878048780487805 24.4295830055075
"807" "{Tas Makeup,Tas Travel} => {Baju Renang Anak Perempuan}" 0.0101449275362319 0.813953488372093 22.6462865716429
"802" "{Tas Makeup,Tas Ransel Mini} => {Baju Renang Anak Perempuan}" 0.011304347826087 0.735849056603774 20.4732197200243
"649" "{Sunblock Cream,Tas Pinggang Wanita} => {Kuas Makeup }" 0.016231884057971 0.691358024691358 20.2134337727558
"796" "{Baju Renang Anak Perempuan,Tas Pinggang Wanita} => {Tas Makeup}" 0.0104347826086957 0.8 19.5744680851064
"801" "{Baju Renang Anak Perempuan,Tas Ransel Mini} => {Tas Makeup}" 0.011304347826087 0.795918367346939 19.4745983499783
"791" "{Baju Renang Anak Perempuan,Celana Pendek Green/Hijau} => {Tas Makeup}" 0.0101449275362319 0.777777777777778 19.0307328605201
"799" "{Tas Makeup,Tas Waist Bag} => {Baju Renang Anak Perempuan}" 0.00434782608695652 0.681818181818182 18.9699413489736
"792" "{Celana Pendek Green/Hijau,Tas Makeup} => {Baju Renang Anak Perempuan}" 0.0101449275362319 0.673076923076923 18.7267369727047
"656" "{Dompet Flip Cover,Sunblock Cream} => {Kuas Makeup }" 0.016231884057971 0.629213483146067 18.3964959055418
```

In [64]:
m <- apriori(transaksi_tabular, parameter = list(supp=10/nrow(transaksi_tabular), minlen =2 ,maxlen =3, confidence =0.5))


Apriori

Parameter specification:
 confidence minval smax arem  aval originalSupport maxtime     support minlen
        0.5    0.1    1 none FALSE            TRUE       5 0.002898551      2
 maxlen target   ext
      3  rules FALSE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

Absolute minimum support count: 10 

set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[69 item(s), 3450 transaction(s)] done [0.00s].
sorting and recoding items ... [68 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3

"Mining stopped (maxlen reached). Only patterns up to a length of 3 returned!"

 done [0.01s].
writing ... [4637 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].


In [69]:
data <- sort(m, by ="lift", decreasing = TRUE)
data <- data[1:10]

In [74]:
write(data, file = "kombinasi_retail.txt")

## Mencari Paket Produk yang bisa dipasangkan dengan Item Slow-Moving
Slow-moving item adalah produk yang pergerakan penjualannya lambat atau kurang cepat. Ini akan bermasalah apabila item produk tersebut masih menumpuk.

Kadang kala item ini belum tentu tidak laku, hanya saja mungkin harganya tidak bagus dan jarang dibutuhkan jika dijual satuan.  Nah, jika tidak dijual satuan kita perlu cari asosiasi kuat dari item produk ini dengan produk lain sehingga jika dipaketkan akan menjadi lebih menarik.

Pak Agus juga meyakini hal ini, dan ingin agar Anda membantu mengidentifikasi dua item produk yang menurut dia stoknya masih banyak dan perlu dicari pasangan item untuk pemaketannya.

Dua item produk tersebut adalah **"Tas Makeup" dan "Baju Renang Pria Anak-anak"**. Pak Agus ingin meminta kombinasi yang bisa dipaketkan dengan kedua produk tersebut.

Masing-masing produk tersebut dikeluarkan 3 rules yang asosiasinya paling kuat, sehingga total ada 6 rules. Persyaratan-persyaratan asosiasi kuat ini masih sama dengan yang telah disebutkan Pak Agus sebelumnya, kecuali tingkat *confidence* dicoba pada tingkat minimal 0.1.

Buatlah script R untuk menghasilkan daftar tersebut dan hasilnya disimpan ke dalam file **kombinasi_retail_slow_moving.txt**. Dan untuk menghasilkan file ini, rules tidak usah dikonversi menjadi data frame dan bisa langsung ditulis dengan write seperti syntax berikut.

    write(variable_untuk_rules, file="nama_file_yang_diinginkan.txt")

Gunakan dataset **transaksi_dqlab_retail.tsv** pada saat membaca data.

Hint: Pada association rules, item "Tas Makeup" dan "Baju Renang Pria Anak-anak" tersebut kita masukkan di rhs (right hand side). Gabungkan kedua subset rules yang dengan function c sebelum dituliskan ke file.

In [76]:
#Mencari Paket Produk yang bisa dipasangkan dengan Item Slow-Moving
mba4 <- apriori(transaksi_tabular, parameter = list(supp = 10/nrow(transaksi_tabular), 
                                                    confidence = 0.1, 
                                                    minlen = 2,
                                                    maxlen = 3))

tmdata <- subset(mba4, rhs %in% "Tas Makeup")
tmdata <- sort(tmdata, by = "lift", decreasing = TRUE)
tmdata <- tmdata[1:3]

brpdata <- subset(mba4, rhs %in% "Baju Renang Pria Anak-anak")
brpdata <- sort(brpdata, by = "lift", decreasing = TRUE)
brpdata <- brpdata[1:3]

gabslow <- c(tmdata, brpdata)
write(gabslow, file = "kombinasi_retail_slow_moving.txt")

Apriori

Parameter specification:
 confidence minval smax arem  aval originalSupport maxtime     support minlen
        0.1    0.1    1 none FALSE            TRUE       5 0.002898551      2
 maxlen target   ext
      3  rules FALSE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

Absolute minimum support count: 10 

set item appearances ...[0 item(s)] done [0.02s].
set transactions ...[69 item(s), 3450 transaction(s)] done [0.11s].
sorting and recoding items ... [68 item(s)] done [0.00s].
creating transaction tree ... done [0.01s].
checking subsets of size 1 2 3

"Mining stopped (maxlen reached). Only patterns up to a length of 3 returned!"

 done [0.69s].
writing ... [39832 rule(s)] done [0.01s].
creating S4 object  ... done [0.58s].


In [77]:
inspect(gabslow)

    lhs                             rhs                              support confidence     lift count
[1] {Baju Renang Anak Perempuan,                                                                      
     Tas Pinggang Wanita}        => {Tas Makeup}                 0.010434783  0.8000000 19.57447    36
[2] {Baju Renang Anak Perempuan,                                                                      
     Tas Ransel Mini}            => {Tas Makeup}                 0.011304348  0.7959184 19.47460    39
[3] {Baju Renang Anak Perempuan,                                                                      
     Celana Pendek Green/Hijau}  => {Tas Makeup}                 0.010144928  0.7777778 19.03073    35
[4] {Gembok Koper,                                                                                    
     Tas Waist Bag}              => {Baju Renang Pria Anak-anak} 0.004057971  0.2745098 29.59559    14
[5] {Flat Shoes Ballerina,                                               