**Tujuan Market Basket Analysis di DQLab.id Fashion**

Menciptakan Penawaran Terbaik Selanjutnya untuk Meningkatkan Pendapatan dan Loyalitas Pelanggan

DQLab.id Fashion bertujuan untuk:
1. **Mengidentifikasi Kombinasi Produk yang Menarik:**

    Melalui analisis asosiasi, kami akan menemukan paket produk yang inovatif dan menarik untuk dipasarkan, termasuk produk yang sebelumnya kurang laku namun memiliki potensi pasar.
2. **Meningkatkan Penjualan:**

    Dengan menawarkan paket produk yang relevan dan menarik, kami berharap dapat meningkatkan penjualan produk yang memiliki stok berlebih, sehingga mengurangi kekhawatiran terkait persaingan dan inventaris yang tidak terjual.
3. **Meningkatkan Loyalitas Pelanggan:**

    Dengan menciptakan penawaran yang sesuai dengan preferensi dan kebutuhan pelanggan, kami bertujuan untuk meningkatkan kepuasan pelanggan dan membangun loyalitas jangka panjang terhadap DQLab.id Fashion.
4. **Menggunakan Data untuk Keputusan Strategis:**

    Dengan memanfaatkan R dan algoritma Apriori dari paket arules, kami akan menganalisis data transaksi untuk mendapatkan wawasan yang mendalam tentang perilaku pembelian pelanggan, yang akan mendukung pengambilan keputusan yang lebih baik dalam strategi pemasaran dan penawaran produk.

**Create Next Best Offering to Drive Revenue and Loyalty**

DQLab.id Fashion adalah sebuah toko fashion yang menjual berbagai produk seperti jeans, kemeja, kosmetik, dan lain-lain. Walaupun cukup berkembang, namun dengan semakin banyaknya kompetitor dan banyak produk yang stoknya masih banyak tentunya membuat kuatir Pak Agus, manajer DQLab.id Fashion.

Salah satu solusi adalah membuat paket yang inovatif. Dimana produk yang sebelumnya tidak terlalu laku tapi punya pangsa pasar malah bisa dipaketkan dan laku.

dimana kita akan mengidentifikasi paket produk yang menarik untuk dipaketkan sehingga akhirnya bisa meningkatkan keuntungan dan loyalitas para pelanggan DQLab.id Fashion. Dan untuk wewujudkan ini, Anda akan menggunakan R dan algoritma aproriari dari paket arules di sepanjang project ini.


dimana kita membutuhkan packages arules, tetapi sebelum kita install arules, maka kita harus install packages Matrix, karna packages arules membutuhkan packages Matrix

In [None]:
install.packages("Matrix")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [None]:
install.packages("arules")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



Silahkan downlaod dataset [di sini](https://drive.google.com/file/d/1XRGlMvoTxx98CxdQ25vVxiyt_nLfaCZz/view?usp=sharing)

Import dataset yang akan digunakan dengan cara menjalankan code dibawah ini atau bisa juga langsung upload lewat side bar sebelah kiri

In [None]:
from google.colab import files

In [None]:
library(arules)
transaksi_tabular <- read.transactions(file="https://storage.googleapis.com/dqlab-dataset/transaksi_dqlab_retail.tsv", format="single", sep="\t", cols=c(1,2), skip=1) #Mengambil nama barang

`library(arules):`

Baris ini memuat paket arules, yang merupakan paket R yang dirancang untuk analisis asosiasi dan aturan asosiasi. Paket ini menyediakan fungsi untuk menemukan pola dalam data transaksi, seperti yang sering digunakan dalam analisis keranjang belanja.

`read.transactions(...):`

Fungsi ini digunakan untuk membaca data transaksi dari file. Dalam hal ini, data diambil dari URL yang diberikan. Fungsi ini mengonversi data menjadi objek transaksi yang dapat digunakan untuk analisis lebih lanjut.

`format="single":`

Argumen ini menunjukkan bahwa data transaksi disusun dalam format "single", di mana setiap baris mewakili satu item dalam satu transaksi. Format ini berbeda dengan format "basket", di mana satu baris mewakili satu transaksi dengan beberapa item.

`sep="\t":`

Ini menunjukkan bahwa pemisah antara kolom dalam file adalah tab. Ini penting untuk membaca data dengan benar.

`cols=c(1,2):`

Argumen ini menunjukkan kolom mana yang akan digunakan untuk membangun transaksi.


`skip=1:`

Argumen ini menunjukkan bahwa satu baris pertama dari file harus dilewati saat membaca data. Ini biasanya digunakan untuk melewati header atau judul kolom dalam file.

In [None]:
transaksi_tabular

transactions in sparse format with
 3450 transactions (rows) and
 69 items (columns)

Project ini terdiri dari 3 soal, yaitu:

- Mendapatkan insight top 10 dan bottom 10 dari produk yang terjual.
- Mendapatkan daftar seluruh kombinasi paket produk dengan korelasi yang kuat.
- Mendapatkan daftar seluruh kombinasi paket produk dengan item tertentu.


**memberikan info top 10 dari dataset transaksi yang diberikan.**

In [None]:
data_top <- itemFrequency(transaksi_tabular, type='absolute') #menghitung seringnya transaksi suatu item
data_top <- sort(data_top, decreasing = TRUE) #mengurutkan data dari yang terbesar
data_top <- data_top[1:10] #menampilkan 10 data teratas saja
data_top <- data.frame("Nama.Produk"=names(data_top), "Jumlah"=data_top, row.names=NULL)
write.csv(data_top, file="top10_item_retail.txt")

`itemFrequency():` Fungsi ini digunakan untuk menghitung frekuensi kemunculan setiap item dalam objek transaksi. Dalam hal ini, transaksi_tabular.

`type='absolute':` Argumen ini menunjukkan bahwa kita ingin menghitung frekuensi absolut, yaitu jumlah total kemunculan setiap item dalam semua transaksi. Hasilnya adalah vektor yang berisi jumlah kemunculan setiap item.

data_top <- data.frame("Nama.Produk"=names(data_top), "Jumlah"=data_top, row.names=NULL)
- `names(data_top):` Fungsi ini mengambil nama-nama item dari vektor data_top. Dalam konteks sebelumnya, data_top adalah vektor yang berisi frekuensi kemunculan item, dan
- `"Nama.Produk"=:` Ini adalah cara untuk memberi nama kolom dalam data frame yang baru. Dalam hal ini, kolom pertama dari data frame yang akan dibuat akan dinamakan "Nama.Produk", yang berisi nama-nama produk.
- `Jumlah"=data_top:` Di sini, kita membuat kolom kedua dalam data frame yang dinamakan "Jumlah". Kolom ini akan berisi nilai frekuensi kemunculan dari setiap produk, yang sebelumnya telah dihitung dan disimpan dalam data_top.

- `row.names=NULL:` Argumen ini digunakan untuk mengatur nama baris dalam data frame yang baru dibuat. Dengan mengatur row.names=NULL, kita memberi tahu R untuk tidak memberikan nama khusus pada baris-baris data frame. Sebagai hasilnya, R akan memberikan nomor baris secara otomatis (1, 2, 3, dst.) tanpa nama khusus.


In [None]:
data_top

Nama.Produk,Jumlah
<chr>,<int>
Shampo Biasa,2075
Serum Vitamin,1685
Baju Batik Wanita,1312
Baju Kemeja Putih,1255
Celana Jogger Casual,1136
Cover Koper,1086
Sepatu Sandal Anak,1062
Tali Pinggang Gesper Pria,1003
Sepatu Sport merk Z,888
Wedges Hitam,849


Menampilkan bottom 10 dataset dari data transaksi yang diberikan

In [None]:
data_bottom <- itemFrequency(transaksi_tabular, type='absolute') #menghitung seringnya traksaksi suatu item, type=absolute karna kita ingin menampilkan angka bukan dalam bentuk ersen
data_bottom <- sort(data_bottom, decreasing = FALSE) #mengurutkan data dari yang terbesar
data_bottom <- data_bottom[1:10] #menampilkan 10 data teratas saja
data_bottom <- data.frame("Nama.Produk"=names(data_bottom), "Jumlah"=data_bottom, row.names=NULL)
write.csv(data_bottom, file="bottom10_item_retail.txt")
data_bottom

Nama.Produk,Jumlah
<chr>,<int>
Celana Jeans Sobek Pria,9
Tas Kosmetik,11
Stripe Pants,19
Pelembab,24
Tali Ban Ikat Pinggang,27
Baju Renang Pria Anak-anak,32
Hair Dye,46
Atasan Baju Belang,56
Tas Sekolah Anak Perempuan,71
Dompet Unisex,75


**Mendapatkan Kombinasi Produk yang menarik**

Pak Agus ingin Anda mengirimkan file yang berisi daftar 10 paket kombinasi produk yang paling "menarik".

Anda pertamanya bingung, apa sih definisi menarik versi Pak Agus ini. Setelah wawancara intensif, ternyata pengertiannya adalah sebagai berikut:

- Memiliki asosiasi atau hubungan erat.
- Kombinasi produk minimal 2 item, dan maksimum 3 item.
- Kombinasi produk itu muncul setidaknya 10 dari dari seluruh transaksi.
- Memiliki tingkat confidence minimal 50 persen.


In [None]:
combination <- apriori(transaksi_tabular, parameter=list(supp=10/length(transaksi_tabular), confidence=0.5, minlen=2, maxlen=3)) #10 karna minimal ada 10 transaksi, cofidence=0.5 karna yang diinginkan cofindence 50 %, minlen dan maxlen disesuaikan dengan kombinasi yang diminta
combination_result <- head(combination, n=10, by="lift") #di urutkan sesuai lift: memiliki asosiasi tinggi antar itemset yang terdapat di rule ini
inspect(combination_result) #inspect() digunakan juga untuk melihat isi dari association rules yang dihasilkan oleh fungsi apriori
write(combination_result, file="kombinasi_retail.txt")

Apriori

Parameter specification:
 confidence minval smax arem  aval originalSupport maxtime     support minlen
        0.5    0.1    1 none FALSE            TRUE       5 0.002898551      2
 maxlen target  ext
      3  rules TRUE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

Absolute minimum support count: 10 

set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[69 item(s), 3450 transaction(s)] done [0.00s].
sorting and recoding items ... [68 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3

“Mining stopped (maxlen reached). Only patterns up to a length of 3 returned!”


 done [0.01s].
writing ... [4637 rule(s)] done [0.00s].
creating S4 object  ... done [0.00s].
     lhs                             rhs                              support confidence    coverage     lift count
[1]  {Tas Makeup,                                                                                                  
      Tas Pinggang Wanita}        => {Baju Renang Anak Perempuan} 0.010434783  0.8780488 0.011884058 24.42958    36
[2]  {Tas Makeup,                                                                                                  
      Tas Travel}                 => {Baju Renang Anak Perempuan} 0.010144928  0.8139535 0.012463768 22.64629    35
[3]  {Tas Makeup,                                                                                                  
      Tas Ransel Mini}            => {Baju Renang Anak Perempuan} 0.011304348  0.7358491 0.015362319 20.47322    39
[4]  {Sunblock Cream,                                                                         

`apriori():` Fungsi ini digunakan untuk menemukan aturan asosiasi dalam dataset transaksi. Dalam hal ini, transaksi_tabular adalah objek yang berisi data transaksi yang telah dibaca sebelumnya.

`parameter=list(...):` Di sini, kita menentukan parameter untuk algoritma Apriori:
- `supp=10/length(transaksi_tabular): `Ini menentukan nilai support minimum yang diperlukan untuk itemset agar dianggap "sering". Dalam hal ini, ini berarti bahwa itemset harus muncul dalam setidaknya 10 transaksi untuk dianggap valid.
- `confidence=0.5:` Confidence = 0.5 (atau 50%) berarti bahwa dari semua transaksi yang mengandung roti, 50% di antaranya juga mengandung mentega.
Dengan kata lain, jika kita melihat 100 transaksi yang mengandung roti, maka 50 dari transaksi tersebut juga akan mengandung mentega.
- `minlen=2:` Ini menentukan panjang minimum dari itemset yang akan dipertimbangkan. Dalam hal ini, itemset harus terdiri dari setidaknya 2 item.
- `maxlen=3:` Ini menentukan panjang maksimum dari itemset yang akan dipertimbangkan. Dalam hal ini, itemset tidak boleh lebih dari 3 item.

`combination_result <- head(combination, n=10, by="lift")`

- `head()`: Fungsi ini digunakan untuk mengambil beberapa elemen teratas dari objek.
- `n=10:` Ini menunjukkan bahwa kita ingin mengambil 10 aturan teratas.
- `by="lift":` Ini menunjukkan bahwa kita ingin mengurutkan aturan berdasarkan nilai lift. Lift adalah ukuran yang menunjukkan seberapa besar pengaruh item A terhadap item B dibandingkan dengan jika item B dibeli secara independen. Aturan dengan lift yang lebih tinggi dianggap lebih kuat.

`inspect(combination_result)`: Fungsi ini digunakan untuk menampilkan aturan asosiasi yang telah ditemukan. Ini akan memberikan informasi tentang antecedent, consequent, support, confidence, dan lift dari aturan yang diambil.

- Antecedent:
-- Definisi: Antecedent adalah item atau sekumpulan item yang ada di sisi kiri dari aturan asosiasi. Ini adalah kondisi yang harus dipenuhi untuk menghasilkan consequent.
-- Contoh: Dalam aturan asosiasi "Jika seseorang membeli roti, maka mereka juga membeli mentega", roti adalah antecedent.

-  Consequent:
-- Definisi: Consequent adalah item atau sekumpulan item yang ada di sisi kanan dari aturan asosiasi. Ini adalah hasil atau konsekuensi yang diharapkan terjadi jika antecedent terpenuhi.
-- Contoh: Dalam aturan yang sama, mentega adalah consequent. Ini menunjukkan bahwa jika seseorang membeli roti, mereka cenderung juga membeli mentega.

-  Support :
-- Definisi: Support adalah ukuran yang menunjukkan seberapa sering itemset (kombinasi item) muncul dalam dataset transaksi. Ini dihitung sebagai proporsi transaksi yang mengandung itemset tertentu.
-- Contoh: Jika ada 100 transaksi dan 20 di antaranya mengandung roti, maka support untuk roti adalah ( \frac{20}{100} = 0.2 ) atau 20%.

- Confidence :
-- Definisi: Confidence adalah ukuran yang menunjukkan seberapa sering consequent muncul ketika antecedent ada. Ini mengukur kekuatan hubungan antara antecedent dan consequent.
-- Contoh: Jika dari 20 transaksi yang mengandung roti, 15 di antaranya juga mengandung mentega, maka confidence untuk aturan "Jika membeli roti, maka juga membeli mentega" adalah ( \frac{15}{20} = 0.75 ) atau 75%.

- Lift :
-- Definisi: Lift adalah ukuran yang menunjukkan seberapa besar pengaruh antecedent terhadap consequent dibandingkan dengan jika mereka independen. Lift memberikan informasi tambahan tentang kekuatan hubungan antara dua item.
-- Contoh: Jika support untuk mentega adalah 0.1 (10%), dan confidence untuk aturan "Jika membeli roti, maka juga membeli mentega" adalah 0.75 (75%), maka lift untuk aturan tersebut adalah ( \frac{0.75}{0.1} = 7.5 ). Ini berarti bahwa membeli roti meningkatkan kemungkinan membeli mentega 7.5 kali lipat dibandingkan jika kedua item tersebut independen.

**Mencari Paket Produk yang bisa dipasangkan dengan Item Slow-Moving**

Slow-moving item adalah produk yang pergerakan penjualannya lambat atau kurang cepat. Ini akan bermasalah apabila item produk tersebut masih menumpuk.

Kadang kala item ini belum tentu tidak laku, hanya saja mungkin harganya tidak bagus dan jarang dibutuhkan jika dijual satuan.  Nah, jika tidak dijual satuan kita perlu cari asosiasi kuat dari item produk ini dengan produk lain sehingga jika dipaketkan akan menjadi lebih menarik.

Pak Agus juga meyakini hal ini, dan ingin agar Anda membantu mengidentifikasi dua item produk yang menurut dia stoknya masih banyak dan perlu dicari pasangan item untuk pemaketannya.

Dua item produk tersebut adalah "Tas Makeup" dan "Baju Renang Pria Anak-anak". Pak Agus ingin meminta kombinasi yang bisa dipaketkan dengan kedua produk tersebut.

Masing-masing produk tersebut dikeluarkan 3 rules yang asosiasinya paling kuat, sehingga total ada 6 rules. Persyaratan-persyaratan asosiasi kuat ini masih sama dengan yang telah disebutkan Pak Agus sebelumnya, kecuali tingkat confidence dicoba pada tingkat minimal 0.1.

In [None]:
slowmove_combination <- apriori(transaksi_tabular, parameter=list(supp=10/length(transaksi_tabular), confidence=0.1, minlen=2, maxlen=3))
c1 <- subset(slowmove_combination, rhs %in% "Tas Makeup") #rhs %in% "Tas Makeup": agar rhs(right hand side) yang keluar hanya tas makeup
result_c1 <- head(sort(c1, by="lift", decreasing=TRUE), 3) #mengurutkan c1 sesuai dengan lift mulai dari yang terbesar
c2 <- subset(slowmove_combination, rhs %in% "Baju Renang Pria Anak-anak") #rhs %in% "Baju Renang Pria Anak-anak": agar rhs(right hand side) yang keluar hanya Baju Renang Pria Anak-anak
result_c2 <- head(sort(c2, by="lift", decreasing=TRUE), 3) #mengurutkan c2 sesuai dengan lift mulai dari yang terbesar
final_result<- c(result_c1,result_c2)
write(final_result, file="kombinasi_retail_slow_moving.txt")

Apriori

Parameter specification:
 confidence minval smax arem  aval originalSupport maxtime     support minlen
        0.1    0.1    1 none FALSE            TRUE       5 0.002898551      2
 maxlen target  ext
      3  rules TRUE

Algorithmic control:
 filter tree heap memopt load sort verbose
    0.1 TRUE TRUE  FALSE TRUE    2    TRUE

Absolute minimum support count: 10 

set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[69 item(s), 3450 transaction(s)] done [0.00s].
sorting and recoding items ... [68 item(s)] done [0.00s].
creating transaction tree ... done [0.00s].
checking subsets of size 1 2 3

“Mining stopped (maxlen reached). Only patterns up to a length of 3 returned!”


 done [0.01s].
writing ... [39832 rule(s)] done [0.01s].
creating S4 object  ... done [0.01s].


In [None]:
inspect(final_result)

    lhs                             rhs                              support confidence   coverage     lift count
[1] {Baju Renang Anak Perempuan,                                                                                 
     Tas Pinggang Wanita}        => {Tas Makeup}                 0.010434783  0.8000000 0.01304348 19.57447    36
[2] {Baju Renang Anak Perempuan,                                                                                 
     Tas Ransel Mini}            => {Tas Makeup}                 0.011304348  0.7959184 0.01420290 19.47460    39
[3] {Baju Renang Anak Perempuan,                                                                                 
     Celana Pendek Green/Hijau}  => {Tas Makeup}                 0.010144928  0.7777778 0.01304348 19.03073    35
[4] {Gembok Koper,                                                                                               
     Tas Waist Bag}              => {Baju Renang Pria Anak-anak} 0.004057971  0.2745098 

**Kesimpulan :**
Jadi dari sini kita bisa tahu bahwa untuk  

- Tas Makeup bisa dipaketkan penjualannya dengan barang:
1. Baju Renang Anak Perempuan dan  Tas Pinggang Wanita
2. Baju Renang Anak Perempuan dan Tas Ransel Mini
3. Baju Renang Anak Perempuan dan Celana Pendek Green/Hijau

- Baju Renang Pria Anak-anak bisa dipaketkan penjualannya dengan barang:
1. Gembok Koper dan Tas Waist Bag
2. Flat Shoes Ballerina dan Gembok Koper
3. Celanaa Jeans Sobek Wanita dan Jeans Jumbo