# Association Rule Mining
#### Cliffton Soenarto, 0706022010001
School of Information Technology Universitas Ciputra Surabaya


   Pada saat kritis ini, ketergantungan pada data untuk mendorong keputusan bisnis telah meningkat secara signifikan. Data Mining adalah salah satu metode yang membantu dalam pengambilan keputusan. Ini adalah proses menurunkan tren, pola, dan informasi yang berguna dari sejumlah besar data. Proses data mining untuk menemukan aturan yang mengatur asosiasi dan objek kausal antara set item dikenal sebagai Association Rule Mining. Ini membantu dalam menemukan hubungan antara database yang tampaknya independen sehingga mengembangkan koneksi antara dataset.

Association Rule Mining adalah metode untuk mengidentifikasi pola yang sering, korelasi, asosiasi, atau struktur kausal dalam kumpulan data yang ditemukan di banyak basis data seperti basis data relasional, basis data transaksional, dan jenis penyimpanan data lainnya. Karena sebagian besar algoritme machine learning bekerja dengan kumpulan data numerik, mereka bersifat matematis. Namun, Association Rule Mining cocok untuk data kategorikal non-numerik dan membutuhkan sedikit lebih dari sekadar penghitungan sederhana. Mengingat satu set transaksi, tujuan Association Rule Mining adalah untuk menemukan aturan yang memungkinkan kita untuk memprediksi kemunculan item tertentu berdasarkan kemunculan item lain dalam transaksi. Aturan asosiasi memiliki 2 bagian:
-	Antecedent (IF)
-	Consequent (THEN)

Antecedent adalah sesuatu yang ditemukan dalam data, dan Consequent adalah item yang ditemukan dalam hubungannya dengan Antecedent. Misalnya seperti aturan ini:

“Jika seorang pelanggan membeli roti, dia 70% kemungkinan membeli susu.”

Dalam aturan asosiasi di atas, roti adalah anteseden dan susu adalah konsekuennya. Sederhananya, itu dapat dipahami sebagai aturan asosiasi toko ritel untuk menargetkan pelanggan mereka dengan lebih baik. Jika aturan di atas merupakan hasil analisis menyeluruh dari beberapa kumpulan data, aturan tersebut dapat digunakan untuk tidak hanya meningkatkan layanan pelanggan tetapi juga meningkatkan pendapatan perusahaan.

Aturan asosiasi dibuat dengan menganalisis data secara menyeluruh dan mencari pola if/then yang sering. Kemudian, tergantung pada tiga parameter berikut, hubungan penting diamati:
-	Support: Support dari suatu association rule adalah presentasi kombinasi item tersebut dalam database, dimana jika mempunyai item A dan item B maka support adalah proporsi dari transaksi dalam database yang mengandung A dan B. 
-	Confidence: Confidence dari association rule adalah ukuran ketepatan suatu rule, yaitu presentasi transaksi dalam database yang mengandung A dan mengandung B. Dengan adanya confidence kita dapat mengukur kuatnya hubungan antar-item dalam association rule. 
-   Lift: Ini adalah probabilitas dari semua item yang terjadi bersama-sama dibagi dengan produk dari antecedent dan consequent yang terjadi seolah-olah mereka independen satu sama lain.

Penggunaan dari Association Rule Mining:
1.	Market Basket Analysis:
Di sebagian besar supermarket, data dikumpulkan menggunakan pemindai barcode. Basis data ini disebut basis data “market basket”. Ini berisi sejumlah besar catatan transaksi masa lalu. Setiap record berisi nama semua item yang dibeli setiap pelanggan dalam satu transaksi. Dari data ini, toko-toko mengetahui kecenderungan dan pilihan barang dari pelanggan. Dan menurut informasi ini, mereka memutuskan tata letak toko dan mengoptimalkan katalogisasi barang-barang yang berbeda. Satu catatan berisi daftar semua barang yang dibeli oleh pelanggan dalam satu transaksi. Mengetahui kelompok mana yang cenderung ke set item mana memungkinkan toko-toko ini untuk menyesuaikan tata letak toko dan katalog untuk menempatkannya secara optimal di samping satu sama lain.
2.	Diagnosis Medis:
Aturan asosiasi dalam diagnosis medis dapat membantu dokter mendiagnosis dan merawat pasien. Diagnosis adalah proses yang sulit dengan banyak kesalahan potensial yang dapat menyebabkan hasil yang tidak dapat diandalkan. Anda dapat menggunakan penambangan aturan asosiasi relasional untuk menentukan kemungkinan penyakit berdasarkan berbagai faktor dan gejala. Aplikasi ini dapat dikembangkan lebih lanjut dengan menggunakan beberapa teknik pembelajaran berdasarkan gejala dan hubungannya sesuai dengan penyakit.
3.	Data Sensus:
Konsep Association Rule Mining juga digunakan dalam menangani jumlah data sensus yang sangat besar. Jika diselaraskan dengan benar, informasi ini dapat digunakan dalam merencanakan layanan publik dan bisnis yang efisien.

Algoritma dari Association Rule Mining:
-	Algoritma Apriori:
Algoritme Apriori mengidentifikasi item individual yang sering muncul dalam database tertentu dan kemudian mengembangkannya ke set item yang lebih besar, dengan tetap memeriksa bahwa set item cukup sering muncul dalam database.
-	Algoritma Eclat:
Algoritma ECLAT juga dikenal sebagai Equivalence Class Clustering dan bottomup. Latice Traversal adalah metode lain yang banyak digunakan untuk aturan asosiasi dalam penambangan data. Beberapa bahkan menganggapnya sebagai versi yang lebih baik dan lebih efisien dari algoritma Apriori.
-	Algoritma pertumbuhan FP:
Juga dikenal sebagai pola berulang, algoritme ini sangat berguna untuk menemukan pola yang sering muncul tanpa perlu menghasilkan kandidat. Ini terutama beroperasi dalam dua tahap yaitu, konstruksi pohon FP dan mengekstrak set item yang sering digunakan.


Kali ini kita akan implementasikan Association Rule Mining dengan algoritma Apriori

Langkah pertama, seperti biasa, adalah mengimpor library yang diperlukan. Jalankan skrip berikut untuk melakukannya:

In [1]:
import pandas as pd
import numpy as np
from mlxtend.frequent_patterns import apriori, association_rules

Selanjutnya kita perlu mengimport dataset yang ada

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/ClifftonS/Data-Mining/main/GroceryStoreDataSet.csv', names = ['products'], sep = ',')
df.head()

  and should_run_async(code)


Unnamed: 0,products
0,"MILK,BREAD,BISCUIT"
1,"BREAD,MILK,BISCUIT,CORNFLAKES"
2,"BREAD,TEA,BOURNVITA"
3,"JAM,MAGGI,BREAD,MILK"
4,"MAGGI,TEA,BISCUIT"


Mari kita periksa shape dataset kita

In [3]:
df.shape

  and should_run_async(code)


(20, 1)

Mari kita pisahkan produk dan buat daftar yang disebut dengan 'data'

In [4]:
data = list(df["products"].apply(lambda x:x.split(",") ))
data

  and should_run_async(code)


[['MILK', 'BREAD', 'BISCUIT'],
 ['BREAD', 'MILK', 'BISCUIT', 'CORNFLAKES'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['JAM', 'MAGGI', 'BREAD', 'MILK'],
 ['MAGGI', 'TEA', 'BISCUIT'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['MAGGI', 'TEA', 'CORNFLAKES'],
 ['MAGGI', 'BREAD', 'TEA', 'BISCUIT'],
 ['JAM', 'MAGGI', 'BREAD', 'TEA'],
 ['BREAD', 'MILK'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'COCK'],
 ['BREAD', 'SUGER', 'BISCUIT'],
 ['COFFEE', 'SUGER', 'CORNFLAKES'],
 ['BREAD', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['TEA', 'MILK', 'COFFEE', 'CORNFLAKES']]

Setelah itu kita encoding data ke bentuk angka agar informasi dataset bisa terbaca

In [5]:
from mlxtend.preprocessing import TransactionEncoder
a = TransactionEncoder()
a_data = a.fit(data).transform(data)
df = pd.DataFrame(a_data,columns=a.columns_)
df = df.replace(False,0)
df

  and should_run_async(code)


Unnamed: 0,BISCUIT,BOURNVITA,BREAD,COCK,COFFEE,CORNFLAKES,JAM,MAGGI,MILK,SUGER,TEA
0,True,0,True,0,0,0,0,0,True,0,0
1,True,0,True,0,0,True,0,0,True,0,0
2,0,True,True,0,0,0,0,0,0,0,True
3,0,0,True,0,0,0,True,True,True,0,0
4,True,0,0,0,0,0,0,True,0,0,True
5,0,True,True,0,0,0,0,0,0,0,True
6,0,0,0,0,0,True,0,True,0,0,True
7,True,0,True,0,0,0,0,True,0,0,True
8,0,0,True,0,0,0,True,True,0,0,True
9,0,0,True,0,0,0,0,0,True,0,0


Langkah selanjutnya adalah membuat Model Apriori. Kita dapat mengubah semua parameter dalam Model Apriori dalam paket mlxtend. Saya akan mencoba menggunakan parameter dukungan minimum untuk pemodelan ini. Untuk ini, saya menetapkan nilai min_support dengan nilai ambang 20% dan mencetaknya di layar juga.

In [6]:
df = apriori(df, min_support = 0.2, use_colnames = True, verbose = 1)
df

Processing 72 combinations | Sampling itemset size 2Processing 42 combinations | Sampling itemset size 3


  and should_run_async(code)


Unnamed: 0,support,itemsets
0,0.35,(BISCUIT)
1,0.2,(BOURNVITA)
2,0.65,(BREAD)
3,0.4,(COFFEE)
4,0.3,(CORNFLAKES)
5,0.25,(MAGGI)
6,0.25,(MILK)
7,0.3,(SUGER)
8,0.35,(TEA)
9,0.2,"(BREAD, BISCUIT)"


Saya memilih nilai confidence minimum 60%. Dengan kata lain, ketika produk X dibeli, kita dapat mengatakan bahwa pembelian produk Y adalah 60% atau lebih.

In [7]:
df_ar = association_rules(df, metric = "confidence", min_threshold = 0.6)
df_ar

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(MILK),(BREAD),0.25,0.65,0.2,0.8,1.230769,0.0375,1.75
1,(SUGER),(BREAD),0.3,0.65,0.2,0.666667,1.025641,0.005,1.05
2,(CORNFLAKES),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8
3,(SUGER),(COFFEE),0.3,0.4,0.2,0.666667,1.666667,0.08,1.8
4,(MAGGI),(TEA),0.25,0.35,0.2,0.8,2.285714,0.1125,3.25


Misalnya, jika kita memeriksa nilai indeks 0 kita;
- Probabilitas melihat penjualan susu dilihat sebagai 25%.
- Roti dilihat sebagai 65%.
- Kita dapat mengatakan bahwa support dari keduanya diukur sebagai 20%.
- 80% dari mereka yang membeli susu, membeli roti juga.
- Pengguna yang membeli susu kemungkinan akan mengonsumsi roti 52% lebih banyak daripada pengguna yang tidak membeli gula.
- Korelasi mereka satu sama lain terlihat sebagai 1,75.

Akibatnya, jika barang X dan Y lebih sering dibeli bersama, maka beberapa langkah dapat diambil untuk meningkatkan keuntungan. Contohnya:
- Cross-Selling dapat ditingkatkan dengan menggabungkan produk
- Tata letak toko dapat diubah sehingga penjualan dapat ditingkatkan ketika barang-barang tertentu disimpan bersama.
- Kegiatan promosi yang merupakan kampanye periklanan dapat dilakukan untuk meningkatkan penjualan barang yang tidak dibeli oleh pelanggan.
- Diskon kolektif dapat ditawarkan pada produk ini jika pelanggan membeli keduanya.

#### Daftar Pustaka:

Afrida, S. (2021). Association Rules — Market Basket Analysis dengan Python. Diakses dari https://yandaafrida.medium.com/association-rule-market-basket-analysis-menggunakan-python-a9c49b4bfc69

Torkan, M. (2020). Association Rules with Python. Diakses dari https://www.kaggle.com/code/mervetorkan/association-rules-with-python

Jena, M. (2022). Association Rule Mining Simplified 101. Diakses dari https://hevodata.com/learn/association-rule-mining/

Lutkevich, B. (n.d.). Association Rules. Diakses dari https://www.techtarget.com/searchbusinessanalytics/definition/association-rules-in-data-mining

Chonyy. (2020). Apriori — Association Rule Mining In-depth Explanation and Python Implementation. Diakses dari https://towardsdatascience.com/apriori-association-rule-mining-explanation-and-python-implementation-290b42afdfc6

Malik, U. (2018). Association Rule Mining via Apriori Algorithm in Python. Diakses dari https://stackabuse.com/association-rule-mining-via-apriori-algorithm-in-python/

Anisha, D. (2022). Association Rule. Diakses dari https://www.geeksforgeeks.org/association-rule/

Abhinav, R. (2022). An Overview of Association Rule Mining & its Applications. Diakses dari https://www.upgrad.com/blog/association-rule-mining-an-overview-and-its-applications/

Fauzy, M., Rahmat, K., & Asror, I.. (2015). Penerapan Metode Association Rule Menggunakan Algoritma Apriori pada Simulasi
Prediksi Hujan Wilayah Kota Bandung. e-Proceeding of Engineering, 2(3), 1-6. Diakses dari https://core.ac.uk/download/pdf/299905763.pdf

Shetty, S. (2022). What is Apriori Algorithm? Apriori Algorithm Explained. Diakses dari https://www.mygreatlearning.com/blog/apriori-algorithm-explained/