# Association Rule Mining


**Association Rule Mining**

Association rule mining adalah bagian dari machine learning berbasis aturan yang digunakan untuk menemukan hubungan dan pola antara berbagai item dalam skala besar kumpulan data (Dutta, 2020). Aturan asosiasi(Association Rule) ingin memberikan informasi tersebut dalam bentuk hubungan “if-then” atau “jika-maka” yang dihitung dari data yang sifatnya probabilistik (Zhao, 2013).

Association rule merupakan salah satu bentuk pola yang dihasilkan oleh Data Mining. Association rule dapat digunakan untuk menemukan hubungan atau sebab akibat. Penting tidaknya suatu asosiasi dapat diketahui dengan dua tolak ukur, yaitu : support dan confidance. Support (nilai penunjang) adalah persentasi kombinasi item tersebut dalam database, sedangkan confidance (nilai kepastian) adalah kuatnya hubungan antar item dalam aturan asosiasi (Eka Novita Sari, 2013). Association rule mempunyai bentuk LHS (Left Hand Shake) -> RHS (Right Hand Shake) dengan interpretasi juka setiap item dalam LHS dibeli maka sepertinya item dalam RHS juga dibeli. Dua pengukuran penting untuk sebuah rule adalah Support dan Confidace(Mulya, 2019).

Seperti pada contohnya yaitu pembelian disuatu toko yang dapat menyebabkan pembelian barang lain ditoko tersebut. Dengan menggunakan data semua item yang dibeli, kita dapat menentukan item mana yang biasanya dibeli atau dibeli bersama, sehingga mendefinisikan dan membangun model asosiasi produk (Chapman dan Feit, 2015).

Apabila telah menemukan suatu kesamaan maka kita dapat meletakkan barang pada rak yang berdampingan. Metode data mining ini dapat berguna untuk mengumpulkan data yang dibeli secara bersamaan lalu dapat dianalisa menggunakan analisis apriori untuk dapat menemukan kandidat dari barang yang dimaksud tersebut (Shaukat dkk, 2015). 

Terdapat tiga macam Interestingness measure untuk menemukan asosiasi dari data tersebut yaitu:

a. Support, suatu ukuran yang menunjukkan seberapa besar tingkat dominasi suatu item atau itemset dari keseluruhan transaksi.

b. Confidence, suatu ukuran yang menunjukkan hubungan antar dua item secara conditional.

c. Correlation, alternatif lain dalam menemukan interesting relationship antara itemset data berdasarkan hubungan atau korelasinya.

Kelebihan asosiasi rule dengan apriori ini adalah lebih sederhana dan dapat
menangani data yang besar. Sedangkan algoritma lainnya memiliki kelemahan dalam penggunaan memori saat jumlah data besar, tentunya berpengaruh terhadap banyaknya item yang diproses (Fauzi dkk, 2015). 

Terdapat 4 tipe dari asosiasi rule data mining ini yaitu :  Multi-relational association rules, Generalized Association rule, Interval Information Association Rules,  Quantitative Association Rules (harsh, 2019).

# Contoh Pengerjaan

In [4]:
#import Library
import pandas as pd
import numpy as np
!pip install mlxtend
from mlxtend.frequent_patterns import apriori, association_rules
import matplotlib.pyplot as plt

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [6]:
# Read CSV
url="https://raw.githubusercontent.com/vaa9/datasetsupermarketcoba/main/retail_dataset.csv"
df= pd.read_csv(url , sep=',')
df.head(5)

Unnamed: 0,0,1,2,3,4,5,6
0,Bread,Wine,Eggs,Meat,Cheese,Pencil,Diaper
1,Bread,Cheese,Meat,Diaper,Wine,Milk,Pencil
2,Cheese,Meat,Eggs,Milk,Wine,,
3,Cheese,Meat,Eggs,Milk,Wine,,
4,Meat,Pencil,Wine,,,,


Kita akan mengisi kekosongan value dengan string kosong

In [9]:
df = df.fillna(" ")
df.head(10)

Unnamed: 0,0,1,2,3,4,5,6
0,Bread,Wine,Eggs,Meat,Cheese,Pencil,Diaper
1,Bread,Cheese,Meat,Diaper,Wine,Milk,Pencil
2,Cheese,Meat,Eggs,Milk,Wine,,
3,Cheese,Meat,Eggs,Milk,Wine,,
4,Meat,Pencil,Wine,,,,
5,Eggs,Bread,Wine,Pencil,Milk,Diaper,Bagel
6,Wine,Pencil,Eggs,Cheese,,,
7,Bagel,Bread,Milk,Pencil,Diaper,,
8,Bread,Diaper,Cheese,Milk,Wine,Eggs,
9,Bagel,Wine,Diaper,Meat,Pencil,Eggs,Cheese


Kita akan mencari berapa banyak unique item yang ada pada dataset tersebut

In [10]:
items = set()
for col in df:
    if df[col].unique != " " :
        items.update(df[col].unique())
print(items)

{'Pencil', 'Bread', 'Meat', 'Bagel', 'Wine', 'Cheese', 'Milk', 'Eggs', ' ', 'Diaper'}


Selanjutnya kita akan meng-encode setiap bagian pada dataset

In [12]:
itemset = set(items)
encoded_vals = []
for index, row in df.iterrows():
    rowset = set(row) 
    labels = {}
    uncommons = list(itemset - rowset)
    commons = list(itemset.intersection(rowset))
    for uc in uncommons:
        labels[uc] = 0
    for com in commons:
        labels[com] = 1
    encoded_vals.append(labels)
encoded_vals[0]
ohe_df = pd.DataFrame(encoded_vals)

Selanjutnya kita akan menggunakan apriori untuk mencari frekuensi item

In [17]:
freq_items = apriori(ohe_df, min_support=0.2, use_colnames=True)
freq_items.head(7)

Unnamed: 0,support,itemsets
0,0.425397,(Bagel)
1,0.501587,(Milk)
2,0.869841,( )
3,0.361905,(Pencil)
4,0.504762,(Bread)
5,0.47619,(Meat)
6,0.438095,(Wine)


selanjutnya kita akan menggunakan asosiasi rules. matriks bisa di set Confidence, Lift, Leverage, Conviction ataupun Support

In [18]:
rules = association_rules(freq_items, metric="confidence", min_threshold=0.6)
rules.head()

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Bagel),( ),0.425397,0.869841,0.336508,0.791045,0.909413,-0.03352,0.622902
1,(Bagel),(Bread),0.425397,0.504762,0.279365,0.656716,1.301042,0.064641,1.44265
2,(Milk),( ),0.501587,0.869841,0.409524,0.816456,0.938626,-0.026778,0.709141
3,(Cheese),(Milk),0.501587,0.501587,0.304762,0.607595,1.211344,0.053172,1.270148
4,(Milk),(Cheese),0.501587,0.501587,0.304762,0.607595,1.211344,0.053172,1.270148


ada beberapa rule di evaluation matrix
1. support :Jumlah transaksi yang menyertakan item di bagian {X} dan {Y} dari asosiasi rule sebagai persentase dari jumlah total transaksi. Ini adalah ukuran seberapa sering kumpulan item terjadi bersamaan sebagai persentase dari semua transaksi.
- support = σ(X+Y) ÷ total</br>



2. Confidence :Ini adalah rasio dari jumlah transaksi yang mencakup semua item di {B} serta jumlah transaksi yang mencakup semua item di {A} dengan jumlah transaksi yang mencakup semua item di {A} .
- Confidence(X=>Y) = Supp(XUY) ÷ Supp(X)</br>

3. Lift :Lift aturan X=>Y adalah keyakinan aturan dibagi dengan keyakinan yang diharapkan, dengan asumsi bahwa himpunan item X dan Y tidak bergantung satu sama lain. Keyakinan yang diharapkan adalah keyakinan dibagi dengan frekuensi {y}.
- Lift(X=>Y) = Conf(X=>Y) ÷ Supp(Y)</br>


In [19]:
import pandas as pd
df = pd.DataFrame({"TID" : [1,2,3,4,5],"Items" : ["Bread, Milk","Bread, Diaper, Beer, Eggs",
"Milk, Diaper, Beer, Coke",
"Bread, Milk, Diaper, Beer",
"Bread, Milk, Diaper, Coke"]})
df.set_index("TID")

Unnamed: 0_level_0,Items
TID,Unnamed: 1_level_1
1,"Bread, Milk"
2,"Bread, Diaper, Beer, Eggs"
3,"Milk, Diaper, Beer, Coke"
4,"Bread, Milk, Diaper, Beer"
5,"Bread, Milk, Diaper, Coke"


In [20]:
Support = 2/5
Confidence = round(2/3,2)
Lift = round(0.4/(0.6*0.6),1)
print("Support =",Support)
print("Confidence =",Confidence)
print("Lift =",Lift)

Support = 0.4
Confidence = 0.67
Lift = 1.1


# Simpulan

Asosiasi rule mining sangat berguna untuk mencari hubungan antar satu item dengan item lainnya. bisa digunakan dalam data yang besar. sehingga dapat dikelompokkan menjadi beberapa bagian. yang pada umumnya menggunakan ARM untuk kesehariannya adalah : Supermarket, Apotek, UX designer, maupun keranjang belanja yang ada di ecommerce.

# Referensi

Chapman, C. and Feit, E.M.D. (2015) “Association rules for Market Basket Analysis,” R for Marketing Research and Analytics, pp. 339–361.

Dutta, A. (2020) “Association Rule Mining for Market Basket Analysis.” Kolkata, INDIA: NSHM Knowledge Campus, Kolkata, INDIA. 

Zhao, Y. (2013) “Association rules,” R and Data Mining, pp. 89–103.

Shaukat, K., Zaheer, S. and Nawaz, I. (2015) “Association Rule Mining: An Application Perspective,” Association Rule Mining: An ApplicationPerspective. 

Selamet, R. (2008) “ASSOCIATION RULE,” Media Informatika. 

Fauzi, M., Saleh, K.R. and Asror, I. (2015) “Penerapan Metode Association Rule Menggunakan Algoritma Apriori pada Simulasi Prediksi Hujan Wilayah Kota Bandung,” e-Proceeding of Engineering. 

Mulya, D.P. (2019) “ANALISA DAN IMPLEMENTASI ASSOCIATION RULE DENGAN ALGORITMA FP-GROWTH DALAM SELEKSI PEMBELIAN TANAH LIATD,” Jurnal Teknologi Dan Sistem Informasi Bisnis .

Sari, E. N. (2013). Analisa Algoritma Apriori Untuk Menentukan Merek Pakaian Yang Paling Diminati Pada Mode Fashion Group Medan. Jurnal Teknik Informatika, IV, 35–39.

Harsh. (2019, September 26). Association Analysis with Phyton, Medium. 

Torkan M. (2020, October 18). Association Rules with Phyton, Medium.