# Association Rules Mining

#### Manuel Johan Tito, 0706022010024

#### Pendahuluan

Dengan perkembangan teknologi informasi yang cukup cepat, perusahaan dan organisasi diuntungkan dengan kesempatan untuk menyimpan data yang besar. Evaluasi dari dataset yang terus bertumbuh dan mengekstrak informasi yang berguna adalah hal yang penting dilakukan. Data mining berpotensi untuk membuat prediksi dengan menggunakan banyak data yang tersedia dengan menggunakan program komputer (Yazgana, 2016). Task dalam data mining dapat di klasifikasikan dalam dua kategori: Descriptive mining dan Predictive mining. Descriptive mining adalah metode dimana karakteristik dari data yang ada dalam database dijelaskan. Predictive mining menyimpulkan pola dari data dalam ragam yang sama (Slimani, 2014).

Association Rule Mining (ARM) adalah salah satu teknik dalam data mining untuk mengelompokan objek dari database yang besar dengan tujuan mengekstrak korelasi menarik dan relasi dari jumlah data yang besar (Slimani, 2014). Dalam database penjualan, Association Rule Mining dikenal bahwa ini dapat mencari rules seperti "Jika klien membeli beer dan wine, dia juga membeli aspirin" (Galárraga, 2013). 

Association rules telah digunakan dalam banyak area, seperti Market Basket Analysis, dimana ARM dapat menjelaskan kemungkinan customer membeli produk lain jika customer membeli suatu produk, Medical Diagnosis, dimana Association rules dapat digunakan untuk membantu dokter dalam menangani pasien, Protein Sequences, Census Data, dan Customer Relationship Management (CRM) of Credit Card Business (Yazgana, 2016).

#### Pembahasan

Association Rule Mining sangat berguna untuk menunjukan relasi tersembunyi dalam dataset yang besar. Contoh transaksi yang terjadi dari sebuah toko adalah sebagai berikut:

In [10]:
import numpy as np
import pandas as pd
orders = np.array([[1,'Mentega, Keju, Burger'], [2,'Susu, Keju, Mentega'], [3,'Mentega, Susu']], dtype=object)
ordersdf = pd.DataFrame(orders, columns=['Transaction ID (TID)','Items'])
ordersdf

Unnamed: 0,Transaction ID (TID),Items
0,1,"Mentega, Keju, Burger"
1,2,"Susu, Keju, Mentega"
2,3,"Mentega, Susu"


Dari data diatas menunjukan bahwa ada relasi yang kuat antara Susu dan Mentega. Data tersebut menunjukan bahwa banyak customer membeli Susu dan juga mentega sekaligus. Kesimpulan yang dapat diambil dari data diatas dapat membantu retailer untuk mengerti sifat membeli dari customer mereka. (Kaur M. Karg, 2016)

Terdapat dua dasar pengukuran penting dari Association Rules, yaitu support(s) dan confidence(c). Karena database dalam ukuran yang besar, user hanya memperhatikan items yang sering dibeli. User dapat menentukan terlebih dahulu thresholds dari support dan confidence untuk menghapus rules yang tidak begitu digunakan. Dua threshold tersebut dinamakan minimal support dan minimal confidence (Karthikeyan, 2014).

Support(s) di definisikan sebagai proporsi dari record yang memuat X ∪ Y dari total record pada database. Jumlah dari setiap item akan ditambah satu, setiap kali item ditemukan dalam transaksi berbeda dalam database pada saat scanning. Support dapat dihitung sebagai berikut:

Support (XY) = Jumlah XY / Total record dalam database D

Confidence(c) di definisikan sebagai proporsi dari jumlah transaksi yang memuat X ∪ Y di bandingkan dengan total record yang memuat X, dimana jika rasio melebihi dari threshold dari confidence, maka association rule X --> dapat dihasilkan.

Confidence(X|Y) = Support(XY) / Support(X)

Confidence adlaah tingkat kekuatan dari association rules. Jika confidence dari asssociatin rule X --> Y adalah 80 persen, kesimpulannya adalah 80 persen transaksi yang terdapat X didalamnya, Y juga ada dalam transaksi tersebut. Untuk menentukan interestingness dari rules, minimum confidence yang lebih spesifik dapat ditentukan oleh user juga. (Karthikeyan, T., & Ravikumar, N. (2014))

Konsep Lift juga biasa digunakan dalam Association Rules. Lift dapat melihat seberapa sering X dan Y muncul bersama. Terkadang, pembatasan threshold level telah memangkas interest rule yang langka tetapi lift dapat dengan efisien menemukan itemset yang langka tersebut. Lift didefinisikan dalam rules dari form X --> sebagai berikut:

Lift(X-->Y) = Confidence(X-->Y) / Support(Y)

Nilai Lift yang lebih dari 1 mengindikasikan bahwa X dan Y lebih sering muncul secara bersamaan. Jika nilai lift kurang dari 1, menunjukan bahwa X dan Y kurang sering muncul bersamaan. (Manimaran, (2015)).

Ada berbagai algoritma yang digunakan dalam Association, beberapa algoritma yang banyak dikenal diantaranya Apriori, Eclat, dan FP-Growth.

Apriori adalah algoritma yang mudah untuk dieksekusi dan sangat simple, ini digunakan untuk menggali semua frequent itemsets dalam database. Algoritma ini membuat banyak pencarian dalam database untuk mencari frequent itemsets dimana k-itemsets digunakan untuk menghasilkan k+1 -itemsets. Setiap k-itemsets harus lebih besar atau sama dengan minimum support threshold (Al-Maolegi, 2014).

Eclat Algorithm merupakan akronim dari Equivalence Class Clustering dan Bottom Up Lattice Traversal. Dalam Eclat, frequent items dihasilkan dengan intersecting tid-list dari pasangan atom yang berbeda kemudian memeriksa cardinality dari resulting tid-list. (Yu, 2014)

FP-Growth (Frequent-Pattern Growth) adalah algoritma perbaikan dari algoritma Apriori. Algoritma ini compresses data set kedalam sebuah FP-tree, dua kali scan database, tidak menghasilkan candidate item sets dalam proses mining, dan meningkatkan efisiensi mining. Tetapi algoritma FP-Growth menghasilkan sebuah FP-tree yang memuat semua data sets. FP-tree membutuhkan memory space yang besar. Dan scanning yang dilakukan dalam database dilakukan sebanyak dua kali, membuat FP-growth kurang efisien. (Zeng, (2015))

#### Contoh Pengaplikasian Association Rules Mining

Langkah pertama adalah memasukan beberapa library, dan menginstall paket apyori untuk apriori.

In [130]:
import pandas as pd
import numpy as np
!pip install apyori
from apyori import apriori




Load market basket dataset

In [131]:
df = pd.read_csv("https://raw.githubusercontent.com/mjohantito/ARM_MarketBasketAnalysis12Nov/main/Market_Basket_Optimisation.csv", header=None)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,


Data Cleaning

In [132]:
df.fillna(0,inplace=True)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,chutney,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,turkey,avocado,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,mineral water,milk,energy bar,whole wheat rice,green tea,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


Data Pre-Processing

Dalam menggunakan apriori, data perlu di convert dalam format list.

In [133]:
transaction = []

for i in range(0,len(df)):
    transaction.append([str(df.values[i,j]) for j in range(0,20) if str(df.values[i,j])!='0'])

Cek dengan melihat index ke 0 transaksi

In [134]:
transaction[0]

['shrimp',
 'almonds',
 'avocado',
 'vegetables mix',
 'green grapes',
 'whole weat flour',
 'yams',
 'cottage cheese',
 'energy drink',
 'tomato juice',
 'low fat yogurt',
 'green tea',
 'honey',
 'salad',
 'mineral water',
 'salmon',
 'antioxydant juice',
 'frozen smoothie',
 'spinach',
 'olive oil']

Cek dengan melihat index ke 1 transaksi

In [135]:
transaction[1]

['burgers', 'meatballs', 'eggs']

Memanggil function apriori dengan minimum support, confidence, dan lift, minimal adalah kombinasi dari default item yaitu 2.

In [136]:
rules = apriori(transaction, min_support=0.003, min_confidence=0.2, min_lift=3, min_length=2)
rules

<generator object apriori at 0x7fa3501979e0>

Semua rules perlu di convert kedalam bentuk list

In [137]:
Results = list(rules)
Results

[RelationRecord(items=frozenset({'chicken', 'light cream'}), support=0.004532728969470737, ordered_statistics=[OrderedStatistic(items_base=frozenset({'light cream'}), items_add=frozenset({'chicken'}), confidence=0.29059829059829057, lift=4.84395061728395)]),
 RelationRecord(items=frozenset({'escalope', 'mushroom cream sauce'}), support=0.005732568990801226, ordered_statistics=[OrderedStatistic(items_base=frozenset({'mushroom cream sauce'}), items_add=frozenset({'escalope'}), confidence=0.3006993006993007, lift=3.790832696715049)]),
 RelationRecord(items=frozenset({'escalope', 'pasta'}), support=0.005865884548726837, ordered_statistics=[OrderedStatistic(items_base=frozenset({'pasta'}), items_add=frozenset({'escalope'}), confidence=0.3728813559322034, lift=4.700811850163794)]),
 RelationRecord(items=frozenset({'fromage blanc', 'honey'}), support=0.003332888948140248, ordered_statistics=[OrderedStatistic(items_base=frozenset({'fromage blanc'}), items_add=frozenset({'honey'}), confidence=0

Cek isi ordered_statistic yang akan di pisahkan isinya

In [138]:
df_results = pd.DataFrame(Results)
df_results.ordered_statistics[25]

[OrderedStatistic(items_base=frozenset({'green tea', 'frozen vegetables'}), items_add=frozenset({'tomatoes'}), confidence=0.2314814814814815, lift=3.38468341635983)]

Mendefinisikan support dalam data frame yang terpisah

In [139]:
support = df_results.support
support

0     0.004533
1     0.005733
2     0.005866
3     0.003333
4     0.015998
        ...   
75    0.003066
76    0.003066
77    0.003066
78    0.003333
79    0.003333
Name: support, Length: 80, dtype: float64

Convert ordered_statistic dalam format lain, untuk dipisahkan dalam beberapa variable
Dalam ordered_statistic terdapat lhs (left hand side) -> rhs (right hand side) yang juga rhs -> lhs

In [140]:
#mendefinisikan variable
first_values = []
second_values = []
third_values = []
fourth_value = []

#loop sesuai jumlah rows
#elemen pertama dan kedua adalah frozenset, yang perlu di convert dalam list
for i in range(df_results.shape[0]):
    single_list = df_results['ordered_statistics'][i][0]
    first_values.append(list(single_list[1]))
    second_values.append(list(single_list[0]))
    third_values.append(single_list[2])
    fourth_value.append(single_list[3])

Convert seluruh list kedalam dataframe untuk operasi berikutnya.

In [141]:
# convert all four list into dataframe for further operation..
lhs = pd.DataFrame(first_values) #left hand side
rhs = pd.DataFrame(second_values) #right hand side

confidance=pd.DataFrame(third_values,columns=['Confidance'])

lift=pd.DataFrame(fourth_value,columns=['lift'])

Concat seluruh list dalam single dataframe

In [142]:
df_final = pd.concat([lhs,rhs,support,confidance,lift], axis=1)
df_final

Unnamed: 0,0,1,0.1,1.1,2,support,Confidance,lift
0,chicken,,light cream,,,0.004533,0.290598,4.843951
1,escalope,,mushroom cream sauce,,,0.005733,0.300699,3.790833
2,escalope,,pasta,,,0.005866,0.372881,4.700812
3,honey,,fromage blanc,,,0.003333,0.245098,5.164271
4,ground beef,,herb & pepper,,,0.015998,0.323450,3.291994
...,...,...,...,...,...,...,...,...
75,spaghetti,mineral water,olive oil,ground beef,,0.003066,0.216981,3.632981
76,spaghetti,mineral water,pancakes,ground beef,,0.003066,0.211009,3.532991
77,spaghetti,mineral water,tomatoes,ground beef,,0.003066,0.261364,4.376091
78,olive oil,,milk,spaghetti,mineral water,0.003333,0.211864,3.216994


Hanya ada 1 item dalam lhs dan 3 atau lebih pada sisi yang lain. Agar lebih mudah dimengerti, 'None' akan dirubah menjadi ' ' dan menggabungkan tiga kolom menjadi satu. Contoh : coffee, none, none akan diganti dengan coffee, , 

In [143]:
df_final.fillna(value=' ', inplace=True)
df_final.head()

Unnamed: 0,0,1,0.1,1.1,2,support,Confidance,lift
0,chicken,,light cream,,,0.004533,0.290598,4.843951
1,escalope,,mushroom cream sauce,,,0.005733,0.300699,3.790833
2,escalope,,pasta,,,0.005866,0.372881,4.700812
3,honey,,fromage blanc,,,0.003333,0.245098,5.164271
4,ground beef,,herb & pepper,,,0.015998,0.32345,3.291994


Ganti nama kolom

In [145]:
df_final.columns = ['lhs',1,'rhs',2,3,'support','confidance','lift']
df_final.head()

Unnamed: 0,lhs,1,rhs,2,3,support,confidance,lift
0,chicken,,light cream,,,0.004533,0.290598,4.843951
1,escalope,,mushroom cream sauce,,,0.005733,0.300699,3.790833
2,escalope,,pasta,,,0.005866,0.372881,4.700812
3,honey,,fromage blanc,,,0.003333,0.245098,5.164271
4,ground beef,,herb & pepper,,,0.015998,0.32345,3.291994


Tambahkan tiga kolom kedalam lhs itemset

In [146]:
df_final['lhs'] = df_final['lhs'] + str(", ") + df_final[1] 

df_final['rhs'] = df_final['rhs'] + str(", ") + df_final[2] + str(", ") + df_final[3]

df_final.head()

Unnamed: 0,lhs,1,rhs,2,3,support,confidance,lift
0,"chicken,",,"light cream, ,",,,0.004533,0.290598,4.843951
1,"escalope,",,"mushroom cream sauce, ,",,,0.005733,0.300699,3.790833
2,"escalope,",,"pasta, ,",,,0.005866,0.372881,4.700812
3,"honey,",,"fromage blanc, ,",,,0.003333,0.245098,5.164271
4,"ground beef,",,"herb & pepper, ,",,,0.015998,0.32345,3.291994


Drop kolom 1,2,3 karena isi sudah ditambahkan kedalam kolom lhs

In [147]:
df_final.drop(columns=[1,2,3], inplace=True)
df_final.head()

Unnamed: 0,lhs,rhs,support,confidance,lift
0,"chicken,","light cream, ,",0.004533,0.290598,4.843951
1,"escalope,","mushroom cream sauce, ,",0.005733,0.300699,3.790833
2,"escalope,","pasta, ,",0.005866,0.372881,4.700812
3,"honey,","fromage blanc, ,",0.003333,0.245098,5.164271
4,"ground beef,","herb & pepper, ,",0.015998,0.32345,3.291994


In [149]:
df_final

Unnamed: 0,lhs,rhs,support,confidance,lift
0,"chicken,","light cream, ,",0.004533,0.290598,4.843951
1,"escalope,","mushroom cream sauce, ,",0.005733,0.300699,3.790833
2,"escalope,","pasta, ,",0.005866,0.372881,4.700812
3,"honey,","fromage blanc, ,",0.003333,0.245098,5.164271
4,"ground beef,","herb & pepper, ,",0.015998,0.323450,3.291994
...,...,...,...,...,...
75,"spaghetti, mineral water","olive oil, ground beef,",0.003066,0.216981,3.632981
76,"spaghetti, mineral water","pancakes, ground beef,",0.003066,0.211009,3.532991
77,"spaghetti, mineral water","tomatoes, ground beef,",0.003066,0.261364,4.376091
78,"olive oil,","milk, spaghetti, mineral water",0.003333,0.211864,3.216994


Final output, sorting berdasarkan lift terbesar

In [148]:
df_final.sort_values('lift',ascending=False).head()

Unnamed: 0,lhs,rhs,support,confidance,lift
70,"milk, mineral water","soup, frozen vegetables,",0.003066,0.383333,7.987176
69,"milk, mineral water","olive oil, frozen vegetables,",0.003333,0.294118,6.128268
52,"olive oil,","whole wheat pasta, mineral water,",0.003866,0.402778,6.115863
44,"spaghetti, ground beef","tomato sauce, ,",0.003066,0.216981,5.535971
3,"honey,","fromage blanc, ,",0.003333,0.245098,5.164271


#### Kesimpulan

Dari tabel diatas terlihat bahwa milk, mineral water dan soup, frozen vegetables memiliki nilai support 0,003066 yang artinya memiliki support 0,03%, memiliki confidance 0,383333 yang artinya memiliki kekuatan terhadap association rule sebesar 38%, dan memiliki nilai lift 7,987176 yang menunjukan banyak pembeli milk dan mineral water juga membeli soup dan frozen vegetables.

Akibatnya, jika barang tersebut lebih sering dibeli bersama, beberapa keputusan yang dapat diambil untuk meningkatkan keuntungan. Contohnya melakukan peningkatan cross-selling dengan menggabungkan produk, merubah tata letak toko untuk meningkatkan penjualan jika barang terentu diletakkan dalam jarak yang dekat, dan menawarkan diskon kolektif pada produk jika pelanggan membeli keduanya (Suven, 2020).

#### Referensi : 


Yazgana, P., & Kusakci, A. O. (2016). A literature survey on association rule mining algorithms. Southeast Europe Journal of soft computing, 5(1).

Slimani, T., & Lazzez, A. (2014). Efficient analysis of pattern and association rule mining approaches. arXiv preprint arXiv:1402.2892.

Galárraga, L. A., Teflioudi, C., Hose, K., & Suchanek, F. (2013, May). AMIE: association rule mining under incomplete evidence in ontological knowledge bases. In Proceedings of the 22nd international conference on World Wide Web (pp. 413-422).

Kaur, M., & Kang, S. (2016). Market Basket Analysis: Identify the changing trends of market data using association rule mining. Procedia computer science, 85, 78-85.

Karthikeyan, T., & Ravikumar, N. (2014). A survey on association rule mining. International Journal of Advanced Research in Computer and Communication Engineering, 3(1), 2278-1021.

Al-Maolegi, M., & Arkok, B. (2014). An improved Apriori algorithm for association rules. arXiv preprint arXiv:1403.3948.

Yu, X., & Wang, H. (2014). Improvement of Eclat Algorithm Based on Support in Frequent Itemset Mining. J. Comput., 9(9), 2116-2123.

Zeng, Y., Yin, S., Liu, J., & Zhang, M. (2015). Research of improved FP-Growth algorithm in association rules mining. Scientific Programming, 2015.

Manimaran, J., & Velmurugan, T. (2015). Analysing the quality of association rules by computing an interestingness measures. Indian Journal of Science and Technology, 8(15), 1-12.

Suven, R. (2020). Apriori Algorithm or Market Basket Analysis. Kaggle. https://www.kaggle.com/code/rockystats/apriori-algorithm-or-market-basket-analysis/notebook 