In [1]:
#Apa itu Association Rule mining ?
#Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan aturan assosiatif antara suatu 
#kombinasi item (Mengetahui hubungan antara satu atribut dengan yang lainnya). Contoh aturan assosiatif dari analisa pembelian 
#di suatu pasar swalayan contohnya adalah dapat diketahuinya berapa besar kemungkinan seorang pelanggan membeli roti bersamaan 
#dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayan dapat dengan mudah mengatur penempatan barangnya atau merancang
#kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.

In [2]:
#Hal yang perlu diperhatikan dalam aturan assosiatif ada dua parameter yaitu Support dan Confidence. 
#Support atau nilai penunjang yang merupakan persentase kombinasi item tersebut dalam database  
#Confidence atau nilai kepastian yaitu kuatnya hubungan antar item dalam aturan assosiatif.

In [3]:
#Contoh market basket analytics menggunakan algoritma apriori dengan aturan asosiasi di python — Process Life Cycle:
#1. Define Problem Statement
#-Ruang Lingkup yang digunakan adalah Product Purchases.
#-Permasalahan yang ingin di selesaikan adalah membantu pihak retail dalam menentukan product bundling dan product placement 
#dari data transaksi yang hendak digunakan.
#-Algoritma yang digunakan adalah Algoritma apriori. Algoritma ini digunakan agar komputer dapat mempelajari aturan asosiasi,
#mencari pola hubungan antar satu atau lebih item dalam suatu dataset.
#2. Data Collection
#-Data collection merupkan proses pengumpulan data dari berbagai sumber internal maupun eksternal, dan memastikan bahwa informasi
#pada variable of interest (subjek yang akan dilakukan uji coba) pada data dapat digunakan secara sistematis yang memungkinkan 
#seseorang dapat menjawab pertanyaan yang telah diidentifikasi sebelumnya.
#-Dataset yang digunakan pada project ini merupakan data transaksi penjualan dan distribusi berbagai macam produk dari 
#tangan supplier, distributor kepada kustomer.

In [4]:
#3. Data Modeling
#Data modeling adalah hubungan berbagai elemen data berbeda untuk mengetahui informasi yang dibutuhkan serta menekankan pada 
#data apa yang dibutuhkan dan apa yang akan dilakukan pada data tersebut untuk suatu keperluan bisnis.
#Pada data transaksi penjualan terdapat 4 variable utama yang akan digunakan dalam menyelesaikan project market basket analytics
#menggunakan algoritma apriori dengan aturan asosiasi, yaitu variable provinsi, Invoice No, Product Category dan Quantity.
#Konsep logika database yang digunakan dalam project ini di desain kedalam 3 thapan yaitu Conceptual Design, Logical Design,
#dan Physical Design. Penggambaran desain database ini dibuat berdasarkan aturan DBMS (Database management system).
#4. Data Quality Check and Remediation
#Proses ini merupakan tahap yang berhubungan dengan mendiagnosis serta mengevaluasi masalah kualitas data. Proses ini dekat
#kaitannya dengan melakukan profiling terhadap data, memeriksa kualitas informasi yang terdapat pada data, mengidentifikasi
#dan menghilangkan informasi yang redudant atau kecatatan lainnya yang telah teridentifikasi sebelumnya.
#Pre-coding, beberapa library python yang wajib ada dan digunakan pada project ini diantaranya pandas, mlxtend, dan apyori.
#Data Pre-processing, merupakan proses mengubah data mentah atau biasa dikenal dengan raw data yang dikumpulkan dari berbagai
#sumber menjadi informasi yang lebih bersih dan bisa digunakan untuk pengolahan selanjutnya.

In [5]:
#5. Exploratory Data Analysis
#Secara definitive exploratory data analysis mengacu pada proses kritis dalam melakukan investigasi awal pada data untuk
#menemukan pola, untuk menemukan anomali, untuk menguji hipotesis dan untuk memeriksa asumsi dengan bantuan statistik ringkasan
#dan representasi grafis.
#6. Data mining
#Setelah melakukan EDA, kita dapat lebih memahami kondisi dataset yang dimiliki. Sehingga, kita dapat memulai pembentukan model
#machine learning dengan lebih baik. Pembuatan model machine learning ini dapat masuk kedalam tahap data mining.
#Data mining sendiri adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode
#tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat
#bergantung pada tujuan dan proses data mining secara keseluruhan.
#7. Data Communication
#Proses pengiriman dan penerimaan data secara elektronik dari dua atau lebih alat yang terhubung kedalam sebuah jaringan
#(network) melalui suatu media.
#Interpretation / evalution yang merupakan pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam
#bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang
#ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

In [6]:
#tambahan informasi
#Data Cleansing mencakup proses membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan yang
#ada pada data.

#Data Transformation merupakan proses transformasi pada data yang telah dipilih. Lebih lanjut dari itu, proses transformasi
#data merupakan proses mengubah data kedalam format operasional tertentu, mengkonversi tipe data, melakukan beberapa perhitungan
#,penyaringan data yang tidak relevan, dan meringkasnya (tergantung pada jenis atau pola informasi yang akan dicari dalam basis
#data).

In [7]:
#Setelah anda sudah mengerti mengenai penjelasan Process Life Cycle mari kita masuk ke penjelasan Market Basket Analysis
#Market basket analysis merupakan suatu analisa atas perilaku konsumen secara spesifik dari suatu golongan / kelompok tertentu
#yang bersumber dari data transaksi penjualan barang, kartu kredit, kartu lotere, kupon diskon, maupun panggilan keluhan
#pelanggan. Market basket analysis umumnya dimanfaatkan sebagai titik awal pencarian pengetahuan dari suatu transaksi data
#ketika kita tidak mengetahui pola spesifik apa yang kita cari. Kebutuhan market basket analysis berawal dari keakuratan dan
#manfaat yang dihasilkannya dalam wujud aturan assosiasi (association rules). Yang dimaksud dengan association rules adalah
#pola-pola keterkaitan data dalam basis data.

#Data hasil proses market basket analysis dapat dimanfaatkan untuk menentukan product bundling maupun product placement 
#dari toko retail maupun online yang kita miliki. Pada project kali ini dataset yang digunakan berasal dari data transaksi
#penjualan dan distribusi berbagai macam produk/barang dari tangan supplier, distributor kepada customer tahun 2020 dan 2021.
#Dataset data rental 2 memiliki total 24.998 baris x 23 kolom.

In [8]:
#Pre-Coding
#Pertama, langkah awal yang harus kita lakukan adalah import library python. Beberapa library yang dibutuhkan diantaranya
#pandas, apyori, dan mlxtend. Silahkan melakukan installasi apabila package library belum tersedia dengan cara pip

In [9]:
pip install mlxtend




In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from mlxtend.frequent_patterns import apriori, association_rules
import datetime

In [11]:
#Data Collection
#Berikutnya adalah membaca file excel data_retail2.xlsx menggunakan library pandas. Berikut input serta output dari 
#proses yang ada pada Data Collection kali ini, beserta keterangan variable-variable dari dataset data retail 2.

In [12]:
#import dataset
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Alexander-3112/Excercise-Week-9/main/data_retail2%20utf%208.csv')
df

Unnamed: 0,InvoiceNo,InvoiceDate,BRANCH_SPLR,BRANCHNAME_SPLR,warehouseProductsID,BARCODEID,StockCode,PRODUCT,PRODUCT_CATEGORY,Quantity,...,CustomerID,CUSTNAME,ADDRESS,KOTA,PROVINSI,NEGARA,CHANNELID_SPLR,CHANNELNAME_SPLR,SUBDISTID,SUBDIST_NAME
0,536365,12/1/2020 8:26,13,SAMARINDA,10001,8992753282401,85123A,123 BENDERA COKLAT 300G,SUSU,6,...,17850.0,DUA PUTRI SLAMET RIYADI,JL. SLAMET RIYADI,SAMARINDA,KALIMANTAN TIMUR,INDONESIA,32,Toko Kelontong,130113,CV. EKA PUTRA
1,536365,12/1/2020 8:26,13,SAMARINDA,20020,8999909192034,71053,2.3.4 FILTER,ROKOK,6,...,17850.0,SANURI,JL. M. SAID,SAMARINDA,KALIMANTAN TIMUR,INDONESIA,32,Toko Kelontong,130113,CV. EKA PUTRA
2,536365,12/1/2020 8:26,19,YOGYAKARTA,20021,8999909007147,84406B,234 KERETEK,ROKOK,8,...,17850.0,EMI MBAK,PS. TALUN NO.63,MAGELANG,JAWA TENGAH,INDONESIA,32,Toko Kelontong,190105,PT. KTRI DISTRIBUSI
3,536365,12/1/2020 8:26,13,SAMARINDA,20018,8999909172234,84029G,234 KERETEK 12,ROKOK,6,...,17850.0,RISKA CELL ADAM MALIK,JL. ADAM MALIK,SAMARINDA,KALIMANTAN TIMUR,INDONESIA,32,Toko Kelontong,130113,CV. EKA PUTRA
4,536365,12/1/2020 8:26,19,YOGYAKARTA,20019,8999909005860,84029E,234 KERETEK 16,ROKOK,6,...,17850.0,ABADI MART,JL.GROWONG - PUCUNG REJO MUNTILAN.,MAGELANG,JAWA TENGAH,INDONESIA,42,Mini Market,190105,PT. KTRI DISTRIBUSI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24993,538351,12/10/2020 15:17,45,KUDUS,R1905,8999999192068,22075,ROYKO BUMBU TP GORENG SBG 255G,SUSU,2,...,,DIAN ARTHA (JP-MAYONG LOR),MAYONG LOR RT 01 RW 08,JEPARA,JAWA TENGAH,INDONESIA,32,Toko Kelontong,450202,CV. CAHYO SELAMANYA
24994,538351,12/10/2020 15:17,19,YOGYAKARTA,R1906,8999999195052,22077,ROYKO CHICKEN 1000G,SUSU,11,...,,KEVIN SHOP,JL SOBO - MAGUWOHARJO,SLEMAN,DI YOGYAKARTA,INDONESIA,32,Toko Kelontong,190104,PT. SUMBER KASIH PANGAN
24995,538351,12/10/2020 15:17,32,TEGAL,R1247,8995207801630,22078,RTG CINDY DALAM 16CM SS-4 OWL,SABUN & SAMPHOO,2,...,,AZKA KARANGANYAR,JL RY KARANGANYAR KAJEN NO 22,PEKALONGAN,JAWA TENGAH,INDONESIA,42,Mini Market,280305,PT. KERAMATWATU MAKMUR
24996,538351,12/10/2020 15:17,11,BANJARMASIN,R1873,89928349,22080,RUDY H.GEL 150 NORMAL,SUSU,1,...,,"ANIS Z, KIOS",JL.KUIN CERUCUK,KOTA BANJARMASIN,KAL-SEL,INDONESIA,32,Toko Kelontong,110121,PT. SEJAHTRA MAKMUR SELALU


In [13]:
#Variable-variable dalam dataset yang digunakan:

#InvoiceDate = Tanggal dan waktu pembelian barang
#BRANCH_SPLR = ID dari cabang suplier
#BRANCHNAME_SPLR = Merupakan kota cabang dari suplier
#warehouseProductsID = Merupakan kode Gudang stok dari sebuah barang
#BARCODEID = Merupakan kode barcode distribusi dari sebuah barang
#StockCode = Merupakan kode stok dari sebuah barang
#PRODUCT = Deskripsi dari produk
#PRODUCT_CATEGORY = Kategori dari produk
#Quantity = Jumlah barang yang dibeli pada sebuah transaksi
#UnitPrice = Harga per unit barang dalam satuan dolar
#UnitPriceRupiah = Harga per unit barang dalam satuan rupiah
#oldCUSTID = ID lama dari pelanggan
#CustomerID = ID dari pelanggan
#CUSTNAME = Nama dari pelanggan
#ADDRESS = Deskripsi alamat
#KOTA = Deskripsi kota
#PROVINSI = Deskripsi provinsi
#NEGARA = Deskripsi Negara
#CHANNELID_SPLR = ID dari suplier
#CHANNELNAME_SPLR = Jenis channel suplier
#SUBDISTID = ID dari distributor
#SUBDIST_NAME = Nama dari distributor


In [14]:
#setelah mengimport dataset kita akan masuk ke tahap Data Pre Processing

#Data pre-processing merupakan proses mengubah data mentah atau biasa dikenal dengan raw data yang dikumpulkan dari berbagai
#sumber menjadi informasi yang lebih bersih dan bisa digunakan untuk pengolahan selanjutnya. Dalam proses data pre-processing
#terdapat istilah data cleansing dan data transformation. Pada tahap data cleansing atau membersihkan data hal yang dilakukan
#diantaranya menghapus variable tertentu di kolom invoiceNO yang kosong, menghilangkan transaksi yang diawali dengan huruf C 
#pada kolom atau attribute invoiceNo. Untuk tahap data transformation prosesnya lebih dekat dengan mengubah data kedalam format 
#operasional tertentu, mengkonversi tipe data, melakukan beberapa perhitungan, penyaringan data yang tidak relevan, dan 
#meringkasnya. Beberapa proses yang dilakukan pada tahap ini adalah mengganti tipe data pada kolom periode menjadi format 
#datetime, melakukan grouping kolom InvoiceNo, PRODUCT_CATEGORY, Quantity, dan Province (dikarenakan 4 variable atau kolom 
#tersebutlah yang akan digunakan dalam penerapan aassociation rule ini), dan melakukan proses encoding. Proses encoding sendiri 
#singkatnya adalah proses mengubah data ke dalam bentuk angka, agar sistem atau komputer dapat memahami informasi dari dataset.
#Contohnya dimana jika barang kurang dari sama dengan 0 maka sistem perhitungan keranjang tersebut akan bernilai 0 dan jika 
#nilai lebih dari 1 maka sistem perhitungan kerjang akan memberi output (nilai ) 1, sehingga jika sebuah nota membeli barang A
#sebanyak 10 buah maka hanya akan dihitung 1.

In [15]:
#remove missing value
df['CustomerID'].replace([np.nan],df['CustomerID'].mode()[0],inplace = True)
df['ADDRESS'].replace([np.nan],df['ADDRESS'].mode()[0],inplace = True)
df['KOTA'].replace([np.nan],df['KOTA'].mode()[0],inplace = True)
df['PROVINSI'].replace([np.nan],df['PROVINSI'].mode()[0],inplace = True)

In [16]:
#Data cleansing
#check missing value
import pandas as pd
import seaborn as sns
df.isna().sum()

InvoiceNo              0
InvoiceDate            0
BRANCH_SPLR            0
BRANCHNAME_SPLR        0
warehouseProductsID    0
BARCODEID              0
StockCode              0
PRODUCT                0
PRODUCT_CATEGORY       0
Quantity               0
UnitPrice              0
UnitPriceRupiah        0
oldCUSTID              0
CustomerID             0
CUSTNAME               0
ADDRESS                0
KOTA                   0
PROVINSI               0
NEGARA                 0
CHANNELID_SPLR         0
CHANNELNAME_SPLR       0
SUBDISTID              0
SUBDIST_NAME           0
dtype: int64

In [17]:
#Mengganti kolom PERIODE menjadi tipe data datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

In [18]:
#Membersihkan space di deskripsi produk,produk kategori
df['PRODUCT'] = df['PRODUCT'].str.strip()
df['PRODUCT_CATEGORY'] =df['PRODUCT_CATEGORY'].str.strip()

In [19]:
#menghapus variable InvoicenNO yang diawali huruf C pada sumbernya
df['InvoiceNo'] = df['InvoiceNo'].astype('str')
df = df[~(df['InvoiceNo'].str[0] == 'C')]

In [20]:
#transformasi data
basket =(df[df['PROVINSI'] == "JAWA TENGAH"].groupby(['InvoiceNo','PRODUCT_CATEGORY'])
         ['Quantity'].count().unstack().reset_index() .fillna(0).set_index('InvoiceNo'))
basket.head()

PRODUCT_CATEGORY,ALAT LISTRIK,ALAT RUMAH TANGGA,BEER,BERAS,BISKUIT,BUMBU,COKELAT,DETERGEN,DIET FOOD,ELEKTRONIK,...,SEMIR SEPATU,SLAI/JAM,SNACK,STATIONERY,SUSU,SYRUP,TANDAS,TEH & KOPI,TEPUNG,TISSUE
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
536367,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
536368,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
536370,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
536371,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
536373,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [21]:
#menunjukan subset dari columns
basket.iloc[:,[0,1,2,3,4,5,6,7]].head()

PRODUCT_CATEGORY,ALAT LISTRIK,ALAT RUMAH TANGGA,BEER,BERAS,BISKUIT,BUMBU,COKELAT,DETERGEN
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
536367,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
536368,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
536370,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
536371,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
536373,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [22]:
#Melakukan proses encoding -> Mengubah data ke bentuk angka
def encode_units(x):
    if x <= 0:
        return 0
    if x>=1:
        return 1
basket_sets = basket.applymap(encode_units)
basket_sets.head(5)

PRODUCT_CATEGORY,ALAT LISTRIK,ALAT RUMAH TANGGA,BEER,BERAS,BISKUIT,BUMBU,COKELAT,DETERGEN,DIET FOOD,ELEKTRONIK,...,SEMIR SEPATU,SLAI/JAM,SNACK,STATIONERY,SUSU,SYRUP,TANDAS,TEH & KOPI,TEPUNG,TISSUE
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
536367,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
536368,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
536370,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
536371,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
536373,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [23]:
#Apa itu Data Mining ?
#Data mining atau dapat dikenal dengan istilah data exploration, merupakan proses mencari pola atau informasi menarik dalam 
#data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat
#bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses data mining secara keseluruhan.

In [24]:
#Sekarang kita akan masuk ke tahap Data Mining
#Pada tahap ini kita dapat membuat variable dimana terdiri dari beberapa barang yang sering terbeli atau ada pada transaksi
#menggunakan perintah apriori. Dengan data yang digunakan berasal dari dataframe basket_Sets

In [25]:
frequent_itemsets = apriori(basket_sets,min_support=0.05,use_colnames = True)
frequent_itemsets



Unnamed: 0,support,itemsets
0,0.164159,(ALAT RUMAH TANGGA)
1,0.183311,(BISKUIT)
2,0.091655,(BUMBU)
3,0.071135,(COKELAT)
4,0.099863,(DETERGEN)
5,0.180575,(KOSMETIK)
6,0.05472,(MIE)
7,0.202462,(MINUMAN)
8,0.132695,(OBATAN)
9,0.050616,(PAMPERS)


In [26]:
#Aturan assosiatif biasanya dinyatakan dalam bentuk : {roti, mentega} {susu} (support = 40%, confidence = 50%).
#Yang artinya : “50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari
#seluruh transaksi yang ada di database memuat ketiga item itu.”

#Dapat juga diartikan : “Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. 
#Aturan ini cukup signifikan karena mewakili 40% dari catatan transaksi selama ini”.

#Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk 
#support (minimum support) dan syarat minimum untuk confidence (minimum confidence).

In [27]:
#Selanjutnya adalah membangun sebuah variabel function yang memiliki aturan aturan asosiasi dari masing-masing barang,
#variabel rules merupakan hasil dari fungsi yang mencari asosiasi dimana data yang di gunakan berasal dari frequent_items,
#dengan nilai minium threshold dari metric lift ratio nya adalah 1.

In [28]:
rules1 = association_rules(frequent_itemsets,metric="lift",min_threshold=1)
rules1.head() #ada 9 columns

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(BISKUIT),(MINUMAN),0.183311,0.202462,0.05472,0.298507,1.474385,0.017606,1.136915
1,(MINUMAN),(BISKUIT),0.202462,0.183311,0.05472,0.27027,1.474385,0.017606,1.119167
2,(MINUMAN),(KOSMETIK),0.202462,0.180575,0.05472,0.27027,1.496724,0.01816,1.122916
3,(KOSMETIK),(MINUMAN),0.180575,0.202462,0.05472,0.30303,1.496724,0.01816,1.144293
4,(KOSMETIK),(PARFUM),0.180575,0.157319,0.062927,0.348485,2.215152,0.03452,1.293418


In [29]:
#Berikut adalah tambahan penjelasan mengenai materi ini
#Support atau nilai dukungan adalah probabilitas pelanggan membeli beberapa produk secara bersamaan dari seluruh transaksi.

#Confidence atau tingkat kepercayaan merupakan probabilitas kejadian beberapa produk dibeli secara bersamaan, dimana salah 
#satu produk sudah pasti dibeli.

#Minimum Support merupakan parameter yang digunakan sebagai batasan frekuensi kejadian atau support count yang harus dipenuhi
#3oleh suatu kelompok data untuk dijadikan aturan.

#Minimum Confidence adalah parameter yang mendefinisikan minimum level dari confidence yang harus dipenuhi oleh aturan
#yang berkualitas. 

#Itemset yaitu kelompok produk.

#Support Count adalah frekuensi kejadian untuk sebuah kelompok produk atau itemset dari seluruh transaksi.

#Minimum threshold adalah nilai batas ambang yang harus diperoleh untuk mendapatkan perwakilan produk-produk yang dibeli bersamaan.

#Lift rasio adalah jenis pengujian yang digunakan untuk melihat kuat tidaknya aturan asosiasi dalam data mining khususnya 
#pada Algoritma A Priori. Lift sendiri sebenarnya adalah sebuah angka ratio yang menunjukkan berapa banyak kemungkinan menemukan
#sebuah atribut yang muncul bersamaan dengan atribut lainnya dibandingkan dengan seluruh kejadian adanya atribut yang terpenuhi.
#Nilai lift ratio lebih besar dari 1 menunjukkan adanya manfaat dari aturan tersebut. Lebih tinggi nilai lift ratio, lebih 
#besar kekuatan asosiasi.

#Leverage adalah nilai yang mengukur banyaknya item antecedent dan consequence yang dijual secara bersamaan dalam 
#suatu data set yang lebih dari yang diharapkan. Nilai 0 menunjukkan antecedent dan consequent independent.

#Conviction adalah perhitungan untuk menentukan nilai akurasi minimum pada metode association rules.Nilai range pada 
#conviction ini berada pada 0.5 sampai 1 sampai ∞ atau tak hingga. Dengan ketentuan conviction dianggap memiliki nilai 
#tak hingga (infinite) apabila nilai dari confidence (A→B) sama dengan 1. Jika conviction menghasilkan nilai rules yang
#semakin menjauh dari 1 bahkan sampai tak hingga, maka akan di anggap semakin akurat.

In [30]:
#Kemudian selanjutnya adalah melakukan filter untuk nilai lift ratio minimal adalah 1 dan tingkat confidence minimal 0.01
result1 = rules1[(rules1['lift'] >= 1) & (rules1['confidence'] >= 0.01)]
apr_result = result1.sort_values(by ='confidence',ascending = False)
apr_result.head(20)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
8,(OBATAN),(MINUMAN),0.132695,0.202462,0.058824,0.443299,2.189537,0.031958,1.432614
5,(PARFUM),(KOSMETIK),0.157319,0.180575,0.062927,0.4,2.215152,0.03452,1.365709
13,(PARFUM),(SABUN & SAMPHOO),0.157319,0.165527,0.062927,0.4,2.416529,0.036887,1.390789
6,(SABUN & SAMPHOO),(KOSMETIK),0.165527,0.180575,0.064295,0.38843,2.151077,0.034406,1.339871
12,(SABUN & SAMPHOO),(PARFUM),0.165527,0.157319,0.062927,0.380165,2.416529,0.036887,1.359526
7,(KOSMETIK),(SABUN & SAMPHOO),0.180575,0.165527,0.064295,0.356061,2.151077,0.034406,1.295888
4,(KOSMETIK),(PARFUM),0.180575,0.157319,0.062927,0.348485,2.215152,0.03452,1.293418
11,(SUSU),(MINUMAN),0.158687,0.202462,0.051984,0.327586,1.61801,0.019855,1.186082
3,(KOSMETIK),(MINUMAN),0.180575,0.202462,0.05472,0.30303,1.496724,0.01816,1.144293
0,(BISKUIT),(MINUMAN),0.183311,0.202462,0.05472,0.298507,1.474385,0.017606,1.136915


In [31]:
#Dari result table yang telah di filter, dapat kita tarik kesimpulan bahwa produk-produk yang dibeli secara bersamaan
#oleh customer di daerah JAWA TENGAH terhadap rule asosiasi pada dataset dengan min_support 0.05, min_threshold = 1, 
#dan nilai lift sebesar lebih dari sama dengan 1 adalah
#kosmetik dengan parfum
#susu dengan minuman
#obatan dengan minuman 
#dan seterusnya


#Yang mana nilai conviction dari hasil-hasil yang didapat bernilai lebih dari 1, artinya hasil nilai rules yang dibangun
#dapat di anggap akurat.