In [1]:
# 연관규칙분석 알고리즘
# 1. Apriori
# 2. FP-Growth
# 3. DHP

# 규칙 판단 지표
# 1. 지지도(Support) - A와 B가 함께 등장할 확률
# 2. 신뢰도(Confidence) - A를 포함하는 거래에 A와 B가 함께 등장할 확률
# 3. 향상도(Lift) - B가 등장할 확률에 비해 A가 주어졌을때 B가 등장할 확률의 증가 비율


# 1. Apriori
# Apriori 알고리즘은 구현이 비교적 간단하고 높은 수준의 성능을 보인다

In [1]:
# 필요한 모듈 import 
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

In [5]:
# 데이터셋 생성

dataset = [['Milk', 'Onion', 'Nutmeg', 'Eggs', 'Yogurt'],
           ['Onion', 'Nutmeg', 'Eggs', 'Yogurt'],
           ['Milk', 'Apple', 'Eggs'],
           ['Milk', 'Unicorn', 'Corn', 'Yogurt'],
           ['Corn', 'Onion', 'Onion', 'Ice cream', 'Eggs']]

dataset

[['Milk', 'Onion', 'Nutmeg', 'Eggs', 'Yogurt'],
 ['Onion', 'Nutmeg', 'Eggs', 'Yogurt'],
 ['Milk', 'Apple', 'Eggs'],
 ['Milk', 'Unicorn', 'Corn', 'Yogurt'],
 ['Corn', 'Onion', 'Onion', 'Ice cream', 'Eggs']]

In [15]:
# 데이터 가공
# fit 함수를 통해 dataset은 고유한 라벨을 갖게 되고,
# transfrom 함수를 통해 파이썬 리스트를 원핫인코딩 된 넘파이 배열로 변환
# 각 아이템들을 컬럼으로 갖고, 아이템 유무에 따라 True, False로 표현
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)

# 결과를 데이터 프레임으로 변환
df = pd.DataFrame(te_ary, columns=te.columns_)
df


Unnamed: 0,Apple,Corn,Eggs,Ice cream,Milk,Nutmeg,Onion,Unicorn,Yogurt
0,False,False,True,False,True,True,True,False,True
1,False,False,True,False,False,True,True,False,True
2,True,False,True,False,True,False,False,False,False
3,False,True,False,False,True,False,False,True,True
4,False,True,True,True,False,False,True,False,False


In [16]:
# Apriori 활용
# 최소지지도가 0.5 이상인 규칙만 보기

frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True)
frequent_itemsets


Unnamed: 0,support,itemsets
0,0.8,(Eggs)
1,0.6,(Milk)
2,0.6,(Onion)
3,0.6,(Yogurt)
4,0.6,"(Eggs, Onion)"


In [20]:
association_rules(frequent_itemsets, metric="confidence", min_threshold=0.5)
# 신뢰도를 기준으로 최소 0.5 이상의 신뢰도를 가지는 규칙 파악
# Eggs를 산 사람 중 0.75가 Onion을 함께 샀다
# Onion을 산 사람 모두(1)가 Eggs를 함께 샀다

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Eggs),(Onion),0.8,0.6,0.6,0.75,1.25,0.12,1.6
1,(Onion),(Eggs),0.6,0.8,0.6,1.0,1.25,0.12,inf


In [22]:
association_rules(frequent_itemsets, metric="lift", min_threshold=1)
# 향상도를 기준으로 최소 1 이상의 향상도를 가지는 규칙 파악
# 그냥 Onion을 살 확률보다 Eggs를 샀을때 Onion을 살 확률이 1.25
# 그냥 Eggs를 살 확률보다 Onion을 샀을때 Eggs를 살 확률이 1.25

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Eggs),(Onion),0.8,0.6,0.6,0.75,1.25,0.12,1.6
1,(Onion),(Eggs),0.6,0.8,0.6,1.0,1.25,0.12,inf
