In [1]:
# 연관 분석(association analysis)

# 연관분석은 군집분석에 의해서 그룹핑 된 cluster를 대상으로 하며 그룹에 대한 
# 특성을 분석하는 방법으로 장바구니 분석으로 알려져있다. 
# 즉, 유사한 개체들을 클러스터로 그룹화하여 각 집단의 특성 파악하고, 대용량 데이터베이스에서는 
# 전체 데이터를 유사한 클러스터로 묶어서 관찰 및 분석하는 것이 더 효율적이다.

# 연관규칙의 평가 척도

# 지지도(support) : 전체자료에서 A를 구매한 후 B를 구매하는 거래 비율 
# A->B 지지도 식 : A와 B를 포함한 거래수 / 전체 거래수
    
# 신뢰도(confidence) : A가 포함된 거래 중에서 B를 포함한 거래의 비율(조건부 확률)
# A->B 신뢰도 식 : A와 B를 포함한 거래수 / A를 포함한 거래수

# 향상도(Lift) : 하위 항목들이 독립에서 얼마나 벗어나는지의 정도를 측정한 값
# 향상도 식 : 신뢰도 / B가 포함될 거래율


In [2]:
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import association_rules

In [3]:
# 장바구니 데이터셋 생성하기
dataset=[['사과','치즈','생수'],
         ['생수','호두','치즈','고등어'],
         ['수박','사과','생수'],
         ['생수','호두','치즈','옥수수']]

In [4]:
# mlxten.preprocessing의 TransactionEncoder를 이용한 희소행렬 생성하기
# 해당하는 행에 식료품이 있으면 True 없으면 False로 나타낸다.
te = TransactionEncoder()
te_ary = te.fit_transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,고등어,사과,생수,수박,옥수수,치즈,호두
0,False,True,True,False,False,True,False
1,True,False,True,False,False,True,True
2,False,True,True,True,False,False,False
3,False,False,True,False,True,True,True


In [5]:
# mlxtend.frequent_patterns의 apriori에서 min_support(최소 지지도)가 0.5 이상인
# 목록의 조합들을 frequent_itemsets에 저장한다.
frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True)
frequent_itemsets

Unnamed: 0,support,itemsets
0,0.5,(사과)
1,1.0,(생수)
2,0.75,(치즈)
3,0.5,(호두)
4,0.5,"(생수, 사과)"
5,0.75,"(생수, 치즈)"
6,0.5,"(생수, 호두)"
7,0.5,"(호두, 치즈)"
8,0.5,"(생수, 호두, 치즈)"


In [6]:
# 아래의 결과로 지지도(support), 신뢰도(confidence), 향상도(lift)를 알아볼 수 있다.
rule = association_rules(frequent_itemsets, metric='confidence', min_threshold=0.5)
rule

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(생수),(사과),1.0,0.5,0.5,0.5,1.0,0.0,1.0
1,(사과),(생수),0.5,1.0,0.5,1.0,1.0,0.0,inf
2,(생수),(치즈),1.0,0.75,0.75,0.75,1.0,0.0,1.0
3,(치즈),(생수),0.75,1.0,0.75,1.0,1.0,0.0,inf
4,(생수),(호두),1.0,0.5,0.5,0.5,1.0,0.0,1.0
5,(호두),(생수),0.5,1.0,0.5,1.0,1.0,0.0,inf
6,(호두),(치즈),0.5,0.75,0.5,1.0,1.333333,0.125,inf
7,(치즈),(호두),0.75,0.5,0.5,0.666667,1.333333,0.125,1.5
8,"(생수, 호두)",(치즈),0.5,0.75,0.5,1.0,1.333333,0.125,inf
9,"(생수, 치즈)",(호두),0.75,0.5,0.5,0.666667,1.333333,0.125,1.5
