# 연관성 분석 간단 코드 

- 지지도 (Support) : 두 항목 X와 Y의 지지도는 전체 거래 건수 중에서 항목집합 X와 Y를 모두 포함하는 거래 건수의 비율을 말합니다.   
지지도는 좋은 규칙(빈도가 많은, 구성비가 높은)을 찾거나, 불필요한 연산을 줄일 때(prunning, 가지치기)의 기준으로 사용합니다.
- 신뢰도 (Confidence): : 항목집합 X를 포함하는 거래 중에서 항목집합 Y도 포함하는 거래 비율 (조건부 확률) 을 말합니다.  
신뢰도가 높을 수록 유용한 규칙일 가능성 높다고 할 수 있습니다.
-향상도 (Lift): 항목집합 X가 주어지지 않았을 때의 항목집합 Y의 확률 대비 항목집합 X가 주어졌을 대 항목집합 Y의 확률 증가 비율을 말합니다. 
다른말로 표현하자면, 향상도가 1보다 크거나(+관계) 작다면(-관계) 우연적 기회(random chance)보다 우수함을 의미합니다. 
(X와 Y가 서로 독립이면 Lift = 1)

In [2]:
!pip install mlxtend

Collecting mlxtend
  Downloading https://files.pythonhosted.org/packages/c0/ca/54fe0ae783ce81a467710d1c5fb41cfca075121139b48327b807020dc40c/mlxtend-0.16.0-py2.py3-none-any.whl (1.3MB)
Installing collected packages: mlxtend
Successfully installed mlxtend-0.16.0


In [3]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori

In [4]:
dataset=[['사과','치즈','생수'],
['생수','호두','치즈','고등어'],
['수박','사과','생수'],
['생수','호두','치즈','옥수수']]
 

In [5]:
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_) 
#위에서 나온걸 보기 좋게 데이터프레임으로 변경

In [6]:
df.head(10)

Unnamed: 0,고등어,사과,생수,수박,옥수수,치즈,호두
0,False,True,True,False,False,True,False
1,True,False,True,False,False,True,True
2,False,True,True,True,False,False,False
3,False,False,True,False,True,True,True


In [14]:
frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True) 
#base rule을 구함 

frequent_itemsets 
#usage : apriori(df, min_support=0.5, use_colnames=False, max_len=None, verbose=0)

Unnamed: 0,support,itemsets
0,0.5,(사과)
1,1.0,(생수)
2,0.75,(치즈)
3,0.5,(호두)
4,0.5,"(생수, 사과)"
5,0.75,"(생수, 치즈)"
6,0.5,"(생수, 호두)"
7,0.5,"(호두, 치즈)"
8,0.5,"(호두, 생수, 치즈)"


In [20]:
from mlxtend.frequent_patterns import association_rules
association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3) 
# usage: association_rules(['df', "metric='confidence'", 
# 'min_threshold=0.8', 'support_only=False'])

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(생수),(사과),1.0,0.5,0.5,0.5,1.0,0.0,1.0
1,(사과),(생수),0.5,1.0,0.5,1.0,1.0,0.0,inf
2,(생수),(치즈),1.0,0.75,0.75,0.75,1.0,0.0,1.0
3,(치즈),(생수),0.75,1.0,0.75,1.0,1.0,0.0,inf
4,(생수),(호두),1.0,0.5,0.5,0.5,1.0,0.0,1.0
5,(호두),(생수),0.5,1.0,0.5,1.0,1.0,0.0,inf
6,(호두),(치즈),0.5,0.75,0.5,1.0,1.333333,0.125,inf
7,(치즈),(호두),0.75,0.5,0.5,0.666667,1.333333,0.125,1.5
8,"(생수, 호두)",(치즈),0.5,0.75,0.5,1.0,1.333333,0.125,inf
9,"(치즈, 호두)",(생수),0.5,1.0,0.5,1.0,1.0,0.0,inf
