## 연관성 분석 측정지표
상품 추천, 즉 고객이 함께 많이 구매할 것 같은 상품을 예측하는 데에 가장 많이 활용되는 척도로는 지지도(Support), 신뢰도(Confidence),  향상도(Lift)라는 것이 있다.
- 지지도 : 사과와 우유를 얼마나 함께 구매하는지를 나타내는 지표라고 볼 수 있습니다. 지지도는 좋은 규칙(구성비가 높고 빈도가 많은)을 찾거나 불필요한 연산을 줄이기 위한 기준으로 사용된다. A와 B를 모두 포함하는 거래의 수 / 전체 거래의 수
- 신뢰도 : 사과를 많이 구매한 사람 중 얼마나 많은 사람이 우유도 함께 구매했을까요? 확률을 구해보니 사과를 구매한 사람은 3명이고, 그 중 2명이 우유을 구매했네요. 그럼 여기서 구할 수 있는 신뢰도는 66.7% 이다. 지지도와 달리 confidence(A→B)의 값과 confidence(B→A)의 값이 다르고 값이 1에 가까울수록 연관성이 높다.
- 향상도 : 지지도가 별로 팔리지 않는 상품을 솎아내기 위한 지표였다면 거꾸로 많이 팔리는 인기상품을 골라낼 때 활용되는 것이 향상도입니다. A를 구매하지 않았을 때 품목 B를 구매할 확률 대비 A를 구매했을 때 품목 B의 구매 확률의 증가 비율을 의미한다.(A와 B를 모두 포함하는 거랫의 수 * 전체 거래의수) / (A를 포함하는 거래의 수 * B를 포함하는 거래의 수) 향상도가 1이면 두 품목은 독립이고 1보다 작다면 음의 상관관계로 A를 구매하면 B를 구매하지 않을 확률이 구매할 확률보다 큼을 의미한다. 향상도가 1보다 크면 두 품목은 양의 상관관계로 임의로 B를 구매할 확률보다 A를 구매한 후 B를 구매할 확률이 큼을 의미한다.

In [1]:
!pip install mlxtend

Collecting mlxtend
  Downloading mlxtend-0.18.0-py2.py3-none-any.whl (1.3 MB)
Installing collected packages: mlxtend
Successfully installed mlxtend-0.18.0




In [2]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori

In [3]:
dataset = [['사과','치즈','생수'],
          ['생수','호두','치즈','고등어'],
          ['수박','사과','생수'],
          ['생수','호두','치즈','옥수수']]

te = TransactionEncoder()
te_ary = te.fit_transform(dataset)
df = pd.DataFrame(te_ary,columns=te.columns_)
df

Unnamed: 0,고등어,사과,생수,수박,옥수수,치즈,호두
0,False,True,True,False,False,True,False
1,True,False,True,False,False,True,True
2,False,True,True,True,False,False,False
3,False,False,True,False,True,True,True


In [4]:
# 지지도 0.5
frequent_itemsets = apriori(df,min_support=0.5,use_colnames=True)
frequent_itemsets

Unnamed: 0,support,itemsets
0,0.5,(사과)
1,1.0,(생수)
2,0.75,(치즈)
3,0.5,(호두)
4,0.5,"(생수, 사과)"
5,0.75,"(생수, 치즈)"
6,0.5,"(호두, 생수)"
7,0.5,"(호두, 치즈)"
8,0.5,"(호두, 생수, 치즈)"


In [7]:
# 신뢰도가 0.3
from mlxtend.frequent_patterns import association_rules
association_rules(frequent_itemsets, metric='confidence', min_threshold=0.3)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(생수),(사과),1.0,0.5,0.5,0.5,1.0,0.0,1.0
1,(사과),(생수),0.5,1.0,0.5,1.0,1.0,0.0,inf
2,(생수),(치즈),1.0,0.75,0.75,0.75,1.0,0.0,1.0
3,(치즈),(생수),0.75,1.0,0.75,1.0,1.0,0.0,inf
4,(호두),(생수),0.5,1.0,0.5,1.0,1.0,0.0,inf
5,(생수),(호두),1.0,0.5,0.5,0.5,1.0,0.0,1.0
6,(호두),(치즈),0.5,0.75,0.5,1.0,1.333333,0.125,inf
7,(치즈),(호두),0.75,0.5,0.5,0.666667,1.333333,0.125,1.5
8,"(생수, 호두)",(치즈),0.5,0.75,0.5,1.0,1.333333,0.125,inf
9,"(호두, 치즈)",(생수),0.5,1.0,0.5,1.0,1.0,0.0,inf


In [None]:
# 연관성이 높은 품목
# 호두, 치즈
# (호두,생수),치즈
# 호두,(생수,치즈)

향상도(lift)
- 품목 B를 구매한 고객 대비 품목 A를 구매한 후 품목 B를 구매하는 고객에 대한 확률
- 연관규칙 A -> B는 품목 A와 품목 B가 서로 관련이 없는 경우(독립적인 경우)에 P(B|A)=P(B)이므로 향상도는 1. 연관성이 없는 서로 독립적인 관계
- 향상도가 1보다 크면 이 규칙은 결과를 예측하는데 있어서 우수. 연관성이 높음
- 향상도가 1보다 작으면 우연적 기회보다 도움이 되지 않는다는 의미. 연관성이 없음

[과제]

아래 dataset으로 연관성 분석을 수행하세요.

In [None]:
dataset = [['Milk', 'Onion', 'Nutmeg', 'Eggs', 'Yogurt'],
           ['Onion', 'Nutmeg', 'Eggs', 'Yogurt'],
           ['Milk', 'Apple', 'Eggs'],
           ['Milk', 'Unicorn', 'Corn', 'Yogurt'],
           ['Corn', 'Onion', 'Onion', 'Ice cream', 'Eggs']]