### 연관성 분석에서 사용하는 3가지 평가지표 - 지지도, 신뢰도, 향상도
  * 지지도(Support)
    - `전체 거래 횟수 중` X와 Y의 거래가 동시에 일어날 확률
        <img src = "https://wikimedia.org/api/rest_v1/media/math/render/svg/6d1f632148b616364382152fa30ea18e3f30a552">

    - `전체 거래 횟수 중 연관성` 규칙을 구성하는 항목들이 포함된 거래의 비율<br/>

  $$ 지지도 = \frac{조건과 결과 항목을 포함하는 거래수}{전체 거래수}$$
  
    - 빈도가 낮으면 지지도가 낮다 또는 의미가 낮기 때문에 어느 정도의 지지도를 유지하는 항목 중에서 연관성 규칙을 도출하는 것이 바람직
    
  * 신뢰도(Confidence) 
    - `X를 포함하는 거래 중` X와 Y가 동시에 거래되는 확률
    <img src = "https://wikimedia.org/api/rest_v1/media/math/render/svg/7460195574ac66557dcd39848a169e6b468d46a5">
    - 조건이 발생했을 때 결과가 동시에 일어날 확률, 신뢰도가 1에 가까울수록 의미있는 연관성을 가짐
  $$ 신뢰도 = \frac{조건과 결과 항목을 포함하는 거래수}{조건 항목을 포함하는 거래수}$$
    - 신뢰도는 조건을 포함하는 거래 중 연관성 규칙이 얼마나 빈번히 발생하는지 확인할 수 있는 지표 
   
  * 향상도(Lift) 
   - X라는 상품에서 신뢰도가 동일한 상품 Y와 Z가 존재할 경우, 어떤 상품을 추천해야 좋을지 판단    
    <img src = "https://wikimedia.org/api/rest_v1/media/math/render/svg/b6bfa25f817a13d911d1705766a5490d60d4f598"><br/>
   - 모든 항목에 표시되는 항목(= 우연히 발생할 확률)을 감안해 산출하는 지표
      $$ 향상도 = \frac{연관성 규칙의 지지도}{조건의 지지도 * 결과의 지지도}$$
      

**>> 지지도를 기준으로 데이터를 가져와 특정치 이상의 값을 가진 신뢰도의 아이템을 추천할 때, 동일한 신뢰도를 가진 아이템 중 향상도가 큰 아이템을 추천한다.**
    

|조건|해석|
|-----|-----|
|lift = 1| 두 품목이 서로 독립적인 관계|
|lift > 1| 두 품목이 서로 양의 상관 관계이면, 동시에 구매할 가능성이 높음|
|lift < 1| 두 품목이 서로 음의 상관 관계이면, 동시에 구매할 가능성이 낮음|


* 참고 : https://en.wikipedia.org/wiki/Association_rule_learning

### 연관성 분석에서 사용하는 3가지 평가지표에 대한 이해

<center>

| 구매ID   | 구매목록                                       | 
|:--------------|:--------------------------------------------|
| 1            | {우유, 빵, 과일}                   | 
| 2            | {우유, 버터}                           |   
| 3            | {버터, 달걀}                            |  
| 4            | {우유, 빵, 버터}                 | 
| 5            | {우유, 빵, 기저귀, 버터, 과일} |   
| 6            | {빵, 기저귀, 과일}                  |
| 7            | {빵, 과일, 기저귀}                  | 

</center>

* 위의 표에서 7개의 구매ID별로 구매목록을 확인할 수 있습니다. 그리고 이것은 다음과 같이 우리의 아이템을 아이템 세트로 나타낼 수 있습니다.

$$I=\{i_1, i_2,..., i_k\}$$

$$I=\{우유, 빵, 과일, 버터, 달걀, 기저귀\}$$

* **트랜잭션**은 다음과 같은 식으로 표시됩니다.

$$T=\{t_1, t_2,..., t_n\}$$
$$t_1=\{우유, 빵, 과일\}$$

* 그런 다음 **연결 규칙**이 다음과 같은 형식의 함축으로 정의됩니다.

<center> $X \Rightarrow Y$, where $X \subset I$, $Y \subset I$ and $X \cap Y = 0$ </center>

$$\{우유, 빵\} \Rightarrow \{과일\}$$

## 지지도(Support)
  - 지지도(Support)는 데이터 세트에 항목 세트가 나타나는 빈도를 나타냅니다.
$$supp(X \Rightarrow Y)=\dfrac{|X \cup Y|}{n}$$

* $supp(빵 \Rightarrow 우유)=\dfrac{3}{7}=43 \%$

* $supp(빵 \Rightarrow 과일)=\dfrac{4}{7}= 57 \%$

* $supp(우유 \Rightarrow 과일)=\dfrac{2}{7}=28 \%$

* $supp(\{우유, 빵\} \Rightarrow \{과일\})=\dfrac{2}{7}=28 \%$

## 신뢰도(Confidence)
  -  Y를 X와 함께 구입하는 백분율로, 그것은 그 규칙이 얼마나 자주 사실로 밝혀졌는지를 보여주는 지표입니다.
$$conf(X \Rightarrow Y)=\dfrac{supp(X \cup Y)}{supp(X)}$$

  - 예를 들어, 규칙 우유의 신뢰도는 3/4이므로 우유를 포함하는 거래의 75%에 대해서는 규칙이 정확합니다(고객이 우유를 구매하는 경우의 75%는 빵도 구매함). 세 가지 예가 더 있습니다.

* $conf(빵 \Rightarrow 과일)=\dfrac{4/7}{5/7}= 80 \%$

* $conf(우유 \Rightarrow 과일)=\dfrac{2/7}{4/7}=50 \%$

* $conf(\{우유, 빵\} \Rightarrow \{과일\})=\dfrac{2/7}{3/7}=66 \%$

## 향상도(Lift)
  - 규칙의 향상도(Lift)는 X와 Y가 독립적일 경우 예상되는 것에 대한 관측된 지지 비율이며, 다음과 같이 정의됩니다.
$$lift(X \Rightarrow Y)=\dfrac{supp(X \cup Y)}{supp(X)supp(Y) }$$

  - 상승 값이 클수록 연관성이 강하다는 것을 나타냅니다. 몇 가지 예를 살펴보겠습니다.

* $lift(우유 \Rightarrow 빵)=\dfrac{3/7}{(4/7)(5/7)}= 1.05$

* $lift(빵 \Rightarrow 과일)=\dfrac{4/7}{(5/7)(4/7)}= 1.4$

* $lift(우유 \Rightarrow 과일)=\dfrac{2/7}{(4/7)(4/7)}=0.875$

* $lift(\{우유, 빵\} \Rightarrow \{과일\})=\dfrac{2/7}{(3/7)(4/7)}=1.17$

## Conviction
  - Conviction은 X와 Y가 독립적일 경우 Y 없이 발생할 것으로 예상되는 X 빈도를 관측된 잘못된 예측 빈도로 나눈 비율로 해석할 수 있고, 다음과 같이 정의됩니다.
 $$conv(X \Rightarrow Y)=\dfrac{1-supp(Y)}{1-conf(X \Rightarrow Y) }$$

  -  높은 값은 결과가 선행 사건에 크게 좌우된다는 것을 의미합니다. 몇 가지 예를 살펴보겠습니다.

* $conv(우유 \Rightarrow 빵)= \dfrac{1-5/7}{1-3/4}=1.14$

* $conv(빵 \Rightarrow 과일)= \dfrac{1-4/7}{1-4/5}=2.14$

* $conv(우유 \Rightarrow 과일)=\dfrac{1-4/7}{1-1/2}=0.86$

* $conv(\{우유, 빵\} \Rightarrow \{과일\})=\dfrac{1-4/7}{1-2/3}=1.28$


In [2]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

## 데이터 불러오기
* 구매영수증이 다음과 같다고 가정합니다.

<center>

| 구매ID   | 구매목록                                       | 
|:--------------|:--------------------------------------------|
| 1            | {우유, 빵, 과일}                   | 
| 2            | {우유, 버터}                           |   
| 3            | {버터, 달걀}                            |  
| 4            | {우유, 빵, 버터}                 | 
| 5            | {우유, 빵, 기저귀, 버터, 과일} |   
| 6            | {빵, 기저귀, 과일}                  |
| 7            | {빵, 과일, 기저귀}                  | 

</center>

* 구매영수증을 통해 다양한 규칙을 찾아볼 수 있습니다.
  1. 우유, 빵 >> 과일
  2. 버터 >> 달걀, 과일
  3. 빵 >> 과일, 기저귀
  * 구매목록의 아이템이 중복없이 최대 6개이기 때문에 조건은 최대 5개까지 올 수 있습니다.


In [3]:
data = [
        ['우유', '빵', '과일'],
        ['우유', '버터'],
        ['버터', '달걀'],
        ['우유', '빵', '버터'],
        ['우유', '빵', '기저귀', '버터', '과일'],
        ['빵', '기저귀', '과일'],
        ['빵', '과일', '기저귀'],
        ]

In [4]:
te = TransactionEncoder()
te_ary = te.fit_transform(data)
te_ary

array([[ True, False, False, False,  True,  True],
       [False, False, False,  True, False,  True],
       [False, False,  True,  True, False, False],
       [False, False, False,  True,  True,  True],
       [ True,  True, False,  True,  True,  True],
       [ True,  True, False, False,  True, False],
       [ True,  True, False, False,  True, False]])

In [10]:
te_ary = te_ary.astype(int)
te_ary

array([[1, 0, 0, 0, 1, 1],
       [0, 0, 0, 1, 0, 1],
       [0, 0, 1, 1, 0, 0],
       [0, 0, 0, 1, 1, 1],
       [1, 1, 0, 1, 1, 1],
       [1, 1, 0, 0, 1, 0],
       [1, 1, 0, 0, 1, 0]])

In [11]:
te.columns_

['과일', '기저귀', '달걀', '버터', '빵', '우유']

In [12]:
te.inverse_transform(te_ary)

[['과일', '빵', '우유'],
 ['버터', '우유'],
 ['달걀', '버터'],
 ['버터', '빵', '우유'],
 ['과일', '기저귀', '버터', '빵', '우유'],
 ['과일', '기저귀', '빵'],
 ['과일', '기저귀', '빵']]

In [17]:
item = pd.DataFrame(te_ary, columns=te.columns_)
item

Unnamed: 0,과일,기저귀,달걀,버터,빵,우유
0,1,0,0,0,1,1
1,0,0,0,1,0,1
2,0,0,1,1,0,0
3,0,0,0,1,1,1
4,1,1,0,1,1,1
5,1,1,0,0,1,0
6,1,1,0,0,1,0


## 규칙 생성 및 선택 기준


### apriori를 이용하여 결과 선택 및 필터링
* 매개변수
  * df : pandas 데이터 프레임
    - pandas DataFrame은 인코딩된 형식으로 희소 데이터가 있는 DataFrame도 지원 

  * min_support : float (기본값: 0.5)
    - 반환된 항목 집합의 최소 지지도를 위한 0과 1 사이의 부동 소수점

  * use_colnames : bool (기본값: False)
  - True인 경우 열 인덱스 대신 반환된 DataFrame에서 DataFrame의 열 이름을 사용

  * max_len : int (기본값: 없음)
  - 생성된 항목 집합의 최대 길이로 기본값인 None로 설정되면, 가능한 모든 항목 집합 길이(Apriori 조건에서)가 평가

  * verbose : int (기본값: 0)
    - low_memory > = 1 이고 True인 경우 반복 횟수 표시
    - low_memory = 1 이고 False인 경우 조합수 표시

  * low_memory : bool (기본값: False)
    - True이면 반복기를 사용하여 min_support 위의 조합을 검색(메모리가 부족할 때 유의)
    - 구현 속도는 기본값보다 약 3~6배 느리기 때문에 메모리 리소스가 제한된 경우에만 True를 사용

* API Document: http://rasbt.github.io/mlxtend/api_subpackages/mlxtend.frequent_patterns/#apriori

In [19]:
item_apriori = apriori(item, use_colnames=True, min_support=0.2)
item_apriori

Unnamed: 0,support,itemsets
0,0.571429,(과일)
1,0.428571,(기저귀)
2,0.571429,(버터)
3,0.714286,(빵)
4,0.571429,(우유)
5,0.428571,"(기저귀, 과일)"
6,0.571429,"(과일, 빵)"
7,0.285714,"(우유, 과일)"
8,0.428571,"(기저귀, 빵)"
9,0.285714,"(버터, 빵)"


### association_rules
* 평가지표인 '지지도(Support)', '신뢰도(Confidence)' 및 '상승도(Lift)'를 포함하는 연관 규칙의 DataFrame을 생성
* 매개변수
  * metric : 기본값 "confidence"(신뢰도)
    - 규칙이 관심 있는지 여부를 평가할 메트릭
      * support(A->C) = support(A+C) [aka 'support'], range: [0, 1]
      * confidence(A->C) = support(A+C) / support(A), range: [0, 1]
      * lift(A->C) = confidence(A->C) / support(C), range: [0, inf]
      * leverage(A->C) = support(A->C) - support(A)*support(C),
range: [-1, 1]
      * conviction = [1 - support(C)] / [1 - confidence(A->C)],
range: [0, inf]
    - support_only=True인 경우 자동으로 'support'로 설정, 그렇지 않으면 지원되는 측정 기준은 'support', 'confidence', 'lift'
     
  * min_threshold : float (기본값: 0.8)
    - metric 매개변수를 통해 평가 메트릭에 대한 최소 임계값으로 후보 규칙이 관심이 있는지 여부를 결정
    
  * support_only : bool (기본값: False)
      - 규칙 지지도만 계산하고 다른 메트릭 열을 NaN으로 채움
      - 다음과 같은 경우에 유용

        a) 입력 DataFrame이 불완전 할때, 예를 들어, 모든 규칙 선행 및 결과에 대한 지원 값을 포함하지 않음
      
        b) 다른 메트릭이 필요하지 않기 때문에 계산 속도를 높이고 싶을 때

  * Dataframe의 컬럼 중에서 "antecedents"와 "consequents"는 frozenset로 immutable한 객체
   - set은 mutable한 객체이기 때문에 새로운 값의 추가 또는 삭제가 가능

* API Document: http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/association_rules

In [20]:
association_rules(item_apriori, metric="confidence", min_threshold=0.6)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(기저귀),(과일),0.428571,0.571429,0.428571,1.0,1.75,0.183673,inf
1,(과일),(기저귀),0.571429,0.428571,0.428571,0.75,1.75,0.183673,2.285714
2,(과일),(빵),0.571429,0.714286,0.571429,1.0,1.4,0.163265,inf
3,(빵),(과일),0.714286,0.571429,0.571429,0.8,1.4,0.163265,2.142857
4,(기저귀),(빵),0.428571,0.714286,0.428571,1.0,1.4,0.122449,inf
5,(빵),(기저귀),0.714286,0.428571,0.428571,0.6,1.4,0.122449,1.428571
6,(우유),(버터),0.571429,0.571429,0.428571,0.75,1.3125,0.102041,1.714286
7,(버터),(우유),0.571429,0.571429,0.428571,0.75,1.3125,0.102041,1.714286
8,(우유),(빵),0.571429,0.714286,0.428571,0.75,1.05,0.020408,1.142857
9,(빵),(우유),0.714286,0.571429,0.428571,0.6,1.05,0.020408,1.071429


In [22]:
rules = association_rules(item_apriori, metric="lift", min_threshold=1.2)
rules

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(기저귀),(과일),0.428571,0.571429,0.428571,1.0,1.75,0.183673,inf
1,(과일),(기저귀),0.571429,0.428571,0.428571,0.75,1.75,0.183673,2.285714
2,(과일),(빵),0.571429,0.714286,0.571429,1.0,1.4,0.163265,inf
3,(빵),(과일),0.714286,0.571429,0.571429,0.8,1.4,0.163265,2.142857
4,(기저귀),(빵),0.428571,0.714286,0.428571,1.0,1.4,0.122449,inf
5,(빵),(기저귀),0.714286,0.428571,0.428571,0.6,1.4,0.122449,1.428571
6,(우유),(버터),0.571429,0.571429,0.428571,0.75,1.3125,0.102041,1.714286
7,(버터),(우유),0.571429,0.571429,0.428571,0.75,1.3125,0.102041,1.714286
8,"(기저귀, 과일)",(빵),0.428571,0.714286,0.428571,1.0,1.4,0.122449,inf
9,"(기저귀, 빵)",(과일),0.428571,0.571429,0.428571,1.0,1.75,0.183673,inf


In [23]:
rules['antecedents_len'] = rules['antecedents'].apply(lambda x: len(x))
rules

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,antecedents_len
0,(기저귀),(과일),0.428571,0.571429,0.428571,1.0,1.75,0.183673,inf,1
1,(과일),(기저귀),0.571429,0.428571,0.428571,0.75,1.75,0.183673,2.285714,1
2,(과일),(빵),0.571429,0.714286,0.571429,1.0,1.4,0.163265,inf,1
3,(빵),(과일),0.714286,0.571429,0.571429,0.8,1.4,0.163265,2.142857,1
4,(기저귀),(빵),0.428571,0.714286,0.428571,1.0,1.4,0.122449,inf,1
5,(빵),(기저귀),0.714286,0.428571,0.428571,0.6,1.4,0.122449,1.428571,1
6,(우유),(버터),0.571429,0.571429,0.428571,0.75,1.3125,0.102041,1.714286,1
7,(버터),(우유),0.571429,0.571429,0.428571,0.75,1.3125,0.102041,1.714286,1
8,"(기저귀, 과일)",(빵),0.428571,0.714286,0.428571,1.0,1.4,0.122449,inf,2
9,"(기저귀, 빵)",(과일),0.428571,0.571429,0.428571,1.0,1.75,0.183673,inf,2


In [35]:
rules[(rules['antecedents'] == {'과일'})].nlargest(3, 'lift')

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,antecedents_len
1,(과일),(기저귀),0.571429,0.428571,0.428571,0.75,1.75,0.183673,2.285714,1
12,(과일),"(기저귀, 빵)",0.571429,0.428571,0.428571,0.75,1.75,0.183673,2.285714,1
2,(과일),(빵),0.571429,0.714286,0.571429,1.0,1.4,0.163265,inf,1


In [24]:
rules[(rules['antecedents_len'] >= 2) & (rules['confidence'] >= 0.75) & (rules['lift'] >= 1.2)]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,antecedents_len
8,"(기저귀, 과일)",(빵),0.428571,0.714286,0.428571,1.0,1.4,0.122449,inf,2
9,"(기저귀, 빵)",(과일),0.428571,0.571429,0.428571,1.0,1.75,0.183673,inf,2
10,"(과일, 빵)",(기저귀),0.571429,0.428571,0.428571,0.75,1.75,0.183673,2.285714,2
14,"(우유, 과일)",(빵),0.285714,0.714286,0.285714,1.0,1.4,0.081633,inf,2
16,"(버터, 빵)",(우유),0.285714,0.571429,0.285714,1.0,1.75,0.122449,inf,2


In [40]:
rules[rules['antecedents'].apply(lambda x: '우유' in x)]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,antecedents_len
6,(우유),(버터),0.571429,0.571429,0.428571,0.75,1.3125,0.102041,1.714286,1
14,"(우유, 과일)",(빵),0.285714,0.714286,0.285714,1.0,1.4,0.081633,inf,2
17,(우유),"(버터, 빵)",0.571429,0.285714,0.285714,0.5,1.75,0.122449,1.428571,1


In [42]:
item

Unnamed: 0,과일,기저귀,달걀,버터,빵,우유
0,1,0,0,0,1,1
1,0,0,0,1,0,1
2,0,0,1,1,0,0
3,0,0,0,1,1,1
4,1,1,0,1,1,1
5,1,1,0,0,1,0
6,1,1,0,0,1,0


In [43]:
# fpgrowth : 원핫 DataFrame에서 빈도 항목 집합을 추출하는 알고리즘
from mlxtend.frequent_patterns import fpgrowth

In [46]:
item_fp = fpgrowth(item, use_colnames=True, min_support=0.4)
item_fp

Unnamed: 0,support,itemsets
0,0.714286,(빵)
1,0.571429,(우유)
2,0.571429,(과일)
3,0.571429,(버터)
4,0.428571,(기저귀)
5,0.428571,"(우유, 빵)"
6,0.571429,"(과일, 빵)"
7,0.428571,"(우유, 버터)"
8,0.428571,"(기저귀, 과일)"
9,0.428571,"(기저귀, 빵)"


In [47]:
rule2 = association_rules(item_fp, metric="lift", min_threshold=1.2)
rule2

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(과일),(빵),0.571429,0.714286,0.571429,1.0,1.4,0.163265,inf
1,(빵),(과일),0.714286,0.571429,0.571429,0.8,1.4,0.163265,2.142857
2,(우유),(버터),0.571429,0.571429,0.428571,0.75,1.3125,0.102041,1.714286
3,(버터),(우유),0.571429,0.571429,0.428571,0.75,1.3125,0.102041,1.714286
4,(기저귀),(과일),0.428571,0.571429,0.428571,1.0,1.75,0.183673,inf
5,(과일),(기저귀),0.571429,0.428571,0.428571,0.75,1.75,0.183673,2.285714
6,(기저귀),(빵),0.428571,0.714286,0.428571,1.0,1.4,0.122449,inf
7,(빵),(기저귀),0.714286,0.428571,0.428571,0.6,1.4,0.122449,1.428571
8,"(기저귀, 과일)",(빵),0.428571,0.714286,0.428571,1.0,1.4,0.122449,inf
9,"(기저귀, 빵)",(과일),0.428571,0.571429,0.428571,1.0,1.75,0.183673,inf
