<h1>연관 규칙 분석( Association Rule Analysis )</h1>
<br>
<div>
  <ul>
   <p>장바구니 분석 / 서열분석이라고도 함 </p>
   <p><span style="font-weight:bold">장바구니 분석</span> : 장바구니 속 어떤 물건이 같이 들어있는지 분석 </p>
   <p><span style="font-weight:bold">서열 분석</span> : 물건의 구매 순서를 분석 </p>
   <p>상품의 구매, 서비스와 같은 거래, 사건들 간의 규칙을 발견하기 위해 사용</p>
   <p>IF-THEN 규칙 존재</p>
   <p>지지도, 신뢰도, 향상도에 따라 규칙을 선택해야 함</p>
  </ul>
</div>

- 지지도 : 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율
- 신뢰도 : 항목 A를 포함한 거래 중 항목 A와 항목 B가 같이 포함될 확률
- 향상도 : 항목 A가 주어지지 않았을 때 항목 B 확률에 비해 A가 주어졌을 때 B의 증가 비율 ( A와 B의 구매가 관련이 없다면 1 )

<span style="font-size:20px"> 과정 </span>
```
1. 최소 지지도 결정 ( 다양하게 시도 )
2. 최소 지지도 보다 높은 지지도 항목 분류
3. 2가지 항목 집합 생성
4. 자주 생성되는 집합 탐색
```
<h3>Apriori 알고리즘 ( 장바구니 분석 ) </h3>
<br>
<div>
  <ul>
   <p>빈발항목집합( 최소 지지도 이상을 갖는 집합 )을 추출 </p>
   <p>복잡한 계산량을 줄이기 위해 최소 지지도를 정해 그 이상의 값만 찾기</p>
  </ul>
</div>

<span style="color:red; font-size:20px"> 장점 </span>
```
1. 상품간의 많은 관계를 발견 가능
2. 쉽게 이해 가능
```
<span style="color:blue; font-size:20px"> 단점 </span>
```
1. 상품수가 많을수록 계산량 기하급수적 증가
```

In [2]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
plt.rc('font', family='Malgun Gothic')

In [35]:
# apriori 연관분석
# code ( https://blog.naver.com/eqfq1/221444712369 )
# !pip install mlxtend

from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

data=[['사과','치즈','생수'],
['생수','호두','치즈','고등어'],
['수박','사과','생수'],
['생수','호두','치즈','옥수수']]

# 물건의 구매 여부를 True/False로 구분
buy = TransactionEncoder()
buy_table = buy.fit(data).transform(data)

# 보기 좋게 dataframe으로 변경
df = pd.DataFrame(buy_table, columns=buy.columns_)

# 최소 지지도를 0.5로 설정
frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True) 

# 최소 지지도가 0.5인 집합 중 신뢰도가 0.7 이상인 항목만 확인
association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7) 

<h3>FP-Growth 알고리즘 ( 장바구니 분석 ) </h3>
<br>
<div>
  <ul>
   <p>FP-Tree 구조 ( Tree, Array, Linked-List )를 이용하여 Apriori를 구현 </p>
   <p>항목 수가 많아지면 속도가 느려지는 apriori의 단점을 보완하며 FP-Tree를 생성한 후 최소 지지도 이상의 패턴만을 추출</p>
  </ul>
</div>

<span style="color:red; font-size:20px"> 장점 </span>
```
1. Apriori보다 빠름
```
<span style="color:blue; font-size:20px"> 단점 </span>
```
1. 아직도 대용량 데이터에는 비효율적
```

In [59]:
# fp-growth 
# code ( https://investraveler.tistory.com/233 )

from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import fpgrowth

data = [['휴지','물티슈','샴푸'],
         ['수세미','물티슈','비누'],
         ['휴지','수세미','물티슈','비누'],
         ['수세미','비누']]

buy = TransactionEncoder()
buy_table = buy.fit(data).transform(data)

df = pd.DataFrame(buy_table, columns=buy.columns_)
fpgrowth(df, min_support=0.5, use_colnames=True)

Unnamed: 0,support,itemsets
0,0.75,(물티슈)
1,0.5,(휴지)
2,0.75,(수세미)
3,0.75,(비누)
4,0.5,"(물티슈, 비누)"
5,0.5,"(물티슈, 수세미)"
6,0.5,"(물티슈, 비누, 수세미)"
7,0.5,"(물티슈, 휴지)"
8,0.75,"(비누, 수세미)"
