### Apriori 알고리즘 이해하기 

1. 단일항목집단 생성 : 우유, 기저귀, 쥬스, 양상추, 맥주
2. 단일항목집단에서 최소 지지도 이상만 선택 : 기저귀, 맥주, 양상추, 우유
3. 2개 항목집단 생성(2번에서 선택된 item으로) : {맥주, 기저귀}, {양상추, 맥주} ...
4. 2개 항목집단 중 최소 지지도 이상만 선택
5. k개 까지 위의 과정 반복

#### 장점 
- 계산이 단순하고 이해가 쉬움
- 유의한 연광성을 갖는 구매패턴을 찾을 수 있음 

#### 단점 
- 데이터가 크면 속도가 느리고 연산량이 많음
- 실제 사용시 많은 연관상품이 나타나는 단점 있음

In [3]:
import mlxtend 
import numpy as np 
import pandas as pd

In [5]:
#데이터셋 생성
data = np.array([
    ['우유', '기저귀', '쥬스'],
    ['양상추', '기저귀', '맥주'],
    ['우유', '양상추', '기저귀', '맥주'],
    ['양상추', '맥주']
])

In [9]:
# 구매내역에서 Item의 포함 여부를 one-hot 인코딩 하여 array로 변환
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()

# array를 column명 나오게 데이터 프레임으로 변환
te_ary = te.fit(data).transform(data)
te_ary

array([[ True, False, False,  True,  True],
       [ True,  True,  True, False, False],
       [ True,  True,  True,  True, False],
       [False,  True,  True, False, False]])

In [10]:
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()
te_ary = te.fit(data).transform(data)
df = pd.DataFrame(te_ary, columns = te.columns_) #array를 dataframe으로!
df

Unnamed: 0,기저귀,맥주,양상추,우유,쥬스
0,True,False,False,True,True
1,True,True,True,False,False
2,True,True,True,True,False
3,False,True,True,False,False


In [15]:
# 계산하는데 걸리는 시간 구하기
%%time
from mlxtend.frequent_patterns import apriori
apriori(df, min_support = 0.5, use_colnames=True)

CPU times: user 11.4 ms, sys: 860 µs, total: 12.2 ms
Wall time: 19.2 ms


Unnamed: 0,support,itemsets
0,0.75,(기저귀)
1,0.75,(맥주)
2,0.75,(양상추)
3,0.5,(우유)
4,0.5,"(맥주, 기저귀)"
5,0.5,"(양상추, 기저귀)"
6,0.5,"(우유, 기저귀)"
7,0.75,"(맥주, 양상추)"
8,0.5,"(맥주, 양상추, 기저귀)"


### FP-Growth 알고리즘
#### 장점
- Apriori 알고리즘보다 빠르고 2번의 탐색만 필요함
- 후보 itemsets 을 생성할 필요없음
#### 단점
- 대용량의 데이터셋에서 메모리를 효율적으로 사용하지 않음
- Apriori 알고리즘에 비해 설계가 어려움
- 지지도 계산이 FP-growth가 만들어지고 나서야 가능

In [17]:
# 구매내역에서 Item의 포함 여부를 one-hot 인코딩 하여 array로 변환
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()
te_ary = te.fit(data).transform(data)

# array를 column명 나오게 데이터 프레임으로 변환
df = pd.DataFrame(te_ary, columns = te.columns_)
df

Unnamed: 0,기저귀,맥주,양상추,우유,쥬스
0,True,False,False,True,True
1,True,True,True,False,False
2,True,True,True,True,False
3,False,True,True,False,False


In [28]:
# 계산하는데 걸리는 시간 구하기
%%time
from mlxtend.frequent_patterns import fpgrowth
fpgrowth(df, min_support=0.5, use_colnames=True) # 최소지지도는 기본이 0.5로 설정되어있고 원하는대로 설정 가능.

CPU times: user 8.98 ms, sys: 11.3 ms, total: 20.3 ms
Wall time: 34.8 ms


Unnamed: 0,support,itemsets
0,0.75,(기저귀)
1,0.5,(우유)
2,0.75,(양상추)
3,0.75,(맥주)
4,0.5,"(맥주, 기저귀)"
5,0.5,"(양상추, 기저귀)"
6,0.5,"(맥주, 양상추, 기저귀)"
7,0.5,"(우유, 기저귀)"
8,0.75,"(맥주, 양상추)"


In [24]:
# itemsets의 length(아이템 수) 구하기
frequent_itemsets = fpgrowth(df, min_support=0.5, use_colnames=True)
frequent_itemsets['length'] = frequent_itemsets['itemsets'].apply(lambda x: len(x))
frequent_itemsets

Unnamed: 0,support,itemsets,length
0,0.75,(기저귀),1
1,0.5,(우유),1
2,0.75,(양상추),1
3,0.75,(맥주),1
4,0.5,"(맥주, 기저귀)",2
5,0.5,"(양상추, 기저귀)",2
6,0.5,"(맥주, 양상추, 기저귀)",3
7,0.5,"(우유, 기저귀)",2
8,0.75,"(맥주, 양상추)",2


In [26]:
# 특정 item의 수, 지지도를 설정하여 itemsets 추출 
frequent_itemsets[ (frequent_itemsets['length'] == 2) &
                   (frequent_itemsets['support'] >= 0.7) ]

Unnamed: 0,support,itemsets,length
8,0.75,"(맥주, 양상추)",2


In [31]:
# 특정 item을 포함하는 itemset 추출
frequent_itemsets[frequent_itemsets['itemsets'].apply(lambda x: '양상추' in list(x))]

Unnamed: 0,support,itemsets,length
2,0.75,(양상추),1
5,0.5,"(양상추, 기저귀)",2
6,0.5,"(맥주, 양상추, 기저귀)",3
8,0.75,"(맥주, 양상추)",2


In [42]:
from mlxtend.frequent_patterns import association_rules

# 최소 support 0.5 이상, 최소 confidence 0.5 이상인 것 추출
association_rules(fpgrowth(df, min_support=0.5, use_colnames=True), metric='confidence', min_threshold=0.7, support_only=False)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,"(맥주, 기저귀)",(양상추),0.5,0.75,0.5,1.0,1.333333,0.125,inf
1,"(양상추, 기저귀)",(맥주),0.5,0.75,0.5,1.0,1.333333,0.125,inf
2,(우유),(기저귀),0.5,0.75,0.5,1.0,1.333333,0.125,inf
3,(맥주),(양상추),0.75,0.75,0.75,1.0,1.333333,0.1875,inf
4,(양상추),(맥주),0.75,0.75,0.75,1.0,1.333333,0.1875,inf


#### 정리
Apriori 알고리즘에 비해 FP-growth 알고리즘의 속도가 빠른 것을 확인 할 수 있다.

#### 참고
- https://tacademy.skplanet.com/live/player/onlineLectureDetail.action?seq=194
- http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/apriori/
- https://wotres.tistory.com/entry/Association-Rule-연관성-분석-in-python