[Apriori - mlxtend](http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/apriori/#frequent-itemsets-via-apriori-algorithm)

개요
Apriori는 연관 규칙 학습에서 응용 프로그램으로 빈번한 항목 집합을 추출하는 인기 있는 알고리즘[1]입니다. apriori 알고리즘은 상점 고객의 구매와 같은 트랜잭션이 포함된 데이터베이스에서 작동하도록 설계되었습니다. 항목 집합은 사용자 지정 지원 임계값을 충족하는 경우 "빈번한" 것으로 간주됩니다. 예를 들어, 지원 임계값이 0.5(50%)로 설정되면 빈번한 항목 집합은 데이터베이스의 모든 트랜잭션 중 50% 이상에서 함께 발생하는 항목 집합으로 정의됩니다.

In [1]:
dataset = [['Milk', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
           ['Dill', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
           ['Milk', 'Apple', 'Kidney Beans', 'Eggs'],
           ['Milk', 'Unicorn', 'Corn', 'Kidney Beans', 'Yogurt'],
           ['Corn', 'Onion', 'Onion', 'Kidney Beans', 'Ice cream', 'Eggs']]

In [2]:
# !pip install mlxtend

In [3]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder

te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,Apple,Corn,Dill,Eggs,Ice cream,Kidney Beans,Milk,Nutmeg,Onion,Unicorn,Yogurt
0,False,False,False,True,False,True,True,True,True,False,True
1,False,False,True,True,False,True,False,True,True,False,True
2,True,False,False,True,False,True,True,False,False,False,False
3,False,True,False,False,False,True,True,False,False,True,True
4,False,True,False,True,True,True,False,False,True,False,False


In [4]:
# min_support 를 통해 지지도가 특정값 이상인 것을 추출
from mlxtend.frequent_patterns import apriori

apriori(df, min_support=0.6)

Unnamed: 0,support,itemsets
0,0.8,(3)
1,1.0,(5)
2,0.6,(6)
3,0.6,(8)
4,0.6,(10)
5,0.8,"(3, 5)"
6,0.6,"(8, 3)"
7,0.6,"(5, 6)"
8,0.6,"(8, 5)"
9,0.6,"(10, 5)"


In [5]:
# use_colnames 를 사용하면 벡터화된 값이 아닌 아이템 값을 출력
apriori(df, min_support=0.6, use_colnames=True)

Unnamed: 0,support,itemsets
0,0.8,(Eggs)
1,1.0,(Kidney Beans)
2,0.6,(Milk)
3,0.6,(Onion)
4,0.6,(Yogurt)
5,0.8,"(Kidney Beans, Eggs)"
6,0.6,"(Onion, Eggs)"
7,0.6,"(Kidney Beans, Milk)"
8,0.6,"(Kidney Beans, Onion)"
9,0.6,"(Kidney Beans, Yogurt)"


In [6]:
# itemsets 의 갯수를 구함
frequent_itemsets = apriori(df, min_support=0.6, use_colnames=True)
frequent_itemsets['length'] = frequent_itemsets['itemsets'].apply(lambda x: len(x))
frequent_itemsets

Unnamed: 0,support,itemsets,length
0,0.8,(Eggs),1
1,1.0,(Kidney Beans),1
2,0.6,(Milk),1
3,0.6,(Onion),1
4,0.6,(Yogurt),1
5,0.8,"(Kidney Beans, Eggs)",2
6,0.6,"(Onion, Eggs)",2
7,0.6,"(Kidney Beans, Milk)",2
8,0.6,"(Kidney Beans, Onion)",2
9,0.6,"(Kidney Beans, Yogurt)",2


In [7]:
# 지지도가 특정값 이상이고 길이가 2 이상인 것을 출력
frequent_itemsets[(frequent_itemsets['length'] == 2) &
                  (frequent_itemsets['support'] >= 0.8)]

Unnamed: 0,support,itemsets,length
5,0.8,"(Kidney Beans, Eggs)",2


In [8]:
# 특정 아이템셋으로 데이터 찾기
frequent_itemsets[frequent_itemsets['itemsets'] == {'Onion', 'Eggs'}]

Unnamed: 0,support,itemsets,length
6,0.6,"(Onion, Eggs)",2
