# 연관규칙: 빈발 항목집합 - FP-Max Algorithm

In [1]:
#!pip install mlxtend

In [2]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, fpmax, fpgrowth

##### transaction data

In [3]:
dataset = [['Milk', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
           ['Dill', 'Onion', 'Nutmeg', 'Kidney Beans', 'Eggs', 'Yogurt'],
           ['Milk', 'Apple', 'Kidney Beans', 'Eggs'],
           ['Milk', 'Unicorn', 'Corn', 'Kidney Beans', 'Yogurt'],
           ['Corn', 'Onion', 'Onion', 'Kidney Beans', 'Ice cream', 'Eggs']]

In [4]:
print(type(dataset))

<class 'list'>


In [5]:
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
print(type(te_ary), '\n')
print(te_ary)

# 11 items

#  0       1    2     3        4           5          6      7      8       9       10          
# Apple, Corn, Dill, Eggs, Ice cream, Kidney Beans, Milk, Nutmeg, Onion, Unicorn, Yogurt 

<class 'numpy.ndarray'> 

[[False False False  True False  True  True  True  True False  True]
 [False False  True  True False  True False  True  True False  True]
 [ True False False  True False  True  True False False False False]
 [False  True False False False  True  True False False  True  True]
 [False  True False  True  True  True False False  True False False]]


In [6]:
print(te_ary.astype("int"))

[[0 0 0 1 0 1 1 1 1 0 1]
 [0 0 1 1 0 1 0 1 1 0 1]
 [1 0 0 1 0 1 1 0 0 0 0]
 [0 1 0 0 0 1 1 0 0 1 1]
 [0 1 0 1 1 1 0 0 1 0 0]]


In [7]:
print(te.columns_)

['Apple', 'Corn', 'Dill', 'Eggs', 'Ice cream', 'Kidney Beans', 'Milk', 'Nutmeg', 'Onion', 'Unicorn', 'Yogurt']


In [8]:
df = pd.DataFrame(te_ary, columns=te.columns_)
print(type(df))
print(df)

<class 'pandas.core.frame.DataFrame'>
   Apple   Corn   Dill   Eggs  Ice cream  Kidney Beans   Milk  Nutmeg  Onion  \
0  False  False  False   True      False          True   True    True   True   
1  False  False   True   True      False          True  False    True   True   
2   True  False  False   True      False          True   True   False  False   
3  False   True  False  False      False          True   True   False  False   
4  False   True  False   True       True          True  False   False   True   

   Unicorn  Yogurt  
0    False    True  
1    False    True  
2    False   False  
3     True    True  
4    False   False  


### A-Priori Algorithm의 한계
* A-Priori Algorithm은 빈발 항목집합 생성을 위한 최초이자 가장 널리 사용되는 알고리즘 중 하나입니다.
* 그러나 고유한 항목의 수에 따라 런타임이 기하급수적으로 증가하므로, A-Priori Algorithm의 런타임은 특히 고유한 항목이 많은 데이터셋의 경우 상당히 클 수 있습니다.

### FP-Growth Algorithm
* Apriori Algorithm과 달리
* FP-Growth Algorithm은 패턴 검색 트리에 항목을 삽입하는 빈발 패턴 생성 알고리즘으로
* 고유한 항목 또는 항목의 수와 관련하여 런타임에서 선형 증가를 허용합니다.
##### FP-Growth Algorithm은 후보 항목집합을 명시적으로 생성할 필요가 없습니다.

### FP-Max Algorithm
* FP-Max Algorithm은 정점 항목집합(maximal itemsets)을 얻는 데 중점을 둔 FP-Growth의 변형입니다.
* 항목집합 X는 X가 빈발하고, X를 포함하는 빈발 슈퍼 패턴(frequent super-pattern)이 존재하지 않는 경우,  정점(maximal)라고 합니다.

##### 지지도(support)가 0.6 이상인 빈발 항목집합을 찾아봅시다. 

In [9]:
#frequent_itemsets = apriori(df, min_support=0.6, use_colnames=True)
#frequent_itemsets = fpgrowth(df, min_support=0.6, use_colnames=True)
frequent_itemsets = fpmax(df, min_support=0.6, use_colnames=True)

In [10]:
frequent_itemsets

Unnamed: 0,support,itemsets
0,0.6,"(Milk, Kidney Beans)"
1,0.6,"(Kidney Beans, Eggs, Onion)"
2,0.6,"(Yogurt, Kidney Beans)"
