In [1]:
# 데이터 분석을 위한 작업에 있어서 유용한 도구들이 있는 패키지
# https://sophiesien.tistory.com/entry/Python-MLxtend-%EC%A3%BC%EC%9A%94-%EA%B8%B0%EB%8A%A5%EB%93%A4
# 참고할만한 기능을 소개하는 블로
import mlxtend
import numpy as np
import pandas as pd

In [3]:
data = np.array([
    ['우유', '기저귀', '쥬스'],
    ['양상추', '기저귀', '맥주'],
    ['우유', '양상추', '기저귀', '맥주'],
    ['양상추', '맥주']
])

## Apriori 알고리즘

In [4]:
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()
te_ary = te.fit(data).transform(data)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,기저귀,맥주,양상추,우유,쥬스
0,True,False,False,True,True
1,True,True,True,False,False
2,True,True,True,True,False
3,False,True,True,False,False


In [5]:
%%time
from mlxtend.frequent_patterns import apriori

apriori(df, min_support=0.5, use_colnames=True)

CPU times: user 14.5 ms, sys: 4.28 ms, total: 18.8 ms
Wall time: 24.9 ms


Unnamed: 0,support,itemsets
0,0.75,(기저귀)
1,0.75,(맥주)
2,0.75,(양상추)
3,0.5,(우유)
4,0.5,"(맥주, 기저귀)"
5,0.5,"(양상추, 기저귀)"
6,0.5,"(우유, 기저귀)"
7,0.75,"(양상추, 맥주)"
8,0.5,"(양상추, 맥주, 기저귀)"


## FP-Growth 알고리즘

In [6]:
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()
te_ary = te.fit(data).transform(data)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,기저귀,맥주,양상추,우유,쥬스
0,True,False,False,True,True
1,True,True,True,False,False
2,True,True,True,True,False
3,False,True,True,False,False


In [7]:
%%time
from mlxtend.frequent_patterns import fpgrowth

fpgrowth(df, min_support=0.5, use_colnames=True)

CPU times: user 2.59 ms, sys: 909 µs, total: 3.5 ms
Wall time: 3.42 ms


Unnamed: 0,support,itemsets
0,0.75,(기저귀)
1,0.5,(우유)
2,0.75,(양상추)
3,0.75,(맥주)
4,0.5,"(맥주, 기저귀)"
5,0.5,"(양상추, 기저귀)"
6,0.5,"(양상추, 맥주, 기저귀)"
7,0.5,"(우유, 기저귀)"
8,0.75,"(양상추, 맥주)"


### Apriori에서 신뢰도나 향상도를 데이터프레임에서 확인하는 방법

In [9]:
from mlxtend.frequent_patterns import association_rules

In [12]:
association = fpgrowth(df, min_support=0.25, use_colnames=True)
association_rules(association, metric='confidence', min_threshold=0.5, support_only=False)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(맥주),(기저귀),0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
1,(기저귀),(맥주),0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
2,(양상추),(기저귀),0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
3,(기저귀),(양상추),0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
4,"(양상추, 맥주)",(기저귀),0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
5,"(양상추, 기저귀)",(맥주),0.5,0.75,0.5,1.0,1.333333,0.125,inf
6,"(맥주, 기저귀)",(양상추),0.5,0.75,0.5,1.0,1.333333,0.125,inf
7,(양상추),"(맥주, 기저귀)",0.75,0.5,0.5,0.666667,1.333333,0.125,1.5
8,(맥주),"(양상추, 기저귀)",0.75,0.5,0.5,0.666667,1.333333,0.125,1.5
9,(기저귀),"(양상추, 맥주)",0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75


- 룰 기반의 알고리즘
- 메모리 사용이 너무 크다
- 생성된 규칙이 너무 많아 적용하기 어렵다
- Apriori는 데이터 셋을 처음 받았을 때 의미 찾는 형식의 EDA 과정에서 사용 가능
- 실제로는 협업, 컨텐츠, 딥러닝 기반 알고리즘이 현업에서 사용된다.

### 강의 중 질문 : 신규 고객에게는 빈도가 제일 높거나 지지도가 제일 높은 상품을 사라고 권하면 되지 않을까요?
- 신규 고객, 기존 고객, 충성 고객 등 타겟 집단을 나눠야 한다.
- 도메인 따라서 데이터 확인 후 진행