### 연관규칙분석
#### 효율적인 상품의 진열이나 패키지 상품개발, 교차판매전략, 기획상품의 결정 등 실제 고객의 데이터를 분석하는데 많이 사용되고 있는 알고리즘이다.
#### 기업의 데이터베이스에서 상품구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 사용되며 서로 다른 두 아이템 집합이 얼마나 빈번하게 발생하였는지를 관찰한다.
#### 세부적으로는 장바구니분석과 서열분석이 있다.
#### - 장바구니분석 : 장바구니에 무엇이 같이 들어갈 것인지를 분석한다.
#### - 서열분석 : A를 산 다음에 B를 살 것이다.

### 연관규칙분석에 사용되는 척도
#### 지지도 : 전체 거래 중 항목 a와 b를 동시에 포함하는 거래의 비율로 정의 = a와 b가 동시에 포함된 거래수/전체 거래수
#### 신뢰도 : 항목 a를 포함한 거래 중에서 항목 a와 b가 같이 포함될 확률로 연관성의 정도 파악 가능 = a,b가 동시에 포함된 거래수 / a를 포함하는 거래수
#### 항상도 : a가 구매되지 않았을 때 품목 b의 구매확률에 비해 a가 구해되었을 때 품목 b의 구매확률의 증가비, 연관규칙 a-->b는 품목 a와 품목 b의 구매가 서로 관련이 없는 경우에는 향상도가 1된 = a와b가 동시에 포함된 거래수 / a를 포함하는 거래수*b를 포함하는 거래수

### Apriori알고리즘
#### 가능한 모든 경우의 수를 탐색하여 지지도, 신뢰도, 향상도가 높은 규칙들을 찾아내는 방식이 가장 이상적이지만 아이템수가 증가할 수록 계산에 소요되는 시간이 기하급수적으로 증가하는 문제가 있다.
#### 아이템이 n개일 때 탐색해야 할 모든 경우의 수 : n*(n-1) , 이 때문에 빈발집합만을 고래서 연관규칙을 생성하는 Apriori algorithm이 제안되었다. 최소지지도보다 큰 지지도 값을 갖는 품목의 지밥을 빈발항목집단(frequent item set)이라고 한다.
#### 계산방법 : Apriori 알고리즘은 모든 품목집합에 대한 지지도를 전부 계산한 것이 아니라, 최소 지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙을 계산한다.

In [3]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder

In [7]:
dataset = [['apple','beer','rice','chicken'],
           ['apple','beer','rice'],
           ['apple','beer'],
           ['apple','bananas'],
           ['milk','beer','rice','chicken'],
           ['milk','beer','rice'],
           ['milk','beer'],
           ['apple','bananas']]
te = TransactionEncoder()
te_ary = te.fit_transform(dataset)
print(te.columns_)
'''
트랜잭션 함수는 원본 데이터의 unique값을 컬럼으로 지정하고 이를 True(구매) or False(비구매)로 변환하는 함수이다.
이를 다시 데이터프레임으로 바꾸어 관리하고 연관규칙분석을 실행해본다.
'''
te_ary


['apple', 'bananas', 'beer', 'chicken', 'milk', 'rice']


array([[ True, False,  True,  True, False,  True],
       [ True, False,  True, False, False,  True],
       [ True, False,  True, False, False, False],
       [ True,  True, False, False, False, False],
       [False, False,  True,  True,  True,  True],
       [False, False,  True, False,  True,  True],
       [False, False,  True, False,  True, False],
       [ True,  True, False, False, False, False]])

In [8]:
df = pd.DataFrame(te_ary, columns = te.columns_)
df

Unnamed: 0,apple,bananas,beer,chicken,milk,rice
0,True,False,True,True,False,True
1,True,False,True,False,False,True
2,True,False,True,False,False,False
3,True,True,False,False,False,False
4,False,False,True,True,True,True
5,False,False,True,False,True,True
6,False,False,True,False,True,False
7,True,True,False,False,False,False


In [9]:
## 지지도 60% 이상인 품목만 추출
from mlxtend.frequent_patterns import apriori
apriori(df, min_support=0.6, use_colnames=True)

Unnamed: 0,support,itemsets
0,0.625,(apple)
1,0.75,(beer)


In [11]:
## 규칙의 길이를 추출하는 방법
frequent_itemsets = apriori(df, min_support=0.3, use_colnames=True)
frequent_itemsets['length'] = frequent_itemsets['itemsets'].apply(lambda x: len(x))
frequent_itemsets

Unnamed: 0,support,itemsets,length
0,0.625,(apple),1
1,0.75,(beer),1
2,0.375,(milk),1
3,0.5,(rice),1
4,0.375,"(apple, beer)",2
5,0.375,"(milk, beer)",2
6,0.5,"(rice, beer)",2


### 예제2
#### 이제 groceries 데이터셋을 연관규칙분석을 실행해보자. 데이터는 문자열로 구매내역이 저장되어 있는 데이터이므로 트랜잭션 형태로 만들어 주기 위해 전처리가 필요하다

In [None]:
import pandas as pd
f_path =
df = pd.read_csv(f_path)

In [None]:
# 데이터프레임 형태를 array형태로 변환
df_split = df.iloc[:,0].str.split(',', expand=True)
df_split.values # 데이터프레임 각 행의 문자열을 리스트로 묶어서 array형태로 취합

In [None]:
# array형태를 list형태로 변환
df_split_ary = df_split.values
groceries = []
for i in range(len(df_split_ary)):
    temp = list(filter(None, df_split_ary[i]))
    groceries.append(temp)
groceries

In [None]:
# 트랜잭션 형태의 데이터를 만들기 : 고유값을 컬럼으로 True False형태의 데이터 프레임으로 변환
from mlxtend.preprocessing import TransactionEncoder
import pandas as pd
te = TransactionEncoder()
groceries_tr = te.fit(groceries).transform(groceries)
groceries_tr = pd.DataFrame(groceries_tr, columns=te.columns_)
groceries_tr

In [None]:
# 연관규칙분석 : 지지도가 5%이상인 빈번항목집합을 탐색
from mlxtend.frequent_patterns import apriori
groceries_ap = apriori(groceries_tr, min_support=0.01, use_colnames = True)
groceries_ap

In [None]:
# 연관규칙분석 : 신뢰도가 0.3이상인 빈번항목집합 탐색
from mlxtend.frequent_patterns import association_rules
association_rules(groceries_ap, metric='confidence', min_threshold=0.3)

In [None]:
# 연관규칙분석 : 품목이 2개이상, 신뢰도가 .4이상, 향송도가 3이상인 규칙 추출
'''
이와 같이 장바구니 데이터에서 여러 연관규칙을 설정하여 원하는 규칙을 찾아내고,
이 규칙을 통해 효율적인 상품의 진열이나 패키지 상품개발, 교차판매 전략 등을 세워 판매 증진에 사용할 수 있다.
'''
rules = association_rules(groceries_ap, metric='lift', min_threshold=3)
rules["antecedent_len"] = rules["antecedents"].apply(lambda x: len(x))
rules[(rules['antecedent_len']>=2)&(rules['confidence']>0.4)&(rules['lift']>=3)]