### 연관분석
사건의 연관규칙을 찾는 방법으로, A후에 B라는 사건을 시행할 확률을 구하는 등 소비자 구매/행동 패턴을 사건의 연관규칙으로 분석하는 데 자주 사용되므로 장바구니 분석이라고도 불린다.


##### 1) Run-Test
연관규칙을 찾기 전, 연속적 binary 관측값들이 임의적으로 나타난 값인지 임의적이 아닌지(연관이 있는지)를 먼저 검정하는 검정기법
- (H0) : 연속적인 관측값이 임의적이다.
- (H1) : 연속적인 관측값이 임의적이 아니다(즉, 연관이 있다.)

In [1]:
# 상품 a와 b가 다음과 같은 구매 패턴이 있다고 할 때 두 상품의 구매패턴이 연관성이 있는가?

import pandas as pd 
data = ['a','a','b','b','a','a','a','a','b','b','b','b','b','a','a','b','b','a','b','b']
test_df = pd.DataFrame(data,columns=["product"])
test_df.head()

Unnamed: 0,product
0,a
1,a
2,b
3,b
4,a


In [2]:
from statsmodels.sandbox.stats.runs import runstest_1samp

#Run-test를 위한 데이터 변환 
test_df.loc[test_df['product']=='a','product'] = 1
test_df.loc[test_df['product']=='b','product'] = 0

#Perform Runs test
# - run-test의 귀무가설 : 연속적인 관측값이 임의적이다. 
# - run-test의 대립가설 : 연속적인 관측값이 임의적이 아니다
runstest_1samp(test_df['product'],cutoff =0.5 , correction=True)

(-1.1144881152070183, 0.26506984027306035)

유의수준 5% 하에서 p-value 값이 0.5보다 크므로 귀무가설을 기각한다. 즉, 상품 a와 b의 구매에는 연관이 없다.

##### 2) 연관규칙 분석
연관규칙 분석은 효율적 상품 진열이나 패키지 상품개발, 교차판매 전략, 기획상품 결정 등 실제 고객의 데이터를 분석하는 데 많이 사용되고 있는 알고리즘이다.

기업 데이터베이스에서 상품구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 사용되며 서로 다른 두 아이템 집합이 얼마나 빈번하게 발생하였는지 관찰한다. 
- 장바구니 분석 : 장바구니에 무엇이 같이 들어갈 것인지
- 서열분석 : A를 산 다음에 B를 살 것이다

<연관규칙분석 척도>
- 지지도(support) : a, b가 동시에 포함된 거래수 / 전체거래수
- 신뢰도(confidence) : a, b가 동시에 포함된 거래수 / a를 포함하는 거래수
- 향상도(lift) : a, b가 동시에 포함된 거래수 / (a를 포함하는 거래수*b를 포함하는 거래수)
  - a, b 구매가 관련없는 경우 향상도는 1

<사용 알고리즘>
Apriori 알고리즘은 모든 품목지ㅏㅂ에 대한 지지도를 전부 계산하는 것이 아니라, 최소지지도 이상의 빈발항목집할 찾으ㅡ 후 그것들에 대해서만 연관규칙을 계산한다.