# 연관 분석 

- 특정 거래/사건 발생했을 때, 함께(빈번하게) 발생하는 또 다른 사건의 규칙(연관규칙)을 데이터로 부터 학습해 도출하는 분석 기법
  - 순차 (Sequence) : 사건의 발생(또는 데이터)의 순서를 고려하여 데이터 간의 규칙을 도출 -> 시계열 분석
  - **연관 (Association)** : 데이터의 순서를 고려하지 않고 데이터 간 규칙을 도출
- 연관 규칙은 항목 간 직접적인 인과관계를 의미하지 않음
- 장바구니 분석 / 이상거래탐지 / 불량 공정 장비 패턴 탐지

- **연관 분석 평가 (데이터 간의 연관성이 얼마나 있는가)**
  - 지지도 (support) : 전체 거래(수)에서 A와 B를 동시에 구매한 비율 (0~1)
      - (A와 B가 동시에 포함된 거래 수) / (전체 거래 수)

  - 신뢰도 (confidence) : 특정 거래(A)에서 A와 B를 동시에 구매한 비율 (0~1)
      - (A와 B가 동시에 포함된 거래 수) / (A 거래 수)
        
  - 향상도 (Lift) : A를 구매했을 때, B를 구매할 확률을 지표로 계산
      - 두 항목이 서로 독립적인경우, 얼마나 자주 동시에 두 항목이 발생하는지
      - 향상도가 1보다 큰 경우 : 두 항목이 양의 상관관계
      - 향상도가 1보다 작은 경우 : 두 항목이 음의 상관관계
      - 향상도 1이면 두 항목이 서로 독립 

In [203]:
# 연관 분석 라이브러리 설치 
# !pip install mlxtend

In [204]:
from mlxtend.frequent_patterns import apriori # 아프리오리 알고리즘 
from mlxtend.frequent_patterns import association_rules 

In [205]:
df1 = pd.read_csv('03_store_product.csv')

In [207]:
df1['Label'] = 1

In [212]:
# 한명의 회원이 특정 일자에 특정 물품을 구매 했다면 -> 1 / 구매하지 않았다면 -> 0 
df1_assoc = df1.pivot_table(index=['회원번호', '공급일자'], values='Label', 
                            aggfunc='min', columns='물품대분류', fill_value=0)

In [216]:
# 빈도 발생 확률 표 계산 
freq_item = apriori(df1_assoc, min_support=0.2, use_colnames=True)
freq_item.head(2)

Unnamed: 0,support,itemsets
0,0.499257,(간식)
1,0.536314,(반찬)


In [None]:
df_assoc = association_rules(freq_item, metric='confidence', min_threshold=0.5)
df_assoc

- antecedent support : 선행자 지지도 / 선행자 (간식)이 발생한 거래의 비율 
    - 전체 거래 중에 간식거래가 발생한 비율 49.9%  
- consequent support : 후행자 지지도 / 후행자 (반찬)이 발생한 거래의 비율 
    - 전체 거래 중에 반찬거래가 발생한 비율 53.6% 
- support : 전체 거래 중, 반찬과 간식의 거래가 동시에 일어난 비율 29.9% 
- confidence : 간식 거래들 중에서, 반찬과 간식이 동시에 거래가 진행될 비율 59.96%
- leverage : 두 사건이 함께 발생할 확률과 독립적으로 발생할 확률의 차이를 측정한 지표
    - leverage = 0 : 두 항목은 서로 독립적이다 
    - leverage > 0 : 두 항목 간에는 양의 상관관계가 있다 
    - leverage < 0 : 두 항목 간에 음의 상관관계가 있다
    - leverage 값 자체가 크면 클 수록 두 항목의 관련성이 높다 
- conviction : 두 항목 간의 독립성을 측정하는데 사용하는 지표 
    - Conviction 값이 1에 가까울 수록 독립 / 1보다 크면 약한 상관관계를 갖는다. / 1보다 작으면 두 항목간의 종속성이 강하다 
- zhangs_metric : 연관 규칙 결과의 품질을 평가하는 지표 
    - zhangs_metric 값이 높으면 높을 수록, 연관규칙의 품질이 좋다 