# 연관규칙 분석 (Association Rule Mining)
## 1. 개요
- 소비자 또는 일련의 사용자 그룹의 행동 간에 존재하는 동시 발생 관계를 분석하는 알고리즘
- 대규모 DB에 존재하는 아이템 간의 관계를 규명하기 위해 사용하는 방법
- 장바구니 분석(Market Basket Analysis) 또는 친밀도 분석(Affinity Analysis)라고도 불림
- Ex) 월마트 사례
    * 맥주와 기저귀를 비슷한 곳에 진열하니 매출이 향상됨 => 남편이 마트에 들러 물건을 살 때 부인의 부탁으로 아이 기저귀를 사면서 동시에 본인이 마실 맥주를 산다는 구매 패턴을 발견
    * 즉, 데이터 분석을 통해 **전혀 관련성이 없는 맥주와 기저귀의 연결고리**를 알게되어 마케팅 전략에 반영한 사례

## 2. 장점
- 장바구니로 정의되는 하나의 Entity(장바구니)와 그 장바구니에 기록된 품목 이름(맥주, 기저귀)만 있다면 바로 분석이 가능함 -> 많은 조건을 고려하느라 소요되는 시간을 벌 수 있음
- 특별한 domain knowledge가 없어도, 유의미한 여러 패턴을 식별 할 수 있음
- 반드시 추천 시스템이 아니더라도, 다양한 목적에 맞게 분석을 응용하여 쓸 수 있음

## 3. 단점
- 상품(item) 간의 인과관계는 알 수 없음, 즉 선행여부는 반영될 수 없음
    * 인과관계 : 기저귀를 사면, 맥주도 삼(p→q) 
    * 상관관계 :
        * 기저귀랑 맥주 둘다 삼
        * 기저귀를 담은 고객(p)은 맥주도 담을(q) 확률(=P(q∣p))이 높다고는 할 수 있으나, 그렇다고 기저귀를 담지 않으면(!p) 맥주도 담지 않을(!q) 확률이 높다'가 성립할 수 없음
- 상품 별 수량은 고려되지 않음
- 상품명 외에는 어떤 변수도 고려되지 않음

예시 이미지  
![img](imgs/AssociationBurger.png) 

## 4. 알고리즘
1. 규칙 발견
    1. 특정 제품을 함께 구매할 가능성 : 햄버거 패티를 사는 사람은 햄버거 롤, 케펍, 머스타드, 토마토 등을 함께 사는 경향이 있음
    2. 상품 친밀도가 모호한 경우 :
        * 치약 & 참치캔 : 일부 지역에서는 참치 요리를 한 후 즉각적으로 칫솔질하는 지역이 있을 수도 있지만 일반적으로 친밀도가 약함
    3. 영수증 한 장을 하나의 거래로 보고 한 줄에 기록
    4. 지지도(Support)
        - 해당 아이템이 포함된 거래의 비율
        - 품목A & 품목B 포함 거래수 / 전체 거래수
        - Num of {감자, 햄버거} / Total
    5. 신뢰도(Cofidence)
        - 예측의 정확성
        - 항목A의 거래 중에서 항목 B가 포함된 거래의 비율
        - {양파, 햄버거} -> {맥주} : 100% 신뢰도
    6. 향상도(Lift)
        - A->B의 연관규칙에서 임의로 B가 구매되는 경우에 비해 A와의 관계가 고려되어 구매되는 경우의 비율
        - Lift = 1 => 독립적 관계
        - Lift > 1 => 양의 상관관계 (맥주 & 안주)
        - Lift < 1 => 음의 상관관계 (설사약 & 변비약)
        
## 5. 관련 통계
- 개별 확률
    * P(A) : 상품 A를 구매할 확률
    * P(B) : 상품 B를 구매할 확률
- 지지도
    * A와 B를 동시에 구매할 확률
    * 동시거래 건수 / 전체거래 건수
- 신뢰도
    * A를 구매한 거래 중에서 B를 구매한 확률
    * 지지도 / P(A) 
- 향상도
    * A -> B 의 연관규칙에서 임의로 B가 구매되는 경우에 비해서 A와의 관계가 고려되어 구매되는 경우의 비율
    * 신뢰도 / P(B)
    * 향상도 > 1 => 양의관계이므로 동시 구매 가능성 ⬆️



## 6. 알고리즘 종류

### 선험적 알고리즘(Apriori 알고리즘)
- 개념