# 연관 규칙 탐사

---

## 데이터 마이닝

> 대용량의 데이터로부터 그들 사이의 관계, 패턴, 규칙을 탐사하여 숨겨져 있던 유용한 지식을 추출하는 과정

---

## 데이터 마이닝의 연관성 탐사

### 데이터 마이닝의 지식 탐사
- 확실한 사실이나 명백한 관계를 알아내는 것이 아니다
- 일반적인 질의를 통해 확인하기 어려운 패턴을 찾는 것
- 숨겨져 있고(hidden) 의미가 있는(significant) 정보를 발견하는 것으로, 대개의 경우 비지도 학습에 해당

### 연관성 (Association) 탐사
- 서로 다른 항목(item)들 간의 발생 관계, 즉 연관성을 발견하는 과정 및 기법
- 장바구니 분석 (market basket analysis) : 고객의 장바구니에 들어 있는 상품들 간의 관계를 파악

---

## 연관 규칙 탐사

### 연관 규칙 (Association Rule)
- 연관성 탐사를 통해서 발견되는 규칙
- **항목(들) X가 발생하였을 때 항목(들) Y도 같이 발생한다는 연관성을 X → Y 로 표기**
    - 이 때, X와 Y는 상호 배타적인 항목(item)들의 집합
    - X를 선행절(antecedent) 또는 조건절
    - Y를 후행절(consequent) 또는 결과절
![](../img/association-rule.png)

### 트랜잭션 (Transaction)
- 데이터베이스 관리 측면에서는 원래 완결성이 있는 1회의 논리적 실행 또는 처리 단위를 뜻한다
- 예를 들면, 은행 계좌 이체를 들 수 있음! 내가 돈을 송금했을때, 상대방이 입금되기 전까진 완료된게 아니다!!
- 연관 규칙 탐사에서는 1개의 거래이력 단위를 의미
![](../img/transaction.png)

- 이 때, 트랜잭션 내에 들어있는 각각의 개별적인 자료를 항목(item)이라고 한다. 항목들 간의 순서는 고려되지 않는다

### 항목집합 (Itemset)
- 트랜잭션 내에 들어있는 항목들의 집합
- 단일 트랜잭션 내의 항목들로부터 파생될 수 있는 조합
    - { } 기호로 각 항목집합을 구분한다
    - 내부 항목들 간의 순서는 고려되지 않는다
![](../img/itemset.png)

### 지지도 (Support)
- 전체 트랜잭션들에서 특정 항목집합이 포함되어 있는 확률 (즉, 발생 빈도의 비율)
- 항목집합 A의 지지도는 A의 출현 확률 Pr(A)이며, 흔히 S(A) 또는 sup(A) 등으로 표현
![](../img/support.png)

### 빈발 항목집합 (Frequent Itemset)
- 전체 트랜잭션들에서 지지도가 특정 임계값 이상으로 빈발하게 발생한 항목집합
- 이 때, 이 임계값을 **최소 지지도(minimum support)**라고 하며 0~1 (0%~100%) 사이의 값
![](../img/frequent-itemset.png)

### 항목집합을 이용한 연관 규칙의 발견
- 연관 규칙은 2개 이상의 항목들이 존재하는 항목집합의 항목들 간의 관계를 표현하는 것
- 항목집합 A = { X , Y } 에서 추론되는 연관 규칙은 X → Y 및 Y → X
![](../img/discover-itemset.png)

### 신뢰도 (Confidence)
- 연관 규칙의 선행절이 포함된 트랜잭션들 중 후행절의 항목집합들이 포함될 확률
- 연관규칙 $X \rightarrow Y$의 신뢰도는 조건부 확률$Pr(Y|X)$이며, 흔히 $C(X \rightarrow Y)$ 또는 $ conf(X \rightarrow Y)$로 표현한다.

> $C(X \rightarrow Y) = Pr(Y|X) = \frac{Pr(X \cap Y)}{Pr(X)} $

![](../img/confidence.png)

- 연관 규칙의 선행절이 포함된 트랜잭션들 중 후행절의 항목 집합들이 포함될 확률
- 신뢰도는 항목집합의 지지도 이상의 값으로 계산
![](../img/confidence_vs_support.png)

### 연관 규칙 탐사의 최종 결과
- 빈발 항목집합이면서 신뢰도가 특정 임계값 이상인 연관 규칙들을 최종적으로 의미 있는 결과로 간주
- 이 때, 이 임계값을 최소 신뢰도(minimum confidence)라고 하며 0~1 (0%~100%) 사이의 값을 가진다
![](../img/association-rule-result.png)

### 향상도 (Lift)
- 연관 규칙의 선행절과 후행절이 독립적인 경우 대비, 선행절과 후행절이 함께 발생할 확률
- 연관규칙 $X \rightarrow Y$의 향상도는 (X와 상관 없이) Y가 나올 확률과 비교하여 X가 있을 때 Y가 나올 확률의 증가비율이며, 흔히 $L(X \rightarrow Y)$ 또는 $lift(X  \rightarrow Y)$로 표현

> $$ L(X \rightarrow Y) = \frac{Pr(X \cap Y)}{Pr(X) Pr(Y)} = \frac{Pr(Y|X)}{Pr(Y)} $$

- 향상도가 1이면 서로 독립적인 관계
- 1보다 크면 양(+)의 상관 관계, 1보다 작으면 음(–)의 상관 관계
- 향상도를 볼때, 예를 들면

$$ 향상도 : \frac{\mbox{우유가 나왔을 때 지지도}}{\mbox{우유를 살 때, 계란을 살때의 신뢰도}}$$
![](../img/lift.png)

### 연관 규칙 탐사의 고려 사항

#### 임계값 설정
- 최소 지지도 및 최소 신뢰도의 수치를 어느 정도로 설정할 것인지 여러 가지를 고려하여 결정해야 한다.
- 임계값들을 증가 또는 감소시키면서 여러 차례 탐사를 수행하여 적절한 지점을 경험적으로 찾아낸다

#### 결과의 해석과 적용
- 임계값 이상의 결과들이 모두 의미가 있는 규칙이라고 단정할 수는 없다.
- 발생한 항목들 간의 우연성, 현실적으로 관련된 요인 등을 검토한 뒤 의사 결정에 반영해야 한다.

## 파이썬에서 직접 해보기

### Apriori 기법
- 빈발 항목집합과 연관 규칙을 탐사하는 대표적인 알고리즘
- 1개 항목을 이용하여 빈발 항목집합을 생성하고, 이들을 기반으로 2개 이상의 항목을 가지는 빈발 항목집합을 생성하는 과정을 모든 길이의 빈발 항목집합을 생성할 때까지 반복한다.
- Apriori 외에 Eclat, FP-growth 등 수행 성능이 향상된 다양한 연관 규칙 탐사 기법들이 존재한다
- Apriori는 아나콘다 패키지에 포함되어 있지 않기 때문에, 직접 추가 설치를 해야 사용
- 추가 설치하는 방법에 대한 명령어는 아래와 같다

```
pip install apyori
conda install apyori
```

In [6]:
import apyori as ap

### 트랜잭션 데이터 준비하기
- 연관 규칙 탐사를 위한 트랜잭션 데이터는 2차원 형태의 리스트 구조여야 한다
- 리스트의 각 항목은 1개의 트랜잭션에 해당
- 각 트랜잭션의 항목들의 순서는 고려되지 않으며, 트랜잭션 내에서 항목의 중복은 무시

In [7]:
tr = [['우유','계란','커피'],
      ['빵','우유','버터','휴지','라면'],
      ['맥주','땅콩'],
      ['계란','빵','우유','생수'],
      ['햇반','커피','간장','계란']]

### 연관 규칙 탐사 수행하기
- 모듈 내의 함수 apriori를 이용하여 트랜잭션 데이터에 대한 연관 규칙을 탐사한다
    - 첫 번째 인자는 2차원 리스트인 트랜잭션 데이터
    - min_support는 최소 지지도 값
    - min_confidence는 최소 신뢰도 값
    - 반환 결과는 탐사된 연관 규칙들

In [38]:
rules = ap.apriori(tr,min_support=0.3, min_confidence=0.7)

### 탐사한 연관 규칙 정보 확인하기
- 실행 결과는 반복자 RelationRecord 객체이며, 내부에는 결과 항목집합과 연관 규칙들에 대한 정보가 들어 있다

In [39]:
for r in rules:
    print(r)
    print('-'*70)

RelationRecord(items=frozenset({'커피', '계란'}), support=0.4, ordered_statistics=[OrderedStatistic(items_base=frozenset({'커피'}), items_add=frozenset({'계란'}), confidence=1.0, lift=1.6666666666666667)])
----------------------------------------------------------------------
RelationRecord(items=frozenset({'빵', '우유'}), support=0.4, ordered_statistics=[OrderedStatistic(items_base=frozenset({'빵'}), items_add=frozenset({'우유'}), confidence=1.0, lift=1.6666666666666667)])
----------------------------------------------------------------------


- 실행 결과는 반복자 RelationRecord 객체이다.
- 객체의 각 항목에는 다음의 내용이 순서대로 존재한다.
    1. 빈발 항목집합
    2. 그 빈발 항목집합의 지지도 값
    3. 빈발 항목집합으로부터 추론되는 연관 규칙 정보
    
    
- 추론되는 연관 규칙들마다 각각 다음의 내용이 순서대로 존재한다.
    1. 연관 규칙의 선행절
    2. 연관 규칙의 후행절
    3. 연관 규칙의 신뢰도 값
    4. 연관 규칙의 향상도 값
    
![](../img/RelationRecord.png)

### 객체의 항목마다 필요한 내용들을 원하는 형식에 맞추어 추출한다

In [57]:
rules = ap.apriori(tr,min_support=0.3, min_confidence=0.6)
for rule in list(rules):
    support = rule[1]
    infor = list(rule[2])
    if len(infor)>1:
        for i in infor:
            print("{}==>{} {} {} {}".format(set(i[0]),set(i[1]),support,i[2],i[3]))

{'계란'}==>{'우유'} 0.4 0.6666666666666667 1.1111111111111114
{'우유'}==>{'계란'} 0.4 0.6666666666666667 1.1111111111111114
{'계란'}==>{'커피'} 0.4 0.6666666666666667 1.6666666666666667
{'커피'}==>{'계란'} 0.4 1.0 1.6666666666666667
{'빵'}==>{'우유'} 0.4 1.0 1.6666666666666667
{'우유'}==>{'빵'} 0.4 0.6666666666666667 1.6666666666666667


## 예제

### 파일에서 트랜잭션 데이터를 불러오기
- 데이터를 파일에서 읽어올 때는 함수 load_transactions를 이용하여 불러온 뒤 리스트로 변환
    - 첫 번째 인자는 항목들이 트랜잭션 형태로 저장된 파일 객체
    - delimiter는 파일 내 항목들의 구분자

In [58]:
import apyori as ap
f = open('market.csv')
tr = list(ap.load_transactions(f,delimiter=','))
f.close()

In [65]:
len(tr)

9835

### 연관 규칙 탐사 수행하기
- 정상적으로 2차원 형태의 리스트로 변환되었다면, 함수 apriori를 이용하여 연관 규칙 탐사를 수행

In [66]:
rules = ap.apriori(tr, min_support=0.05, min_confidence=0.1)
for rule in list(rules):
    support = rule[1]
    infor = list(rule[2])
    if len(infor) > 1:
        for i in infor:
            print("{} ==> {} {} {} {}".format(set(i[0]),
                                              set(i[1]),
                                              support,
                                              i[2],
                                              i[3]))

{'other vegetables'} ==> {'whole milk'} 0.07483477376715811 0.38675775091960063 1.5136340948246207
{'whole milk'} ==> {'other vegetables'} 0.07483477376715811 0.2928770393951452 1.5136340948246205
{'rolls/buns'} ==> {'whole milk'} 0.05663446873411286 0.30790491984521834 1.2050317893663836
{'whole milk'} ==> {'rolls/buns'} 0.05663446873411286 0.22164743334659767 1.2050317893663836
{'whole milk'} ==> {'yogurt'} 0.05602440264361973 0.21925984878631116 1.5717351405345263
{'yogurt'} ==> {'whole milk'} 0.05602440264361973 0.40160349854227406 1.5717351405345266
