# Apriori Algorithm

### 🔎목차

1. `Apriori 알고리즘 개요`

    - 정의 및 기본 개념
    - 연관 규칙 학습의 목적과 중요성
    - 데이터 과학에서의 활용

2. `연관 규칙(Apriori) 기본 개념`

    - 지지도, 신뢰도, 향상도 정의
    - Apriori 원리 (빈발 항목 집합의 생성)
    - 후보 항목 집합 생성 방법

3. `Apriori 알고리즘의 동작 원리`

    - 단계별 절차 설명 (단계별로 생성된 항목 집합, 지지도 계산 등)
    - 트랜잭션 데이터베이스 처리 방식

4. `Apriori 알고리즘의 효율성 개선`

    - 알고리즘의 한계와 문제점
    - 알고리즘 개선 기법 (FP-Growth 등)

5. `실전 사례`

    - Apriori 알고리즘의 적용 사례
    - 마케팅, 추천 시스템에서의 사용 예

6. `Python을 활용한 Apriori 알고리즘 구현`

    - Python 라이브러리 사용법 (mlxtend, apyori)
    - Apriori 알고리즘 적용 예제

7. `결과 해석 및 시각화`

    - 연관 규칙의 시각화 방법
    - 해석 시 주의사항과 인사이트 도출 방법

### 1. Apriori 알고리즘 개요

1) 정의 및 기본 개념

    - 대규모 데이터셋에서 빈발 항목 집합(frequent itemsets)을 찾아내고 이를 바탕으로 연관 규칙(association rules)을 생성하는 기법.

        - 빈발 항목 집합(Frequent Itemsets)이란 일정 빈도를 넘는 항목 집합을 빈발 항목 집합으로 간주한다.
        
        - 연관 규칙은 "A를 구매한 사람이 B도 구매할 확률"과 같은 규칙을 생성한다.

    - "항목 집합의 모든 부분 집합이 빈발 집합이어야 한다"는 기본 원칙을 사용한다.

    - 이를 통해 후보 항목 집합의 수를 줄이고, 계산 효율성을 높일 수 있다.

2) 연관 규칙 학습의 목적과 중요성

    - 연관 규칙 학습은 데이터 간의 관계를 탐색하고, 예측 모델이나 추천 시스템을 구축하는 데 중요한 역할을 한다.

    - 예를 들어, 특정 상품을 구매한 고객이 다른 상품도 구매할 확률을 추론하는 데 사용된다.

3) 데이터 분석에서의 활용

    - Apriori 알고리즘은 마케팅, 추천 시스템, 사기 탐지 등에서 널리 사용된다.

    - 특히 장바구니 분석을 통해 고객의 구매 패턴을 파악할 수 있다.

#### 2. 연관 규칙(Apriori) 기본 개념

1) 지지도, 신뢰도, 향상도 정의

    1) 지지도(Support)

        - 특정 항목 집합이 전체 거래에서 차지하는 비율을 나타낸다.

        - ![image.png](attachment:image.png)
 
        - 예제: 데이터셋에서 'A'라는 상품이 100건 중 20건에서 등장했다면, Support는 0.2이다.

    2) 신뢰도(Confidence)

        - 규칙 𝐴⇒𝐵에서 A가 발생했을 때(=규칙 조건이 주어졌을 떄) B가 발생할 확률이다.

        - ![image-2.png](attachment:image-2.png)
 
        - 예제: 'A' 상품을 구매한 고객 중 70%가 'B'도 구매했다면, Confidence는 0.7이다.

    3) 향상도(Lift)

        - 특정 항목 집합(A)이 다른 항목 집합의 발생(B)을 얼마나 잘 예측하는지 나타낸다.
        
        - 향샹도(Lift)가 1보다 크면 A가 B 발생 확률을 높인다는 의미이다.

        - ![image-3.png](attachment:image-3.png)
​
        - 예제: B 상품의 전체 지지도가 0.3이고 A가 발생할 때 B가 발생하는 신뢰도가 0.7이면?

        - 정답: 향상도(Lift)는 0.7 / 0.3 = 2.33 이다.

2) Apriori 원리 (빈발 항목 집합의 생성)

    - 모든 빈발 항목 집합의 부분 집합도 빈발 항목 집합이어야 한다.
    
    - 따라서, 빈발하지 않은 집합의 모든 상위 집합은 제거된다.

3) 후보 항목 집합 생성 방법

    - 후보 항목 집합은 빈발 항목 집합을 기반으로 확장되며, 모든 부분 집합이 빈발 항목이어야 한다.

    - "빈발하지 않은 항목 집합을 포함하는 모든 확장 집합도 빈발하지 않다"는 부분 집합 속성을 활용하여 후보 항목 집합을 생성한다.

### 3. Apriori 알고리즘의 동작 원리

1) 단계별 절차 설명

    - 단계 1: `후보 항목 집합 생성`
    
        - 모든 가능한 항목 집합을 생성한다.

    - 단계 2: `빈발 항목 집합 선택`

        - 지지도가 최소 지지도(threshold)를 초과하는 항목 집합을 선택한다.

    - 단계 3: `연관 규칙 생성`

        - 신뢰도가 최소 신뢰도를 초과하는 연관 규칙을 생성한다.

2) 트랜잭션 데이터베이스 처리 방식

    - 트랜잭션 데이터베이스를 반복적으로 스캔하여 빈발 항목 집합을 찾는다.

    - 이를 위해 효율적인 자료구조와 기법이 필요하다.

        - 트랜잭션 데이터의 특성을 분석하여 불필요한 항목을 제거하거나 압축함으로써 연산 효율성을 높일 수 있다.

        - 데이터 전처리 단계에서 이러한 작업을 수행하면 알고리즘의 성능을 개선할 수 있다.

### 💡최소 지지도와 최소 신뢰도 설정

1) 최소 지지도

    - 연관 규칙을 생성할 때 사용되는 항목 집합이 나타나야 하는 최소 빈도.

    - 너무 높게 설정하면 유용한 규칙을 놓칠 수 있고, 너무 낮게 설정하면 너무 많은 규칙이 생성된다.

2) 최소 신뢰도

    - A가 발생했을 때, B가 발생하는 확률이 어느 정도 이상이어야 규칙이 유효하다고 간주하는 기준.

### 4. Apriori 알고리즘의 효율성 개선

1) 알고리즘의 한계와 문제점

    - Apriori 알고리즘은 대규모 데이터셋에서의 성능이 저하될 수 있다.
    
    - 데이터베이스를 여러 번 스캔해야 하는 단점으로 처리 속도가 느려질 수 있다.

2) 알고리즘 개선 기법 (FP-Growth 등)

    - FP-Growth는 트리 구조를 사용하여 빈발 항목 집합을 더 효율적으로 찾는 알고리즘으로, Apriori의 단점을 보완한다.

    - FP-Growth는 데이터베이스를 한 번만 스캔하고, 메모리 내에서 처리하여 효율성을 높인다.

### 5. 실전 사례

1) Apriori 알고리즘의 적용 사례

    - 대형 마트에서 고객의 구매 데이터를 분석하여 연관 규칙을 도출하고, 이를 통해 마케팅 전략을 수립한다.

2) 마케팅, 추천 시스템에서의 사용 예시

    - 고객에게 추천할 상품을 결정하거나, 교차 판매 전략을 세우는 데 Apriori 알고리즘이 활용된다.

### 6. Python을 활용한 Apriori 알고리즘 구현

1) Python 라이브러리 사용법 (mlxtend, apyori)

    - mlxtend와 apyori 같은 라이브러리를 사용해 쉽게 Apriori 알고리즘을 구현할 수 있다.

2) Apriori 알고리즘 적용 예제

    - 아래 코드는 데이터를 전처리한 후, Apriori 알고리즘을 적용하여 빈발 항목 집합을 추출하고 연관 규칙을 생성한다.

### 💡연습문제와 실전사례

- 연습문제: 다양한 최소 지지도와 최소 신뢰도를 설정하여 Apriori 알고리즘이 생성하는 규칙을 비교한다.

- 실전사례: 고객 구매 데이터를 바탕으로 상품 추천 시스템을 구축한다.

- 아래 코드는 실제 데이터를 사용하여 Apriori 알고리즘을 적용하고, 결과로 생성된 연관 규칙을 분석하는 방법을 보여준다.

In [6]:
# 코드 실습: 고객 구매 패턴 분석을 위한 Apriori 알고리즘
from mlxtend.frequent_patterns import apriori, association_rules
import pandas as pd

# 예제 데이터 생성
df = pd.DataFrame([
    ['milk', 'bread'],
    ['milk', 'diaper', 'beer'],
    ['milk', 'diaper', 'bread', 'beer'],
    ['bread', 'butter'],
    ['bread', 'diaper'],
], columns=['item1', 'item2', 'item3', 'item4'])

print(df)

   item1   item2  item3 item4
0   milk   bread   None  None
1   milk  diaper   beer  None
2   milk  diaper  bread  beer
3  bread  butter   None  None
4  bread  diaper   None  None


각 트랜잭션의 항목에 대해 원-핫 인코딩을 수행한 후, Apriori 알고리즘을 적용하여 빈발 항목 집합과 연관 규칙을 도출한다.

In [19]:
# 데이터 전처리
one_hot = pd.get_dummies(df.stack()).groupby(level=0).sum()

#### 🔎df.stack()

- 데이터프레임에서 열을 인덱스 레벨로 쌓아서 시리즈로 변환합니다.

#### 🔎pd.get_dummies()

- 범주형 데이터를 원-핫 인코딩(one-hot encoding)으로 변환한다.

- 즉, 각 고유한 항목이 개별적인 열로 변환되어 해당 항목이 나타날 때 1로 표시된다.

#### 🔎groupby(level=0).sum()

- level=0으로 그룹화한 후, 각 그룹에 대해 합계를 계산한다.

- 이는 원래의 각 행(트랜잭션)이 다시 통합되어, 각 항목에 대한 원-핫 인코딩된 값을 합친다.

In [20]:
# Apriori 알고리즘 적용
frequent_itemsets = apriori(one_hot, min_support=0.6, use_colnames=True)



#### 🔎min_support=0.6

- 최소 지지도 설정으로, 아이템셋이 전체 트랜잭션 중 얼마나 자주 등장해야 빈발 항목 집합으로 간주되는지를 정의한다.

- 여기서는 60% 이상의 트랜잭션에서 나타나야 빈발 항목 집합으로 간주된다.

#### 🔎use_colnames=True

- 열 이름을 아이템셋으로 사용할지를 지정한다.

- 이 옵션을 설정하면 결과에 항목 이름이 포함된다.

In [21]:
# 연관 규칙 생성
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)

#### 🔎frequent_itemsets

- 앞서 구한 빈발 항목 집합을 기반으로 연관 규칙을 생성한다.

#### 🔎metric="confidence"

- 연관 규칙을 평가할 기준으로 신뢰도를 사용한다.

- 신뢰도는 특정 항목이 포함된 트랜잭션 중 다른 항목이 얼마나 자주 함께 나타나는지를 측정한다.

#### 🔎min_threshold=0.7

- 연관 규칙의 최소 신뢰도 임계값을 70%로 설정한다.

- 신뢰도가 이 값 이상인 규칙만 포함된다.

In [22]:
# 생성된 빈발 항목 집합을 출력한다.
print(frequent_itemsets)

   support  itemsets
0      0.8   (bread)
1      0.6  (diaper)
2      0.6    (milk)


In [23]:
# 도출된 연관 규칙을 출력한다.
print(rules)

Empty DataFrame
Columns: [antecedents, consequents, antecedent support, consequent support, support, confidence, lift, leverage, conviction, zhangs_metric]
Index: []


#### 🔎Columns

- association_rules 함수가 연관 규칙을 계산한 후 결과로 반환하는 데이터프레임의 각 열을 나타낸다.

- 각각 연관 규칙의 요소와 관련된 다양한 평가 지표를 담고 있으며, 이를 통해 규칙의 유용성과 신뢰도를 평가할 수 있다.

    - antecedents: 연관 규칙의 선행 항목 (If 조건에 해당)

    - consequents: 연관 규칙의 결과 항목 (Then 조건에 해당)

    - antecedent support: 선행 항목이 발생한 비율 (지지도)

    - consequent support: 결과 항목이 발생한 비율 (지지도)

    - support: 전체 데이터에서 해당 규칙이 발생한 비율 (두 항목 집합이 동시에 발생하는 비율)

    - confidence: 선행 항목이 발생했을 때 결과 항목이 발생할 확률 (신뢰도)

    - lift: 선행 항목이 결과 항목에 미치는 영향력. 1보다 크면 긍정적 영향, 1보다 작으면 부정적 영향.

    - leverage: 규칙의 예상 빈도와 실제 빈도 간의 차이.

    - conviction: 선행 항목이 발생했을 때 결과 항목이 발생하지 않을 확률.

    - zhangs_metric: Zhang의 지표로, 규칙의 강도와 방향을 나타냄.

### 💡분석 결과

1. support: 각 항목 집합이 전체 데이터에서 차지하는 비율이다.

    - 예를 들어, bread는 전체 트랜잭션의 80%에 포함되어 있으며, diaper와 milk는 각각 60%의 지지도를 가진다.

2. itemsets: 빈발 항목 집합이다.

    - 예를 들어, bread는 단일 항목 집합으로 80%의 지지도를 가지고 있음을 의미한다.

3. Empty DataFrame: 연관 규칙이 발견되지 않았음을 의미한다.

    - 즉, 설정된 최소 신뢰도 기준(70%)을 충족하는 규칙이 없다는 뜻이다.
    
    - 이 경우, 최소 신뢰도 임계값을 낮추거나 다른 설정을 조정해 볼 수 있다.

### 7. 결과 해석 및 시각화

1) 연관 규칙의 시각화 방법

    - 연관 규칙을 시각화하여 각 규칙의 중요도를 더 쉽게 이해할 수 있다.
    
    - 이를 위해 matplotlib과 같은 시각화 도구를 사용한다.

2) 해석 시 주의사항과 인사이트 도출 방법

    - 생성된 연관 규칙이 의미 있고 유용한지 평가해야 한다.
    
    - 또한, 높은 신뢰도와 향상도를 가진 규칙을 주목하여 인사이트를 도출할 수 있다.