# 추천시스템 이해

## 추천시스템의 개요
```
✅ 정의 
추천시스템은 사용자(user)에게 상품(item)을 제안하는 소프트웨어 도구이자 기술
이러한 제안은 어떤 상품을 구매할 지, 어떤 음악을 들을지 또는 어떤 온라인 뉴스를 읽을지와 같은 다양한 의사결정과 연관이 있음

✅ 목표
어떤 사용자에게 어떤 상품을 어떻게 추천할지에 대해 이해
```

## 파레토와 롱테일의 법칙
```
✅ 파레토의 법칙
상위 20%가 80%의 가치를 창출한다.

✅ 롱테일의 법칙
하위 80%가 상위 20%의 가치보다 크다.
```

## 연관분석(Association Analysis)
```
✅ 정의
룰기반의 모델로서 상품과 상품사이에 어떤 연관이 있는지 찾아내는 알고리즘
이러한 연관은 2가지 형태로 존재

- 첫번째, 얼마나(frequent) 같이 구매가 되는가?
- 두번째, A아이템을 구매하는 사람이 B아이템을 구매하는가?
라는 규칙을 찾아내는 형태

어떤 상품들이 한 장바구니 안에 담기는 지 살피는 모습과 비슷하기 때문에
장바구니 분석이라고 표현하기도 함.
```

### 연관분석(Association Analysis) - 규칙평가지표
```
✅ 지지도 (Support)
전체 거래중에서 품목 A와 B가 동시에 포함된 거래의 수

✅ 신뢰도 (Confidence)
품목 A가 구매되었을 때 품목 B가 추가로 구매될 확률
(조건부 확률)

✅ 리프트(Lift) = 향상도(Improvement)
품목 A를 구매할 때 B도 구매하는지 서로 간의 연관성을
파악하는 비율
```

### 연관분석(Association Analysis) – 규칙 생성
```
가능한 모든 경우의 수를 탐색해서 지지도, 신뢰도, 향상도가 높은 규칙들을 찾아내는 방식

상품이 4개일 때, 전체 경우의 수
- 4C1 : 4
- 4C2 : 6
- 4C3 : 4
- 4C4 : 1

전체 경우의 수 : 4 + 6 + 4 + 1 = 15
```

### 연관분석(Association Analysis) – 문제점
```
아이템의 증가에 따른 규칙의 수의 증가가 기하급수적으로 증가
```

## Apriori 알고리즘
```
A priori 원리는 아이템셋의 증가를 줄이기 위한 방법
기본적인 아이디어 = “빈번한 아이템셋은 하위 아이템셋 또한 빈번할 것이다＂
즉, “빈번하지 않은 아이템셋은 하위 아이템셋 또한 빈번하지 않다＂를 이용해서 아이템셋의 증가를 줄이는 방법
```

```
✅ 원리
1. k개의 item을 가지고 단일항목집단 생성 (one-item frequent set) 
2. 단일항목집단에서 최소 지지도(support) 이상의 항목만 선택 
3. 2에서 선택된 항목만을 대상으로 2개항목집단 생성 
4. 2개항목집단에서 최소 지지도 혹은 신뢰도 이상의 항목만 선택 
5. 위의 과정을 k개의 k-item frequent set을 생성할 때까지 반복
```

### Apriori 알고리즘 - 장단점
```
✅ 장점
- 원리가 간단하여 사용자가 쉽게 이해할 수 있고 의미를 파악할 수 있음
- 유의한 연관성을 갖는 구매패턴을 찾아줌

✅ 단점
- 데이터가 클 경우(item이 많은 경우)에 속도가 느리고 연산량이 많음
- 실제 사용시에 많은 연관상품들이 나타나는 단점이 있음
- 연관상품들이 상관관계를 의미할 수 있어도 인과관계를 의미하지는 않음, 인과관계 파악이 어려움
```


### Apriori 알고리즘 코드

In [2]:
import mlxtend
import numpy as np
import pandas as pd

In [3]:
# 데이터셋을 생성
# 우유, 기저귀, 쥬스, 맥주, 양상추

data = np.array([
    ['우유', '기저귀', '쥬스'],
    ['양상추', '기저귀', '맥주'],
    ['우유', '양상추', '기저귀', '맥주'],
    ['양상추', '맥주']
])

  data = np.array([


In [5]:
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()
te_ary = te.fit(data).transform(data)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,기저귀,맥주,양상추,우유,쥬스
0,True,False,False,True,True
1,True,True,True,False,False
2,True,True,True,True,False
3,False,True,True,False,False


In [6]:
%%time
from mlxtend.frequent_patterns import apriori

apriori(df, min_support=0.5, use_colnames=True)

Wall time: 12 ms


Unnamed: 0,support,itemsets
0,0.75,(기저귀)
1,0.75,(맥주)
2,0.75,(양상추)
3,0.5,(우유)
4,0.5,"(기저귀, 맥주)"
5,0.5,"(기저귀, 양상추)"
6,0.5,"(기저귀, 우유)"
7,0.75,"(양상추, 맥주)"
8,0.5,"(기저귀, 양상추, 맥주)"


## FP-Growth 알고리즘
```
FP Growth는 A Priori의 속도측면의 단점을 개선한 알고리즘
Apriori와 비슷한 성능을 내지만 FP-Tree라는 구조를 사용해서 따른 속도를 가진다는게 장점
하지만, 동일하게 발생하는 아이템 셋(frequent itemsets)을 찾는데는 좋지만 아이템간의 연관성을 찾는 것은 어렵다는 단점이 있음
```

```
✅ 원리
1. 모든 거래를 확인하여, 각 아이템마다의 지지도(support)를 계산하고 최소 지지도이상의 아이템만 선택 
2. 모든 거래에서 빈도가 높은 아이템 순서대로 순서를 정렬 
3. 부모 노드를 중심으로 거래를 자식노드로 추가해주면서 tree를 생성 
4. 새로운 아이템이 나올 경우에는 부모노드부터 시작하고, 그렇지 않으면 기존의 노드에서 확장 
5. 위의 과정을 모든 거래에 대해 반복하여 FP-Tree를 만들고 최소 지지도 이상의 패턴만을 추출
```

### FP-Growth 알고리즘 - 장단점
```
✅ 장점
- Apriori 알고리즘보다 빠르고 2번의 탐색만 필요로 함
- 후보 Itemsets 을 생성할 필요없이 진행 가능

✅ 단점
- 대용량의 데이터셋에서 메모리를 효율적으로 사용하지 않음
- Apriori 알고리즘에 비해 설계하기 어려움
- 지지도의 계산이 FP-Tree가 만들어지고 나서야 가능함
```

### FP-Growth 알고리즘 코드

In [7]:
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()
te_ary = te.fit(data).transform(data)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,기저귀,맥주,양상추,우유,쥬스
0,True,False,False,True,True
1,True,True,True,False,False
2,True,True,True,True,False
3,False,True,True,False,False


In [10]:
%%time
from mlxtend.frequent_patterns import fpgrowth

fpgrowth(df, min_support=0.5, use_colnames=True)

Wall time: 2 ms


Unnamed: 0,support,itemsets
0,0.75,(기저귀)
1,0.5,(우유)
2,0.75,(양상추)
3,0.75,(맥주)
4,0.5,"(기저귀, 맥주)"
5,0.5,"(기저귀, 양상추)"
6,0.5,"(기저귀, 양상추, 맥주)"
7,0.5,"(기저귀, 우유)"
8,0.75,"(양상추, 맥주)"


- FP-Growth 가 Apriori 보다 속도가 훨씬 빠름

## 데이터프레임으로 신뢰도 및 향상도 확인하기

In [13]:
from mlxtend.frequent_patterns import association_rules

association = fpgrowth(df, min_support=0.25, use_colnames=True)
association_rules(association, metric='confidence', min_threshold=0.5, support_only=False)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(기저귀),(맥주),0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
1,(맥주),(기저귀),0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
2,(기저귀),(양상추),0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
3,(양상추),(기저귀),0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
4,"(기저귀, 양상추)",(맥주),0.5,0.75,0.5,1.0,1.333333,0.125,inf
5,"(기저귀, 맥주)",(양상추),0.5,0.75,0.5,1.0,1.333333,0.125,inf
6,"(양상추, 맥주)",(기저귀),0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
7,(기저귀),"(양상추, 맥주)",0.75,0.75,0.5,0.666667,0.888889,-0.0625,0.75
8,(양상추),"(기저귀, 맥주)",0.75,0.5,0.5,0.666667,1.333333,0.125,1.5
9,(맥주),"(기저귀, 양상추)",0.75,0.5,0.5,0.666667,1.333333,0.125,1.5
