#  **추천시스템**

## 1. 추천시스템이란?

추천 시스템 : 사용자의 정보 데이터를 분석하여 개인의 취향에 맞는 아이템을 추천하는 알고리즘

### 1-1. 사용되는 데이터의 정류와 특징

1. 명시적 데이터 : 고객들에 의해 입력된 데이터, 사용자가 선호도를 직접 표현한 데이터
2. 암시적 데이터 : 고객들의 행동을 기반으로 수집된 데이터, 사용자의 선호도가 간접적으로 표현된 데이터

### 1-2. 추천시스템의 분류

1. 내용 기반 필터링 (Content-Based Filtering)
- 컨텐츠의 유사도를 기반으로 사용자에게 추천
- 사용자가 이용하거나 선택한 아이템과 유사한 것을 추천하는 방식

2. 협업 필터링 (Collaborative Filtering)
- 서비스 내 다수의 사용자로부터 얻은 선호도 정보를 기반으로 추천하는 방식
- 사용자 기반 (특정 사용자와 유사한 취향의 사용자가 선호한 아이템)
- 아이템 기반 (사용자가 선호한 아이템과 유사한 아이템)

3. 하이브리도 필터링
- 2가지 이상의 추천시스템 알고리즘을 조합

## 2. 내용 기반 필터링 (Content-Based Filtering)

사용자 프로필과 아이템 특징과의 일치도를 계산해서 추천해주는 알고리즘    
컨텐츠의 유사도를 기반으로 추천하는 방법

사용자 프로필: 사용자가 이전에 좋아했던 항목들의 특징을 모아 놓은 데이터

### 2-1. 유사도

1. 집합 (자카드 유사도): 아이템 집합 간의 교집합 크기를 이용해 측정
2. 각도 (코사이 유사도): 아이템의 벡터 사이의 각도를 이용해 측정
3. 거리 (유클리디안 거리): 아이템의 벡터 사이의 거리를 이용해 측정
4. 상관관계 (피어슨 상관계수): 아이템의 벡터 간 선형 상관관계를 이용해 측정

### 2-2. 사용자 프로필

1. 직접 지정형 : 사용자에게 자신이 선호하는 아이템의 특징을 지정하도록 하는 방법
2. 간접 지정형 : 사용자의 과거 행동 이력에 기반해 프로필 작성

아이템에 대한 유저의 기존 평가를 바탕으로 분류 문제를 해결하는 것과 같다.    
좋은 사용자 프로필을 구성할수록 다양한 방식을 혼합해 사용

### 2-3. 아이템 특징

- Item을 벡터 형태로 표현 (도메인에 따라 다른 방법 적용)
- 컨텐츠의 내용을 분석하는 아이템 분석 알고리즘 (Clustering, Machone Learning, TF-IDF)

> TF-IDF

특정 문서 내의 특정 단어 빈도(TF)와 전체 문서 내 특정 단어가 등장하는 역문서 민도(IDF)를 통해 다른 문서에서는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어를 찾아서 가중치를 계산하는 방법 

$$
TF-IDF = TF(d,t) \times IDF(d,t)
$$

각 단어가 그 문서에서 얼마나 중요한지를 나타내는 값

## 3. 협업 필터링 (Collaborative Filtering)

가정 : 과거에 비슷한 선호도를 가진 사람은 앞으로도 비슷한 선호도를 가질 가능성이 높다.

기존 사용자들과 아이템의 상관 관계를 기반으로 새로운 사용자와 아이템의 상관 관계를 예측하는 것

### 3-1. 메모리 기반 협업 필터링

- 다른 말로 이웃 기반 협업 필터링이라고도 함
- 사용자 또는 아이템 간 유사도를 기반으로 함

##### 3-1-1. 사용자 기반 접근

유저 간의 유사도가 높을 수록 가중치를 부여하는 방식, 같은 그룹의 다른 유저가 선호하는 아이템을 추천함      
추천하고자 하는 target usper 와 유사하 사용자들의 평점을 활용
- 다양성을 바탕으로 뜻밖의 아이템 추천 가능
- 아이템이 수시로 바뀌고 사용자 유입이 적은 환경에서 유리

##### 3-1-2. 아이템 기반 접근

추천하고자 하는 target item과 유사한 아이템의 평점을 활용
- 사용자별로 따로 계산을 하지 않기 떄문에 계산이 빠름
- 사용자 유입이 많은 환경에서 유리

##### 3-1-3. 메모리 기반 협업 필터링의 한계

- 아이템/유저가 늘어날 경우 확장성이 떨어짐
- 주어진 평점/선호도 데이터가 적을 경우 성능이 저하됨

### 3-2. 모델 기반 협업 필터링

다른 말로 잠재 요인 협업 필터링이라고도 함

##### 3-2-1. 메모리 기반 협업 필터링의 한계와 모델 기반 협업 필터링

- 메모리 기반 협업 필터링은 숨겨진 선호 요인이나 아이템의 특성을 반영하지 못하고 단순히 유사도에 의존하기 때문에 결측이 많은 환경이나 복잡한 상황에서 정확도가 떨어짐
- 모델 기반 협업 필터링은 기계학습 모델을 통해 관측데이터로부터 잠재요인을 학습한 후 벡터의 계산을 통해 평점 예측

##### 3-2-2. 잠재 요인과 행렬 분해

잠재 요인 : 사용자와 아이템 사이의 관계를 설명해주는 눈에 보이지 않는 특성

Latent Factor Model : 주어진 데이터로는 알 수 없는 사용자-아이템 간의 숨겨진 특성을 찾기 위해 주어진 matrix를 사용자 잠재요인, 아이템 잠재요인으로 각각 분해하여 학습하는 모델
- 축 (차원)이 무엇을 의미하는지, 몇 개의 차원이 존재하는지 알 수 없음

행렬 분해 : User-Item Matrix을 분해하여 평점을 유저의 잠재요인과 아이템의 잠재요인으로 설명

$$
r_{ui} = q_ip_u^T = \sum^k_{s=1}u_{uk}*v_{ik}
$$

User u 의 item i 에 대한 선호도

## 4. 추천시스템 평가

1. 오프라인 평가 (실시간 연동 X)
- 사용자의 행동 이력에서 얻은 과거의 로그를 사용하여 모델의 예측 정밀도 등을 평가

2. 온라인 평가 (실시간 연동 O)

- 추천 모델이나 새로운 사용자 인터페이스를 일부 사용자에게 실제로 표시함으로써 평가 수행

3. 시용자 스터디
- 사용자에게 직접 인터뷰나 설문을 통해 데이터를 얻는 것

----------------------------------

____________________________________________

# **연관 분석**

## 1. 연관 분석이란?

### 1-1. 연관 분석의 정의

상품이나 서비스를 구매하는 등 일련의 거래나 사건 안에 존재하는 항목 간의 일정한 연관 규칙을 발견하는 분석

### 1-2. 연관규칙 분석

연관규칙의 형태: A를 구매하였을 때, B 또한 구매할 것이다와 같은 if-then 형태 (A->B로 표현)

- 조건절 : 만일 ~라면 에 해당하는 부분
- 결과절 : 그 뒷부분에 해당하는 내용
- 아이템 집합 : 조건절 또는 결과절을 구성하는 아이템들의 집합 (상호 배반이어야 함)

연관 규칙 주의 : 상관관계만 파악, 인과관계는 알 수 없다

1. 실험이 아닌 관찰 데이터이기 때문
2. 방향성은 그냥 수학적 비율일 뿐
3. 상관관계는 인과관계랑 다름

연관 분석 vs 협업 필터링

협업 필터링 : 같이 증가하거나 감소 (상관관계 기반)          
연관분석 : 같이 들어있는 비율 (교집합 기반)

## 2. 주요 개념

### 2-1. 연관규칙의 조건

1. 두 품목을 함께 구매한 경우의 수가 일정 수준 이상이어야 한다 (일정 이상의 지지도)
2. 품목 A를 포함하는 거래 중 품목 B를 구이바는 경우의 수가 일정 수준 이성이어야 한다 (일정 이상의 신뢰도)

지지도 : 전체 거래항목 중 품목 A와 품목 B가 동시에 포함되는 거래의 비율

$$
지지도 = P(A \cap B)
$$

신뢰도 : 품목 A를 포함하는 거래 수 중 품목 A와 품목 B가 동시에 포함하는 거래의 비율

$$
신뢰도 = \frac{P(A \cap B)}{P(A)} = \frac{지지도}{P(A)}
$$

### 2-2. 연관 분석의 평가 측도

향상도 (Lift) : 품목 A가 주어지지 않았을 때의 품목 B의 확률 대비, 
품목 A가 주어졌을 때의 품목 B의 확률의 증가 비율

$$
향상도 = \frac{P(A \cap B)}{P(A)P(B)} = \frac{신뢰도}{P(B)}
$$

1. 독립일 때 기댓값 : 향상도는 1이 됨 (독립이 아니라면 A를 샀다는 사실이 B를 살 확률에 영향을 주거나,
B를 샀다는 사실이 A를 살 확률에 영향을 준다는 뜻)

2. 실제 동시 발생 확률

- 향상도 > 1: 두 품목이 서로 양의 상관관계
- 향상도 = 1: 독립
- 향상도 < 1: 두 품목이 서로 음의 상관관계

> **규칙의 효용성은 지지도, 신횓, 향상도 세 가지를 모두 반영해 평가한다**

## 3. 연관 분석 알고리즘

### 3-1. Apriori 알고리즘

배경 : 연관 규칙을 찾기 위한 무차별 탐색의 비효율

Apriori 알고리즘 : 상위 조합에서부터 차례로 스캔하면서 특정 조합이 자주 발생하지 않는다면 이의 결과물로 탄생한 후속 조합들까지 모두 후보에서 배제하는 방식의 알고리즘     
- 집합 {A,B} 의 지지도가 사용자가 정한 최소 지지도를 넘지 못하면, 
{A,B} 를 포함한 {A,B,C},{A,B,D} 등의 규칙들도 모두 한번에 제거
- 장점 : 하나의 조합만 검사하고도 이에서 파생된 다른 조합들까지 배제할 수 있어 시간과 연산량을 줄일 수 있음

Apriori 프로세스
1. 단일 항목 집합 생성: 모든 개별 상품에 대해 지지도를 계산하고, 최소 지지도를 넘는 항목들만 다음 단계로
2. 2개 항목 집합 생성: 1단계에서 선별된 상품들로 2개 항목 조합을 만들고, 최소 지지도를 넘지 않는 조합 제거
3. 더 큰 항목 집합 생성: 이전 단계에서 남은 조합을 바탕으로 3개 이상의 조합 생성, 최소 지지도 넘지 않는 조합 제거
4. 최종 빈발 항목 집합: 마지막으로 남는 빈발 항목 집합을 바탕으로 연관규칙 생성, 지지도 신뢰도 향상도 계산후 선택

1. 장점
- 수많은 상품 연관 구매 패턴 발견
- 다른 연구가설 탐지 가능
- 원리 간단, 이해분석 용이
2. 단점
- 비즈니스 측면에서 중요한 현실적 중요 연관 규칙 부족
- 여전히 데이터가 커질수록 속도가 느려짐

### 3-2. FP-Growth 알고리즘

Apriori의 연산 속도 문제를 해결할 수 있게 자료구조를 이용한 알고리즘

- FP-Growth 알고리즘은 빈발 품목 집합을 효율적으로 찾아낸다
- FP-Tree 라는 구조를 이용하여 Apriori 를 효과적으로 구현한다
- Tree, Array, Linked_list 합쳐놓은 구조


- 모든 거래에서 빈도가 높은 아이템 순서대로 순서를 정렬
- 부모 노드를 중심으로 거래를 자식 노드로 추가해주며 tree 를 생성
- 새로운 아이템이 나올 경우 부모노드부터 시작하고, 그렇지 않으면 기존의 노드에서 확장
- 위의 과정을 모든 거래에 대해 반복하여 FP Tree 를 만들고 최소 지지도 이상의 패턴만 추출

FP-Growth 알고리즘 프로세스
1. 빈발 항목 필터링 : 모든 항목의 빈도를 계산한 후, 최소 지지도 이상의 항목을 남김
2. 데이터 재정렬 : 남은 항목들을 각 거래별로 빈도순으로 재정렬, 자주 구매된 항목이 먼저 오도록
3. FP-트리 생성 : 트리는 각 거래를 노드로 표현, 동일한 항목은 기존 노드에 연결에 빈도 증가, 새로운 항목은 새로운 노드
4. 빈발 항목 집합 추출 : FP 트리를 바탕으로 특정 항목을 기준으로 부분 트리를 만들어 빈발 항목 집합을 추출
5. 연관 규칙 도출 : 빈발 항목 집합을 바탕으로 연관 규칙을 만듦, 각 규칙에 대해 지지도 신뢰도 향상도 계산해 규칙 선택

1. 장점
- 데이터를 두번만 스캔하는 트리 구조이기 때문에 속도가 빼름
- 후보 itemset을 생성할 필요 없이, Tree 만 구성하면 됨
2. 단점
- 대용량 데이터셋에서 메모리를 효율적으로 사용하지 않음
- 설계하기 어렵고, 지지도의 계산은 FP-Tree가 만들어져야만 가능함