# **추천시스템 기초**

## 1. 추천 시스템이란?
- 사용자의 정보 데이터를 분석, 개인의 취향에 맞는 아이템을 추천하는 알고리즘
- 고객 입장: 개인이 좋아할 만한 다양한 콘텐츠와 상품을 접할 수 있음 -> 만족도 증가
- 기업 입장: 추천 시스템을 통해 유치된 고객으로부터 매출 증가를 기대할 수 있음

### 1-1. 사용되는 데이터의 종류와 특징
1. **명시적 데이터(Explicit Data)**
- 고객들에 의해 입력된 데이터. 사용자가 선호도를 직접적으로 표현한 데이터.
- 한계: 명백한 데이터를 얻기 쉽지 않음, 모든 사용자가 리뷰나 평점, 별점 등을 남기지 않음, 사람의 취향은 변하기 때문에 과거의 선호도가 현재와도 동일한지 알 수 없음
- -> 당시 사용자의 취향이 정확하게 반영되지만, 데이터 자체를 얻기 힘듦
2. **암시적 데이터(Implicit Data)**
- 고객들의 행동을 기반으로 수집된 데이터. 사용자의 선호도가 간접적으로 표현된 데이터.
- 사용자가 서비스를 이용하면 로그데이터나 검색/클릭 기록은 무조건 남음
- 높은 수치가 높은 선호도를 의미하지는 않음
- -> 데이터를 얻기 쉽지만, 사용자의 취향이나 선호도를 직접적으로 알 수 없음

### 1-2. 추천시스템의 분류
![image.png](attachment:image.png)
1. **내용 기반 필터링(Content-based Filtering)**
- 콘텐츠의 **유사도**를 기반으로 사용자에게 추천하는 방법
- 사용자가 이용하거나 선택한 아이템과 유사한 아이템을 추천하는 방식
2. **협업 필터링(Collaborative Filtering)**
- 서비스 내에 있는 **다수의 사용자로부터 얻은 선호도 정보**를 기반으로 사용자에게 추천하는 방법
- -> 두 명의 사용자가 비슷한 관심사를 가지고 있다면, 한 사용자의 데이터를 바탕으로 다른 사용자에게 추천해 주는 방식
    * 사용자 기반: 특정 사용자와 유사한 취향의 사용자가 선호한 아이템 추천
    * 아이템 기반: 사용자가 선호한 아이템과 유사한 아이템을 추천
3. **하이브리트 필터링(Hybrid Filtering)**
- 2가지 이상의 다양한 종류의 추천시스템 알고리즘을 조합하여 만들어진 알고리즘
- 콘텐츠 기반 필터링과 협업 필터링 각각의 단점들을 보완하기 위해 제시된 방식


## 2. 내용 기반 필터링
- **사용자 프로필과 아이템 특징과의 일치도**를 계산함으로써, 사용자가 선호할 만한 아이템을 추천하는 알고리즘
- 콘텐츠의 **유사도**를 기반으로 사용자에게 추천하는 방법
    - 사용자 프로필: 사용자가 이전에 좋아했던 항목들의 특징을 모아 놓은 데이터(Ex. 사용자가 로맨틱코미디 장르의 영화를 많이 봤다면, 이 프로필에는 '로맨틱코미디 영화 선호'라는 특징이 들어감)
    - 추천하려는 아이템(영화)가 로맨틱코미디 영화라면, 이 영화가 사용자 프로필과 일치한다고 판단, 이 일치도가 높을수록 추천
    - input: 사용자의 Item들에 대한 등급
    - Output: 사용자의 등급 매기는 행위에 맞는 classifier를 생성

### 2-1. 유사도
- **유사도**: 추천시스템을 이해하는데 중요한 수학적 개념
    1. 영상, 이미지, 텍스트 등의 형태로 존재하는 아이템 정보 데이터를 벡터화한 이후, 아이템 벡터간 유사도를 측정
    2. 측정된 유사도를 바탕으로 고객이 선호하는 아이템과 비교하여 유사도가 높은 아이템을 선별
- STEP
    1. 인풋 데이터 만들기
        - 아이템 정보 활용(feature 활용)
        - 테이블 형태로 데이터 정리
        - 숫자로 변환하기(원-핫 인코딩: 각 feature에 속하면 1, 아니면 0 부여)
    2. 유저 정보 활용
        - 유저의 취향 파악(직접 입력한 프로필 정보, 시청기록을 통한 간접적 정보)
        - 유저를 n개의 feature로 표현
    3. 벡터의 내적과 유사성
        - 벡터: n개의 feature로 만들어진 데이터 -> n차원의 벡터로 표현 가능
        - 벡터 내적: 두 벡터의 동일 위치 값들끼리 곱한 후 모두 더한 값, 내적 값이 클수록 두 벡터의 유사성이 높음  
        ![image.png](attachment:image.png)  
        - 이 사례에서 A사용자에게는 B영화를 추천해주는 것이 좋음!
- **유사도 측정 방식**
    - 코사인 유사도: 두 점 사이의 **각도**를 측정한 지표로, 값이 작으면 두 데이터가 가까이 있다 = 유사하다는 의미
    - 유클리드 거리: 두 점 사이의 **거리**를 측정한 지표로, 값이 작으면 두 데이터가 가까이 있다 = 유사하다는 의미

### 2-2. 사용자 프로필
- 추천 시스템에 사용되는 데이터
    1. **직접 지정형**: 사용자에게 자신이 선호하는 아이템의 특징을 명시적으로 지정하도록하는 방법
        - Ex) OTT 서비스 가입시, 제시하는 몇 개 영화들에 대한 선호도를 체크해야 하는 경우
    2. **간접 지정형**: 사용자의 과거 행동 이력에 기반하여 사용자의 프로필을 작성하는 방법
        - Ex) SF영화를 즐겨본 이력이 존재하는 유저에게 인터스텔라를 추천해주는 경우
- 사용자의 프로필을 획득하는 방식
    1. 특성 가중치는 사용자가 가지고 있는 아이템 특성 가중치의 평균 값을 활용함
    2. 사용자의 기호를 따로 파악하거나, 설문조사 또는 자발적인 키워드 입력 등으로 프로필을 획득함
    3. 아이템에 대한 유저의 기존 평가를 바탕으로 분류(Classification)문제를 해결하는 것과 같음
- -> 좋은 사용자 프로필을 구성할수록, 추천 시스템의 정확도와 만족도가 높아지고 다양한 방식(명시적+암묵적)을 혼합하여 사용하는 것이 일반적

### 2-3. 아이템 특징
- Items를 벡터 형태로 표현, 도메인에 따라 다른 방법이 적용됨
    - 책 : 제목, 장르, 작가, 출판일, 문자 수 등등
    - 음악 : 작곡자, 작곡 연도, 음의 높이, 음색, 음량
    - 이미지 : 물체, 촬영된 장소, 시간
- 컨텐츠의 내용을 분석하는 아이템 분석 알고리즘
    - Clustering
    - Machine Learning
    - TF-IDF

#### TF-IDF(Term Frequency - Inverse Document Frequency)
- TF: 특정 문서 내에 특정 단어가 얼마나 자주 등장하는 지를 의미하는 단어 빈도
- IDF: 전체 문서에서 특정 단어가 얼마나 자주 등장하는지 의미하는 역문서 빈도
- 다른 문서에서는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어를 찾아서 문서 내 단어의 가중치를 계산하는 방법
- Ex) 예를 들어, "사랑"이라는 단어는 모든 로맨틱 코미디 리뷰에서 자주 나올 수 있지만, "고백"이라는 단어는 특정 리뷰에만 나올 수 있음. 그럴 때, "고백"의 IDF 값이 높아짐
- 계산법
    - $TF(d,t)$ : 특정 문서 d에서의 특정 단어 t의 등장 횟수
    - $DF(t)$ : 특정 단어 $t$가 등장한 문서의 수
    - $IDF(d,t)$ :  
    $$idf(d,t) = log(\frac{n}{1+df(t)})$$
    - TF-IDF 계산 예시    
    $$TF-IDF = TF(d,t) \times IDF(d,t)$$
- 💡각 단어가 그 문서에서 **얼마나 중요한지를 나타내는 값**으로, 높을수록 그 단어가 다른 문서들보다 **특정 문서에서 더 중요한 역할**을 한다는 뜻

### 2-4. 장단점
|장점|단점|
|---|---|
|아이템에 대한 콜드 스타트 문제 해결 가능 (협업 필터링은 다른 사람들의 평점이 필요)|item의 feature를 추출해야 하고 이를 통해서 추천하기 때문에 정확한 feature를 추출하지 못하면 정확도가 떨어짐|
|item의 feature를 통해서 추천을 하기 때문에 추천이 된 이유를 설명하기 용이함|기존 item과 유사한 item 위주로만 추천하기에 새로운 장르의 item을 추천하기 어려움|


## 3. 협업 필터링(Collaborative Filtering)
💡 가정 : 과거에 비슷한 선호도를 가진 사용자들은 앞으로도 비슷한 선호도를 가질 가능성이 높다.
- 기존 사용자들과 아이템의 상관 관계를 기반으로 새로운 사용자와 아이템의 상관관계를 예측하는 것
- 아이템에 대한 여러 사용자의 평점을 기반으로 추천이 이루어짐
- Input: 아이템들에 대한 사용자들의 등급
- Output: 사용자와 비슷한 다른 사용자들을 판별, 그들의 아이템 등급
---
### 3-1. 메모리 기반 협업 필터링(Memory-Based Collaborative Filtering)
- 이웃 기반 협업 필터링이라고도 함
- 사용자 또는 아이템 간 유사도를 기반으로 함
- 사용자 A와 비슷한 취향을 가진 사용자가 선호하는 아이템을 추천
---
두 가지 형태의 접근법이 있음  
1. **사용자 기반**: 당신과 비슷한 고객들이 다음 상품도 구매했습니다.
- 특정 사용자와 유사도가 가장 높은 다른 사용자를`TOP-N`으로 선정해 이 `TOP-N`사용자가 좋아하는 아이템을 추천
- ![image.png](attachment:image.png)
- Ex) 추천하고자 하는 target user와 **유사한 사용자**들의 평점을 활용
    - **사용자 A**: "어바웃 타임" 5점, "노팅힐" 4점, "아이언맨" 3점
    - **사용자 B**: "어바웃 타임" 5점, "노팅힐" 5점, "반지의 제왕" 2점
    - **사용자 C**: "아이언맨" 5점, "어벤져스" 5점, "어바웃 타임" 2점
    - A와 B는 비슷한 취향을 가짐, 만약 B가 노팅힐을 아직 안 봤으면 추천함

2. **아이템 기반**: 이 상품을 선택한 다른 고객들은 다음 상품도 구매했습니다.
- '사용자들이' 그 아이템을 좋아하는지/싫어하는지의 평가 척도가 유사한 아이템을 추천하는 기준이 되는 알고리즘(아이템간의 속성이 얼마나 유사한가 X)
- ![image-2.png](attachment:image-2.png)
- Ex) 추천하고자 하는 target item과 **유사한 아이템**의 평점을 활용
    - **사용자 A**: "어바웃 타임" 5점, "노팅힐" 4점, "아이언맨" 3점
    - **사용자 B**: "어바웃 타임" 5점, "반지의 제왕" 2점, "노팅힐" 4점
    - **사용자 C**: "아이언맨" 5점, "어벤져스" 4점, "어바웃 타임" 2점
    - 어바웃 타임, 노팅힐: 로맨틱 코미디 / 아이언맨, 어벤져스: 액션
    - A는 어바웃 타임 고평가, 다른 로맨틱 코미디 영화 추천
    - C는 어바웃 타임 저평가, 액션 장르 고평가, 다른 액션 영화 추천

3. **User-based VS Item-based 비교**

| 비교 기준 | **User-based CF (UBCF)** | **Item-based CF (IBCF)** |
| --- | --- | --- |
| 추천의 정확성 | 아이템 수가 사용자 수보다 많은 경우 적합 | 사용자 수가 아이템 수보다 많은 경우 적합 |
| 시스템 공간 및 효율성 | 아이템 수가 사용자 수보다 많은 경우 적합 | 사용자 수가 아이템 수보다 많은 경우 적합 |
| 안정성 | 아이템이 수시로 바뀌는 경우 적합 | 아이템 리스트의 변화가 적고 고정적인 경우 적합 |
| 다양성 | 특정 사용자가 독특한 아이템을 평가한 경우 독창적 아이템 추천 가능 | 유사한 아이템 위주로 추천되어 다양성 및 참신성 부족 |
---
✅ **정리**  
정답이 있는 것은 아니고 상황별로 적합한 방법이 있음
- 새로운 추천이 필요한 플랫폼 운영 -> User-based
- 반대로 사용자에게 아이템에 치중된 플랫폼 운영 -> Item-based

>일반적으로 사용자의 수가 아이템의 수보다 훨씬 많고, 새로운 사용자가 새로운 아이템보다 더 많을 가능성이 높아서 Item-based CF가 장점이 있음(아마존, 넷플릭스 같은 거대 웹사이트에서 보통 사용)
---
4. **메모리 기반 협업 필터링의 한계**
- 아이템/유저가 계속 늘어날 경우, 확장성이 떨어짐(Scalability)
- 주어진 평점/선호도 데이터가 적을 경우, 성능이 저하됨(Sparsity)
    - 유저-아이템 행렬 대부분의 원소는 비어 있음(space matrix, 희소행렬)
    - NBCF를 사용하려면 적어도 sparsity ratio(행렬 전체 원소 중 비어있는 원소의 비율)이 99.5%를 넘지 않는 것이 좋음
    - **그렇지 않다면, model-based CF 이용!**
- 아이템 i에 대한 평점을 예측하기 위해서는, 아이템 i에 대해 평가를 한 모든 유저와의 유사도를 구해야 함. 그러나 유저가 많아지면 연산은 늘어나고, 오히려 성능이 저하됨 -> **따라서 KNN CF 이용!**

---

### 3-2. 모델 기반 협업 필터링(Model-Based Collaborative Filtering)
- 잠재 요인 협업 필터링이라고도 함
- 대부분의 온라인 스토어에서 잠재 요인 협업 필터링 기반의 추천 시스템 적용
- 사용자-아이템 평점 매트릭스 속에 숨어 있는 잠재 요인을 추출해 추천 예측을 할 수 있게 하는 기법

1. **메모리 기반 협업 필터링의 한계와 모델 기반 협업 필터링**
> 메모리 기반 협업 필터링은 관측된 평점 정보만으로 유사도를 계산하고 추천을 수행하기 때문에 숨겨진 선호 요인이나 아이템의 특성을 반영하지 못하여 결측이 많은 환경이나 복잡환 상황에서 정확도가 떨어짐

✅ **예시**

> 사용자가 막 가입해서 2~3개 작품에만 평점을 남긴 상태인데, 그 중 하나는 우연히 친구가 추천해서 본 다큐멘터리였다.
- 메모리 기반 협업 필터링은 이 평점만을 기반으로 유사한 유저를 찾거나 비슷한 아이템을 추천하는데, 이 정보만으로는 사용자의 진짜 취향(예: 로맨스, 액션 등)을 반영하기 어려움
- '숨겨진 선호 요인'을 반영하지 못하는 상황이고, 결국 다큐멘터리 위주로 추천을 제공하여 사용자가 흥미를 못 느낌

> 모델 기반 협업 필터링은 기계학습 모델을 통해 관측 데이터로부터 이 "숨겨진 선호 요인". 즉, "잠재 요인"을 수치적으로 학습한 후, 벡터(행렬)의 계산을 통해 평점을 예측한다!

2. **잠재 요인과 행렬 분해**
> **잠재 요인(Latent Factor)**
- 사용자와 아이템 사이의 관계를 설명해주는, 눈에 보이지 않는 숨겨진 특성(요인)
- 모델이 관측된 데이터(평점 패턴 등)를 바탕으로 수치적으로 추정하는 값(취향, 성향 특징 등)
> **Laten Factor Model**
- 주어진 데이터로는 알 수 없는 사용자-아이템 간의 **숨겨진 특성(feature)**을 찾기 위해 주어진 Matrix를 `사용자-잠재요인`, `아이템-잠재요인`으로 각각 **분해하여 학습**하는 모델
- **factor 모델**
    - 아이템, 유저의 구분 없이 정해진 축(차원)으로 하나의 좌표(벡터)로 표현
    - ![image-3.png](attachment:image-3.png)
    - OTT플랫폼에서의 유저와 아이템(OTT 컨텐츠) 의 특성을 파악하기 위해 latent factor를 분석했다고 가정했을 때, 이는 latent factor가 2차원으로 표현된 예시임
    - x축, y축 방향으로 각 유저와 아이템의 벡터 위치가 표현되어 있음. 유저와 아이템이 차원이 같은 벡터로 표현되었으므로 이렇게 같은 공간에 표현이 가능하고, 서로의 유사도를 파악할 수가 있게 됨.
- **latent factor model**
    - 축(차원)이 무엇을 의미하는지, 몇 개의 차원이 존재하는지 알 수 없음
    - ![image-4.png](attachment:image-4.png)
    - 2차원이 아니고 차원이 여러 개일 수 있음. 아이템(혹은 유저)을 표현한 factor는 사람이 명시적으로 이해할 수 없음.
    - 성향을 파악하기 위해 각 유저와 아이템을 잠재 factor로 표현하고, 이는 같은 공간에 맵핑이 가능하여 서로의 거리나 각도 등을 통해 유사도를 파악해 **잠재적인 취향**을 파악하는 것!
> ⇒ Latent Factor Model은 사용자와 아이템을 보이지 않는 축(=잠재적인 차원)들을 사용해 나타낼 수 있고, 이를 통해 평점을 예측할 수 있다고 가정하는 모델임
---
> **행렬 분해(Matrix Factorization)**
- User-Item Matrix(유저-아이템 행렬)에는 유저의 취향+아이템의 특성이 녹아 있지만, 그 결과값만 볼 수 있음
- 이 행렬을 분해하여 평점을 유저의 잠재 요인과 아이템의 잠재 요인의 내적(곱해서 더함)으로 설명할 수 있다면, 이 방법을 통해 평점을 예측할 수 있음(즉, 유저-아이템 행렬에서 빈칸인 부분의 평점을 예측해서 채워넣고, 그에 따라 추천을 할 수 있음!)  
![image-5.png](attachment:image-5.png)  
$$R \in R^{m*n}, Q \in R^{n*k}, P\in R^{m*k} $$
$$R≈QP^T$$
- R: User-Item Rating Matrix (기존 행렬)
- Q: k차원의 User Latent Matrix
- P: k차원의 Item Latent Matrix  

⇒ User u의 Item i에 대한 선호도(평점)는 다음과 같이 User/Item Latent Matrix 벡터의 내적으로 표현될 수 있음.
$$r_{ui} = q_ip_u^T = \sum^k_{s=1}u_{uk}*v_{ik}$$
- *p*,q : User, Item Latent Matrix의 벡터
- *r* : 유저 u의 아이템 i 선호도(평점) 추정값
---
> **MF 수행 방식**
- Orthgonality Factorization(Singular Vector Decomposition: SVD) 특이값 분해
- Stochastic Gradient Descent (SGD)
- Non-Negatice Matrix Factorization (NMF)
- Probabilistic Factorization (PMF)
⇒ 모두 Latent Factor Model 알고리즘

✅ 여기까지 정리!
> ⇒ 메모리 기반 협업 필터링의 한계를 보완하기 위해, 모델 기반 협업 필터링을 사용함
> ⇒ 모델 기반 협업 필터링은 행렬 분해(MF)를 통해 유저와 아이템의 잠재 요인 벡터를 만들고, 잠재 요인 벡터 간의 내적 연산(곱해서 더함)을 통해 평점을 예측함!


## 4. 추천시스템 평가
<평가 방법>  
1. **오프라인 평가(실시간 연동X)**
- 사용자 행동 이력에서 얻은 과거의 로그를 사용하여 모델의 예측 정밀도 등을 평가
- 과거의 사용자 행동을 학습하고 미래의 사용자 행동에 대한 예측을 수행
2. **온라인 평가(실시간 연동O)**
- 추천 모델이나 새로운 사용자 인터페이스를 일부 사용자에게 실제로 표시함으로써 평가를 수행함
3. **사용자 스터디**
- 사용자에게 직접 인터뷰나 설문을 통해 데이터를 얻는 것

| |장점|단점|
|---|---|---|
|오프라인 평가| 평가 비용이 낮고, 데이터 양이 풍부하여 결과의 분산이 작다.|과거의 로그에 기반하는 만큼, 실제로 모델이 배포되었을 때 비즈니즈 목표와 만족도에 기여하지 못할 수 있다.|
|온라인 평가| 비즈니즈 목표에 기여하는지의 여부를 즉각적으로 확인할 수 있다.|구현 비용이 높고, 성능이 좋지 않은 경우 되려 만족도를 떨어뜨릴 수 있다.|
|사용자 스터디|서비스 로그만으로는 알 수 없는 개선점을 발견할 수 있다.|주관에 기반되는 경우가 많기에 결과의 분산이 크며, 데이터의 양을 충분히 얻기 어려워 재현성이 떨어진다.|

## 5. 최근 추천시스템 연구 동향
최근에는 자연어 처리 기술(Transfomer, GRU 등)에 기반한 추천시스템 연구가 활발히 이루어지고 있다.