# Collaborative Filtering(협업 필터링)

* 많은 유저들로부터 얻은 기호 정보를 이용해 유저의 관심사를 자동으로 예측하게 하는 방법
    * 이 상품을 구매한 유저가 구매한 다른 상품들
    * 이 영화를 선호하는 유저가 관람한 다른 영화들
* 유저 A와 비슷한 성향을 갖는 유저들이 선호하는 아이템을 추천
* 아이템이 가진 속성을 사용하지 않으면서도 높은 성능을 보임

## CF의 종류

### Neighborhood-based CF
* User-based
* Item-based

### Model-based CF
* Non-parametric(KNN, SVD)
* Matrix Factorization
* Deep Learning

### Hybrid CF
* Contents-based와 결합

## CF 로직
* 유저 u의 아이템 i에 대한 평점/구매여부 등을 예측하는 것
    * 주어진 데이터를 활용해 유저-아이템 행렬을 생성
    * 유사도 기준을 정하고 유저 또는 아이템 간의 유사도 계산
    * 주어진 평점/구매여부와 유사도를 활용하여 행렬의 비어있는 값(평점/구매여부)을 예측

## CF 특징
* 구현이 간단하고 이해가 쉬움
* 아이템이나 유저가 계속 늘어날 경우 확장성이 떨어짐(Scalability)
* Sparse한 데이터의 경우 성능이 저하됨(Sparsity)
* Model-based CF에 비해 계산량이 적음
* 새로운 유저, 아이템이 추가되더라도 비교적 안정적
* 새로운 content(유저 또는 아이템)을 추천할 수 있음

### Sparsity
* 주어진 데이터를 활용해 유저-아이템 행렬을 만들면 대부분의 값은 비어있음(sparse matrix)
* CF를 적용하려면 적어도 sparsity가 99.5%를 넘지 않도록 하는 것이 좋음

## Neighborhood-based CF(Memory-based)

### User-based
* 두 유저가 얼마나 유사한 아이템을 선호하는가?
* 유저 간의 유사도를 구한 뒤, 나와 유사도가 높은 유저들이 선호하는 아이템을 추천

* 구현이 쉽고 유사한 Neighborhood의 수 K가 늘어날 수록 성능이 높아짐
* Item-based보다 더 다양한 추천 결과들이 제공됨(Diversity)
* Sparsity, Cold Start에 좀 더 취약함
* Pearson 유사도를 사용할 때 성능이 높음

* rating을 구하는 방법
    1. Average : 유저들의 rating의 평균(유사도 고려 X)
    2. Weighted Average : 유저 간의 유사도 값을 Weight로 사용하여 rating의 평균

* Absolute rating의 문제점
    * 내가 평점을 내리는 기준은 다른 유저와 다름
    * 어떤 유저는 전체적으로 높게 평점을 줄 수도 있고 반대로 낮게 줄 수도 있음

* Deviation을 사용
    * 유저가 아이템에 내린 절대 평점을 사용하지 않음
    * 대신 유저의 평균 평점에서 얼마나 높은지 혹은 낮은지 그 편차를 사용
        * 어떤 유저의 평균이 2.5점인데 5점을 줬다면 아주 높게 평가한 것
        * 모든 아이템의 평점을 5점으로 준 유저는 아이템끼리의 비교가 어려움
    * predicted rating = 유저 평균 rating + predicted deviation
        * $dev(u,i) = r(u,i) - \bar{r_{u'}}\text(\text{ }for\text{ } known\text{ } rating)$

* Weighted Average with deviation
    * $$\hat{r}(u,i) = \bar{r_u} + \frac{\sum_{u'\in\omega_i}sim(u,u')(r(u',i)-\bar{r_{u'})}}{\sum_{u'\in\omega_i}sim(u,u')}$$

* K-Nearest Neighbor CF
    * 모든 유저를 사용할 경우 연산은 많아지고 오히려 성능은 떨어지기도 함
    * $\omega_i$에 속한 유저 가운데 유저 u와 가장 유사한 K명의 유저를 이용해 평점을 예측(KNN)
        * 보통 K=25~50을 많이 사용하지만 직접 튜닝해야 하는 하이퍼 파라미터

### Item-based
* 두 아이템이 유저로부터 얼마나 유사한 평가를 받았는가?
* 아이템 선호도를 바탕으로 연관성이 높은 다른 아이템을 추천, 아이템 간의 유사도를 구함

* 보통 실제 서비스에서 User-based CF 보다 높은 성능을 냄
* 아이템 간의 유사도를 사용하는 것이 더 Robust함
    * 아이템 기준의 Neighborhood들이 사용자 기준의 Neighborhood보다 훨씬 덜 변함
* 추천에 대한 이유를 설명하기 훨씬 쉬움
* 유저가 과거에 선호했던 다른아이템과 비슷하기 때문에 추천
* Cosine 유사도를 사용할 때 성능이 높음

## CF의 한계

* Cold Start 문제
    * 데이터가 충분하지 않다면 추천 성능이 떨어짐
    * 데이터가 전혀 없는 신규 유저, 아이템의 경우 추천이 불가능
* 계산 효율
    * 유저와 아이템이 늘어날수록 유사도 계산이 늘어남
    * 유저, 아이템이 많아야 정확한 예측을 하지만 반대로 시간이 오래걸림
* Long-tail 추천의 한계
    * 많은 유저들이 선호하는 소수의 아이템이 보통 CF 추천 결과로 나타남
    * 롱테일을 이루는 비주류의 아이템이 추천되기 어려움