# CH 4 추천 알고리즘 개요
- 1장에서 설명한 추천 시스템의 3가지 구성 요소 중 **프로세스(추천 설계)**에 해당
- 추천시스템 개발 시 적절한 알고리즘을 채택하기 위해 각 알고리즘의 특징을 파악하고 상황에 맞는 것을 검토해야 함
- 이번 장의 목적
  - 추천 시스템 알고리즘 종류 이해
  - 각 알고리즘이 어떻게 사용자에게 좋아하는 아이템을 추출하는가
  - 알고리즘의 특징
  - 어떤 경우에 사용하는가를 직관적으로 이해

## 4.1 추천 알고리즘 분류
- 추천 알고리즘은 내용 기반 필터링(content-based filtering)과 협조 필터링(collaborative filtering) 두 가지로 나눌 수 있음
![추천 알고리즘 분류](./images/img_4-1.png)

- 내용 기반 필터링 :
  - 아이템의 내용을 나타내는 정보를 사용
  - 사용자가 선호하는 정보를 기반으로 내용이 비슷한 아이템을 계산함으로써 추천을 수행하는 알고리즘
- 협조 필터링 :
  - 자신과 선호도가 비슷한 지인이 '입소문'을 내는 것처럼 다른 사용자의 과거 행동을 통해 얻어진 기호 경향을 활용하여 추천하는 알고리즘
    #### 메모리 기반 방법
    - 예측을 수행하는 시점에 축적된 데이터 중 필요한 데이터를 모두 사용해 예측 계산을 수행
    - 예측 시점에 사용하는 데이터를 메모리에 전부 저장해 계산을 수행하므로 메모리 기반 방법이라고 함
    #### 모델 기반 방법
    - 시스템 내 축적된 데이터의 규칙성을 학습한 모델을 만들어두고 예측 시 미리 만들어진 모델과 추천을 제공하는 대상 사용자만 사용해 계산을 수행
    - 사전에 모델을 만들기 때문에 모델 기반 방법이라 부름

## 4.2 내용 기반 필터링
### 4.2.1 개요
- 사용자 프로필과 아이템 특징과의 유사도를 계산하고 아이템을 추천하는 알고리즘
  - 사용자 프로필(user profile) : 사용자가 어떤 내용의 아이템을 좋아하는지를 나타낸 데이터
  - 아이템 특징(item feature) : 아이템의 다양한 성질을 나타내는 특징을 추출한 데이터
- 사용자 프로필 : 아래와 같은 특징을 나열한 리스트와 같은 형태로 나타낼 수 있음
  ![사용자 프로필 예시](./images/img_4-2.png)

- 아이템 특징 : 아이템 속성 정보를 리스트 형태로 나타냄
  ![아이템 특징 예시](./images/img_4-3.png)

- 내용 기반 필터링으로 사용자 1에게 추천한다면 사용자 프로필에 주목하여 유사도가 높은(비슷한) 아이템 특징을 가진 아이템을 찾음
  - 아이템 A의 아이템 특징은 작가와 장르 2개의 요소가 사용자 1의 프로필 내용과 일치
    ![사용자 1의 사용자 프로필과 비슷한 아이템 특징 찾기](./images/img_4-4.png)
  - 아이템 A와 B 중 아이템 A의 특징이 사용자 1의 프로필과 더 많이 일치하므로 아이템 A를 사용자 1에게 추천
    ![더 비슷한 아이템 특징을 가진 것을 사용자 1에게 추천](./images/img_4-5.png)

### 4.2.2 아이템 특징 획득
- 내용 기반 필터링에서 사용할 아이템의 특징을 획득하는 방법은 아래 그림과 같이 아이템 성질에 따라 다양함
  ![아이템 특징 획득](./images/img_4-6.png)

### 4.2.3 사용자 프로필 획득
- 아이템 내용에 대한 사용자 선호도를 나타내는 사용자 프로필 획득 방법은 크게 2가지
- 간접 지정형 : 사용자의 과거 행동 이력에 기반해 사용자 프로필을 작성
  - 과거 구매 내역을 기반으로 사용자 프로필 작성

  ![간접 지정형](./images/img_4-7.png)

- 직접 지정형 : 자신이 선호하는 아이템의 특징을 명시적으로 지정
  - 서비스 가입 직후 온보딩이나 마이 페이지 등에서 수행할 때가 많음

  ![직접 지정형](./images/img_4-8.png)


## 4.3 협조 필터링
- 협조 필터링은 아래와 같은 분류를 가짐
  - 메모리 기반 방법
    - 사용자-사용자 메모리 기반 방법
    - 아이템-아이템 메모리 기반 방법
  - 모델 기반 방법

### 4.3.1 메모리 기반 방법 알고리즘 개요
- 아래 그림을 참고하여 사용자 1에게 아이템 A와 B 중 하나를 추천하는 것이 과제
  ![아이템 추천](./images/img_4-9.png)

- 서비스 내의 다른 사용자 중 사용자 1과 아이템 선호도가 비슷한 사용자를 찾음

  ![선호도가 비슷한 사용자를 찾음](./images/img_4-10.png)

- 다음으로 사용자 1과 선호도가 비슷한 사용자들이 선호하는 아이템을 사용자 1에게 추천할 후보 아이템 중에서 선택 (아이템 A를 선호한다 가정)

  ![선호도 비슷한 사용자들이 선호하는 아이템을 찾음](./images/img_4-11.png)

- 마지막으로 사용자 1과 선호도가 비슷한 사용자가 선호하는 아이템을 사용자 1에게 추천

  ![아이템 추천](./images/img_4-12.png)

- 아이템의 구체적인 속성 정보를 사용하지 않는 것이 협조 필터링의 큰 특징
- 아래의 그림으로 설명.

  ![구매이력에서 비슷한 선호도의 사용자 찾기](./images/img_4-13.png)

  - 책과 티셔츠를 구매한 비슷한 선호도의 유저들 찾음 (사용자 3, 5)

  ![구매이력으로 선호도가 비슷한 사용자로 간주](./images/img_4-14.png)


### 4.3.2 기호 데이터 획득과 평갓값 행렬
- 사용자로부터 얻은 아이템에 대한 선호도 정보를 기호 데이터(preference data)라고 부름
- 기호 데이터 획득 방법
  - 명시적 피드백(explicit feedback) : 아이템의 좋고 싫음이나 관심 여부에 관해 질문하고 답변을 받아 데이터를 획득하는 방법(평점, 리뷰 등)
  - 암묵적 피드백(implicit feedback) : 서비스내 사용자의 행동 이력으로부터 아이템에 대한 관심을 추정해 기호 데이터로 간주하는 방법(구매이력, 장바구니 등)

- 평가값(rating) : 수집한 기호 데이터 등에 기반해 사용자가 해당 아이템의 선호도 정도를 정량적으로 나타낸 것
- 평가값 행렬(rating matrix) : 평가값을 성분으로 하는 사용자 X 아이템의 행렬

- 전형적인 추천 시스템 문제 설저에서는 평가값 행렬이 주어진 상태에서 대상 사용자의 특정 아이템에 대한 미지의 평가값을 예측해 계산
- 아래의 표에서 평가값은 1~5까지의 숫자이며 숫자가 클수록 좋은 평가라고 가정 ('-'는 평가하지 않음)
  ![평가값 행렬 예시](./images/tbl_4-1.png)

- 서비스에서 예측 평가값을 사용할 때는 사용자가 열람하는 아이템의 보조 정보로 예측 평가값을 그대로 표시하는 경우가 있고 예측 평가값에 기반해 정렬된 아이템 리스트를 표시하는 경우가 있음
- 아이템 리스트를 표시할 때는 일반적으로 사용자가 이미 평가한 아이템을 리스트에 포함시키지 않음

### 4.3.3 모델 기반 방법 알고리즘 개요
- 이미 알고있는 데이터의 규칙성을 학습한 모델을 미리 만들어둠으로써 모르는 아이템의 평가값을 예측하여 추천하는 방법
- 클러스터링을 사용한 모델, 회기 및 분류 문제로 평가값을 직접 예측하는 모델, **토픽 모델**, **행렬 분해(Matrix Factorization)** 등이 있음
- 토픽 모델을 사용하면 **LDA(Latent Dirichlet Allocation)** 등의 방법을 적용해 평가값 행렬 차원을 압축하여 잠재적인 의미를 표현하는 정보를 취득해 추천에 사용
- 행렬 분해는 평가값 행렬의 곱이 원래의 행렬을 최대한 재현하는 형태로 사용자 행렬과 아이템 행렬로 분해
  - 분해된 행렬에서 얻은 사용자 벡터와 아이템 벡터의 유사도 계산을 통해 임의의 아이템에 대한 예측 평가값을 계산
  - 분해에서 얻은 사용자 벡터와 아이템 벡터를 다른 알고리즘의 입력으로 사용하기도 함

### 4.3.4 메모리 기반 방법과 모델 기반 방법의 협조 필터링 비교
- 위 소개한 두 가지 방법을 '추천에 걸리는 시간', '운용성' 관점에서 간단히 비교
- 추천에 걸리는 시간
  - 메모리 기반 : 매번 모든 데이터에서 비슷한 사용자나 아이템을 찾은 뒤 예측하므로 시간이 걸림
  - 모델 기반 : 모델을 미리 만들고 모델로 예측하므로 시간이 걸리지 않음
- 운용성
  - 메모리 기반 : 추천할 때마다 모든 데이터를 사용하므로 항상 최신 데이터를 반영해 추천 가능
  - 모델 기반 : 사용자나 아이템이 변경되면 모델을 새로 만들어야 하므로 재학습에 걸리는 계산 비용 등을 고려해야 하기 때문에 운용이 비교적 어려움

## 4.4 내용 기반 필터링과 협조 필터링의 비교
- 아래 7가지 관점에서 비교
  
  ![협조 필터링과 내용 기반 필터링 비교](./images/tbl_4-2.png)

### 4.4.1 다양성 향상
- 추천 결과의 다양성을 높이려는 경우 내용 기반 필터링보다 협조 필터링의 효과가 좋음
- 협조 필터링은 추천 받은 사용자가 모르더라도 서비스 내의 다른 사용자가 알고 평가하면 그 정보를 기반으로 추천 가능

### 4.4.2 도메인 지식 취급 비용
- 협조 필터링과 내용 기반 필터링을 비용 측면에서 비교
- 협조 필터링 : 추천받은 사용자와 과거의 기호 데이터에 기반해 비슷하다고 판단된 사용자가 선호하는 아이템 정보를 기반으로 추천하므로 아이템 자체에 관한 정보나 사용자 자체의 속성 정보등은 기본적으로 필요하지 않음
- 내용 기반 필터링 : 아이템 특징이나 사용자 프로필 작성 시 도메인 지식을 적절하게 사용해야 좋은 추천을 할 수 있음
- 다양한 도메인 지식을 관리하는 데이터베이스를 유지 및 관리하는 데는 많은 비용이 필요함
- 해당 도메인 지식을 잘 다뤄야 좋은 아이템을 추천할 수 있다는 것 자체도 큰 비용이 필요
- 따라서 도메인 지식을 잘 다루지 않으면 제대로 추천할 수 없는 내용 기반 필터링보다 도메인 지식 없이 사용자 행동 이력으로 제대로 추천할 수 있는 협조 필터링이 바람직한 속성을 가짐

### 4.4.3 콜드 스타트 문제에 대한 대응
- 콜드 스타트 문제를 대응하는 데는 내용 기반 필터링이 바람직한 성질을 가짐
- 협업필터링은 콜드스타트 문제에 대응하기 힘듦.
- 내용 기반 필터링은 아이템 특징이나 사용자 프로필만으로 추천이 가능함
  - 신규 사용자가 명시적으로 아이템에 대한 기호만 입력하면 처음부터 아이템 추천 가능
  - 서비스를 막 사용하기 시작한 사용자에게 충분한 기호 정보를 입력받아 프로필을 획득하는 것을 어려움
- 협조 필터링, 내용 기반 필터링 모두 콜드 스타트 문제에 충분히 대응하기 어려움

### 4.4.4 사용자 수가 적은 서비스에서의 추천
- 이 부분에서는 내용 기반 필터링 쪽이 바람직한 성질을 가짐
- 협조 필터링 : 앞선 이유에 + 사용자 수가 늘지 않으면 제대로 추천할 수 없는 악순환이 지속됨

### 4.4.5 커버리지 향상
- 커버리지 : 서비스에 있는 모든 아이템 중 추천 시스템으로 사용자에게 추천할 수 있는 아이템의 비율
- 커버리지가 낮으면 일부 아이템에 치우쳐 추천되는 상황 -> 내용 기반 필터링이 바람직
- 협업 필터링은 사용자가 평가하지 않은 아이템은 추천할 수 없음
- 커버리지를 높이는 관점에서는 내용 기반 필터링이 더 좋음

### 4.4.6 아이템 특징 활용
- 아이템 특징을 잘 활용할 수 있는 측면에서는 내용 기반 필터링이 더 바람직함
- 협업 필터링에서는 기본적으로 옷의 색상 등과 같은 아이템 속성 정보를 고려할 수 없음
  - 같은 상품의 크기나 색상 차이 또는 목적이 같은 경쟁 상품 등도 전혀 다른 아이템으로 간주
- 내용 기반 필터링은 아이템의 다양한 특징을 명시적으로 고려해 추천하므로 유연하게 추천할 수 있음

### 4.4.7 예측 정확도
- 어느 정도 규모가 있는 서비스에서 다수파, 서비스를 적극적으로 사용하며 일반적인 선호도 경향을 가진 사용자에 대한 추천을 생각해봄
- 이 경우는 일반적으로 협조 필터링 쪽이 높은 정확도로 예측

### 4.4.8 정리
- 협조 필터링 장점 : 다양성 향상, 도메인 지식을 다루는 비용 및 일반적인 예측 정확도에서는 협조 필터링
- 내용 기반 필터링 : 콜드 스타트 문제 대응, 사용 수가 적은 서비스에서 추천 및 커버리지 향상과 아이템 특징 활용 관점에서는 내용 기반 필터링


## 4.5 추천 알고리즘 선택
- 적절한 추천 알고리즘을 선택하기 위한 방침을 소개
- 2가지 알고리즘 중 하나만 선택하지 않고 적절하게 조합한 하이브리드 방법도 고려해야 함. 하나의 시스템에 대해 사용자나 아이템 상황에 따라 여러 알고리즘을 구분해서 사용하거나 대체하며 대처
- 일반적으로 대이터 양에 맞춰 알고리즘을 선택
  - 어느정도 사용자가 늘어나면 협업 필터링을 선택하며 변경
- 추천 시스템의 제공 형태에 맞춰 알고리즘을 선택하는 것도 생각할 수 있음
  - 개요 추천이라면 인기리스트나 아이템 속성 등으로 간단한 직접 지정형의 내용 기반 필터링을 추천
  - 연관 아이템 추천에서는 아이템-아이템 기반 방법의 협조 필터링을 선택하거나 단순하게 아이템의 특징을 사용해 비슷한 아이템을 찾아서 추천하는 경우가 많음
  - 알림 서비스나 개인화에서는 각 사용자에 관한 정보가 어느 정도 축적되었다는 것을 전제로 하는 경우가 많으므로 사용자-사용자 메모리 기반 방법의 협조 필터링이나 간접 지정형 내용 기반 필터링을 우선 선택하는 경우가 많을 것
  - 충분한 데이터가 축적되면 모델 베이스 방법의 협조 필터링이 효과적
  - 다양성의 관점에 따라 알고리즘을 선택하는 것도 중요 

## 4.6 기호 데이터의 특징
- 추천 시스템 설계를 위해서는 입력값으로 사용되는 기호 데이터를 적절한 형태로 서비스에서 얻을 수 있도록 해야함

### 4.6.1 명시적 획득과 암묵적 획득 비교
- 기호 데이터 획득 방법은 명시적, 암묵적 획득의 2가지임
- 각 방법으로 얻어진 기호 데이터는 각각 특징이 다르므로 추천 시스템 목적에 맞게 구분해 사용해야 함
- 아래의 표에서 4가지 관점으로 비교
  
  ![명시적 획득과 암묵적 획득의 비교](./images/tbl_4-3.png)


#### 데이터양
- 명시적 획득과 암묵적 획득을 데이터 양의 관점에서 비교
- 데이터양 관점에서는 암묵적 획득이 기호 데이터를 많이 얻을 수 있음
- 암묵적 획득에서는 사용자가 서비스를 사용하는 한 기호 데이터를 계속 얻을 수 있음
- 명시적 획득은 설문이나 리뷰에 적극적으로 대답해 특정 아이템에 관심 유무를 명시적으로 시스템에 전달하는 사용자가 많지 않으므로 기호 데이터를 얻기 어려움
  - 사용자가 부정적인 경험이 되어 서비스에 이탈하지 않게 명시적 획득 수행 시 보상을 잘 설계해야 함

#### 데이터 정확성
- 명시적 획득은 잘못된 기호 데이터인 경우가 별로 없음
- 암묵적 획득에서는 사용자의 선호도가 사용자의 행동에 그대로 나타나지 않는 경우가 많음

#### 평가하지 않음과 기대하지 않음의 구별
- 평가하지 않음 : 사용자의 기호 데이터가 없는 상태
- 기대하지 않음 : 사용자가 싫어함 및 관심없음 등의 부정적인 상태

- 명시적 획득에서는 명확하게 구별 가능
- 암묵적 획득에서는 구별하는 것이 어렵고 명확하지 않음

#### 사용자 인지 
- 사용자 인지 : 자신의 기호 데이터가 언제, 어떻게 시스템에 반영되어 사용되고 있는지 아는가를 말함
- 사용자의 기호 데이터를 사용해 아이템을 추천할 때 사용자가 인지하고 있으면 받아들이기 쉬우며 서비스에 대해서도 좋은 인상을 갖기 쉽다고 알려져 있음

- 명시적 획득 쪽이 우수
- 암묵적 획득에서는 시스템이 자신의 데이터를 마음대로 사용한다고 느끼거나 개인정보가 침해되었다는 부정적인 인상을 갖게 되므로 주의해야 함

### 4.6.2 기호 데이터를 다룰 때의 주의점
- 추천 아이템을 계산할 때 유의해야 할 기호 데이터 취급 시의 주의점, 추천 시스템의 어려운 점에 관해 간단하게 설명

#### 데이터의 희박함
- 서비스 내 평가값 행렬의 성분인 평가값의 대부분이 평가되지 않은 상태를 데이터가 **희박하다(sparse)**고 말함
- 사용자가 시청한 아이템에 편향이 생김. 인기 많은 영화에는 많은 펴가값이 모이고 그렇지 않은 영화는 평가값이 전혀 모이지 않음
- 서비스를 막 사용하기 시작한 신규 사용자나 서비스에 이제 막 등록된 신규 아이템은 그 서비스 안에 데이터가 거의 존재하지 않으므로 평가값 역시 거의 얻을 수 없음
- 이렇게 실제 서비스의 데이터에서 그 성질을 이해한 뒤 평가값 설계나 알고리즘 선택을 진행해야 함

#### 평가값의 변동이나 편향
- 평가값의 변동(variance) : 같은 사용자가 같은 아이템을 평가하더라도 약간의 시간을 두고 다시 리뷰 했을 때 그 값이 같은 값이라고 보장할 수 없음
  - 사용자의 기호성은 시간이 지나며 달라짐
  - 추천 시스템의 기호 데이터에는 다양한 편향이 존재함 (사용자는 자신이 좋아하는 것에만 평가)
  - 인기 편향 : 사용자에게 표시된 아이템은 어느 정도 서비스 안에서 인기가 있는 것으로 한정됨
- 사용자에 따라 평가를 후하게 남기기도 하고 박하게 남기기도 함
- 평가값을 사용할 때는 변동이나 편향이 존재한다는 사실을 인식한 뒤 알고리즘 등을 적절하게 선택해야 함
