> - **이웃 기반 방법**의 기본 아이디어는 **사용자 항목 유사성을 사용하여 등급 매트릭스에서 추천하는 것**이다.
- 이웃의 개념은 예측을 하기 위해 유사한 사용자 또는 유사한 항목을 결정하는 것을 의미한다.
- 다음에서 특정 사용자 항목 조합의 등급을 예측하는 데 이웃 기반 방법을 사용하는 방법에 대해 설명한다.
- 이웃 기반 방벙에는 두 가지 기본 원칙이 있다.

> ### User-based models
- **비슷한 사용자들은 같은 항목에서 비슷한 등급을 가지고 있다.**
- 만약 Alice와 Bob이 과거에 비슷한 방식으로 영화를 평가했다면 영화 터미네이터에서 Alice의 관찰된 등급을 사용하여 이 영화에 대한 Bob의 관찰되지 않은 등급을 예측할 수 있다.

> ### Item-based models
- **비슷한 항목은 같은 사용자에 의해 비슷한 방식으로 평가된다.**
- Alien 및 Predator와 같은 유사한 공상 과학 영화에 대한 Bob의 평가를 사용하여 Terminator에 대한 평가를 예측할 수 있다.

> - 협업 필터링 문제는 분류/회귀 모델링 문제의 일반화로 볼 수 있기 때문에, 이웃 기반 방법은 기계 학습에서 가장 가까운 이웃 분류기의 일반화로 볼 수 있다.
- 가장 가까운 이웃이 항상 행 유사도에 기초하여 결정되는 분류와는 달리, 협업 필터링은 행 또는 열을 기반으로 이웃을 찾을 수 있다.
- 이는 분류에서 모든 누락된 항목이 하나의 열에 집중되는 반면, 협업 필터링에서는 누락된 항목이 서로 다른 행과 열에 분산되어 있다.

# 2.3.1 User-Based Neighborhood Models

> - 이 접근 방식에서는 평가 예측이 계산되는 **대상 사용자와 유사한 사용자를 식별하기 위해 사용자 기반 이웃이 정의**된다.
- **사용자 $i$의 이웃을 결정하기 위해 다른 모든 사용자와의 유사성을 계산**한다.
- 따라서 **사용자가 지정한 등급간 유사성 함수를 정의**해야 한다.
- 이러한 유사성 계산은 사용자마다 다른 등급 척도를 가질 수 있기 때문에 까다롭다.
    - 한 사용자는 대부분의 항목을 좋아하는 쪽으로 치우칠 수 있는 반면, 다른 사용자는 대부분의 항목을 싫어하는 쪽으로 치우칠 수 있다.
    - 또한 사용자마다 다른 항목에 등급을 매겼을 수 있다.
- 따라서 이러한 문제를 해결하기 위한 방법이 필요하다.

> - $m$ 사용자 및 $n$ 개의 항목이 있는 $m × n$ 등급 매트릭스 $R = [r_{ui}]$의 경우, $I_u$는 사용자(행) $u$가 등급을 지정한 항목 인덱스 집합을 나타낸다. 예를 들어, 사용자 (행) $u$의 첫 번째, 세 번째 및 다섯 번째 항목의 등급이 지정(관찰)되고 나머지 항목이 누락된 경우 $I_u = \{1, 3, 5\}$이다. 따라서 사용자 $u$와 $v$가 모두 평가 한 항목 집합은 $I_u \cap I_v$로 지정된다.
- 예를 들어 사용자 $v$가 처음 $4$개 항목을 평가 한 경우 $I_v = \{1, 2, 3, 4\}$로 볼 수 있고 $I_u ∩ I_v = \{1, 3, 5\} \cap \{1, 2, 3, 4\} = \{1, 3\}$로 볼 수 있다.
- 집합 $I_u ∩ I_v$ 는 이웃 계산을 위해 $u$번째 사용자와 $v$번째 사용자 간의 유사성을 계산하는 데 사용되는 상호 관찰된 등급을 의미한다.

> - 두 사용자 $u$와 $v$의 등급 벡터 사이의 유사도 $Sim(u, v)$를 계산하는 한 가지 척도는 $Pearson$ 상관 계수다.
- **첫 번째 단계**는 지정된 등급을 사용하여 **각 사용자 $u$에 대한 평균을 계산**하는 것이다.
- $$\mu_u = \frac{\sum _{k \in I_u} r_{uk}}{|Iu|} \quad  \forall u \in \{1...m\} \qquad (2,1) $$
- 다음으로 사용자 $u$와 $v$ 사이의 $Pearson$ 상관 계수는 다음과 같이 정의된다.
- $$ Sim(u, v) = Pearson(u, v) = \frac{\sum _{k \in I_u \cap I_v} (r_{uk} - \mu_u) \cdot (r_{vk} - \mu_v)}{ \sqrt{\sum _{k \in I_u \cap I_v} (r_{uk} - \mu_u)^2 } \cdot \sqrt{\sum _{k \in I_u \cap I_v} (r_{vk} - \mu_v)^2 }} \qquad (2,2)$$
- 엄밀히 말하면 **$Pearson (u, v)$의 전통적인 정의는 사용자 $u$와 $v$가 모두 평가한 항목에 대해서만 $\mu_u$ 및 $\mu_v$ 값을 계산**해야 한다고 규정한다.
    - 식 $(2.1)$과 달리 이러한 접근 방식은 다른 사용자 $v$가 평가한 항목에 따라 $\mu_u$값이 달라진다.
- 그러나 식 $(2.1)$에 따라 각 $\mu_u$를 각 사용자 $u$에 대해 **단 한 번만 계산하는 것이 상당히 일반적**이다(그리고 **계산적으로 더 간단**하다).
- $\mu_u$를 계산하는이 두 가지 방법 중 하나가 항상 다른 방법보다 더 나은 추천을 한다고 주장하기는 어렵다.
- 극단적인 경우, 두 사용자가 상호 지정된 등급이 하나만 있는 경우, $\mu_u$ 계산에 식 $(2.1)$을 사용하면 더 유용한 결과를 얻을 수 있다고 주장한다.
- 따라서 이 장에서는 간단한 식 $(2.1)$을 사용할 것이다.
- 한편, 대부분 사용자 기반 방법을 구현할 때 $Pearson$ 계산 중에 두 사용자가 모두 평가한 항목에 대해서 계산한다.