# 1. 협업 필터링 - 유저 기반 필터링(1)

- `협업 필터링`이란 많은 사용자들로부터 얻은 기호정보(취향정보)에 따라 사용자들의 관심사를 자동으로 예측하는 방법이다. 즉, A라는 사람이 특정 이슈에 관해 B라는 사람도 같은 의견을 갖는다고 할 때 이를 유추하여 다른 의견도 비슷한 의견을 가질 확률이 높을 것이라는 사실에 기반한다.

- 기본적으로 협업 필터링의 종류에는 `Memroy-based`, `Model-based`, `Hybrid`가 있다. 이 중 `Memory-based` 방법이 간단하게 구현할 수 있으며 적당히 합당한 결과를 도출할 수 있다.

- `Memory-based` 협업 필터링에는 유저를 기반으로 하는 `User-based` 방식과 실제 데이터를 기반으로 하는 `Item-based` 방식이 있다.

## User-based VS Item-based

- `User-based` : 사용자-사용자 간 유사도를 기준으로 하여 두 사용자가 얼마나 유사한 항목(아이템)을 선호하는지 판단한다.
- `Item-based` : 아이템-아이템 간 유사도를 기준으로 하며 실제 데이터에서 유저 수가 적거나 겹치는 아이템이 적어 유효한 데이터를 뽑아내기 힘들 깨 거꾸로 아이템을 기반으로 유사도를 구하는 기법이다.

## User-based 협업 

<table>
  <thead>
    <td>user</td>
    <td>Book1</td>
    <td>Book2</td>
    <td>Book3</td>
    <td>Book4</td>
    <td>Book5</td>
    <td>Book6</td>
  </thead>
  <tr>
    <td>A</td>
    <td>9.5</td>
    <td>8</td>
    <td>10</td>
    <td>10</td>
    <td>9</td>
    <td>7</td>
  </tr>
  <tr>
    <td>B</td>
    <td>10</td>
    <td>10</td>
    <td>9</td>
    <td>6.5</td>
    <td>8</td>
    <td>8</td>
  </tr>
  <tr>
    <td>C</td>
    <td>7</td>
    <td>9.5</td>
    <td>8</td>
    <td>10</td>
    <td>7.5</td>
    <td>10</td>
  </tr>
  <tr>
    <td>D</td>
    <td>10</td>
    <td>9.5</td>
    <td>9</td>
    <td>7</td>
    <td>6.5</td>
    <td>5</td>
  </tr>
  <tr>
    <td>E</td>
    <td>9</td>
    <td>10</td>
    <td>8.5</td>
    <td>5</td>
    <td>6</td>
    <td>7.5</td>
  </tr>
</table>

- 위와 같은 유저별 도서들의 평점을 나타낸 표가 있다. 이들을 pandas 라이브러리를 이용해서 데이터를 생성해보자.

In [1]:
import pandas as pd

In [17]:
review_score_data = {
    'user': ['A', 'B', 'C', 'D', 'E'],
    'Book1': [9.5, 10, 7, 10, 9],
    'Book2': [8, 10, 9.5, 9.5, 10],
    'Book3': [10, 9, 8, 9, 8.5],
    'Book4': [10, 6.5, 10, 7, 5],
    'Book5': [9, 8, 7.5, 6.5, 6],
    'Book6': [7, 8, 10, 5, 7.5]
}
review_score = pd.DataFrame(review_score_data)
review_score

Unnamed: 0,user,Book1,Book2,Book3,Book4,Book5,Book6
0,A,9.5,8.0,10.0,10.0,9.0,7.0
1,B,10.0,10.0,9.0,6.5,8.0,8.0
2,C,7.0,9.5,8.0,10.0,7.5,10.0
3,D,10.0,9.5,9.0,7.0,6.5,5.0
4,E,9.0,10.0,8.5,5.0,6.0,7.5


### Pandas에서 데이터를 원하는 대로 선택하는 방법

- 다수의 데이터가 입력된 데이터 표에서 원하는 데이터만을 선택하는 기능
```python
DataFrame_data.head([n])  # 처음 일부분 선택
DataFrame_data.tail([n])  # 뒤 일부분 선택
DataFrame_data[행시작위치 : 행끝위치]  # 연속된 구간의 행 데이터 선택
```

- index 항목에서의 행 선택
```python
DataFrame_data.loc[index_name]  # 인덱스 지정하여 행 선택
DataFrame_data.loc[시작_index_name : 끝_index_name]  # 인덱스를 구간으로 지정하여 행 선택
```

- 열을 선택하는 방법
```python
DataFrame_data[column_name] # 하나의 열을 선택하는 경우
# 하나의 열을 선택, 범위를 지정해 원하는 데이터 선택
DataFrame_data[column_name][시작_index_name : 끝_index_name]
DataFrame_data[column_name][시작_index_pos : 끝_index_pos]
```

- DataFrame의 데이터 중 하나의 원소만 선택하는 방법
```python
DataFrame_data.loc[index_name][column_name]
DataFrame_data.loc[index_name, column_name]
DataFrame_data[column_name][index_name]
DataFrame_data[column_name][index_pos]
DataFrame_data[column_name].loc[index_name]
```

## (1) 유사도 구하기① - 피타고라스 정리

- 두 사람 간 유사도를 구하는 가장 간단한 방법은 피타고라스의 정리를 이용하여 거리를 구하는 것이다. 거리가 가까울수록 유사도가 높고 멀수록 유사도가 낮다고 할 수 있다.

In [14]:
from math import sqrt

def similarity(v1, v2):
    return sqrt(pow(v1**2) + pow(v2**2))