# Chapter 9. 추천 시스템

# 06. 아이템 기반 최근접 이웃 협업 필터링 실습

p585(604)~

In [10]:
import warnings
warnings.filterwarnings('ignore')

<br>

- 최근접 이웃 협업 필터링은 **사용자 기반**과 **아이템 기반**으로 분류한다.
- 이 중 일반적으로 추천 정확도가 더 뛰어난 **아이템 기반의 협업 필터링**을 구현

- 협업 필터링 기반의 영화 추천을 위해서는 사용자가 영화의 평점을 매긴 **사용자-영화 평점 행렬 데이터 세트**가 필요하다.
- 이를 위해 Grouplens 사이트에서 만든 `MovieLens` 데이터 세트를 이용해 실습 진행
- [데이터 세트 다운로드 링크](https://grouplens.org/datasets/movielens/latest/)
- 해당 사이트에서 `ml-latest-small.zip` 파일 다운로드
- 해당 파일은 십만 개의 평점(rating) 정보를 가지고 있다.

<br>

## 6.1 데이터 가공 및 변환

- 내려받은 파일 중 주요 파일인 `ratings.csv`와 `movies.csv`를 DataFrame으로 로딩

In [11]:
import pandas as pd
import numpy as np

movies = pd.read_csv('./data/Grouplens/ml-latest-small/movies.csv')
ratings = pd.read_csv('./data/Grouplens/ml-latest-small/ratings.csv')
print(movies.shape)
print(ratings.shape)

(9742, 3)
(100836, 4)


<br>

### 6.1.1 `movies.csv`

- 영화에 대한 메타 정보인 `title`과 `genres`를 가지고 있는 영화 정보

In [12]:
movies.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


<br>

### 6.1.2 `ratings.csv`

- 사용자별로 영화에 대한 평점을 매긴 데이터 세트
- 100,836개의 레코드 세트
- `userId` : 사용자 아이디
- `movieId` : 영화(아이템) 아이디
- `rating` : 평점 (최소 0.5에서 최대 5점 사이, 0.5 단위로 평점을 부여)

In [13]:
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


- `timestamp`은 현재로서는 큰 의미가 없는 컬럼이다.

- 협업 필터링은 이 `ratings.csv` 데이터 세트와 같이 사용자와 아이템 간의 평점(또는 다른 유형의 액션)에 기반해 추천하는 시스템이다.
- `ratings.csv`의 DataFrame인 `ratings`를 이용해 아이템 기반의 최근접 이웃 협업 필터링을 구현

<br>

### 6.1.3 사용자-영화 평점 행렬 데이터 세트 생성

- 먼저 로우(행) 레벨 형태의 원본 데이터 세트를 다음 그림과 같이 구성한 데이터 세트로 변경
  - 로우 : 모든 사용자
  - 컬럼 : 모든 영화
  
<img src="./images/Ch09/06/img001.jpg" />

- 이 같은 변환은 DataFrame의 `pivot_table()` 함수를 이용하면 된다.
- `pivot_table()` 함수는 로우 레벨의 값을 컬럼으로 변경하는 데 효과적이다.
- `pivot_table()` 에 인자로 `columns='movieId'`와 같이 부여하면 `movieId` 컬럼의 모든 값이 새로운 컬럼 이름으로 변환된다.

```python
ratings.pivot_table('rating', index='userId', columns='movieId')
```

- 로우(행) 레벨 : `userId'
- 컬럼 : 모두 `movieId` 컬럼에 있는 값으로 컬럼 이름이 바뀜
- 데이터 : `rating` 컬럼에 있는 값이 할당됨

In [14]:
ratings = ratings[['userId', 'movieId', 'rating']]
ratings_matrix = ratings.pivot_table('rating', index='userId', columns='movieId')
ratings_matrix.head(3)

movieId,1,2,3,4,5,6,7,8,9,10,...,193565,193567,193571,193573,193579,193581,193583,193585,193587,193609
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,4.0,,4.0,,,4.0,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,


- `pivot_table()`을 적용한 후 `movieId` 값이 모두 컬럼명(`1`, `2`, ..., `193581`)으로 변환됨
- `NaN` 값이 많은 이유
  - 사용자가 평점을 매기지 않은 영화가 컬럼으로 변환되면서 `NaN`으로 값이 할당됐기 때문
- 최소 평점 = 0.5 $\Rightarrow$ `NaN`은 모두 0으로의 변환이 필요하다

<br>

### 6.1.4 영화 제목 정보가 포함된 사용자-영화 평점 행렬 데이터 세트 생성

- 컬럼명이 현재 `movieId` 숫자 값(1, 2, 3, ...)과 같이 할당돼 있어 사용자가 평점을 준 영화가 어떤 영화인 지 알기 어렵다.
- 가동성을 높이기 위해 컬럼명을 `movieId`가 아닌 영화명 `title`로 변경
- 영화명은 `ratings`에 존재하지 않고 `movies` 데이터 세트에 존재
- `ratings`와 `movies`를 조인해 `title` 컬럼을 가져온 뒤 `pivot_table()`의 인자로 `column='title'`을 입력해 `title`로 피벗(pivot) 실시
- 이후에 `NaN`은 0으로 변환

In [15]:
# title 컬럼을 얻기 위해 movies와 조인
rating_movies = pd.merge(ratings, movies, on='movieId')
rating_movies.head()

Unnamed: 0,userId,movieId,rating,title,genres
0,1,1,4.0,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,5,1,4.0,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,7,1,4.5,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
3,15,1,2.5,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
4,17,1,4.5,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy


In [16]:
# columns='title'로 title 컬럼으로 피벗 수행
ratings_matrix = rating_movies.pivot_table('rating', index='userId', columns='title')
ratings_matrix.head()

title,'71 (2014),'Hellboy': The Seeds of Creation (2004),'Round Midnight (1986),'Salem's Lot (2004),'Til There Was You (1997),'Tis the Season for Love (2015),"'burbs, The (1989)",'night Mother (1986),(500) Days of Summer (2009),*batteries not included (1987),...,Zulu (2013),[REC] (2007),[REC]² (2009),[REC]³ 3 Génesis (2012),anohana: The Flower We Saw That Day - The Movie (2013),eXistenZ (1999),xXx (2002),xXx: State of the Union (2005),¡Three Amigos! (1986),À nous la liberté (Freedom for Us) (1931)
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,,,,,,,,,,...,,,,,,,,,4.0,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,,,,,,...,,,,,,,,,,


In [17]:
# NaN 값을 모두 0으로 변환
ratings_matrix = ratings_matrix.fillna(0)
ratings_matrix.head(3)

title,'71 (2014),'Hellboy': The Seeds of Creation (2004),'Round Midnight (1986),'Salem's Lot (2004),'Til There Was You (1997),'Tis the Season for Love (2015),"'burbs, The (1989)",'night Mother (1986),(500) Days of Summer (2009),*batteries not included (1987),...,Zulu (2013),[REC] (2007),[REC]² (2009),[REC]³ 3 Génesis (2012),anohana: The Flower We Saw That Day - The Movie (2013),eXistenZ (1999),xXx (2002),xXx: State of the Union (2005),¡Three Amigos! (1986),À nous la liberté (Freedom for Us) (1931)
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


<br>

## 6.2 영화 간 유사도 산출

- 변환된 사용자-영화 평점 행렬 데이터 세트를 이용해 영화 간의 유사도를 측정
- 영화간의 유사도 측정 방법
  - 코사인 유사도를 기반으로 함
  - 사이킷런의 `cosine_similarity()`를 이용해 측정

<br>

### 6.2.1 사용자 간의 유사도 행렬 생성

- 지금 만든 `ratings_matrix` 데이터 세트에 `cosine_similarity()`를 적용하면 영화간 유사도를 측정할 수 없다.
- 다음 그림에서도 볼 수 있듯이 `cosine_similarity()` 함수는 행을 기준으로 서로 다른 행을 비교해 유사도를 산출한다.
- 하지만 `ratings_matrix`는 `userId`가 기준인 행 레벨 데이터이다.
- 그러므로 여기에 `cosine_similarity()`를 적용하면 영화 간의 유사도가 아닌 **사용자 간의 유사도**가 만들어진다.

<img src="./images/Ch09/06/img002.jpg" />

- 영화를 기준으로 `cosine_similarity()`를 적용하려면 현재의 `ratings_matrix`가 행 기준이 영화가 되고 열 기준이 사용자가 되어야 한다.
- Pandas의 전치 행렬 변경을 위한 `transpose()` 함수를 사용하여 데이터의 행과 열의 위치를 변경하여 `ratings_matrix_T`라는 새로운 행렬 생성

In [18]:
ratings_matrix_T = ratings_matrix.transpose()
ratings_matrix_T.head(3)

userId,1,2,3,4,5,6,7,8,9,10,...,601,602,603,604,605,606,607,608,609,610
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
'71 (2014),0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0
'Hellboy': The Seeds of Creation (2004),0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
'Round Midnight (1986),0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


<br>

### 6.2.2 영화의 코사인 유사도 계산

- `ratings_matrix_T` 데이터 세트를 기반으로 영화의 코사인 유사도를 구함
- 좀 더 직관적인 영화의 유사도 값을 표현하기 위해 `cosine_similarity()`로 반환된 넘파이 행렬에 영화명을 매핑해 DataFrame으로 변환

In [19]:
from sklearn.metrics.pairwise import cosine_similarity

item_sim = cosine_similarity(ratings_matrix_T, ratings_matrix_T)

# cosine_similarity()로 반환된 넘파이 행렬을 영화명을 매핑해 DataFrame으로 변환
item_sim_df = pd.DataFrame(data=item_sim,
                           index=ratings_matrix.columns,
                           columns=ratings_matrix.columns)
print(item_sim_df.shape)
item_sim_df.head(3)

(9719, 9719)


title,'71 (2014),'Hellboy': The Seeds of Creation (2004),'Round Midnight (1986),'Salem's Lot (2004),'Til There Was You (1997),'Tis the Season for Love (2015),"'burbs, The (1989)",'night Mother (1986),(500) Days of Summer (2009),*batteries not included (1987),...,Zulu (2013),[REC] (2007),[REC]² (2009),[REC]³ 3 Génesis (2012),anohana: The Flower We Saw That Day - The Movie (2013),eXistenZ (1999),xXx (2002),xXx: State of the Union (2005),¡Three Amigos! (1986),À nous la liberté (Freedom for Us) (1931)
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
'71 (2014),1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.141653,0.0,...,0.0,0.342055,0.543305,0.707107,0.0,0.0,0.139431,0.327327,0.0,0.0
'Hellboy': The Seeds of Creation (2004),0.0,1.0,0.707107,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
'Round Midnight (1986),0.0,0.707107,1.0,0.0,0.0,0.0,0.176777,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


- 9,719 로우인 `ratings_matrix.transpose()` 데이터 세트에 대해 `cosine_similarity()`를 적용한 결과 9719 x 9719 Shape으로 영화의 유사도 행렬인 `item_sim`이 생성됨

<br>

### 6.2.3 영화 '대부(Godfather, The (1972))'와 유사도가 높은 영화

- `item_sim`을 DataFrame으로 변환한 `item_sim_df`를 이용해 영화 '대부(Godfather, The (1972))'와 유사도가 높은 상위 6개 영화를 추출

In [20]:
item_sim_df["Godfather, The (1972)"].sort_values(ascending=False)[:6]

title
Godfather, The (1972)                        1.000000
Godfather: Part II, The (1974)               0.821773
Goodfellas (1990)                            0.664841
One Flew Over the Cuckoo's Nest (1975)       0.620536
Star Wars: Episode IV - A New Hope (1977)    0.595317
Fargo (1996)                                 0.588614
Name: Godfather, The (1972), dtype: float64

- 기준 영화인 '대부'를 제외하면 '대부-2편'이 가장 유사도가 높음

<br>

### 6.2.4 영화 '인셉션(Inception (2010))'과 유사도가 높은 영화

- '인셉션' 자신은 유사도에서 제외

In [22]:
item_sim_df["Inception (2010)"].sort_values(ascending=False)[1:6]

title
Dark Knight, The (2008)          0.727263
Inglourious Basterds (2009)      0.646103
Shutter Island (2010)            0.617736
Dark Knight Rises, The (2012)    0.617504
Fight Club (1999)                0.615417
Name: Inception (2010), dtype: float64

- '다크나이트'가 가장 유사도가 높음
- 그 뒤를 이어서 주로 스릴러와 액션이 가미된 좋은 영화가 높은 유사도를 나타내고 있음

<br>

### 6.2.5 아이템 기반 유사도 데이터 활용

- 만들어진 아이템 기반 유사도 데이터는 사용자의 평점 정보를 모두 취합해 **영화에 따라 유사한 다른 영화를 추천**할 수 있게 해준다.
- 이번에는 이 아이템 기반 유사도 데이터를 이용해 **개인에게 특화된(Personalized) 영화 추천 알고리즘**을 만들어보자.

<br>

## 6.3 아이템 기반 최근접 이웃 협업 필터링으로 개인화된 영화 추천

- 위에서 만든 아이템 기반의 영화 유사도 데이터는 개인적인 **취향**을 반영하지 않고 영화 간의 유사도만을 가지고 추천한 것이다.
- 이번 절에서는 영화 유사도 데이터를 이용해 최근접 이웃 협업 필터링으로 **개인에게 최적화된 영화 추천**을 구현

<br>

### 6.3.1 개인화된 영화 추천의 특징

- 개인이 아직 관람하지 않은 영화를 추천한다는 것
- 아직 관람하지 않은 영화에 대해서 아이템 유사도와 기존에 관람한 영화의 평점 데이터를 기반으로 해 새롭게 모든 영화의 **예측 평점을 계산**
- 높은 예측 평점을 가진 영화를 추천하는 방식

<br>

<a id="632"></a>

### 6.3.2 개인화된 예측 평점 계산

- 이러한 아이템 기반의 협업 필터링에서 개인화된 예측 평점은 다음 식으로 구할 수 있다.

$$
\hat{R}_{u,i} = { \sum N  \left( S_{i,N} \times R_{u,N} \right) \over \sum N \left( | S_{i,N} | \right) }
$$

- 식에 있는 변수의 의미
  - $\hat{R}_{u,i}$ : 사용자 $u$, 아이템 $i$의 개인화된 예측 평점 값
  - $S_{i,N}$ : 아이템 $i$와 가장 유사도가 높은 Top-N개 아이템의 유사도 벡터
  - $R_{u,N}$ : 사용자 $u$의 아이템 $i$와 가장 유사도가 높은 Top-N개 아이템에 대한 실제 평점 벡터  

<br>

**$S_{i,N}$와 $R_{u,N}$에 나오는 $N$ 값**

- 아이템의 **최근접 이웃 범위 계수(item neighbor)**
- 특정 아이템과 유사도가 가장 높은 Top-N개의 다른 아이템을 추출하는 데 사용됨

- 먼저 $N$의 범위에 제약을 두지 않고 모든 아이템으로 가정하고 예측 평점을 구하는 로직을 작성
- 그런 다음 Top-N 아이템을 기반으로 협업 필터링을 수행하는 로직으로 변경

<br>

### 6.3.3 사용자별 최적화 평점 스코어 예측 함수 생성 : $N$의 범위 제약 없음

- 앞 예제에서 생성된 다음 2가지 변수를 활용해 사용자별로 최적화된 평점 스코어를 예측하는 함수를 만든다.
  - `item_sim_df` : 영화 간의 유사도를 가지는 DataFrame
  - `ratings_matrix` : 사용자-영화 평점 DataFrame  
  
  
- 함수 명 : `predict_rating()`
- 인자
  - 사용자-영화 평점 넘파이 행렬(`rating_matrix`를 넘파이 행렬로 변환)
  - 영화 간의 유사도를 가지는 넘파이 행렬 (`item_sim_df`를 넘파이 행렬로 변환)
- 위 2개의 인자를 이용해 [6.3.2의 식](#632)으로 개인화된 예측 평점을 계산

<br>

**$N$의 범위에 제약을 두지 않을 때의 예측 평점 계산 식**

$$
\hat{R}_{u,i} = { \sum N  \left( S_{i,N} \times R_{u,N} \right) \over \sum N \left( | S_{i,N} | \right) }
$$

- $R_{u,i}$ : 사용자별 영화 예측 평점
- $S_{i,N}$ : 사용자 $u$의 모든 영화에 대한 실제 평점
- $R_{u,N}$ : 영화 $i$의 다른 모든 영화와의 코사인 유사도
- $\sum N  \left( S_{i,N} \times R_{u,N} \right)$ : $S_{i,N}$와 $R_{u,N}$의 벡터 내적 곱(dot)한 값
- $\sum N \left( | S_{i,N} | \right)$ : 정규화를 위해 이 값으로 나눈 것을 의미  
  
  
- 다음 코드는 이를 구현한 것

In [23]:
def predict_rating(ratings_arr, item_sim_arr):
    ratings_pred = ratings_arr.dot(item_sim_arr)/np.array([np.abs(item_sim_arr).sum(axis=1)])
    return ratings_pred

- `ratings_arr.dot(item_sim_arr)` : $\sum N  \left( S_{i,N} \times R_{u,N} \right)$를 계산한 값
- `np.array([np.abs(item_sim_arr).sum(axis=1)]` : $\sum N \left( | S_{i,N} | \right)$를 계산한 값

<br>

### 6.3.4 개인화된 예측 평점 계산

- `predict_rating()` 함수를 이용해 개인화된 예측 평점을 계산
- `ratings_matrix`와 `item_sim_df`를 넘파이 행렬로 변환해 인자로 입력

In [25]:
ratings_pred = predict_rating(ratings_matrix.values, item_sim_df.values)
ratings_pred_matrix = pd.DataFrame(data=ratings_pred,
                                   index=ratings_matrix.index,
                                   columns=ratings_matrix.columns)
ratings_pred_matrix.head(3)

title,'71 (2014),'Hellboy': The Seeds of Creation (2004),'Round Midnight (1986),'Salem's Lot (2004),'Til There Was You (1997),'Tis the Season for Love (2015),"'burbs, The (1989)",'night Mother (1986),(500) Days of Summer (2009),*batteries not included (1987),...,Zulu (2013),[REC] (2007),[REC]² (2009),[REC]³ 3 Génesis (2012),anohana: The Flower We Saw That Day - The Movie (2013),eXistenZ (1999),xXx (2002),xXx: State of the Union (2005),¡Three Amigos! (1986),À nous la liberté (Freedom for Us) (1931)
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0.070345,0.577855,0.321696,0.227055,0.206958,0.194615,0.249883,0.102542,0.157084,0.178197,...,0.113608,0.181738,0.133962,0.128574,0.006179,0.21207,0.192921,0.136024,0.292955,0.720347
2,0.01826,0.042744,0.018861,0.0,0.0,0.035995,0.013413,0.002314,0.032213,0.014863,...,0.01564,0.020855,0.020119,0.015745,0.049983,0.014876,0.021616,0.024528,0.017563,0.0
3,0.011884,0.030279,0.064437,0.003762,0.003749,0.002722,0.014625,0.002085,0.005666,0.006272,...,0.006923,0.011665,0.0118,0.012225,0.0,0.008194,0.007017,0.009229,0.01042,0.084501


- 예측 평점이 사용자별 영화의 실제 평점과 영화의 코사인 유사도를 내적(dot)한 값이기때문에 기존에 영화를 관람하지 않아 0에 해당했던 실제 영화 평점이 예측에서는 값이 부여되는 경우가 많이 발생한다.  
  
  
- 예측 평점이 실제 평점에 비해 작을 수 있다.
  - 내적 결과를 코사인 유사도 벡터 합으로 나누었기 때문에 생기는 현상

<br>

### 6.3.5 예측 결과와 실제 평점 차이 확인

- 이 예측 결과가 원래의 실제 평점과 얼마나 차이가 있는 지 확인
- 예측 평가 지표 : MSE 적용

**MSE 측정 시 유의할 점**

- 사용자가 영화의 평점을 주지 않은 경우 앞에서는 평점을 0으로 부과했다.
- 하지만 앞에서 개인화된 예측 점수는 평점을 주지 않은 영화에 대해서도 아이템 유사도에 기반해 평점을 예측했다.
- 따라서 실제와 예측 평점 사이는 **기존에 평점이 부여된 데이터에 대해서만 오차 정도를 측정**한다.

- 예측 평가 지표인 MSE를 계산하는 `get_mse()` 함수를 만들고 결과 확인

In [26]:
from sklearn.metrics import mean_squared_error

# 사용자가 평점을 부여한 영화에 대해서만 예측 성능 평가 MSE를 구함
def get_mse(pred, actual):
    # 평점이 있는 실제 영화만 추출
    pred = pred[actual.nonzero()].flatten()
    actual = actual[actual.nonzero()].flatten()
    return mean_squared_error(pred, actual)

print('아이템 기반 모든 최근접 이웃 MSE: ', get_mse(ratings_pred, ratings_matrix.values))

아이템 기반 모든 최근접 이웃 MSE:  9.895354759094706


- MSE가 약 9.89이다.
- 실제 값과 예측값은 서로 스테일이 다르기때문에 MSE가 클 수도 있다.
- 중요한 것은 **MSE를 감소시키는 방향으로 개선하는 것**이다.

<br>

### 6.3.6 $N$의 범위 제약이 없을 때의 한계

- `predict_rating()` 함수는 사용자별 영화의 예측 평점을 계산하기 위해 해당 영화와 다른 모든 영화 간의 유사도 벡터를 적용했다.
- 많은 영화의 유사도 벡터를 이용하다 보니 상대적으로 평점 예측이 떨어졌다.
- 특정 영화와 가장 비슷한 유사도를 가지는 영화에 대해서만 유사도 벡터를 적용하는 함수로 변경이 필요하다.

<br>

### 6.3.7 사용자별 최적화 평점 스코어 예측 함수 생성 : $N$의 범위 제약 있음

**`predict_rating_topsim(ratings_arr, item_sim_arr, N=20)` 함수**

- `predict_rating()` 함수와 유사하지만 `N` 인자를 가지고 있어서 TOP-N 유사도를 가지는 영화 유사도 벡터만 예측값을 계산하는 데 적용한다.
- 이러한 계산을 위해서는 개별 예측값을 구하기 위해서 행, 열별로 for 루프를 반복 수행하면서 TOP-N 유사도 벡터를 계산해야 한다.  
$\Rightarrow$ 수행 시간이 오래 걸린다.

In [29]:
def predict_rating_topsim(ratings_arr, item_sim_arr, n=20):
    
    # 사용자-아이템 평점 행렬 크기만큼 0으로 채운 예측 행렬 초기화
    pred = np.zeros(ratings_arr.shape)
    
    # 사용자-아이템 평점 행렬의 열 크기만큼 루프 수행
    for col in range(ratings_arr.shape[1]):
        
        # 유사도 행렬에서 유사도가 큰 순으로 n개 데이터 행렬의 인덱스 반환
        top_n_items = [np.argsort(item_sim_arr[:, col])[:-n-1:-1]]
        
        # 개인화된 예측 평점 계산
        for row in range(ratings_arr.shape[0]):
            pred[row, col] = item_sim_arr[col, :][top_n_items].dot(ratings_arr[row,:][top_n_items].T)
            pred[row, col] /= np.sum(np.abs(item_sim_arr[col, :][top_n_items]))
            
    return pred

- `predict_rating_topsim()` 함수를 이용해 예측 평점을 계산하고, 실제 평점과의 MSE 계산
- 계산된 예측 평점 넘파이 행렬은 판다스 DataFrame으로 재생성

In [30]:
ratings_pred = predict_rating_topsim(ratings_matrix.values, item_sim_df.values, n=20)
print('아이템 기반 최근접 TOP-20 이웃 MSE: ', get_mse(ratings_pred, ratings_matrix.values))

아이템 기반 최근접 TOP-20 이웃 MSE:  3.6949696289030554


In [None]:
# 계산된 예측 평점 데이터는 DataFrame으로 재생성
ratings_pred_matrix = pd.DataFrame(data=ratings_pred,
                                   index=ratings_matrix.index,
                                   columns=ratings_matrix.columns)

- MSE가 3.69로 기존의 9.89보다 많이 향상됐다.

<br>

### 6.3.8 특정 사용자에 대해 영화 추천

- `userId=9`인 사용자에 대해 영화 추천
- 먼저 9번 `userId` 사용자가 어떤 영화를 좋아했는 지 확인
- 사용자가 평점을 준 영화를 평점이 높은 순으로 나열

In [31]:
user_rating_id = ratings_matrix.loc[9,:]
user_rating_id

title
'71 (2014)                                   0.0
'Hellboy': The Seeds of Creation (2004)      0.0
'Round Midnight (1986)                       0.0
'Salem's Lot (2004)                          0.0
'Til There Was You (1997)                    0.0
                                            ... 
eXistenZ (1999)                              0.0
xXx (2002)                                   1.0
xXx: State of the Union (2005)               0.0
¡Three Amigos! (1986)                        0.0
À nous la liberté (Freedom for Us) (1931)    0.0
Name: 9, Length: 9719, dtype: float64

In [32]:
user_rating_id[user_rating_id > 0].sort_values(ascending=False)[:10]

title
Adaptation (2002)                                                                 5.0
Austin Powers in Goldmember (2002)                                                5.0
Lord of the Rings: The Fellowship of the Ring, The (2001)                         5.0
Lord of the Rings: The Two Towers, The (2002)                                     5.0
Producers, The (1968)                                                             5.0
Citizen Kane (1941)                                                               5.0
Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981)    5.0
Back to the Future (1985)                                                         5.0
Glengarry Glen Ross (1992)                                                        4.0
Sunset Blvd. (a.k.a. Sunset Boulevard) (1950)                                     4.0
Name: 9, dtype: float64

- '오스틴 파워', '반지의 제왕' 등 대작 영화나 어드벤처 영화, 코미디 영화 등 전반적으로 흥행성이 좋은 영화에 높은 평점을 주고 있다.

<br>

- 이 사용자에게 아이템 기반 협업 필터링을 통해 영화를 추천
- 먼저 이미 평점을 준 영화를 제외하고 추천할 수 있도록 평점을 주지 않은 영화를 리스트 객체로 반환하는 함수인 `get_unseen_movies()`를 생성

In [34]:
def get_unseen_movies(ratings_matrix, userId):
    
    # userId로 입력받은 사용자의 모든 영화 정보를 추출해 Series로 반환
    # 반환된 user_rating은 영화명(title)을 인덱스로 가지는 Series 객체임
    user_rating = ratings_matrix.loc[userId, :]
    
    # user_rating이 0보다 크면 기존에 관람한 영화임
    # 대상 인덱스를 추출해 list 객체로 만듦
    already_seen = user_rating[user_rating > 0].index.tolist()
    
    # 모든 영화명을 list 객체로 만듦
    movies_list = ratings_matrix.columns.tolist()
    
    # list comprehension으로 already_seen에 해당하는 영화는 movies_list에서 제외
    unseen_list = [movie for movie in movies_list if movie not in already_seen]
    
    return unseen_list

<br>

**`recomm_movie_by_userid()`**

- 다음 2개의 데이터 세트를 이용해 최종적으로 사용자에게 영화를 추천하는 함수
  - 사용자가 영화의 평점을 주지 않은 추천 대상 영화 정보
  - `predict_rating_topsim()`에서 추출한 사용자별 아이템 유사도에 기반한 예측 평점 데이터 세트  
  
  
- 해당 함수의 인자
  - 예측 평점 DataFrame
  - 추천하려는 사용자id
  - 추천 후보 영화 리스트
  - 추천 상위 영화 개수  
  
  
- 위의 인자들을 받아서 사용자가 좋아할 만한 가장 높은 예측 평점을 가진 영화를 추천

In [35]:
def recomm_movie_by_userid(pred_df, userId, unseen_list, top_n=10):
    
    # 예측 평점 DataFrame에서 사용자id 인덱스와 unseen_list로 들어온 영화명 컬럼을 추출해
    # 가장 예측 평점이 높은 순으로 정렬
    recomm_movies = pred_df.loc[userId, unseen_list].sort_values(ascending=False)[:top_n]
    return recomm_movies

In [37]:
# 사용자가 관람하지 않은 영화명 추출
unseen_list = get_unseen_movies(ratings_matrix, 9)
unseen_list[:10]

["'71 (2014)",
 "'Hellboy': The Seeds of Creation (2004)",
 "'Round Midnight (1986)",
 "'Salem's Lot (2004)",
 "'Til There Was You (1997)",
 "'Tis the Season for Love (2015)",
 "'burbs, The (1989)",
 "'night Mother (1986)",
 '(500) Days of Summer (2009)',
 '*batteries not included (1987)']

In [38]:
# 아이템 기반의 최근접 이웃 협업 필터링으로 영화 추천
recomm_movies = recomm_movie_by_userid(ratings_pred_matrix, 9, unseen_list, top_n=10)
recomm_movies

title
Venom (1982)                                      0.303278
Dr. Goldfoot and the Bikini Machine (1965)        0.258705
Frankie and Johnny (1966)                         0.234754
English Vinglish (2012)                           0.214774
Harmonists, The (1997)                            0.169338
Story of Women (Affaire de femmes, Une) (1988)    0.163884
3:10 to Yuma (1957)                               0.163884
Passenger, The (Professione: reporter) (1975)     0.163884
Child, The (L'enfant) (2005)                      0.163884
Cassandra's Dream (2007)                          0.163884
Name: 9, dtype: float64

In [39]:
# 평점 데이터를 DataFrame으로 생성
recomm_movies = pd.DataFrame(data=recomm_movies.values,
                             index=recomm_movies.index,
                             columns=['pred_score'])
recomm_movies

Unnamed: 0_level_0,pred_score
title,Unnamed: 1_level_1
Venom (1982),0.303278
Dr. Goldfoot and the Bikini Machine (1965),0.258705
Frankie and Johnny (1966),0.234754
English Vinglish (2012),0.214774
"Harmonists, The (1997)",0.169338
"Story of Women (Affaire de femmes, Une) (1988)",0.163884
3:10 to Yuma (1957),0.163884
"Passenger, The (Professione: reporter) (1975)",0.163884
"Child, The (L'enfant) (2005)",0.163884
Cassandra's Dream (2007),0.163884


- '베놈'과 같이 높은 흥행성을 가진 작품이 추천됨