# User-based Collaborative Filtering  구현

### User-Based CF 의 알고리즘

| USER | M1 | M2 | M3 | M4 | M5 | U1과의 유사도 |
| --- | --- |--- |--- | ---|--- | --- |
| U1 | 2 | 5 | 3 |   |   |
|U2|4|4|3|5|1|0.19|
|U3|1|5|4| | 5| 0.89|
|U4|3|5|3|2|5  |0.94|
|U5|4|5|3|4| |0.65|
|U3, U4 평균|2|5|3.5|2|5|

1) U1과 취향이 비슷한 사용자를 찾는다. 취향은 각 사용자의 영화에 대한 평가의 유사성을 계산하여 찾는다. .U3와 U4가 U1과 가장 높은 상관 관계를 보임.  

2) U1 과 가장 유사한 U3와 U4가 가장 좋게 평가한 영화를 찾는다. U1 이 아직 보지 않은 영화 M4, M5 에 대해 U3, U4 의 평점 평균을 내면 각각 2 와 5 이다. 따라서 평점 평균이 높은 M5를 U1도 좋아할 것으로 예상.

In [67]:
import scipy.stats
import pandas as pd
# from math import sqrt
import numpy as np
# import matplotlib.pyplot as plt

In [74]:
#Storing the movie information into a pandas dataframe
movies_df = pd.read_csv('moviedataset/movies.csv')
#Storing the user information into a pandas dataframe
ratings_df = pd.read_csv('moviedataset/ratings.csv')

In [75]:
# i_cols = ['movie_id', 'title', 'release date', 'video release date', 'IMDB URL', 'unknown', 
#           'Action', 'Adventure', 'Animation', 'Children\'s', 'Comedy', 'Crime', 'Documentary', 
#           'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 
#           'Thriller', 'War', 'Western']
# movies_df = pd.read_csv('data/u.item', sep='|', names=i_cols, encoding='latin-1')

# r_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
# ratings_df = pd.read_csv('data/u.data', sep='\t', names=r_cols, encoding='latin-1')

In [76]:
print(movies_df.shape)
movies_df.head(3)

(34208, 3)


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance


In [77]:
print(ratings_df.shape)
ratings_df.head(3)

(22884377, 4)


Unnamed: 0,userId,movieId,rating,timestamp
0,1,169,2.5,1204927694
1,1,2471,3.0,1204927438
2,1,48516,5.0,1204927435


In [80]:
movies_df['year'] = movies_df['title'].str.extract('(\d\d\d\d)', expand=False)

# title 에서 (year) 제거
movies_df['title'] = movies_df['title'].str.replace('(\(\d\d\d\d\))', '')

# title data cleansing
movies_df['title'] = movies_df['title'].apply(lambda x: x.strip())

movies_df.head(3)

  movies_df['title'] = movies_df['title'].str.replace('(\(\d\d\d\d\))', '')


Unnamed: 0,movieId,title,year
0,1,Toy Story,
1,2,Jumanji,
2,3,Grumpier Old Men,


- content-based filtering 과 달리 user-based collaborative filtering 에는 similarity 를 이용하므로 item 정보가 필요하지 않기 때문에 genre 열을 drop 한다.   

In [81]:
movies_df = movies_df.drop('genres', axis=1)
movies_df.head(3)

KeyError: "['genres'] not found in axis"

- 이제 movies_df 에는 (movie id, title, year) column 만 남고 사전처리가 끝났다.


- 이번에는 ratings_df 를 사전처리 한다.

- 타임 스탬프 열이 필요하지 않으므로 drop. 이제 ratings_df 에는 (user id, movie id, rating) 3 개의 column 이 남는다.

In [72]:
ratings_df = ratings_df.drop('timestamp', axis=1)
ratings_df.head()

Unnamed: 0,user_id,movie_id,rating
0,196,242,3
1,186,302,3
2,22,377,1
3,244,51,2
4,166,346,1


# Collaborative Filtering

1)  __User-based Collaborative Filtering__  

__User-User Filtering__이라고도 함. 별명에서 추측할 수 있듯이 이 기술은 다른 사용자를 이용하여 input 된 사용자에게 item 을 추천한다. 입력된 사용자와 비슷한 선호와 의견을 가진 사용자를 찾은 다음 그들이 like 한 item 들을 입력된 사용자에게 추천함.  

<img src="collaboratory.jpg" width="400px">


User Based filtering 시스템을 만드는 프로세스는 다음과 같음  

    1. 사용자가 평가한 영화의 id 를 구함.  
    2. 같은 영화를 본 사용자들을 ratings_df 에서 골라낸다.  
    3. 사용자 id 별로 grouping  
    4. 사용자간의 유사성 계산  
    5. 사용자 유사도 table을 작성하여 가장 유사한 user 가 높은 점수를 준 항목(영화)를 추천  

# step-1. 사용자가 평가한 영화의 id 를 구함

In [38]:
userInput = [
            {'title':'Breakfast Club, The', 'rating':5},
            {'title':'Toy Story',           'rating':3.5},
            {'title':'Jumanji',             'rating':2},
            {'title':"Pulp Fiction",        'rating':5},
            {'title':'Akira',               'rating':4.5}
         ] 
user_rated_movies = pd.DataFrame(userInput)
user_rated_movies

Unnamed: 0,title,rating
0,"Breakfast Club, The",5.0
1,Toy Story,3.5
2,Jumanji,2.0
3,Pulp Fiction,5.0
4,Akira,4.5


### Add movieId to user_rated_movies

- user_rated_movies 에 movies_df 로부터 해당 movie ID를 가져와 추가한다.

- 추가하는 방법은 먼저 movies_df 의 user_rated_movies 의 title 을 포함하는 행들을 필터링한 다음 user_rated_movies df 와 병합. 또한 메모리 공간을 절약하기 위해 불필요한 입력 열을 삭제.

In [39]:
user_rated_moive_list = user_rated_movies['title'].tolist()
user_rated_moive_list

['Breakfast Club, The', 'Toy Story', 'Jumanji', 'Pulp Fiction', 'Akira']

In [40]:
user_rated_movie_ids = movies_df[movies_df['title'].isin(user_rated_moive_list)]
user_rated_movie_ids

Unnamed: 0,movie_id,title,release date,video release date,IMDB URL,unknown,Action,Adventure,Animation,Children's,...,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western,year
0,1,Toy Story,01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,...,0,0,0,0,0,0,0,0,0,1995
55,56,Pulp Fiction,01-Jan-1994,,http://us.imdb.com/M/title-exact?Pulp%20Fictio...,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1994
205,206,Akira,01-Jan-1988,,http://us.imdb.com/M/title-exact?Akira%20(1988),0,0,1,1,0,...,0,0,0,0,0,1,1,0,0,1988
754,755,Jumanji,01-Jan-1995,,http://us.imdb.com/M/title-exact?Jumanji%20(1995),0,1,1,0,1,...,0,0,0,0,0,1,0,0,0,1995


In [41]:
user_rated_movies = pd.merge(user_rated_movies, user_rated_movie_ids, on='title')
user_rated_movies

Unnamed: 0,title,rating,movie_id,release date,video release date,IMDB URL,unknown,Action,Adventure,Animation,...,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western,year
0,Toy Story,3.5,1,01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1995
1,Jumanji,2.0,755,01-Jan-1995,,http://us.imdb.com/M/title-exact?Jumanji%20(1995),0,1,1,0,...,0,0,0,0,0,1,0,0,0,1995
2,Pulp Fiction,5.0,56,01-Jan-1994,,http://us.imdb.com/M/title-exact?Pulp%20Fictio...,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1994
3,Akira,4.5,206,01-Jan-1988,,http://us.imdb.com/M/title-exact?Akira%20(1988),0,0,1,1,...,0,0,0,0,0,1,1,0,0,1988


# step-2. ragings_df 에서 같은 영화를 본 사용자들을 골라낸다.

이제 추천된 movie ID 를 이용하여, 입력된 user_rated_movies 와 같은 영화를보고 리뷰를 남긴 사용자의 sub-sample을 얻을 수 있다.

In [42]:
ratings_df.head(3)

Unnamed: 0,user_id,movie_id,rating
0,196,242,3
1,186,302,3
2,22,377,1


### input user 가 본 영화를 본 적 있는 사용자들을 filtering 하여 저장

In [46]:
user_rated_movie_id_list = user_rated_movies['movie_id'].tolist()
user_rated_movie_id_list

[1, 755, 56, 206]

In [48]:
userSubset = ratings_df[ratings_df['movie_id'].isin(user_rated_movie_id_list)]
userSubset.head()

Unnamed: 0,user_id,movie_id,rating
24,308,1,4
188,222,755,4
204,56,755,3
272,301,56,4
356,13,56,5


# step-3. user Id 별로 그룹화 한다.

- Groupby 를 이용하여 userId 별로 group 화된 여러개의 sub dataframe 을 생성

In [50]:
userSubsetGroup = userSubset.groupby(['user_id'])

In [56]:
# userSubsetGroup.get_group(1130)

- `pandas.core.groupby.groupby.DataFrameGroupBy` object 는 iterable 이며 key, value pair를 아래와 같이 return 한다.  

In [57]:
for k, v in userSubsetGroup:
    print(f"group by key = {k}")
    print()
    print(v)
    break

group by key = 276

       user_id  movie_id  rating
4476       276        56       5
15907      276       206       5
31395      276       755       3
48903      276         1       5


- 이 subset 그룹들을 정렬하여 입력 user 와 공통된 영화를 가장 많이 본 사용자의 우선 순위를 높인다. 우선 순위가 높은 사용자들이 더 풍부한 권장 사항을 제공함.


- `userSubsetGroup` 이 `(key, values)` 를 return 하므로 `len(kv[1])` 은 values 의 갯수, 즉 공유 movie 갯수 이다.   


- 사용자 입력과 가장 공통적인 영화를 많이 rating한 사용자가 우선 순위를 갖도록 정렬

In [58]:
userSubsetGroup = sorted(userSubsetGroup,  key=lambda kv: len(kv[1]), reverse=True)

In [59]:
for i in range(3):
    print(userSubsetGroup[i])
    print()

(276,        user_id  movie_id  rating
4476       276        56       5
15907      276       206       5
31395      276       755       3
48903      276         1       5)

(393,        user_id  movie_id  rating
28610      393        56       2
41566      393       755       3
59874      393       206       3
88044      393         1       3)

(435,        user_id  movie_id  rating
47520      435       206       5
56441      435         1       5
71170      435        56       5
86844      435       755       2)



# step-4. 사용자간의 유사성 계산

### 입력 사용자에 대한 다른 사용자들의 유사성

다음으로, 우리는 모든 사용자 (실제로 모두는 아님 !!!)를 지정된 사용자와 비교하여 가장 유사한 사용자를 찾는다.  

- Pearson 상관 계수를 통해 입력과 얼마나 유사한지를 알아낼 것임.  


- Pearson Correlation 을 사용하는 이유 :

```
피어슨 상관계수는 공분산을 각각의 편차로 나누어 준 것이므로 scale 에 영향받지 않는다. 즉, 모든 원소를 0이 아닌 상수로 곱하거나 모든 원소에 임의의 상수를 더해도 값이 변하지 않는다. 예를 들어 두 벡터 X와 Y가있는 경우 pearson (X, Y) == pearson (X, 2 * Y + 3)입니다.  이 것은 추천 시스템에서 매우 중요한 속성이다. 왜냐하면, 예를 들어, 두명의 사용자가 두가지 item 들을 완전히 다른 절대 등급으로 평가할 수 있는데, 사실 이들은 여러가지 scale 로 비슷한 등급을 준 유사한 사용자일 수 있기때문 이다.
```
$$ r = \frac{\sum_{i=1}^n(x_i - \bar{x})(y_I - \bar{y})}{\sqrt{\sum_{i=1}^n{(x_i - \bar{x})^2}}\sqrt{\sum_{i=1}^n{(y_i - \bar{y})^2}}}$$
```
위 식의 결과값은 r = -1 에서 r = 1 사이이고, 1 은 두 entity 간의 direct correlation 을 의미하고(perfect positive correlation) -1 은 perfect negative correlation 을 의미한다. 

우리의 경우, 1 은 두 사용자 사이에 유사한 취향이 있다는 의미이고, -1 은 반대라는 의미이다.
```

- 반복 할 사용자 하위 집합의 갯수를 선택. 이 제한은 모든 단일 사용자 처리를 위해 너무 많은 시간을 낭비하고 싶지 않기 때문에 부과.

In [60]:
userSubsetGroup = userSubsetGroup[0:100]

- 이제 입력 사용자와 하위 집합 그룹 간의 피어슨 상관계수를 계산하여 dictionary 에 저장합니다. 여기서 key는 사용자 ID이고 value 는 상관계수 이다.

In [62]:
# 피어슨 상관계수를 dictionary 로 저장 - key 는 user Id 이고 value 는 상관계수 이다.
pearsonCorrelationDict = {}

# movieId 순으로 user_rated_movies 정렬
user_rated_movies = user_rated_movies.sort_values(by='movie_id')
user_rated_movies

Unnamed: 0,title,rating,movie_id,release date,video release date,IMDB URL,unknown,Action,Adventure,Animation,...,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western,year
0,Toy Story,3.5,1,01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1995
2,Pulp Fiction,5.0,56,01-Jan-1994,,http://us.imdb.com/M/title-exact?Pulp%20Fictio...,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1994
3,Akira,4.5,206,01-Jan-1988,,http://us.imdb.com/M/title-exact?Akira%20(1988),0,0,1,1,...,0,0,0,0,0,1,1,0,0,1988
1,Jumanji,2.0,755,01-Jan-1995,,http://us.imdb.com/M/title-exact?Jumanji%20(1995),0,1,1,0,...,0,0,0,0,0,1,0,0,0,1995


In [63]:
userRatingList = user_rated_movies['rating'].tolist()
userRatingList

[3.5, 5.0, 4.5, 2.0]

In [66]:
for userid, group in userSubsetGroup:
    
    tempGroupList = group['rating'].tolist()
    
    r = scipy.stats.pearsonr(userRatingList, tempGroupList)
    
    pearsonCorrelationDict[userid] = r[0]



ValueError: x and y must have the same length.

# step-5 : 사용자 유사도 table 작성

- 위에서 작성한 dictionary (pearsonCorrelationDict) 를 dataframe 으로 변환

In [None]:
similar_users = pd.DataFrame(list(pearsonCorrelationDict.items()), 
                             columns=['userId', 'similarity'])\
                .sort_values(by='similarity', ascending=False)
similar_users.head()

#### Similar User 중에서 Top 50 을 고른다

In [None]:
topUsers = similar_users[0:50]

# step-6. 점수가 가장 높은 항목을 추천.

- input user 에게 영화를 추천하기 위해 유사한 top50 user 가 rating 한 movieId 와 rating 을 topUserRating으로 생성한다.


- similarity * ratings 를 하여 영화별 weighted ratings 를 구하고, user 구분 없이 전체 movieID 별로 sum 하여 normalize 한다. 

    $$\frac{\sum{similarity * ratings}}{\sum{similarity}}$$ 

In [None]:
topUsersRating = topUsers.merge(ratings_df, left_on='userId', right_on='userId', how='inner')
topUsersRating.head()

In [None]:
# similarity * rating
topUsersRating['weightedRating'] = topUsersRating['similarity'] * topUsersRating['rating']
topUsersRating.head()

In [None]:
# movieID 별로 similarity 와 weightedRating 의 합을 구함 
sumWeightedRatingByMovieId = topUsersRating.groupby('movieId') \
                                .sum()[['similarity', 'weightedRating']]
sumWeightedRatingByMovieId.head()

In [None]:
sumWeightedRatingByMovieId['normalizedRating'] = \
        sumWeightedRatingByMovieId['weightedRating'] / \
        sumWeightedRatingByMovieId['similarity']

sumWeightedRatingByMovieId.head()

In [None]:
sumWeightedRatingByMovieId.sort_values(by='normalizedRating', ascending=False, inplace=True)

sumWeightedRatingByMovieId.reset_index(inplace=True)
sumWeightedRatingByMovieId.head()

Now let's sort it and see the top 10 movies that the algorithm recommended!

In [None]:
movies_df.loc[movies_df['movieId'].isin(sumWeightedRatingByMovieId.head(10)['movieId'].tolist())]

### 협업 필터링의 장단점

##### 장점
* 다른 사용자의 평가를 고려합니다.
* 추천 항목에서 study 하거나 정보를 추출 할 필요가 없습니다.
* 시간이 지남에 따라 변할 수있는 사용자의 관심사에 적응

##### 단점
* Approximation function이 느릴 수 있음
* 추정할 사용자 수가 적을 수 있습니다.
* 사용자의 선호도를 배우려고 할 때 privacy 문제 발생 가능