## 프로젝트 - Movielens 영화 추천 실습

Movielens 데이터와 MF 모델 학습 방법을 활용한 영화 추천 시스템

- MovieLens 1M Dataset 사용.
- 별점 데이터는 대표적인 explicit 데이터지만, implicit 데이터로 간주하고 테스트해보기
- 별점을 시청횟수로 해석
- 유저가 3점 미만으로 준 데이터는 선호하지 않는다고 가정하고 제외

데이터   
    
    $ wget http://files.grouplens.org/datasets/movielens/ml-1m.zip

### 필요한 라이브러리 import

In [230]:
import os
import pandas as pd
import numpy as np
from scipy.sparse import csr_matrix
from implicit.als import AlternatingLeastSquares

### 데이터 준비와 전처리

In [231]:
rating_file_path=os.getenv('HOME') + '/aiffel/recommendata_iu/data/ml-1m/ratings.dat'
ratings_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv(rating_file_path, sep='::', names=ratings_cols, engine='python')
orginal_data_size = len(ratings)
ratings.head()

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


In [232]:
ratings = ratings[ratings['rating']>=3]
filtered_data_size = len(ratings)

print(f'orginal_data_size: {orginal_data_size}, filtered_data_size: {filtered_data_size}')
print(f'Ratio of Remaining Data is {filtered_data_size / orginal_data_size:.2%}')

orginal_data_size: 1000209, filtered_data_size: 836478
Ratio of Remaining Data is 83.63%


In [233]:
ratings.rename(columns={'rating':'count'}, inplace=True)
ratings['count']

0          5
1          3
2          3
3          4
4          5
5          3
6          5
7          5
8          4
9          4
          ..
1000198    3
1000199    5
1000200    5
1000201    4
1000202    4
1000203    3
1000205    5
1000206    5
1000207    4
1000208    4
Name: count, Length: 836478, dtype: int64

In [234]:
movie_file_path=os.getenv('HOME') + '/aiffel/recommendata_iu/data/ml-1m/movies.dat'
cols = ['movie_id', 'title', 'genre'] 
movies = pd.read_csv(movie_file_path, sep='::', names=cols, engine='python')
movies.head()

Unnamed: 0,movie_id,title,genre
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


### 데이터 분석
   
- ratings에 있는 유니크한 영화 개수
- rating에 있는 유니크한 사용자 수
- 가장 인기 있는 영화 30개(인기순)

In [235]:
unique_movies = ratings['movie_id'].unique()
print(f'유니크한 영화 개수: {len(unique_movies)}')

unique_users = ratings['user_id'].unique()
print(f'유니크한 사용자 수: {len(unique_users)}')

# dataframe으로 30개를 출력하면 컬럼명이 포함돼서 영화는 29개가 뽑힌다.
popular_movies = ratings.sort_values("count", ascending = False)['movie_id'].head(31)
# popular_movies
popular_movie_names = movies[movies['movie_id'].isin(popular_movies)][['title']].reset_index(drop = True)
# popular_movie_names

print('가장 인기있는 영화 30개')
popular_movie_names 

유니크한 영화 개수: 3628
유니크한 사용자 수: 6039
가장 인기있는 영화 30개


Unnamed: 0,title
0,Toy Story (1995)
1,Forrest Gump (1994)
2,True Lies (1994)
3,Rudy (1993)
4,Schindler's List (1993)
5,Sleepless in Seattle (1993)
6,"Horseman on the Roof, The (Hussard sur le toit..."
7,"Fish Called Wanda, A (1988)"
8,Dirty Dancing (1987)
9,One Flew Over the Cuckoo's Nest (1975)


In [236]:
# user_id와 movie_id의 unique값들을 정렬했을 때, 공차가 1인 등차수열이 아니다.
num_users = ratings['user_id'].nunique()
print(num_users)
print(ratings['user_id'].max())

num_movies = ratings['movie_id'].nunique()
print(num_movies)
print(ratings['movie_id'].max())

6039
6040
3628
3952


In [237]:
ids = (x for x in ratings['user_id'].unique())
index = 1
for i in ids:
    if i != index:
        break
    index += 1

print('OK' if index in ratings['user_id'].unique() else f'{index} is not in user_id')

3598 is not in user_id


In [238]:
# user_id를 빈 id 없이 채워준다.
processed_user_id = {v : i + 1 for i, v in enumerate(ratings['user_id'].unique())}
ratings['user_id'] = [processed_user_id[x] for x in ratings['user_id']]

# True가 출력되면, ratings의 user_id가 재설정된 것.
print(ratings['user_id'].nunique() == ratings['user_id'].max())

True


In [239]:
# movie_id를 수정하려면, movies dataframe을 고려해서 수정해야 한다. 그러면 ratings에 중간중간 비는 movid_id값이 있을 수 밖에 없다.
# -> merge

table = pd.merge(ratings, movies, on = 'movie_id', how = 'left')[['user_id', 'movie_id', 'count', 'title', 'genre']]

# movie_id를 빈 id 없이 채워준다. (영화 제목이 같아도 기존 movies의 movie_id와는 다름에 주의)
table['movie_id'].unique()
processed_movie_id = {v : i + 1 for i, v in enumerate(table['movie_id'].unique())}
table['movie_id'] = [processed_movie_id[x] for x in table['movie_id']]

print(table['movie_id'].nunique() == table['movie_id'].max())

True


### 선호하는 영화 5가지를 table에 추가

In [240]:
favorite_movies = [100, 45, 118, 65, 49]
id_ = table['user_id'].max() + 1
titles = [table[table['movie_id'] == x]['title'].unique()[0] for x in favorite_movies]
genres = [table[table['movie_id'] == x]['genre'].unique()[0] for x in favorite_movies]
movie_list = pd.DataFrame({'user_id': [id_]*5,
                         'movie_id': favorite_movies, 
                         'count':[5]*5, 
                         'title': titles,
                         'genre': genres
                         })

if not table.isin({'user_id':[id_]})['user_id'].any():
    table = table.append(movie_list)                   
    
table = table.reset_index(drop = True)
table.tail(20)

Unnamed: 0,user_id,movie_id,count,title,genre
836463,6039,981,5,Seven Samurai (The Magnificent Seven) (Shichin...,Action|Drama
836464,6039,681,4,Blade Runner (1982),Film-Noir|Sci-Fi
836465,6039,912,5,Sleeper (1973),Comedy|Sci-Fi
836466,6039,2312,4,Thirty-Two Short Films About Glenn Gould (1993),Documentary
836467,6039,985,3,Dangerous Liaisons (1988),Drama|Romance
836468,6039,692,3,Dune (1984),Fantasy|Sci-Fi
836469,6039,2447,5,"Last Temptation of Christ, The (1988)",Drama
836470,6039,49,5,Saving Private Ryan (1998),Action|Drama|War
836471,6039,694,4,Monty Python's Life of Brian (1979),Comedy
836472,6039,290,4,Reservoir Dogs (1992),Crime|Thriller


### CSR matrix

In [241]:
# user_id와 movie_id가 1부터 시작하므로, 1씩 더해줘야 한다. (num_user, num_movie)는 각각 (table['user_id'].max(), table['movie_id'].max())를 초과해야 한다.

num_user = table['user_id'].nunique() + 1
num_movie = table['movie_id'].nunique() + 1
csr_data = csr_matrix((table['count'], (table['user_id'], table['movie_id'])), 
                      shape = (num_user, num_movie))
csr_data

<6041x3629 sparse matrix of type '<class 'numpy.longlong'>'
	with 836483 stored elements in Compressed Sparse Row format>

### AlternatingLeastSquares 모델 구성 및 훈련

In [242]:
os.environ['OPENBLAS_NUM_THREADS']='1'
os.environ['KMP_DUPLICATE_LIB_OK']='True'
os.environ['MKL_NUM_THREADS']='1'

csr_data_transpose = csr_data.T
csr_data_transpose

<3629x6041 sparse matrix of type '<class 'numpy.longlong'>'
	with 836483 stored elements in Compressed Sparse Column format>

In [271]:
als_model = AlternatingLeastSquares(factors=100, regularization=0.01, use_gpu=False, iterations=15, dtype=np.float32)
# factors = # of latent factors. latent factor는 잠재인수로, 데이터에 숨어있는 특징을 의미한다.

In [272]:
als_model.fit(csr_data_transpose)

HBox(children=(FloatProgress(value=0.0, max=15.0), HTML(value='')))




### 선호하는 5가지 영화 중 하나와 그 외의 영화 하나를 골라 훈련된 모델이 예측한 선호도 파악

In [273]:
user_vector, movie_vector = als_model.user_factors[id_], als_model.item_factors[favorite_movies[0]]
print(f'선호하는 영화(movie_id: 0)에 대한 선호도: {np.dot(user_vector, movie_vector)}')

another_vector = als_model.item_factors[1097]
print(f'선호 목록에 없던 영화(movie_id: 1097)에 대한 선호도: {np.dot(user_vector, another_vector)}')

선호하는 영화(movie_id: 0)에 대한 선호도: 0.7394031882286072
선호 목록에 없던 영화(movie_id: 1097)에 대한 선호도: -0.049287013709545135


### 좋아하는 영화와 비슷한 영화를 추천받기

In [274]:
similar_movie = als_model.similar_items(favorite_movies[0], N=15)
similar_movie

[(100, 0.9999999),
 (171, 0.72723085),
 (272, 0.49245694),
 (127, 0.4209234),
 (52, 0.39070028),
 (88, 0.37317404),
 (445, 0.3465614),
 (223, 0.34388354),
 (122, 0.33042058),
 (3467, 0.31770822),
 (3518, 0.3138954),
 (460, 0.3121248),
 (49, 0.31199571),
 (794, 0.31020987),
 (2294, 0.30200252)]

In [275]:
temp = table[table['movie_id'].isin([k for k, v in similar_movie])][['movie_id','title', 'genre']].drop_duplicates().reset_index(drop = True)

temp.index = temp['movie_id']
temp['value'] = np.nan

for k, v in similar_movie:
    temp.loc[k, ['value']] = v

temp.sort_values(by='value', ascending= False).reset_index(drop = True)

Unnamed: 0,movie_id,title,genre,value
0,100,American Beauty (1999),Comedy|Drama,1.0
1,171,Being John Malkovich (1999),Comedy,0.727231
2,272,Election (1999),Comedy,0.492457
3,127,Shakespeare in Love (1998),Comedy|Romance,0.420923
4,52,Fargo (1996),Crime|Drama|Thriller,0.3907
5,88,Braveheart (1995),Action|Drama|War,0.373174
6,445,High Fidelity (2000),Comedy,0.346561
7,223,Pulp Fiction (1994),Crime|Drama,0.343884
8,122,"Silence of the Lambs, The (1991)",Drama|Thriller,0.330421
9,3467,Schlafes Bruder (Brother of Sleep) (1995),Drama,0.317708


In [276]:
similar_movie = als_model.similar_items(favorite_movies[3], N=15)
similar_movie

[(65, 1.0),
 (118, 0.8732981),
 (45, 0.7534418),
 (121, 0.50624746),
 (61, 0.4677048),
 (23, 0.40171),
 (161, 0.39525852),
 (173, 0.34766996),
 (201, 0.33897507),
 (3089, 0.33388177),
 (3606, 0.31965414),
 (108, 0.31602383),
 (6, 0.31582245),
 (3618, 0.31513163),
 (3590, 0.3137194)]

In [277]:
temp = table[table['movie_id'].isin([k for k, v in similar_movie])][['movie_id','title', 'genre']].drop_duplicates().reset_index(drop = True)

temp.index = temp['movie_id']
temp['value'] = np.nan

for k, v in similar_movie:
    temp.loc[k, ['value']] = v

temp.sort_values(by='value', ascending= False).reset_index(drop = True)

Unnamed: 0,movie_id,title,genre,value
0,65,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War,1.0
1,118,Star Wars: Episode V - The Empire Strikes Back...,Action|Adventure|Drama|Sci-Fi|War,0.873298
2,45,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Fantasy|Sci-Fi,0.753442
3,121,Raiders of the Lost Ark (1981),Action|Adventure,0.506247
4,61,Star Wars: Episode I - The Phantom Menace (1999),Action|Adventure|Fantasy|Sci-Fi,0.467705
5,23,Back to the Future (1985),Comedy|Sci-Fi,0.40171
6,161,Forrest Gump (1994),Comedy|Romance|War,0.395259
7,173,Indiana Jones and the Last Crusade (1989),Action|Adventure,0.34767
8,201,"Terminator, The (1984)",Action|Sci-Fi|Thriller,0.338975
9,3089,Open Season (1996),Comedy,0.333882


### 가장 좋아할 만한 영화들을 추천받기

In [278]:
movie_recommended = als_model.recommend(id_, csr_data, N=20, filter_already_liked_items=True)

temp = table[table['movie_id'].isin([k for k, v in movie_recommended])][['movie_id','title', 'genre']].drop_duplicates().reset_index(drop = True)
temp.index = temp['movie_id']
temp['value'] = np.nan
for k, v in movie_recommended:
    temp.loc[k, ['value']] = v

temp.sort_values(by='value', ascending= False).reset_index(drop = True)

Unnamed: 0,movie_id,title,genre,value
0,121,Raiders of the Lost Ark (1981),Action|Adventure,0.550192
1,88,Braveheart (1995),Action|Drama|War,0.444325
2,61,Star Wars: Episode I - The Phantom Menace (1999),Action|Adventure|Fantasy|Sci-Fi,0.443961
3,24,Schindler's List (1993),Drama|War,0.434741
4,171,Being John Malkovich (1999),Comedy,0.395268
5,27,E.T. the Extra-Terrestrial (1982),Children's|Drama|Fantasy|Sci-Fi,0.332999
6,23,Back to the Future (1985),Comedy|Sci-Fi,0.286901
7,161,Forrest Gump (1994),Comedy|Romance|War,0.240844
8,125,"Matrix, The (1999)",Action|Sci-Fi|Thriller,0.217944
9,122,"Silence of the Lambs, The (1991)",Drama|Thriller,0.217872


In [279]:
explain = als_model.explain(id_, csr_data, itemid=121)
[([i[0]], i[1]) for i in explain[1]]

[([45], 0.19176744004331647),
 ([118], 0.18399426967952387),
 ([65], 0.0952991891730988),
 ([49], 0.07799133180811808),
 ([100], -0.009126291969966524)]

In [280]:
table[table['movie_id']==45]['title'].unique()

array(['Star Wars: Episode IV - A New Hope (1977)'], dtype=object)

In [281]:
table[table['movie_id']==45]['genre'].unique()

array(['Action|Adventure|Fantasy|Sci-Fi'], dtype=object)

### 회고
   
ratings.count는 method로 인식, count 컬럼에 대한 Series를 추출하려면 ratings['count']와 같이 작성해야 한다.    

dataframe 타입으로 row를 n개를 출력하면, 컬럼명을 출력하는 row도 n개에 포함되어, 실제 데이터는 n - 1개만 출력된다.

csr_matrix()에 인자를 전달해 shape를 지정해주려면, ratings['user_id']와 ratings['movie_id']의 값을 재설정해서, ratings['user_id'].max() 값이 num_users 이하여야 하고, ratings['movie_id'].max() 값이 num_movies 이하여야 한다. ratings['user_id']의 각 값과 ratings['movie_id']의 각 값을 row, col 인덱스로 사용할 때, 그 인덱스의 범위가 shape = (num_users, num_movies)인 원 행렬의 인덱스 범위를 벗어나면 안되기 때문이다. 다음 링크를 참고하자. https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.html   
   
좋아하는 영화와 비슷한 영화를 추천받을 때와 가장 좋아할 만한 영화를 추천받을 때 영화들의 점수가 생각보다 좋게 나오지 않았다. 모델을 호출할 때, factors인자의 값을 키우면 user_vector와 movie_vector의 내적값은 1에 가까워졌지만, 오히려 좋아하는 영화와 비슷한 영화, 좋아하는 영화와 비슷한 영화들을 추천받을 때 내적값은 점점 작아졌다.
반대로 factors 인자를 작게 줄수록, 내적값은 0에 가까워졌지만 좋아하는 영화와 비슷한 영화에 대한 내적값들은 거의 모두가 0.8을 넘을 정도였다. 단, 가장 좋아할 만한 영화에 대한 내적값들은 0에 가깝게 작아졌다.
모델이 학습하는 데이터는 결국 transposed csr_data matrix인데, user_id와 movie_id 간의 상관관계가 어떻게 학습에 적용되는 것인지 궁금하다..

아래 참고할 점처럼 많은 사람들이 선호하는 영화 순서대로 5개를 지정하면, 비슷한 영화, 좋아할 만한 영화를 추천하는 이유를 어느정도 알 수 있다.
점수가 높으면 높을 수록 genre가 유사하다.
따라서 해당 genre를 좋아하는 사람들이 많이 그 영화를 추천한 것을 알 수 있다.
예를 들면, Radiers of Lost Ark(1981)은 장르가 Action|Adventure다. 이를 추천하는데 가장 많이 기여한 영화가 Star Wars: Episode IV - A New Hope (1977)다. 스타워즈의 장르는 Action|Adventure|Fantasy|Sci-Fi로, 스타워즈를 선호하면서 Radiers of Lost Ark를 선호하는 사람들이 많음을 알 수 있다.


**참고할 점**
   
내가 선호하는 영화를 지정할 때, 많은 사람들이 지정한 영화 순서대로 5개를 지정했더니, 모델 호출 시 인자인 factors값에 동일한 값을 전달해도 user_vector와 movie_vector의 내적 값이 올라갔다.
