# (E8) 프로젝트 - Movielens 영화 추천 실습

이전 스텝에서 배운 MF 모델 학습 방법을 토대로, 내가 좋아할 만한 영화 추천 시스템을 제작해 보겠습니다.
이번에 활용할 데이터셋은 추천시스템의 MNIST라고 부를만한 Movielens 데이터입니다.

- 유저가 영화에 대해 평점을 매긴 데이터가 데이터 크기 별로 있습니다. MovieLens 1M Dataset 사용을 권장합니다.
- 별점 데이터는 대표적인 explicit 데이터입니다. 하지만 implicit 데이터로 간주하고 테스트해볼 수 있습니다.
- 별점을 시청횟수로 해석해서 생각하겠습니다.
- 또한 유저가 3점 미만으로 준 데이터는 선호하지 않는다고 가정하고 제외하겠습니다.

## Import

In [1]:
import os
import pandas as pd
from scipy.sparse import csr_matrix
from implicit.als import AlternatingLeastSquares
import numpy as np

## 데이터 불러오기

In [2]:
rating_file_path=os.getenv('HOME') + '/aiffel/recommendata_iu/data/ml-1m/ratings.dat'
ratings_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv(rating_file_path, sep='::', names=ratings_cols, engine='python')
orginal_data_size = len(ratings)
ratings.head()

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


## 데이터 전처리

- 2점 이하의 rating 데이터 제거
- 'rating'의 칼럼 이름 'count'로 변경

In [3]:
# 3점 이상만 남깁니다.
ratings = ratings[ratings['rating']>=3]
filtered_data_size = len(ratings)

print(f'orginal_data_size: {orginal_data_size}, filtered_data_size: {filtered_data_size}')
print(f'Ratio of Remaining Data is {filtered_data_size / orginal_data_size:.2%}')

orginal_data_size: 1000209, filtered_data_size: 836478
Ratio of Remaining Data is 83.63%


In [4]:
# rating 컬럼의 이름을 count로 바꿉니다.
ratings.rename(columns={'rating':'count'}, inplace=True)

In [5]:
# rating 컬럼의 'timestamps'를 제외하고 나머지는 출력합니다.
ratings = ratings[['user_id', 'movie_id', 'count' ]]

In [6]:
ratings

Unnamed: 0,user_id,movie_id,count
0,1,1193,5
1,1,661,3
2,1,914,3
3,1,3408,4
4,1,2355,5
...,...,...,...
1000203,6040,1090,3
1000205,6040,1094,5
1000206,6040,562,5
1000207,6040,1096,4


In [7]:
# 영화 제목을 보기 위해 메타 데이터를 읽어옵니다.
movie_file_path=os.getenv('HOME') + '/aiffel/recommendata_iu/data/ml-1m/movies.dat'
cols = ['movie_id', 'title', 'genre'] 
movies = pd.read_csv(movie_file_path, sep='::', names=cols, engine='python', encoding = 'ISO-8859-1')
movies.head(10)

Unnamed: 0,movie_id,title,genre
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy
5,6,Heat (1995),Action|Crime|Thriller
6,7,Sabrina (1995),Comedy|Romance
7,8,Tom and Huck (1995),Adventure|Children's
8,9,Sudden Death (1995),Action
9,10,GoldenEye (1995),Action|Adventure|Thriller


## EDA

- ratings에 있는 유니크한 영화 개수
- rating에 있는 유니크한 사용자 수
- 가장 인기 있는 영화 30개(인기순)

In [8]:
ratings['movie_id'].nunique()

3628

In [9]:
ratings['user_id'].nunique()

6039

In [10]:
# merge 함수를 이용해 ratings와 movies 데이터의 공통 컬럼인 movie_id를 기준으로 병합합니다.
movie_data = pd.merge(ratings,movies)
movie_data.head()

Unnamed: 0,user_id,movie_id,count,title,genre
0,1,1193,5,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,1193,5,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,1193,4,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,1193,4,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,1193,5,One Flew Over the Cuckoo's Nest (1975),Drama


In [11]:
# 영화의 제목을 기준으로 count수가 많은 것을 인기영화로 선정
movie_count = movie_data.groupby('title')['count'].count()
movie_count.sort_values(ascending=False).head(30)

title
American Beauty (1999)                                   3211
Star Wars: Episode IV - A New Hope (1977)                2910
Star Wars: Episode V - The Empire Strikes Back (1980)    2885
Star Wars: Episode VI - Return of the Jedi (1983)        2716
Saving Private Ryan (1998)                               2561
Terminator 2: Judgment Day (1991)                        2509
Silence of the Lambs, The (1991)                         2498
Raiders of the Lost Ark (1981)                           2473
Back to the Future (1985)                                2460
Matrix, The (1999)                                       2434
Jurassic Park (1993)                                     2413
Sixth Sense, The (1999)                                  2385
Fargo (1996)                                             2371
Braveheart (1995)                                        2314
Men in Black (1997)                                      2297
Schindler's List (1993)                                  2257
Pr

## 내가 선호하는 영화를 5가지 골라서 rating에 추가

내가 선호하는 영화를 추가하기 위해서 movies와 rating의 tail 부분을 확인합니다.

In [12]:
movies.tail()

Unnamed: 0,movie_id,title,genre
3878,3948,Meet the Parents (2000),Comedy
3879,3949,Requiem for a Dream (2000),Drama
3880,3950,Tigerland (2000),Drama
3881,3951,Two Family House (2000),Drama
3882,3952,"Contender, The (2000)",Drama|Thriller


In [13]:
ratings.tail()

Unnamed: 0,user_id,movie_id,count
1000203,6040,1090,3
1000205,6040,1094,5
1000206,6040,562,5
1000207,6040,1096,4
1000208,6040,1097,4


In [14]:
# 추가할 user_id가 있는지 확인
movie_data['user_id'].isin([6041]).any()

False

In [15]:
# 선호하는 영화 추가
my_favorite_movies = ['Back to the Future (1985)', 'Grumpier Old Men (1995)', 'Forrest Gump (1994)', 'Toy Story (1995)', 'American Beauty (1999)']

In [16]:
# 선호하는 영화 movie_id 및 genre 확인
favorite_movie_id = movie_data[movie_data['title'].isin(my_favorite_movies)]
favorite_movie_id

Unnamed: 0,user_id,movie_id,count,title,genre
21777,1,1270,5,Back to the Future (1985),Comedy|Sci-Fi
21778,3,1270,3,Back to the Future (1985),Comedy|Sci-Fi
21779,7,1270,4,Back to the Future (1985),Comedy|Sci-Fi
21780,10,1270,4,Back to the Future (1985),Comedy|Sci-Fi
21781,17,1270,5,Back to the Future (1985),Comedy|Sci-Fi
...,...,...,...,...,...
757522,5948,3,3,Grumpier Old Men (1995),Comedy|Romance
757523,5961,3,3,Grumpier Old Men (1995),Comedy|Romance
757524,5972,3,3,Grumpier Old Men (1995),Comedy|Romance
757525,6000,3,3,Grumpier Old Men (1995),Comedy|Romance


In [17]:
# 선호하는 영화 정리
my_favorites = pd.DataFrame({'user_id' : [6041]*5, 'movie_id' : favorite_movie_id['movie_id'].drop_duplicates(), 'count' : [5]*5,
                            'title' : my_favorite_movies, 'genre' : favorite_movie_id['genre'].drop_duplicates()})
my_favorites

Unnamed: 0,user_id,movie_id,count,title,genre
21777,6041,1270,5,Back to the Future (1985),Comedy|Sci-Fi
38620,6041,1,5,Grumpier Old Men (1995),Animation|Children's|Comedy
93901,6041,2858,5,Forrest Gump (1994),Comedy|Drama
152322,6041,356,5,Toy Story (1995),Comedy|Romance|War
757188,6041,3,5,American Beauty (1999),Comedy|Romance


In [18]:
# 전체 데이터에 선호하는 영화 추가
if not movie_data.isin({'user_id' : [6041]})['user_id'].any(): 
    movie_data = movie_data.append(my_favorites)                          

movie_data.tail(10)       # 잘 추가되었는지 확인해 봅시다.

Unnamed: 0,user_id,movie_id,count,title,genre
836473,5851,3607,5,One Little Indian (1973),Comedy|Drama|Western
836474,5854,3026,4,Slaughterhouse (1987),Horror
836475,5854,690,3,"Promise, The (Versprechen, Das) (1994)",Romance
836476,5938,2909,4,"Five Wives, Three Secretaries and Me (1998)",Documentary
836477,5948,1360,5,Identification of a Woman (Identificazione di ...,Drama
21777,6041,1270,5,Back to the Future (1985),Comedy|Sci-Fi
38620,6041,1,5,Grumpier Old Men (1995),Animation|Children's|Comedy
93901,6041,2858,5,Forrest Gump (1994),Comedy|Drama
152322,6041,356,5,Toy Story (1995),Comedy|Romance|War
757188,6041,3,5,American Beauty (1999),Comedy|Romance


## CSR matrix

In [19]:
num_user = movie_data['user_id'].nunique()
num_movie = movie_data['movie_id'].nunique()

In [20]:
num_user

6040

In [21]:
num_movie

3628

In [22]:
csr_data = csr_matrix((movie_data['count'], (movie_data.user_id, movie_data.movie_id)), shape= None)
csr_data

<6042x3953 sparse matrix of type '<class 'numpy.int64'>'
	with 836483 stored elements in Compressed Sparse Row format>

## als_model = AlternatingLeastSquares 모델 구성 및 훈련

In [23]:
os.environ['OPENBLAS_NUM_THREADS']='1'
os.environ['KMP_DUPLICATE_LIB_OK']='True'
os.environ['MKL_NUM_THREADS']='1'

In [24]:
# Implicit AlternatingLeastSquares 모델의 선언
als_model = AlternatingLeastSquares(factors=100, regularization=0.01, use_gpu=False, iterations=15, dtype=np.float32)

In [25]:
# als 모델은 input으로 (item X user 꼴의 matrix를 받기 때문에 Transpose해줍니다.)
csr_data_transpose = csr_data.T
csr_data_transpose

<3953x6042 sparse matrix of type '<class 'numpy.int64'>'
	with 836483 stored elements in Compressed Sparse Column format>

In [26]:
# 모델 훈련
als_model.fit(csr_data_transpose)

  0%|          | 0/15 [00:00<?, ?it/s]

## 내가 선호하는 5가지 영화 중 하나와 그 외의 영화 하나를 골라 훈련된 모델이 예측한 나의 선호도 파악

In [27]:
favorite_vector, forrest_gump_vector = als_model.user_factors[6041], als_model.item_factors[2858]

In [28]:
favorite_vector

array([-1.033131  , -0.21287283,  0.39563116,  0.21200489,  0.56297916,
        0.73552066, -0.5516238 , -0.46011624,  0.10150992, -0.5505492 ,
        0.6654635 ,  0.31630087, -0.40934736, -0.15995705, -1.0810114 ,
        0.11569346, -0.6240474 ,  1.2909328 ,  0.3613179 ,  0.16205443,
       -0.9992977 , -0.29371655,  0.50422806,  0.5635472 , -0.22437383,
        1.212866  ,  0.07972875,  0.4734234 ,  0.26001188,  0.1929967 ,
       -0.4644541 ,  0.3177316 , -1.090037  ,  0.02955865, -0.1641129 ,
       -0.48721933, -0.14722314, -0.58533734, -0.36556533,  0.83474493,
       -0.16537946,  0.17491412,  0.46751878,  0.48876414, -0.36885235,
       -0.09340623,  0.63765585,  0.02959107,  0.9534583 , -0.1775362 ,
       -0.75587916, -0.33468518,  0.37051535,  0.03168806, -0.2740756 ,
       -0.47024485,  0.6058927 ,  0.05427959,  0.3127697 , -0.5697476 ,
        0.05299707,  0.10482663, -0.19588841, -0.12617452,  0.5884016 ,
       -0.20261304,  0.543461  ,  0.5075798 , -1.0337088 , -0.13

In [29]:
forrest_gump_vector

array([-3.26638408e-02,  2.39661653e-02, -8.29913421e-04, -4.54042805e-03,
        1.58949196e-02, -1.75676588e-02, -3.81878316e-02, -1.66149007e-03,
        1.70194227e-02, -3.44241760e-03, -2.21619196e-02,  6.44629216e-03,
       -2.64901072e-02, -1.88634694e-02, -3.90104321e-03,  2.43254025e-02,
       -4.26856019e-02,  1.88848637e-02,  2.58836728e-02,  4.10369113e-02,
       -1.22188665e-02, -1.93813201e-02,  5.48040122e-02,  2.85769869e-02,
        1.35477947e-03,  4.66670170e-02, -6.07354799e-03,  2.46323626e-02,
        1.82855688e-03, -1.28241070e-03,  2.41864263e-03,  1.48084611e-02,
       -6.21262752e-02, -2.45041382e-02,  3.34662688e-03,  2.38602441e-02,
       -1.07605932e-02,  6.73623569e-03,  3.15416120e-02,  2.91704647e-02,
        4.96664830e-03, -9.06554516e-03,  4.14054915e-02,  5.89259975e-02,
       -2.19283961e-02,  7.97238783e-04,  2.89335437e-02,  1.98713783e-02,
        1.37622440e-02,  1.85289774e-02,  2.96332687e-02, -4.04098444e-02,
        6.31359778e-03, -

In [30]:
np.dot(favorite_vector, forrest_gump_vector)

0.64565086

In [31]:
# sudden death는 movie_id가 9이다
sudden_death_vector = als_model.item_factors[9]

In [32]:
np.dot(favorite_vector, sudden_death_vector)

0.009371463

- 유저의 벡터와 아이템의 벡터의 값은 유저가 아이템에 대해 평가한 수치와 비슷한 지를 나타냅니다.
- 저의 벡터와 선호하는 영화 중 하나인 'Forest Gump' 벡터의 내적값은 0.6863을 나타내고, 'Sudden Death' 벡터의 내적값은 0.0050을 나타냅니다.
- 내적값이 차이가 나는 이유는 'Forest Gump'의 경우는 제가 선호하는 영화에 포함되어 높은 수치를 나타내고, 'Sudden Death'의 경우는 제가 선호하는 영화의 장르에는 속하지 않는 액션 영화이므로 낮은 수치를 나타내었습니다.

## 내가 좋아하는 영화와 비슷한 영화 추천

In [33]:
favorite_movie = 'Forrest Gump (1994)'
movie_id = movies[movies['title']=='Forrest Gump (1994)']['movie_id']
similar_movie = als_model.similar_items(movie_id.values[0], N=15)
similar_movie

[(356, 0.99999994),
 (1265, 0.6236904),
 (1784, 0.4762996),
 (357, 0.46027383),
 (597, 0.45404524),
 (587, 0.42753696),
 (539, 0.4274293),
 (2321, 0.42192698),
 (39, 0.41802448),
 (2671, 0.40661386),
 (1569, 0.38511956),
 (1210, 0.38508734),
 (440, 0.36975837),
 (3595, 0.36654672),
 (1777, 0.3618538)]

In [34]:
similar_movies = movies[movies['movie_id'].isin([i[0] for i in similar_movie])]
similar_movies

Unnamed: 0,movie_id,title,genre
38,39,Clueless (1995),Comedy|Romance
352,356,Forrest Gump (1994),Comedy|Romance|War
353,357,Four Weddings and a Funeral (1994),Comedy|Romance
436,440,Dave (1993),Comedy|Romance
535,539,Sleepless in Seattle (1993),Comedy|Romance
583,587,Ghost (1990),Comedy|Romance|Thriller
593,597,Pretty Woman (1990),Comedy|Romance
1192,1210,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War
1245,1265,Groundhog Day (1993),Comedy|Romance
1529,1569,My Best Friend's Wedding (1997),Comedy|Romance


- 내가 가장 좋아하는 영화는 'Forest Gump'입니다. 
- 'Forest Gump'의 장르는 'Comedy'&'Romance'이므로 모델에서 'Comedy'&'Romance'의 장르가 다수 포함된 영화를 추천해주었습니다.

## 유저 선호 영화 추천

In [35]:
user = 6041
# recommend에서는 user*item CSR Matrix를 받습니다.
movie_recommended = als_model.recommend(user, csr_data, N=20, filter_already_liked_items=True)
movie_recommended

[(3114, 0.48459423),
 (1265, 0.43776837),
 (2396, 0.37809888),
 (1097, 0.3711025),
 (2997, 0.3615541),
 (1210, 0.3239621),
 (34, 0.3133902),
 (2716, 0.3060512),
 (2028, 0.29518524),
 (2762, 0.29417104),
 (2791, 0.2836605),
 (2355, 0.26166183),
 (1784, 0.2608921),
 (3450, 0.2557809),
 (1196, 0.25368962),
 (1721, 0.24777661),
 (1923, 0.24103118),
 (1259, 0.23784924),
 (588, 0.22894338),
 (920, 0.20533974)]

In [36]:
movies[movies['movie_id'].isin([i[0] for i in movie_recommended])]

Unnamed: 0,movie_id,title,genre
33,34,Babe (1995),Children's|Comedy|Drama
584,588,Aladdin (1992),Animation|Children's|Comedy|Musical
908,920,Gone with the Wind (1939),Drama|Romance|War
1081,1097,E.T. the Extra-Terrestrial (1982),Children's|Drama|Fantasy|Sci-Fi
1178,1196,Star Wars: Episode V - The Empire Strikes Back...,Action|Adventure|Drama|Sci-Fi|War
1192,1210,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War
1239,1259,Stand by Me (1986),Adventure|Comedy|Drama
1245,1265,Groundhog Day (1993),Comedy|Romance
1672,1721,Titanic (1997),Drama|Romance
1726,1784,As Good As It Gets (1997),Comedy|Drama


- 추천 영화를 보면 comedy가 가장 많이 보입니다. 
- 그 이유는 제가 선택한 선호하는 영화의 장르가 comedy로 공통되었기 때문에 모델에서 comedy 영화를 추천해줍니다.

## 추천 기여도

- 'Bug's Life, A (1998)'을 추천해주고 있습니다. 타이타닉의 movie_id는 2355입니다. 장르는 'Animation|Children's|Comedy'입니다.
- AlternatingLeastSquares 클래스에 구현된 explain 메소드를 사용하면 기록을 남긴 데이터 중 이 추천에 기여한 정도를 확인할 수 있습니다.

In [37]:
explain = als_model.explain(user, csr_data, itemid=2355)

In [38]:
[(i[0], i[1]) for i in explain[1]]

[(1, 0.26748347149792673),
 (2858, 0.025158529885986086),
 (356, 0.017063135937699533),
 (3, -0.010905797560763417),
 (1270, -0.038883557143832945)]

In [39]:
movies[movies['movie_id'].isin([(i[0]) for i in explain[1]])]

Unnamed: 0,movie_id,title,genre
0,1,Toy Story (1995),Animation|Children's|Comedy
2,3,Grumpier Old Men (1995),Comedy|Romance
352,356,Forrest Gump (1994),Comedy|Romance|War
1250,1270,Back to the Future (1985),Comedy|Sci-Fi
2789,2858,American Beauty (1999),Comedy|Drama


- 영화 'Bug's Life, A (1998)'와 'Toy Story (1995)'의 장르는 'Animation|Children's|Comedy'로 같습니다. 따라서 Toy Story가 이 영화를 가장 높은 기여도인 0.2837의 값으로 추천하고 입니다.
- 나머지 영화들은 장르가 comedy로 하나가 공통되지만, 나머지 장르는 달라서 낮은 기여도를 나타냅니다.

# 루브릭

1. CSR matrix가 정상적으로 만들어졌다.

사용자와 아이템 개수를 바탕으로 정확한 사이즈로 만들었다.

2. MF 모델이 정상적으로 훈련되어 그럴듯한 추천이 이루어졌다.

사용자와 아이템 벡터 내적수치가 의미있게 형성되었다.

3. 비슷한 영화 찾기와 유저에게 추천하기의 과정이 정상적으로 진행되었다.

MF모델이 예측한 유저 선호도 및 아이템간 유사도, 기여도가 의미있게 측정되었다.

# 회고

- 추천 시스템의 다양한 모델 중에 Matrix Factorization(MF, 행렬분해) 모델을 사용하였다. 간단한 아이디어지만 넥플릭스에서 개최한 챌린지에서 추천시스템의 성능을 향상시킨 많이 사용되는 모델이다.
- csr maxtrix를 구성할 때  shape= (num_user, num_movie)으로 두었을 때 에러가 났다. shape=None으로 두었는데 문제가 해결되었는데 행렬의 크기가 맞지 않아서 오류가 났을 것으로 추정된다.
- 이 프로젝트에서는 explict data인 ratings 정보를 이용하여서 사용자의 호불호를 계산에 이용하였는데, implicit data가 주어지는 경우에는 rating이 아니라 interaction을 처리할 수 있도록 추가적인 논의가 필요하다.
- 넥플릭스에 처음 가입할때 좋아하는 영화를 5개 선택하는 이유를 프로젝트를 통해 알게 되었고, 여기서는 추천 모델이 장르만 이용하였지만 출연 배우, 감독과 같은 다양한 feature를 추가하면 개인에 더 특화된 추천을 할 수 있을 것이라 생각된다.