# 8-9. 프로젝트 - Movielens 영화 추천 실습



### [루브릭]

평가문항	상세기준
1. CSR matrix가 정상적으로 만들어졌다.
     - 사용자와 아이템 개수를 바탕으로 정확한 사이즈로 만들었다.  
    
2. MF 모델이 정상적으로 훈련되어 그럴듯한 추천이 이루어졌다.
     - 사용자와 아이템 벡터 내적수치가 의미있게 형성되었다.  
    
3. 비슷한 영화 찾기와 유저에게 추천하기의 과정이 정상적으로 진행되었다.
     - MF모델이 예측한 유저 선호도 및 아이템간 유사도, 기여도가 의미있게 측정되었다.
     

### [학습 과정]  

1) 데이터 준비와 전처리  
2) 분석해 봅시다  
   * ratings에 있는 유니크한 영화 개수  
   * rating에 있는 유니크한 사용자 수  
   * 가장 인기 있는 영화 30개(인기순)    
   
3) 내가 선호하는 영화를 5가지 골라서 rating에 추가해 줍시다.  
4) CSR matrix를 직접 만들어 봅시다.  
5) als_model = AlternatingLeastSquares 모델을 직접 구성하여 훈련시켜 봅시다.  
6) 내가 선호하는 5가지 영화 중 하나와 그 외의 영화 하나를 골라 훈련된 모델이 예측한 나의 선호도를 파악해 보세요.  
7) 내가 좋아하는 영화와 비슷한 영화를 추천받아 봅시다.  
8) 내가 가장 좋아할 만한 영화들을 추천받아 봅시다.   

### [결과 및 회고]

## 1) 데이터 준비와 전처리
---

* 유저가 영화에 대해 평점을 매긴 데이터 MovieLens 1M Dataset
* 별점 데이터는 explicit 데이터이지만 implicit 데이터로 간주하고 테스트할 수 있음
* 별점 = 시청횟수로 해석
* 3점 미만으로 준 데이터는 제외

In [115]:
import os
import pandas as pd

rating_file_path=os.getenv('HOME') + '/aiffel/E08_RecommendationMusic/data/ml-1m/ratings.dat'
ratings_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv(rating_file_path, sep='::', names=ratings_cols, engine='python')
orginal_data_size = len(ratings)
ratings.head()

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


In [116]:
# 3점 이상만 남깁니다.
ratings = ratings[ratings['rating']>=3]
filtered_data_size = len(ratings)

print(f'orginal_data_size: {orginal_data_size}, filtered_data_size: {filtered_data_size}')
print(f'Ratio of Remaining Data is {filtered_data_size / orginal_data_size:.2%}')

orginal_data_size: 1000209, filtered_data_size: 836478
Ratio of Remaining Data is 83.63%


In [117]:
# rating 컬럼의 이름을 count로 바꿉니다. 시청횟수로 생각하기로 했으니까!
ratings.rename(columns={'rating':'count'}, inplace=True)

In [118]:
ratings['count']

0          5
1          3
2          3
3          4
4          5
          ..
1000203    3
1000205    5
1000206    5
1000207    4
1000208    4
Name: count, Length: 836478, dtype: int64

In [119]:
# 영화 제목을 보기 위해 메타 데이터를 읽어옵니다.
movie_file_path=os.getenv('HOME') + '/aiffel/E08_RecommendationMusic/data/ml-1m/movies.dat'
cols = ['movie_id', 'title', 'genre'] 
movies = pd.read_csv(movie_file_path, sep='::', names=cols, engine='python')
movies.head(20)

Unnamed: 0,movie_id,title,genre
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy
5,6,Heat (1995),Action|Crime|Thriller
6,7,Sabrina (1995),Comedy|Romance
7,8,Tom and Huck (1995),Adventure|Children's
8,9,Sudden Death (1995),Action
9,10,GoldenEye (1995),Action|Adventure|Thriller


In [120]:
movies['movie_id_new'] = range(1,3884)
movies = movies[['movie_id', 'movie_id_new', 'title', 'genre']]
movies

Unnamed: 0,movie_id,movie_id_new,title,genre
0,1,1,Toy Story (1995),Animation|Children's|Comedy
1,2,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,3,Grumpier Old Men (1995),Comedy|Romance
3,4,4,Waiting to Exhale (1995),Comedy|Drama
4,5,5,Father of the Bride Part II (1995),Comedy
...,...,...,...,...
3878,3948,3879,Meet the Parents (2000),Comedy
3879,3949,3880,Requiem for a Dream (2000),Drama
3880,3950,3881,Tigerland (2000),Drama
3881,3951,3882,Two Family House (2000),Drama


In [121]:
movies['title'].nunique()   # 영화 개수 총 3883개

3883

## 2) 분석하기

#### 별점이 남아있는 영화는 중복 없이 총 몇 개일까?

In [122]:
ratings['movie_id'].nunique()

3628

#### 별점을 준 사용자는 중복 없이 총 몇 명일까?

In [123]:
ratings['user_id'].nunique()

6039

#### 가장 인기 있는 영화 30개는? (인기순)

In [124]:
movie_count = ratings.groupby('movie_id')['user_id'].count()
movie_count.sort_values(ascending=False).head(10)

movie_id
2858    3211
260     2910
1196    2885
1210    2716
2028    2561
589     2509
593     2498
1198    2473
1270    2460
2571    2434
Name: user_id, dtype: int64

In [125]:
movies[movies['movie_id'] == 2858]

Unnamed: 0,movie_id,movie_id_new,title,genre
2789,2858,2790,American Beauty (1999),Comedy|Drama


In [126]:
movies[movies['movie_id'] == 260]

Unnamed: 0,movie_id,movie_id_new,title,genre
257,260,258,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Fantasy|Sci-Fi


In [127]:
movies[movies['movie_id'] == 1196]

Unnamed: 0,movie_id,movie_id_new,title,genre
1178,1196,1179,Star Wars: Episode V - The Empire Strikes Back...,Action|Adventure|Drama|Sci-Fi|War


In [128]:
movies[movies['movie_id'] == 1210]

Unnamed: 0,movie_id,movie_id_new,title,genre
1192,1210,1193,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War


#### 한 유저가 몇개의 영화를 보았는지에 대한 통계

In [129]:
user_count = ratings.groupby('user_id')['movie_id'].count()
user_count.describe()

count   6039.00000
mean     138.51267
std      156.24160
min        1.00000
25%       38.00000
50%       81.00000
75%      177.00000
max     1968.00000
Name: movie_id, dtype: float64

최소 1개부터 최대 1968개까지 다양하게 있고  
한사람당 평균 138.5개의 영화를 보고 평점을 남겼습니다. 

데이터 합치기 :    
보기 편하게 하기위해 ratings 데이터프레임에 movies 데이터프레임의 title과 genre 데이터를 합치고자 합니다.

In [130]:
data = pd.merge(ratings, movies, on='movie_id', how='left')
data = data[['user_id', 'movie_id', 'movie_id_new', 'count', 'title', 'genre', 'timestamp']]
data.head(10)

Unnamed: 0,user_id,movie_id,movie_id_new,count,title,genre,timestamp
0,1,1193,1177,5,One Flew Over the Cuckoo's Nest (1975),Drama,978300760
1,1,661,656,3,James and the Giant Peach (1996),Animation|Children's|Musical,978302109
2,1,914,903,3,My Fair Lady (1964),Musical|Romance,978301968
3,1,3408,3340,4,Erin Brockovich (2000),Drama,978300275
4,1,2355,2287,5,"Bug's Life, A (1998)",Animation|Children's|Comedy,978824291
5,1,1197,1180,3,"Princess Bride, The (1987)",Action|Adventure|Comedy|Romance,978302268
6,1,1287,1268,5,Ben-Hur (1959),Action|Adventure|Drama,978302039
7,1,2804,2736,5,"Christmas Story, A (1983)",Comedy|Drama,978300719
8,1,594,591,4,Snow White and the Seven Dwarfs (1937),Animation|Children's|Musical,978302268
9,1,919,908,4,"Wizard of Oz, The (1939)",Adventure|Children's|Drama|Musical,978301368


In [131]:
data[data['movie_id'] == 2762]

Unnamed: 0,user_id,movie_id,movie_id_new,count,title,genre,timestamp
38,1,2762,2694,4,"Sixth Sense, The (1999)",Thriller,978302091
366,5,2762,2694,3,"Sixth Sense, The (1999)",Thriller,978243054
702,9,2762,2694,4,"Sixth Sense, The (1999)",Thriller,978225984
901,10,2762,2694,5,"Sixth Sense, The (1999)",Thriller,978225541
1142,11,2762,2694,5,"Sixth Sense, The (1999)",Thriller,978219815
...,...,...,...,...,...,...,...
834808,6030,2762,2694,5,"Sixth Sense, The (1999)",Thriller,956718084
834853,6031,2762,2694,4,"Sixth Sense, The (1999)",Thriller,956717709
835823,6036,2762,2694,5,"Sixth Sense, The (1999)",Thriller,956710191
836054,6037,2762,2694,4,"Sixth Sense, The (1999)",Thriller,956718658


## 3) 내가 선호하는 영화를 5가지 골라서 rating에 추가해주기
---


In [132]:
import datetime as pydatetime

def get_now():
    """
        현재 시스템 시간을 datetime형으로 반환
    """
    return pydatetime.datetime.now()

def get_now_timestamp():
    """
        현재 시스템 시간을 POSIX timestamp float형으로 반환
    """
    return get_now().timestamp()

In [133]:
timestamp = get_now_timestamp()

In [134]:
my_fav = ['Titanic (1997)' , 'Toy Story (1995)' ,'Truman Show, The (1998)' ,'Home Alone (1990)' ,'Sixth Sense, The (1999)']
my_fav_id = ['3404', '1', '1682', '586', '2762']
my_fav_id_new = ['3336', '1', '1637', '583', '2694']
my_fav_genre = ['Action|Drama', "Animation|Children's|Comedy", 'Drama', "Children's|Comedy",'Thriller']
# hyunnie라는 user_id가 위 영화의 평점을 모두 5점을 주었다고 가정하겠습니다.
my_playlist = pd.DataFrame({'user_id': ['hyunnie']*5, 'movie_id': my_fav_id, 'count':[5]*5, 'movie_id_new' : my_fav_id_new,
                            'timestamp' : timestamp, 'title' : my_fav, 'genre' : my_fav_genre })

if not ratings.isin({'user_id':['hyunnie']})['user_id'].any():  # user_id에 'hyunnie'이라는 데이터가 없다면
    data = data.append(my_playlist)                           # 위에 임의로 만든 my_fav 데이터를 추가해 줍니다. 

data.tail(10)       # 잘 추가되었는지 확인해 봅시다.

Unnamed: 0,user_id,movie_id,movie_id_new,count,title,genre,timestamp
836473,6040,1090,1075,3,Platoon (1986),Drama|War,956715518.0
836474,6040,1094,1079,5,"Crying Game, The (1992)",Drama|Romance|War,956704887.0
836475,6040,562,559,5,Welcome to the Dollhouse (1995),Comedy|Drama,956704746.0
836476,6040,1096,1081,4,Sophie's Choice (1982),Drama,956715648.0
836477,6040,1097,1082,4,E.T. the Extra-Terrestrial (1982),Children's|Drama|Fantasy|Sci-Fi,956715569.0
0,hyunnie,3404,3336,5,Titanic (1997),Action|Drama,1612421278.36477
1,hyunnie,1,1,5,Toy Story (1995),Animation|Children's|Comedy,1612421278.36477
2,hyunnie,1682,1637,5,"Truman Show, The (1998)",Drama,1612421278.36477
3,hyunnie,586,583,5,Home Alone (1990),Children's|Comedy,1612421278.36477
4,hyunnie,2762,2694,5,"Sixth Sense, The (1999)",Thriller,1612421278.36477


#### 모델 활용을 위한 전처리

In [135]:
# 고유한 유저, 아티스트를 찾아내는 코드

user_unique = data['user_id'].unique()
movie_unique = data['title'].unique()

# 유저, 영화 indexing 하는 코드. idx는 index의 약자입니다.
user_to_idx = {v:k for k,v in enumerate(user_unique)}
movie_to_idx = {v:k for k,v in enumerate(movie_unique)}

In [136]:
# 인덱싱이 잘 되었는지 확인해 봅니다. 
print(user_to_idx['hyunnie'])    # 6039명의 유저 중 마지막으로 추가된 유저이니 6039이 나와야 합니다. 
print(movie_to_idx['Titanic (1997)'])

6039
27


In [138]:
# indexing을 통해 데이터 컬럼 내 값을 바꾸는 코드

# user_to_idx.get을 통해 user_id 컬럼의 모든 값을 인덱싱한 Series를 구해 봅시다. 
# 혹시 정상적으로 인덱싱되지 않은 row가 있다면 인덱스가 NaN이 될 테니 dropna()로 제거합니다. 

temp_user_data = data['user_id'].map(user_to_idx.get).dropna()
if len(temp_user_data) == len(data):   # 모든 row가 정상적으로 인덱싱되었다면
    print('user_id column indexing OK!!')
    data['user_id'] = temp_user_data   # data['user_id']을 인덱싱된 Series로 교체해 줍니다. 
else:
    print('user_id column indexing Fail!!')

# movie_to_idx을 통해 movie_id 컬럼도 동일한 방식으로 인덱싱해 줍니다. 
temp_movie_data = data['title'].map(movie_to_idx.get).dropna()
if len(temp_movie_data) == len(data):
    print('movie column indexing OK!!')
    data['title'] = temp_movie_data
else:
    print('movie column indexing Fail!!')

data

user_id column indexing OK!!
movie column indexing OK!!


Unnamed: 0,user_id,movie_id,movie_id_new,count,title,genre,timestamp
0,0,1193,1177,5,0,Drama,978300760.00000
1,0,661,656,3,1,Animation|Children's|Musical,978302109.00000
2,0,914,903,3,2,Musical|Romance,978301968.00000
3,0,3408,3340,4,3,Drama,978300275.00000
4,0,2355,2287,5,4,Animation|Children's|Comedy,978824291.00000
...,...,...,...,...,...,...,...
0,6039,3404,3336,5,27,Action|Drama,1612421278.36477
1,6039,1,1,5,40,Animation|Children's|Comedy,1612421278.36477
2,6039,1682,1637,5,385,Drama,1612421278.36477
3,6039,586,583,5,507,Children's|Comedy,1612421278.36477


우리는 명시적 데이터인 count를 암묵적 데이터라고 생각하기로 했습니다. 따라서 다음과 같은 암묵적 룰을 따른다고 가정합니다.

#### 1. 평점을 3점 이상 주었다면 (데이터 셋에 들어있다면) 선호하는 것이라고 판단한다.
#### 2. count가 높은 영화에 대해 가중치를 더 크게 주어 그에 따라 좋아하는 정도를 부여한다. 

## 4) CSR matrix 만들기
---

matrix 크기를 맞춰주기 위해 새로운 컬럼인 'movie_id_new'를 추가해주었었습니다. 
movie_id_new 컬럼은 movie_id에는 비어있는 번호도 있었던 것을 없애주기 위해 새로이 인덱싱한 컬럼입니다.

In [140]:
from scipy.sparse import csr_matrix

num_user = data['user_id'].nunique()
num_movie = data['title'].nunique()

csr_data = csr_matrix((data['count'], (data.user_id, data.title)), shape= (num_user, num_movie))
csr_data

<6040x3628 sparse matrix of type '<class 'numpy.int64'>'
	with 836483 stored elements in Compressed Sparse Row format>

## 5) als_model = AlternatingLeastSquares 모델을 직접 구성하여 훈련시키기

In [141]:
from implicit.als import AlternatingLeastSquares
import os
import numpy as np

In [142]:
# Implicit AlternatingLeastSquares 모델의 선언
als_model = AlternatingLeastSquares(factors=100, regularization=0.01, use_gpu=False, 
                                    iterations=15, dtype = np.float32)

In [143]:
# als 모델은 input으로 (item X user 꼴의 matrix를 받기 때문에 Transpose해줍니다.)
csr_data_transpose = csr_data.T
csr_data_transpose

<3628x6040 sparse matrix of type '<class 'numpy.int64'>'
	with 836483 stored elements in Compressed Sparse Column format>

In [144]:
# 모델 훈련
als_model.fit(csr_data_transpose)

  0%|          | 0/15 [00:00<?, ?it/s]

## 6) 내가 선호하는 5가지 영화 중 하나와 그 외의 영화 하나를 골라 훈련된 모델이 예측한 나의 선호도를 파악해 보기
---
#### (1) 내가 선호하는 영화 하나 선택 - titanic

In [148]:
hyunnie, titanic = user_to_idx['hyunnie'], movie_to_idx['Titanic (1997)']
hyunnie_vector, titanic_vector = als_model.user_factors[hyunnie], als_model.item_factors[titanic]


In [149]:
hyunnie_vector

array([-0.447, 0.538, -0.245, 0.227, -0.181, -0.000, 0.276, 0.062, -0.437,
       -0.329, 0.022, 0.668, 0.268, -0.313, -0.048, 0.451, -0.315, -0.466,
       0.621, -1.472, -0.553, 1.116, -0.164, 0.635, 0.799, -0.057, -0.051,
       -1.442, -0.495, -0.730, -0.471, 0.382, 0.590, -0.078, 0.027,
       -0.356, -0.507, -0.335, -0.238, 0.826, 0.247, 0.187, 0.936, 0.630,
       0.872, -0.055, 0.037, 0.534, -0.207, 0.028, 0.637, 0.025, 0.192,
       -0.328, 0.139, 1.117, 0.208, -0.700, -0.560, -0.454, 0.445, 0.149,
       0.681, 0.554, -0.324, -0.747, 0.730, -0.358, 0.396, 0.099, 0.593,
       0.229, -0.259, -0.715, -0.107, 0.670, 0.001, 0.090, -0.891, -0.520,
       -0.178, -1.047, 0.667, 0.057, 0.213, 0.710, 0.828, -0.274, 0.331,
       -0.623, -0.061, -0.284, 0.247, 0.055, 0.101, -0.583, -0.332, 0.115,
       0.029, -0.197], dtype=float32)

In [150]:
titanic_vector

array([-0.010, 0.015, -0.000, -0.008, 0.006, -0.004, 0.016, 0.024, 0.052,
       -0.027, 0.011, 0.037, 0.016, 0.033, 0.002, 0.046, 0.019, -0.017,
       0.041, -0.030, -0.024, 0.024, -0.002, -0.004, 0.018, 0.004, 0.000,
       -0.031, -0.005, -0.003, 0.017, 0.039, 0.008, 0.036, -0.015, -0.019,
       -0.037, 0.053, -0.003, 0.017, -0.000, -0.001, 0.032, 0.019, 0.024,
       -0.020, 0.014, 0.032, -0.045, -0.012, 0.044, -0.008, 0.018, -0.005,
       0.017, 0.030, 0.009, 0.023, -0.011, -0.025, 0.030, 0.010, 0.016,
       0.010, -0.015, -0.030, -0.006, -0.013, 0.030, 0.030, 0.006, -0.007,
       0.005, -0.013, 0.026, 0.015, -0.020, 0.013, -0.043, -0.005, -0.008,
       -0.019, 0.014, 0.008, 0.015, 0.012, 0.027, -0.011, 0.009, -0.028,
       0.007, 0.013, -0.001, 0.009, 0.027, -0.033, -0.005, 0.001, -0.003,
       0.001], dtype=float32)

나의 선호도는?

In [151]:
# hyunnie와 titanic을 내적하는 코드
np.set_printoptions(formatter={'float_kind': lambda x: "{0:0.3f}".format(x)})

print(np.dot(hyunnie_vector, titanic_vector))

0.6477961


#### (2) 무작위 영화 하나 선택

In [108]:
print(movie_to_idx['Superman (1978)'])

3317


In [155]:
hyunnie, superman = user_to_idx['hyunnie'], movie_to_idx['Superman (1978)']
hyunnie_vector, superman_vector = als_model.user_factors[hyunnie], als_model.item_factors[superman]


In [156]:
hyunnie_vector

array([-0.447, 0.538, -0.245, 0.227, -0.181, -0.000, 0.276, 0.062, -0.437,
       -0.329, 0.022, 0.668, 0.268, -0.313, -0.048, 0.451, -0.315, -0.466,
       0.621, -1.472, -0.553, 1.116, -0.164, 0.635, 0.799, -0.057, -0.051,
       -1.442, -0.495, -0.730, -0.471, 0.382, 0.590, -0.078, 0.027,
       -0.356, -0.507, -0.335, -0.238, 0.826, 0.247, 0.187, 0.936, 0.630,
       0.872, -0.055, 0.037, 0.534, -0.207, 0.028, 0.637, 0.025, 0.192,
       -0.328, 0.139, 1.117, 0.208, -0.700, -0.560, -0.454, 0.445, 0.149,
       0.681, 0.554, -0.324, -0.747, 0.730, -0.358, 0.396, 0.099, 0.593,
       0.229, -0.259, -0.715, -0.107, 0.670, 0.001, 0.090, -0.891, -0.520,
       -0.178, -1.047, 0.667, 0.057, 0.213, 0.710, 0.828, -0.274, 0.331,
       -0.623, -0.061, -0.284, 0.247, 0.055, 0.101, -0.583, -0.332, 0.115,
       0.029, -0.197], dtype=float32)

In [157]:
superman_vector

array([0.000, -0.007, -0.001, 0.009, -0.010, 0.023, 0.012, 0.029, 0.003,
       0.011, 0.005, -0.009, 0.018, 0.020, 0.025, 0.003, 0.024, 0.019,
       -0.001, 0.017, 0.004, -0.012, -0.007, 0.007, 0.010, 0.013, 0.024,
       0.023, -0.001, 0.003, 0.003, 0.003, 0.002, 0.023, 0.000, 0.008,
       0.005, -0.023, -0.021, 0.004, 0.003, 0.011, 0.026, 0.023, -0.015,
       0.008, 0.015, 0.004, 0.005, -0.008, 0.011, 0.006, 0.002, -0.006,
       0.020, 0.018, -0.000, 0.024, -0.002, -0.019, -0.027, 0.012, -0.012,
       0.016, 0.037, 0.003, -0.012, -0.007, 0.004, 0.014, 0.015, 0.013,
       0.016, 0.006, 0.008, -0.010, 0.009, 0.010, 0.008, 0.009, 0.023,
       -0.030, -0.011, 0.019, -0.016, -0.004, 0.021, 0.013, -0.019, 0.002,
       -0.001, 0.015, 0.010, -0.001, 0.023, 0.021, 0.023, -0.022, -0.028,
       0.015], dtype=float32)

In [158]:
print(np.dot(hyunnie_vector, superman_vector))

-0.06864518


## 7) 내가 좋아하는 영화와 비슷한 영화를 추천받아 봅시다.

In [159]:
favorite_movie = 'Sixth Sense, The (1999)'           # 식스센스
movie_id =  movie_to_idx[favorite_movie]
similar_movie = als_model.similar_items(movie_id, N=15)
similar_movie

[(38, 1.0000001),
 (121, 0.51987714),
 (233, 0.47171482),
 (243, 0.42266077),
 (220, 0.40495303),
 (170, 0.39022174),
 (273, 0.38498223),
 (796, 0.38021258),
 (1706, 0.35776004),
 (1938, 0.35394612),
 (124, 0.35320312),
 (235, 0.3511842),
 (141, 0.3469655),
 (808, 0.3457603),
 (1695, 0.34218258)]

In [160]:
#artist_to_idx 를 뒤집어, index로부터 artist 이름을 얻는 dict를 생성합니다. 
idx_to_movie = {v:k for k,v in movie_to_idx.items()}
[idx_to_movie[i[0]] for i in similar_movie]

['Sixth Sense, The (1999)',
 'Silence of the Lambs, The (1991)',
 'Usual Suspects, The (1995)',
 'Ghostbusters (1984)',
 'Seven (Se7en) (1995)',
 'Being John Malkovich (1999)',
 'Fight Club (1999)',
 'Bone Collector, The (1999)',
 'Stuart Little (1999)',
 'Superstar (1999)',
 'Matrix, The (1999)',
 'Sleepy Hollow (1999)',
 'Fugitive, The (1993)',
 'End of Days (1999)',
 'Messenger: The Story of Joan of Arc, The (1999)']

In [161]:
def get_similar_movie(movie_name: str):
    movie_id = movie_to_idx[movie_name]
    similar_movie = als_model.similar_items(movie_id)
    similar_movie = [idx_to_movie[i[0]] for i in similar_movie]
    return similar_movie


In [162]:
get_similar_movie('Toy Story (1995)')

['Toy Story (1995)',
 'Toy Story 2 (1999)',
 "Bug's Life, A (1998)",
 'Aladdin (1992)',
 'Groundhog Day (1993)',
 'Babe (1995)',
 'Pleasantville (1998)',
 'Lion King, The (1994)',
 'Beauty and the Beast (1991)',
 "There's Something About Mary (1998)"]

In [163]:
get_similar_movie('Titanic (1997)')

['Titanic (1997)',
 'Jerry Maguire (1996)',
 'Apollo 13 (1995)',
 'Truman Show, The (1998)',
 'Held Up (2000)',
 'Ever After: A Cinderella Story (1998)',
 "Mr. Holland's Opus (1995)",
 'City of Angels (1998)',
 'Sense and Sensibility (1995)',
 "My Best Friend's Wedding (1997)"]

## 8) 사용자 기반 영화 추천하기

In [164]:
user = user_to_idx['hyunnie']
# recommend에서는 user*item CSR Matrix를 받습니다.
movie_recommended = als_model.recommend(user, csr_data, N=20, filter_already_liked_items=True)
movie_recommended

[(50, 0.4603517),
 (39, 0.3376816),
 (248, 0.30123007),
 (160, 0.28183734),
 (330, 0.2781214),
 (110, 0.24670185),
 (626, 0.24592358),
 (60, 0.2443836),
 (126, 0.2441571),
 (170, 0.23306817),
 (255, 0.21780822),
 (384, 0.21771337),
 (458, 0.20680748),
 (666, 0.19930229),
 (33, 0.19221282),
 (1706, 0.19096528),
 (641, 0.18870378),
 (143, 0.1854236),
 (479, 0.17526332),
 (273, 0.17194745)]

In [171]:
rec = [idx_to_movie[i[0]] for i in movie_recommended]
recommendation = pd.DataFrame(rec)
recommendation.columns = ['추천 영화 Top 20']
recommendation

Unnamed: 0,추천 영화 Top 20
0,Toy Story 2 (1999)
1,Apollo 13 (1995)
2,Good Will Hunting (1997)
3,Forrest Gump (1994)
4,"Lion King, The (1994)"
5,Groundhog Day (1993)
6,You've Got Mail (1998)
7,Star Wars: Episode I - The Phantom Menace (1999)
8,Shakespeare in Love (1998)
9,Being John Malkovich (1999)


In [167]:
Aladin = movie_to_idx['Aladdin (1992)']
explain = als_model.explain(user, csr_data, itemid=Aladin)

In [168]:
[(idx_to_movie[i[0]], i[1]) for i in explain[1]]

[('Toy Story (1995)', 0.19287862127451885),
 ('Home Alone (1990)', 0.03632566459340244),
 ('Truman Show, The (1998)', 0.00743974848080335),
 ('Titanic (1997)', -0.008076707094149748),
 ('Sixth Sense, The (1999)', -0.03969315190647361)]

## [결론 및 회고]

 저는 데이터 전처리 과정에서  movies와 ratings 데이터를 합친 데이터를 가지고 프로젝트를 수행했습니다. movie_id가 숫자로 되어있어 직관적으로 영화 제목과 장르를 확인해주기 위해서입니다. 그래서 사용자 데이터를 추가할 때 영화 제목 뿐만 아니라 timestamp, 장르, id 등등 추가적으로 컬럼값을 채우기도 했습니다.   
csr matrix를 생성할 때 차원이 초과되는 오류가 발생했었는데, movie_id가 연속적이지 않아 유니크한 값이 실제로는 더 적었기 때문입니다. 이를 해결해주기 위해 movie_id_new라는 새로운 영화 인덱스를 추가해주기도 했습니다.
그러나 그전에 데이터를 합쳤기 때문에 movie_id가 아닌 title로 인덱싱을 해주면 해결되는 문제였고, 그 뒤 과정을 진행할 때는 title로 인덱싱한 것을 토대로 진행했습니다. (굳이 movie_id_new를 다시 지우지는 않았습니다..~~왜냐면.. 귀찮았기 때문..~~)   

결과적으로, __제가 선호하는 영화(타이타닉)에 대한 선호도를 계산했을 때 0.6477961이라는 높은 값을 얻을 수 있었습니다.__

__무작위로 뽑은 영화(슈퍼맨)의 선호도를 계산했을 때는 음수값이 나오기도__ 했는데 실제로 저는 이 영화와 장르(히어로 액션)를 매우 좋아합니다. 아마 사용자 데이터를 추가해줄 때 이런 장르를 추가해주지 않아서 이런 결과가 나온 것 같습니다.  

이번 프로젝트를 통해 사용자의 선호도(높은 평점) 기반의 영화 추천 시스템을 만드는 방법에 대해 배울 수 있었습니다. 
근데 정말로...너무 신기한데요..? 고작 5개 영화를 추가했을 뿐인데 영화 취향에 맞게 잘 추천해준 것 같습니다. 5개 이상의 사용자 데이터를 추가해주는 대신 장르를 가지각색으로 넣어줬을 때 각 영화의 기여도가 어떻게 될지도 궁금합니다.
