# PROJECT 8. Movielens영화 추천

## Step 1. 데이터 수집
### 1) 데이터 다운로드
데이터셋은 추천 시스템의 MNIST 라고 부를만한 **Movielens 데이터** 입니다.  
아래의 명령어로 데이터를 다운받고 압축해제 합니다.  
> ```$ wget http://files.grouplens.org/datasets/movielens/ml-1m.zip```  

> ```$ mv ml-1m.zip ~/다운받은 데이터를 옮길 폴더명```  

> ```$ cd ~/다운받은 데이터를 옮긴 폴더명```  

> ```$ unzip ml-1m.zip```  

## Step2. 데이터 점검 및 탐색
### 1) 데이터 불러오기
pd.read_csv 함수를 사용하여 파일을 불러옵니다.
> **pd.read_csv(csv파일, sep="구분자", names="컬럼명")**  
     *+) 파일에 한글이 있을때, engine='python' 옵션 추가*

#### (1) ratings.dat

In [1]:
import os
import pandas as pd

rating_file_path=os.getenv('HOME') + '/aiffel/exploration/recommendata_iu/data/ml-1m/ratings.dat'
ratings_cols = ['user_id', 'movie_id', 'rating', 'timestamp']    # 사용자, 영화, 평점 데이터
ratings = pd.read_csv(rating_file_path, sep='::', names=ratings_cols, engine='python')

ratings.head()

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


#### (2) movies.dat

In [2]:
movie_file_path=os.getenv('HOME') + '/aiffel/exploration/recommendata_iu/data/ml-1m/movies.dat'
cols = ['movie_id', 'title', 'genre']    # 영화 번호, 영화 제목, 장르
movies = pd.read_csv(movie_file_path, sep='::', names=cols, engine='python')

movies.head()

Unnamed: 0,movie_id,title,genre
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


#### (3) ratings.dat + movies.dat

In [3]:
data = pd.merge(ratings, movies, on="movie_id", how="left")

data.head()

Unnamed: 0,user_id,movie_id,rating,timestamp,title,genre
0,1,1193,5,978300760,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,661,3,978302109,James and the Giant Peach (1996),Animation|Children's|Musical
2,1,914,3,978301968,My Fair Lady (1964),Musical|Romance
3,1,3408,4,978300275,Erin Brockovich (2000),Drama
4,1,2355,5,978824291,"Bug's Life, A (1998)",Animation|Children's|Comedy


### 2) 데이터 살펴보기
불러온 데이터 안에 무슨 내용을 포함하는지 살펴봅니다.

In [4]:
orginal_data_len = len(data)

user_count = data["user_id"].nunique()
movie_count = data["movie_id"].nunique()
rating_count = sorted(data["rating"].unique())
genre_count = data["genre"].nunique()

print(f"ratings.data 의 개수 : {orginal_data_len} 개")
print(f"사용자 수 : {user_count} 명")
print(f"영화 개수 : {movie_count} 개")
print(f"영화 장르 : {genre_count} 개")
print(f"평점 : {rating_count}")
print()


ratings.data 의 개수 : 1000209 개
사용자 수 : 6040 명
영화 개수 : 3706 개
영화 장르 : 301 개
평점 : [1, 2, 3, 4, 5]



In [5]:
user1 = data["user_id"] == 1
print("=================================== 첫번째 사용자가 평점을 남긴 영화 ===================================")
data[user1]




Unnamed: 0,user_id,movie_id,rating,timestamp,title,genre
0,1,1193,5,978300760,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,661,3,978302109,James and the Giant Peach (1996),Animation|Children's|Musical
2,1,914,3,978301968,My Fair Lady (1964),Musical|Romance
3,1,3408,4,978300275,Erin Brockovich (2000),Drama
4,1,2355,5,978824291,"Bug's Life, A (1998)",Animation|Children's|Comedy
5,1,1197,3,978302268,"Princess Bride, The (1987)",Action|Adventure|Comedy|Romance
6,1,1287,5,978302039,Ben-Hur (1959),Action|Adventure|Drama
7,1,2804,5,978300719,"Christmas Story, A (1983)",Comedy|Drama
8,1,594,4,978302268,Snow White and the Seven Dwarfs (1937),Animation|Children's|Musical
9,1,919,4,978301368,"Wizard of Oz, The (1939)",Adventure|Children's|Drama|Musical


In [6]:
# 인기 많은 영화
movie_30 = data.groupby("title")["user_id"].count()
print("====================== 인기 많은 영화 TOP30 ======================")
print(movie_30.sort_values(ascending=False).head(30))
print()

title
American Beauty (1999)                                   3428
Star Wars: Episode IV - A New Hope (1977)                2991
Star Wars: Episode V - The Empire Strikes Back (1980)    2990
Star Wars: Episode VI - Return of the Jedi (1983)        2883
Jurassic Park (1993)                                     2672
Saving Private Ryan (1998)                               2653
Terminator 2: Judgment Day (1991)                        2649
Matrix, The (1999)                                       2590
Back to the Future (1985)                                2583
Silence of the Lambs, The (1991)                         2578
Men in Black (1997)                                      2538
Raiders of the Lost Ark (1981)                           2514
Fargo (1996)                                             2513
Sixth Sense, The (1999)                                  2459
Braveheart (1995)                                        2443
Shakespeare in Love (1998)                               2369
Pr

In [7]:
# 유저벌 몇 개의 영화를 보고 있는지에 대한 통계
user_statistics = data.groupby("user_id")["movie_id"].count()
print("=============== 사용자들이 몇 개의 영화를 보고 있는지에 대한 통계 ===============")
print(user_statistics.describe())
print()


count    6040.000000
mean      165.597517
std       192.747029
min        20.000000
25%        44.000000
50%        96.000000
75%       208.000000
max      2314.000000
Name: movie_id, dtype: float64



## Step3. 데이터 전처리

### 1) 데이터 삭제
- user_id, movie_id, rating, title, genre 컬럼만 사용합니다.
- 평점 3점이상의 영화만 사용합니다.

In [8]:
# 사용하는 컬럼만 남겨줍니다.
using_cols = ['user_id', 'movie_id', 'rating', 'title', 'genre']

data = data[using_cols]
data.head(10)

Unnamed: 0,user_id,movie_id,rating,title,genre
0,1,1193,5,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,661,3,James and the Giant Peach (1996),Animation|Children's|Musical
2,1,914,3,My Fair Lady (1964),Musical|Romance
3,1,3408,4,Erin Brockovich (2000),Drama
4,1,2355,5,"Bug's Life, A (1998)",Animation|Children's|Comedy
5,1,1197,3,"Princess Bride, The (1987)",Action|Adventure|Comedy|Romance
6,1,1287,5,Ben-Hur (1959),Action|Adventure|Drama
7,1,2804,5,"Christmas Story, A (1983)",Comedy|Drama
8,1,594,4,Snow White and the Seven Dwarfs (1937),Animation|Children's|Musical
9,1,919,4,"Wizard of Oz, The (1939)",Adventure|Children's|Drama|Musical


In [9]:
# 3점 이상만 남깁니다.
data = data[data['rating']>=3]
filtered_data_len = len(data)

print(f'orginal_data_len : {orginal_data_len}')
print(f'filtered_data_len : {filtered_data_len}')
print(f'Ratio of Remaining Data is {filtered_data_len / orginal_data_len:.2%}')

orginal_data_len : 1000209
filtered_data_len : 836478
Ratio of Remaining Data is 83.63%


### 2) 컬럼이름 바꾸기
- rating 컬럼의 이름을 score로 바꿉니다.

In [10]:
# rating 컬럼의 이름을 count로 바꿉니다.
data.rename(columns={'rating':'score'}, inplace=True)

data.tail()

Unnamed: 0,user_id,movie_id,score,title,genre
1000203,6040,1090,3,Platoon (1986),Drama|War
1000205,6040,1094,5,"Crying Game, The (1992)",Drama|Romance|War
1000206,6040,562,5,Welcome to the Dollhouse (1995),Comedy|Drama
1000207,6040,1096,4,Sophie's Choice (1982),Drama
1000208,6040,1097,4,E.T. the Extra-Terrestrial (1982),Children's|Drama|Fantasy|Sci-Fi


In [11]:
data = data.reset_index(drop=True)

data.tail()

Unnamed: 0,user_id,movie_id,score,title,genre
836473,6040,1090,3,Platoon (1986),Drama|War
836474,6040,1094,5,"Crying Game, The (1992)",Drama|Romance|War
836475,6040,562,5,Welcome to the Dollhouse (1995),Comedy|Drama
836476,6040,1096,4,Sophie's Choice (1982),Drama
836477,6040,1097,4,E.T. the Extra-Terrestrial (1982),Children's|Drama|Fantasy|Sci-Fi


### 3) 데이터 추가
- 내가 선호하는 영화를 5가지 골라서 추가합니다.

In [12]:
# my_user_id = data.iloc[-1].user_id + 1

# user_id, movie_id, score, timestamp, title, genre
my_favorite = [ ["chaeeun", None, 4, 'Lion King, The (1994)', None],
                ["chaeeun", None, 5, 'Toy Story (1995)', None] ,
                ["chaeeun", None, 5, 'Toy Story 2 (1999)', None] ,
                ["chaeeun", None, 3, 'Aladdin (1992)', None],
                ["chaeeun", None, 3, 'Beauty and the Beast (1991)', None] ]

for i in range(5):
    movie_id = data.loc[data["title"] == my_favorite[i][3], ["movie_id", "genre"]].values[0][0]
    genre = data.loc[data["title"] == my_favorite[i][3], ["movie_id", "genre"]].values[0][1]

    my_favorite[i][1] = movie_id
    my_favorite[i][4] = genre


In [13]:
for i in range(5):
    data.loc[filtered_data_len+i] = my_favorite[i]

data.tail(10)

Unnamed: 0,user_id,movie_id,score,title,genre
836473,6040,1090,3,Platoon (1986),Drama|War
836474,6040,1094,5,"Crying Game, The (1992)",Drama|Romance|War
836475,6040,562,5,Welcome to the Dollhouse (1995),Comedy|Drama
836476,6040,1096,4,Sophie's Choice (1982),Drama
836477,6040,1097,4,E.T. the Extra-Terrestrial (1982),Children's|Drama|Fantasy|Sci-Fi
836478,chaeeun,364,4,"Lion King, The (1994)",Animation|Children's|Musical
836479,chaeeun,1,5,Toy Story (1995),Animation|Children's|Comedy
836480,chaeeun,3114,5,Toy Story 2 (1999),Animation|Children's|Comedy
836481,chaeeun,588,3,Aladdin (1992),Animation|Children's|Comedy|Musical
836482,chaeeun,595,3,Beauty and the Beast (1991),Animation|Children's|Musical


### 4) 인덱싱하기
- 데이터의 user_id에 맞게 인덱스번호를 바꿉니다.
- ex)

| index | user_id |
|:----------|:----------:|
| 0 | 1 |
| 1 | 1 |
| ... | ... |
| 39 | 1 |
| 0 | 2 |
| 1 | 2 |
| ... | ... |
| 23 | 2 |

In [14]:
# 고유한 유저, 아티스트를 찾아내는 코드
user_unique = data['user_id'].unique()
movie_unique = data['title'].unique()

# 유저, 아티스트 indexing 하는 코드 idx는 index의 약자입니다.
user_to_idx = {v:k for k,v in enumerate(user_unique)}
movie_to_idx = {v:k for k,v in enumerate(movie_unique)}


In [15]:
# indexing을 통해 데이터 컬럼 내 값을 바꾸는 코드
# dictionary 자료형의 get 함수는 https://wikidocs.net/16 을 참고하세요.

# user_to_idx.get을 통해 user_id 컬럼의 모든 값을 인덱싱한 Series를 구해 봅시다. 
# 혹시 정상적으로 인덱싱되지 않은 row가 있다면 인덱스가 NaN이 될 테니 dropna()로 제거합니다. 
temp_user_data = data['user_id'].map(user_to_idx.get).dropna()

if len(temp_user_data) == len(data):   # 모든 row가 정상적으로 인덱싱되었다면
    print('user_id column indexing OK!!')
    data['user_id'] = temp_user_data   # data['user_id']을 인덱싱된 Series로 교체해 줍니다. 
else:
    print('user_id column indexing Fail!!')

# artist_to_idx을 통해 artist 컬럼도 동일한 방식으로 인덱싱해 줍니다. 
temp_movie_data = data['title'].map(movie_to_idx.get).dropna()
if len(temp_movie_data) == len(data):
    print('title column indexing OK!!')
    data['title'] = temp_movie_data
else:
    print('title column indexing Fail!!')


user_id column indexing OK!!
title column indexing OK!!


## Step4. 모델링 및 훈련

### 1) CSR matrix 만들기
우리는 m명의 사용자들이 n개의 영화에 대해 평가한 데이터를 포함한 (m,n) 사이즈의 평가행렬(Rating Matrix)을 만듭니다.  
data를 CSR Matrix에 맞게 바꿉니다.
> **CSR Matrix**   
: sparse한 matrix에서 0이 아닌 유효한 데이터로 채워지는 데이터의 값과 좌표 정보만으로 구성하여 메모리 사용량을 최소화하면서도  
&nbsp; sparse한 matrix와 동일한 행렬을 표현할 수 있도록 하는 데이터 구조입니다.

In [16]:
from scipy.sparse import csr_matrix

num_user = data['user_id'].nunique()
num_movie = data['title'].nunique()

csr_data = csr_matrix((data['score'], (data.user_id, data.title)), shape=(num_user, num_movie))

data

Unnamed: 0,user_id,movie_id,score,title,genre
0,0,1193,5,0,Drama
1,0,661,3,1,Animation|Children's|Musical
2,0,914,3,2,Musical|Romance
3,0,3408,4,3,Drama
4,0,2355,5,4,Animation|Children's|Comedy
...,...,...,...,...,...
836478,6039,364,4,330,Animation|Children's|Musical
836479,6039,1,5,40,Animation|Children's|Comedy
836480,6039,3114,5,50,Animation|Children's|Comedy
836481,6039,588,3,33,Animation|Children's|Comedy|Musical


### 2) Matrix Factorization 모델링 및 학습
추천 시스템의 다양한 모델 중 Matrix Factorization(MF, 행렬분해) 모델을 사용하겠습니다.
> AlternatingLeastSquares()

In [17]:
from implicit.als import AlternatingLeastSquares
import os
import numpy as np

# implicit 라이브러리에서 권장하고 있는 부분입니다. 학습 내용과는 무관합니다.
os.environ['OPENBLAS_NUM_THREADS']='1'
os.environ['KMP_DUPLICATE_LIB_OK']='True'
os.environ['MKL_NUM_THREADS']='1'

# Implicit AlternatingLeastSquares 모델의 선언
als_model = AlternatingLeastSquares(factors=100, 
                                    regularization=0.01, 
                                    use_gpu=False, 
                                    iterations=15, 
                                    dtype=np.float32)

# als 모델은 input으로 (item X user 꼴의 matrix를 받기 때문에 Transpose해줍니다.)
csr_data_transpose = csr_data.T

# 모델 훈련
als_model.fit(csr_data_transpose)

  0%|          | 0/15 [00:00<?, ?it/s]

학습이 완료되었으니, 모델이 제가 선호하는 5가지 영화 중 "Toy Story (1995)" 에 대한 선호도를 어떻게 예측할지 한번 보겠습니다.  
그리고 또한 제가 선호하지 않은 "Titanic (1997)" 영화에 대한 선호도를 어떻게 예측할지 보겠습니다.  


In [18]:
chaeeun = user_to_idx["chaeeun"]
chaeeun_vector = als_model.user_factors[chaeeun]

toystory = movie_to_idx['Toy Story (1995)']
toystory_vector = als_model.item_factors[toystory]

titanic = movie_to_idx['Titanic (1997)']
titanic_vector = als_model.item_factors[titanic]

print("Toy Story (1995) 선호도 :", np.dot(chaeeun_vector, toystory_vector))
print("Titanic (1997) 선호도 :", np.dot(chaeeun_vector, titanic_vector))

Toy Story (1995) 선호도 : 0.7613643
Titanic (1997) 선호도 : 0.0297192


## Step5. 비슷한 영화 찾기 + 유저에게 추천하기
### 1) 비슷한 영화 찾기
제가 좋아하는 영화와 비슷한 영화를 추천받아보겠습니다.  
AlternatingLeastSquares 클래스에 구현되어 있는 similar_items 메서드를 통하여 비슷한 영화를 찾습니다.  
제가 좋아하는 "Toy Story (1995)" 로 찾아보겠습니다.


In [19]:
favorite_movie = "Toy Story (1995)"
movie_id = movie_to_idx[favorite_movie]
similar_movie = als_model.similar_items(movie_id, N=15)

similar_movie

[(40, 1.0000002),
 (50, 0.7776188),
 (322, 0.6104431),
 (4, 0.579487),
 (33, 0.5667381),
 (110, 0.5482231),
 (330, 0.45838276),
 (10, 0.4346199),
 (20, 0.42512757),
 (255, 0.41814885),
 (32, 0.36796337),
 (126, 0.36656463),
 (34, 0.36037835),
 (16, 0.3569619),
 (160, 0.3474736)]

In [20]:
#artist_to_idx 를 뒤집어, index로부터 artist 이름을 얻는 dict를 생성합니다. 
idx_to_movie = {v:k for k,v in movie_to_idx.items()}

[idx_to_movie[i[0]] for i in similar_movie]

['Toy Story (1995)',
 'Toy Story 2 (1999)',
 'Babe (1995)',
 "Bug's Life, A (1998)",
 'Aladdin (1992)',
 'Groundhog Day (1993)',
 'Lion King, The (1994)',
 'Beauty and the Beast (1991)',
 'Pleasantville (1998)',
 "There's Something About Mary (1998)",
 'Hercules (1997)',
 'Shakespeare in Love (1998)',
 'Mulan (1998)',
 'Tarzan (1999)',
 'Forrest Gump (1994)']

### 2) 유저에게 추천하기
제가 좋아할만한 영화를 추천받아보겠습니다.  
AlternatingLeastSquares 클래스에 구현되어 있는 recommend 메서드를 통하여 제가 좋아할 만한 영화를 추천받습니다.  


In [21]:
user = user_to_idx['chaeeun']

# recommend에서는 user*item CSR Matrix를 받습니다.
movie_recommended = als_model.recommend(user, csr_data, N=20, filter_already_liked_items=True)
movie_recommended

[(4, 0.5748669),
 (322, 0.37729648),
 (191, 0.3197636),
 (16, 0.2977546),
 (34, 0.28177527),
 (284, 0.26032615),
 (32, 0.26024786),
 (851, 0.24435253),
 (30, 0.23760915),
 (45, 0.21349913),
 (35, 0.20320624),
 (126, 0.20066558),
 (548, 0.20022509),
 (110, 0.1997019),
 (160, 0.18124527),
 (8, 0.18028164),
 (536, 0.17403843),
 (458, 0.17321861),
 (841, 0.1695647),
 (545, 0.16834638)]

In [22]:
[idx_to_movie[i[0]] for i in movie_recommended]

["Bug's Life, A (1998)",
 'Babe (1995)',
 'Little Mermaid, The (1989)',
 'Tarzan (1999)',
 'Mulan (1998)',
 'Nightmare Before Christmas, The (1993)',
 'Hercules (1997)',
 'Iron Giant, The (1999)',
 'Antz (1998)',
 'Mary Poppins (1964)',
 'Hunchback of Notre Dame, The (1996)',
 'Shakespeare in Love (1998)',
 'Fantasia (1940)',
 'Groundhog Day (1993)',
 'Forrest Gump (1994)',
 'Snow White and the Seven Dwarfs (1937)',
 'Jungle Book, The (1967)',
 'Mask, The (1994)',
 'Prince of Egypt, The (1998)',
 'Santa Clause, The (1994)']

"Bug's Life, A (1998)" 를 추천해주고 있네요. 모델은 왜 "Bug's Life, A (1998)" 를 추천해줬을까요?  
AlternatingLeastSquares 클래스에 구현된 explain 함수를 사용하면 제가 기록을 남긴 데이터 중 이 추천에 기여한 정도를 확인할 수 있습니다.  

In [23]:
bugs = movie_to_idx["Bug's Life, A (1998)"]
explain = als_model.explain(user, csr_data, itemid=bugs)

[(idx_to_movie[i[0]], i[1]) for i in explain[1]]

[('Toy Story 2 (1999)', 0.265530634906046),
 ('Toy Story (1995)', 0.15372781439787725),
 ('Aladdin (1992)', 0.0777380398004194),
 ('Beauty and the Beast (1991)', 0.0416434775961537),
 ('Lion King, The (1994)', 0.02503217324768434)]

"Toy Story 2 (1999)" 가 가장 크게 기여한 것을 확인할 수 있습니다.

## [ 결과 - 루브릭 ]
#### 1. CSR matrix가 정상적으로 만들어졌다.
- user_id와 title 개수를 바탕으로 정확한 사이즈로 만들었습니다. :)

#### 2. MF 모델이 정상적으로 훈련되어 그럴듯한 추천이 이루어졌다. 
- 저와 영화 벡터 내적수치가 의미있게 형성되었습니다. :) 
- 제가 좋아하는 영화는 내적이 높게 나오고, 안좋아하는 영화는 낮게 나왔습니다. :)
  
#### 3. 비슷한 영화 찾기와 유저에게 추천하기의 과정이 정상적으로 진행되었다.
- MF 모델이 예측한 유저 선호도 및 영화간 유사도, 기여도가 의미있게 측정되었습니다 :)
