In [1]:
import pandas as pd
import os

### pre-processing

In [2]:
rating_file_path = os.getenv('HOME') + '/aiffel/exploration_1/rs/data/ml-1m/ratings.dat'
ratings_cols = ['user_id', 'movie_id', 'ratings', 'timestamp']   # 임의로 지정한 컬럼명
data = pd.read_csv(rating_file_path, sep='::', names=ratings_cols, engine='python', encoding = "ISO-8859-1")
orginal_data_size = len(data)
data.head()

Unnamed: 0,user_id,movie_id,ratings,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


In [3]:
# 3점 이상만 남깁니다.
data = data[data['ratings']>=3]
filtered_data_size = len(data)

print(f'orginal_data_size: {orginal_data_size}, filtered_data_size: {filtered_data_size}')
print(f'Ratio of Remaining Data is {filtered_data_size / orginal_data_size:.2%}')

orginal_data_size: 1000209, filtered_data_size: 836478
Ratio of Remaining Data is 83.63%


In [4]:
len(data['ratings'])

836478

In [5]:
# 영화 제목을 보기 위해 메타 데이터를 읽어옵니다.
movie_file_path=os.getenv('HOME') + '/aiffel/exploration_1/rs/data/ml-1m/movies.dat'
cols = ['movie_id', 'title', 'genre'] 
meta = pd.read_csv(movie_file_path, sep='::', names=cols, engine='python', encoding='ISO-8859-1')
meta.head(5)

Unnamed: 0,movie_id,title,genre
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [6]:
df = pd.merge(data, meta, how='inner', on='movie_id')
df.head()

Unnamed: 0,user_id,movie_id,ratings,timestamp,title,genre
0,1,1193,5,978300760,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,1193,5,978298413,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,1193,4,978220179,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,1193,4,978199279,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,1193,5,978158471,One Flew Over the Cuckoo's Nest (1975),Drama


### 데이터 탐색

### 2) 분석해 봅시다. 

* 유니크한 영화 개수 
* 유니크한 사용자 수 
* 가장 인기 있는 영화 30개 (인기순) 


In [7]:
# 영화 수 
df['movie_id'].nunique()

3628

In [8]:
# 유저 수
df['user_id'].nunique()

6039

In [9]:
# 영화 인기 순 (30)
movie_count = df.groupby('movie_id')['user_id'].count()
movie_count.sort_values(ascending=False).head(30)

movie_id
2858    3211
260     2910
1196    2885
1210    2716
2028    2561
589     2509
593     2498
1198    2473
1270    2460
2571    2434
480     2413
2762    2385
608     2371
110     2314
1580    2297
527     2257
1197    2252
2396    2213
1617    2210
318     2194
858     2167
1265    2121
1097    2102
2997    2066
2716    2051
296     2030
356     2022
1240    2019
1       2000
457     1941
Name: user_id, dtype: int64

In [10]:
df['genre'].nunique()

301

In [11]:
# 유저별 몇 개 영화
user_count = df.groupby('user_id')['movie_id'].count()
user_count.describe()

count    6039.000000
mean      138.512668
std       156.241599
min         1.000000
25%        38.000000
50%        81.000000
75%       177.000000
max      1968.000000
Name: movie_id, dtype: float64

In [12]:
# 유저별 play 시간 중앙값에 대한 통계
user_median = df.groupby('user_id')['timestamp'].median()
user_median.describe()

count    6.039000e+03
mean     9.705019e+08
std      8.916703e+06
min      9.567058e+08
25%      9.650976e+08
50%      9.720067e+08
75%      9.748566e+08
max      1.045440e+09
Name: timestamp, dtype: float64

In [13]:
# user들이 가장 많이 본 영화 TOP 5
top5 = df.groupby('title')['user_id'].count()
top5.sort_values(ascending=False).head(5)

title
American Beauty (1999)                                   3211
Star Wars: Episode IV - A New Hope (1977)                2910
Star Wars: Episode V - The Empire Strikes Back (1980)    2885
Star Wars: Episode VI - Return of the Jedi (1983)        2716
Saving Private Ryan (1998)                               2561
Name: user_id, dtype: int64

In [14]:
# 고유한 유저, 아티스트를 찾아내는 코드
user_unique = df['user_id'].unique()
movie_unique = df['movie_id'].unique()

# 유저, 아티스트 indexing 하는 코드 idx는 index의 약자입니다.
user_to_idx = {v:k for k,v in enumerate(user_unique)}
movie_to_idx = {v:k for k,v in enumerate(movie_unique)}

In [15]:
# indexing을 통해 데이터 컬럼 내 값을 바꾸는 코드
# dictionary 자료형의 get 함수는 https://wikidocs.net/16 을 참고하세요.

# user_to_idx.get을 통해 user_id 컬럼의 모든 값을 인덱싱한 Series를 구해 봅시다. 
# 혹시 정상적으로 인덱싱되지 않은 row가 있다면 인덱스가 NaN이 될 테니 dropna()로 제거합니다. 
temp_user_data = df['user_id'].map(user_to_idx.get).dropna()
if len(temp_user_data) == len(df):   # 모든 row가 정상적으로 인덱싱되었다면
    print('user_id column indexing OK!!')
    df['user_id'] = temp_user_data   # data['user_id']을 인덱싱된 Series로 교체해 줍니다. 
else:
    print('user_id column indexing Fail!!')

# artist_to_idx을 통해 artist 컬럼도 동일한 방식으로 인덱싱해 줍니다. 
temp_movie_data = df['movie_id'].map(movie_to_idx.get).dropna()
if len(temp_movie_data) == len(df):
    print('movie_id column indexing OK!!')
    df['movie_id'] = temp_movie_data
else:
    print('movie_id column indexing Fail!!')

data

user_id column indexing OK!!
movie_id column indexing OK!!


Unnamed: 0,user_id,movie_id,ratings,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291
...,...,...,...,...
1000203,6040,1090,3,956715518
1000205,6040,1094,5,956704887
1000206,6040,562,5,956704746
1000207,6040,1096,4,956715648


In [16]:
df = df.drop(['timestamp', 'genre'], axis =1)
df.head()

Unnamed: 0,user_id,movie_id,ratings,title
0,0,0,5,One Flew Over the Cuckoo's Nest (1975)
1,1,0,5,One Flew Over the Cuckoo's Nest (1975)
2,2,0,4,One Flew Over the Cuckoo's Nest (1975)
3,3,0,4,One Flew Over the Cuckoo's Nest (1975)
4,4,0,5,One Flew Over the Cuckoo's Nest (1975)


In [17]:
# create a movie index dictionary 

dic = df.drop(['ratings', 'user_id'], axis = 1)
movie_dic = dic.set_index('title').T.to_dict('list')

  after removing the cwd from sys.path.


In [18]:
idx_dic = dic.set_index('movie_id').T.to_dict('list')

  """Entry point for launching an IPython kernel.


### 3) 내가 선호하는 영화를 5가지 골라서 ratings에 추가 

In [19]:
last_idx = df['user_id'].unique()[-1]
last_idx

6038

In [20]:
# 본인이 좋아하시는 아티스트 데이터로 바꿔서 추가하셔도 됩니다! 단, 이름은 꼭 데이터셋에 있는 것과 동일하게 맞춰주세요. 
my_favorite = ['American Beauty (1999)', 
               'Star Wars: Episode IV - A New Hope (1977)', 
               'Star Wars: Episode V - The Empire Strikes Back (1980)', 
               'Star Wars: Episode VI - Return of the Jedi (1983)', 
               'Saving Private Ryan (1998)']

my_idx = [movie_dic[m][0] for m in my_favorite]

my_playlist = pd.DataFrame({'user_id': ['6039']*5, 'movie_id': my_idx, 'ratings':[5]*5, 'title': my_favorite})

if not df.isin({'user_id':['6039']})['user_id'].any():  # user_id에 'zimin'이라는 데이터가 없다면
    df = df.append(my_playlist)                           # 위에 임의로 만든 my_favorite 데이터를 추가해 줍니다. 

df.tail(10)       # 잘 추가되었는지 확인해 봅시다.

Unnamed: 0,user_id,movie_id,ratings,title
836473,1621,3623,5,One Little Indian (1973)
836474,3481,3624,4,Slaughterhouse (1987)
836475,3481,3625,3,"Promise, The (Versprechen, Das) (1994)"
836476,4159,3626,4,"Five Wives, Three Secretaries and Me (1998)"
836477,1648,3627,5,Identification of a Woman (Identificazione di ...
0,6039,99,5,American Beauty (1999)
1,6039,44,5,Star Wars: Episode IV - A New Hope (1977)
2,6039,117,5,Star Wars: Episode V - The Empire Strikes Back...
3,6039,64,5,Star Wars: Episode VI - Return of the Jedi (1983)
4,6039,48,5,Saving Private Ryan (1998)


### 4) CSR Matrix를 직접 만들어 봅시다

### Matrix Factorization

#### csr_matrix 만들기 

Compressed Sparse Row Matrix: 0이 아닌 유효한 데이터로 채워지는 데이터의 값과 좌표 정보만으로 구성하여 메모리 사용량을 최소화하면서도 Sparse한 매트리스와 동일한 행렬을 표현할 수 있는 데이터 구조 

In [21]:
from scipy.sparse import csr_matrix


In [22]:
num_user = df['user_id'].nunique()
num_user

6040

In [23]:
num_movie = df['movie_id'].nunique()
num_movie

3628

In [24]:
num_ratings = df['ratings'].nunique()
num_ratings

3

In [25]:
csr_data = csr_matrix((df.ratings, (df.user_id, df.movie_id)), shape= (num_user, num_movie))

### 5) als (Alternating Least Squares) 모델을 직접 구성하여 훈련

#### MF모델 학습

implict 패키지: implicit datset을 사용하는 다양한 모델을 빠르게 학습

In [26]:
from implicit.als import AlternatingLeastSquares
import os
import numpy as np

# implicit 라이브러리에서 권장하고 있는 부분입니다. 학습 내용과는 무관합니다.
os.environ['OPENBLAS_NUM_THREADS']='1'
os.environ['KMP_DUPLICATE_LIB_OK']='True'
os.environ['MKL_NUM_THREADS']='1'

AlternatingLeastSquares 클래스의 __init__ 파라미터를 살펴보겠습니다. 1. factors : 유저와 아이템의 벡터를 몇 차원으로 할 것인지 2. regularization : 과적합을 방지하기 위해 정규화 값을 얼마나 사용할 것인지 3. use_gpu : GPU를 사용할 것인지 4. iterations : epochs와 같은 의미입니다. 데이터를 몇 번 반복해서 학습할 것인지

1,4를 늘릴수록 학습데이터를 잘 학습하게 되지만 과적합의 우려가 있으니 좋은 값을 찾아야 합니다.

In [27]:
# Implicit AlternatingLeastSquares 모델의 선언
als_model = AlternatingLeastSquares(factors=100, regularization=0.01, use_gpu=False, iterations=15, dtype=np.float32)

In [28]:
# als 모델은 input으로 (item X user 꼴의 matrix를 받기 때문에 Transpose해줍니다.)
csr_data_transpose = csr_data.T
csr_data_transpose

<3628x6040 sparse matrix of type '<class 'numpy.longlong'>'
	with 836483 stored elements in Compressed Sparse Column format>

In [29]:
# 모델 훈련
als_model.fit(csr_data_transpose)

  0%|          | 0/15 [00:00<?, ?it/s]

### 6) 내가 선호하는 5가지 영호 중 하나와 그 외의 영화 하나를 골라 훈련된 모델이 예측한 나의 선호도를 파악

In [30]:
yj, spr = df['user_id'].unique()[-1], movie_dic['Saving Private Ryan (1998)'][0]
vector_yj, vector_spr = als_model.user_factors[yj], als_model.item_factors[spr]

IndexError: only integers, slices (`:`), ellipsis (`...`), numpy.newaxis (`None`) and integer or boolean arrays are valid indices

In [None]:
yj_vector

In [None]:
spr_vector

In [None]:
np.dot(yj_vector, spr_vector)

In [None]:
sh = movie_dic['Slaughterhouse (1987)']

sh_vector = als_model.item_factors[sh]
np.dot(yj_vector, sh_vector)

### 7) 내가 좋아하는 영화와 비슷한 영화 추천

In [None]:
def get_similar_artist(artist_name: str):
    artist_id = artist_to_idx[artist_name]
    similar_artist = als_model.similar_items(artist_id)
    similar_artist = [idx_to_artist[i[0]] for i in similar_artist]
    return similar_artist

In [None]:
favorite_movie = 'Saving Private Ryan (1998)'

get_similar_movie(favorite_movie)

마니아들은 특정 장르의 아티스트들에게 선호도자 집중되고, 다른 장르의 아티스트과는 선호도가 낮게 나타날 것. 이런 마니아들의 존재로 인해 같은 장르의 아티스트들의 벡터들도 더 가까워져서 get_similar_artist시 장르별 특성이 두드러지게 될 것 

### 내가 가장 좋아할만한 영화를 추천

AlternatingLeastSquares 클래스에 구현되어 있는 recommend 메서드를 통하여 제가 좋아할 만한 아티스트를 추천받습니다. filter_already_liked_items 는 유저가 이미 평가한 아이템은 제외하는 Argument입니다.

In [None]:
user_idx = df['user_id'].unique()[-1]

# recommend에서는 user*item CSR Matrix를 받습니다.
recommended = als_model.recommend(user_idx, csr_data, N=20, filter_already_liked_items=True)
recommended