# 시작

In [334]:
import os, pandas, numpy
from scipy.sparse import csr_matrix
from implicit.als import AlternatingLeastSquares

os.environ['OPENBLAS_NUM_THREADS']='1'
os.environ['KMP_DUPLICATE_LIB_OK']='True'
os.environ['MKL_NUM_THREADS']='1'

# 데이터 준비

In [335]:
def load_data():
    rating_file = os.getenv('HOME') + '/aiffel/recommendata_iu/data/ml-1m/ratings.dat'
    rating_col_names = ['user_id', 'movie_id', 'rating', 'timestamp']
    rating_data = pandas.read_csv(rating_file, sep='::', names=rating_col_names, engine='python')
    print('{}개 자료를 불러왔습니다'.format(len(rating_data)))
    print(rating_data)
    print('')
    
    movie_file = os.getenv('HOME') + '/aiffel/recommendata_iu/data/ml-1m/movies.dat'
    movie_col_names = ['movie_id', 'title', 'genre']
    movie_data = pandas.read_csv(movie_file, sep='::', names=movie_col_names, engine='python')
    print('{}개 영화 정보를 불러왔습니다'.format(len(movie_data)))
    print(movie_data)
    print('')
    
    user_file = os.getenv('HOME') + '/aiffel/recommendata_iu/data/ml-1m/users.dat'
    user_col_names = ['user_id', 'gender', 'age', 'occupation', 'zip_code']
    user_data = pandas.read_csv(user_file, sep='::', names=user_col_names, engine='python')
    print('{}개의 사용자 정보를 불러왔습니다'.format(len(user_data)))
    print(user_data)
    
    return rating_data, movie_data, user_data

# 데이터 탐색

In [336]:
def explorate_data(ratings, movies, users):
    unique_rated_movie_count = ratings.movie_id.nunique()
    print('{}개의 영화가 별점을 받았습니다'.format(unique_rated_movie_count))
    unknown_rated_movie_ids = ratings[~ratings.movie_id.isin(movies.movie_id)].movie_id
    print('{}개의 알 수 없는 영화가 별점을 받았습니다'.format(len(unknown_rated_movie_ids)))
    unrated_movies = movies[~movies.movie_id.isin(ratings.movie_id)]
    print('{}개의 영화가 별점을 받지 못했습니다'.format(len(unrated_movies)))
    print('')
    
    unique_rating_user_count = ratings.user_id.nunique()
    print('{}명의 사용자가 별점을 남겼습니다'.format(unique_rating_user_count))
    unknown_rating_user_ids = ratings[~ratings.user_id.isin(users.user_id)].user_id
    print('{}명의 알 수 없는 사용자가 별점을 남겼습니다'.format(len(unknown_rating_user_ids)))
    unrating_users = users[~users.user_id.isin(ratings.user_id)]
    print('{}명의 사용자가 별점을 남기지 않았습니다'.format(len(unrating_users)))
    print('')
    
def show_rank(ratings, movies, top=30, base_rating=3):

    high_ratings = ratings[ratings.rating > base_rating]
    high_rating_rank = high_ratings.groupby('movie_id').movie_id.agg('count').to_frame('rated_times').reset_index().nlargest(top, 'rated_times')
    high_rating_rank = pandas.merge(high_rating_rank, movies[['movie_id', 'title']], on=['movie_id'])
    print('인기가 많은 영화 TOP {}'.format(top))
    print('인기의 기준은 {}점 이상의 별점을 받은 횟수입니다'.format(base_rating))
    print(high_rating_rank)
    print('')
    

# 데이터 가공

In [337]:
def filter_ratings(ratings, base=3):
    print('평점 {} 이상인 데이터만 추출합니다'.format(base))
    before_count = len(ratings)
    filtered_ratings = ratings[ratings.rating>=base]
    after_count = len(ratings)
    print('{}개 평점 데이터중 {}개가 추출되었습니다'.format(before_count, after_count))
    return filtered_ratings

In [338]:
def append_ratings(ratings, movies, my_movies):
    print('{}개 영화에 나의 평점을 남깁니다'.format(len(my_movies)))
    print(my_movies)
    print('')
    my_movie_ids = movies[movies.title.isin(my_movies)].movie_id
    my_ratings = pandas.DataFrame({'user_id': [-1]*5, 'movie_id': my_movie_ids, 'rating': [5]*5, 'timestamp': [-1]*5})
    appended_ratings = ratings.append(my_ratings, ignore_index=True)

    print('아래와 같이 평점이 추가되었습니다. 사용자 아이디는 -1입니다')
    print(appended_ratings.tail(10))
    return appended_ratings

In [339]:
def encode_ratings(ratings):
    unique_users = ratings.user_id.unique()
    unique_movies = ratings.movie_id.unique()
    
    user_to_index = { u:i for i, u in enumerate(unique_users) }
    movie_to_index = { m:i for i, m in enumerate(unique_movies)}
    
    encoded_user_id = ratings.user_id.map(user_to_index.get).dropna()
    if len(encoded_user_id) == len(ratings):
        print('user_id가 정상적으로 인코딩 되었습니다')
        ratings['encoded_user_id'] = encoded_user_id
    else:
        print('user_id 인코딩에 실패했습니다')
        return
    
    encoded_movie_id = ratings.movie_id.map(movie_to_index.get).dropna()
    if len(encoded_movie_id) == len(ratings):
        print('movie_id가 정상적으로 인코딩 되었습니다')
        ratings['encoded_movie_id'] = encoded_movie_id
    else:
        print('movie_id 인코딩에 실패했습니다')
        return

    return user_to_index, movie_to_index

# 행렬 생성과 학습

In [340]:
def make_csr_matrix(ratings):
    num_user = ratings.encoded_user_id.nunique()
    num_movie = ratings.encoded_movie_id.nunique()
    matrix = csr_matrix((ratings.rating, (ratings.encoded_movie_id, ratings.encoded_user_id)), shape=(num_movie, num_user))
    print('{} x {} 행렬(영화x사용자)이 생성되었습니다'.format(num_movie, num_user))
    print(matrix)
    return matrix

In [341]:
def get_trained_model(data, iteration=15):
    model = AlternatingLeastSquares(factors=80, regularization=0.01, use_gpu=False, iterations=iteration, dtype=numpy.float32)
    model.fit(data)
    return model

# 학습 결과

In [342]:
def get_movie_title(movies, index_to_movie, index):
    movie_id = index_to_movie[index]
    return movies[movies.movie_id==movie_id].title.values[0]

def validate_model(model, movies, movie_to_index, user_id, my_movies):
    my_user_vector = model.user_factors[user_id]
    
    index_to_movie = { v:k for k,v in movie_to_index.items() }
    my_movie_ids = movies[movies.title.isin(my_movies)].movie_id
    my_movie_indexes = [movie_to_index[id] for id in my_movie_ids]
    print('내가 평점을 남긴 영화의 선호도')
    for title, index in zip(my_movies, my_movie_indexes):
        vector = model.item_factors[index]
        point = numpy.dot(my_user_vector, vector)
        print('{}: {}'.format(title, point))
        print('비슷한 영화')
        similar_movies = model.similar_items(index, N=6)
        for similar_movie_index, similarity in similar_movies:
            if similar_movie_index in my_movie_indexes:
                continue
            similar_title = get_movie_title(movies, index_to_movie, similar_movie_index)
            print('    {}(유사도:{})'.format(similar_title, similarity))
        print('')
        
def show_recommendation(model, matrix, movies, movie_to_index, user_id):
    index_to_movie = { v:k for k,v in movie_to_index.items() }
    recommendeds = model.recommend(user_id, matrix.T, N=50, filter_already_liked_items=True)
    print('추천 영화')
    for movie_index, similarity in recommendeds:
        title = get_movie_title(movies, index_to_movie, movie_index)
        print('{}({})'.format(title, similarity))

# 메인

데이터 준비 & 확인

In [343]:
ratings, movies, users = load_data()

1000209개 자료를 불러왔습니다
         user_id  movie_id  rating  timestamp
0              1      1193       5  978300760
1              1       661       3  978302109
2              1       914       3  978301968
3              1      3408       4  978300275
4              1      2355       5  978824291
...          ...       ...     ...        ...
1000204     6040      1091       1  956716541
1000205     6040      1094       5  956704887
1000206     6040       562       5  956704746
1000207     6040      1096       4  956715648
1000208     6040      1097       4  956715569

[1000209 rows x 4 columns]

3883개 영화 정보를 불러왔습니다
      movie_id                               title  \
0            1                    Toy Story (1995)   
1            2                      Jumanji (1995)   
2            3             Grumpier Old Men (1995)   
3            4            Waiting to Exhale (1995)   
4            5  Father of the Bride Part II (1995)   
...        ...                                 ...   
3

In [344]:
explorate_data(ratings, movies, users)

3706개의 영화가 별점을 받았습니다
0개의 알 수 없는 영화가 별점을 받았습니다
177개의 영화가 별점을 받지 못했습니다

6040명의 사용자가 별점을 남겼습니다
0명의 알 수 없는 사용자가 별점을 남겼습니다
0명의 사용자가 별점을 남기지 않았습니다



In [345]:
show_rank(ratings, movies)

인기가 많은 영화 TOP 30
인기의 기준은 3점 이상의 별점을 받은 횟수입니다
    movie_id  rated_times                                              title
0       2858         2853                             American Beauty (1999)
1        260         2622          Star Wars: Episode IV - A New Hope (1977)
2       1196         2510  Star Wars: Episode V - The Empire Strikes Back...
3       1198         2260                     Raiders of the Lost Ark (1981)
4       2028         2260                         Saving Private Ryan (1998)
5        593         2252                   Silence of the Lambs, The (1991)
6       2571         2171                                 Matrix, The (1999)
7       2762         2163                            Sixth Sense, The (1999)
8       1210         2127  Star Wars: Episode VI - Return of the Jedi (1983)
9        608         2074                                       Fargo (1996)
10       527         2071                            Schindler's List (1993)
11       318         2046      

--------------------------------------------

데이터 가공

In [346]:
filtered_ratings = filter_ratings(ratings, base=3)

평점 3 이상인 데이터만 추출합니다
1000209개 평점 데이터중 1000209개가 추출되었습니다


In [347]:
my_movies = [
    'Star Wars: Episode IV - A New Hope (1977)',
    'Matrix, The (1999)',
    'Sixth Sense, The (1999)',
    'Jurassic Park (1993)',
    'E.T. the Extra-Terrestrial (1982)'
]
appended_ratings = append_ratings(filtered_ratings, movies, my_movies)

5개 영화에 나의 평점을 남깁니다
['Star Wars: Episode IV - A New Hope (1977)', 'Matrix, The (1999)', 'Sixth Sense, The (1999)', 'Jurassic Park (1993)', 'E.T. the Extra-Terrestrial (1982)']

아래와 같이 평점이 추가되었습니다. 사용자 아이디는 -1입니다
        user_id  movie_id  rating  timestamp
836473     6040      1090       3  956715518
836474     6040      1094       5  956704887
836475     6040       562       5  956704746
836476     6040      1096       4  956715648
836477     6040      1097       4  956715569
836478       -1       260       5         -1
836479       -1       480       5         -1
836480       -1      1097       5         -1
836481       -1      2571       5         -1
836482       -1      2762       5         -1


인코딩

In [348]:
user_to_index, movie_to_index = encode_ratings(appended_ratings)

user_id가 정상적으로 인코딩 되었습니다
movie_id가 정상적으로 인코딩 되었습니다


행렬 생성 & 학습

In [349]:
matrix = make_csr_matrix(appended_ratings)

3628 x 6040 행렬(영화x사용자)이 생성되었습니다
  (0, 0)	5
  (0, 1)	5
  (0, 11)	4
  (0, 14)	4
  (0, 16)	5
  (0, 17)	4
  (0, 18)	5
  (0, 23)	5
  (0, 27)	3
  (0, 32)	5
  (0, 38)	5
  (0, 41)	3
  (0, 43)	4
  (0, 46)	4
  (0, 47)	4
  (0, 48)	4
  (0, 52)	5
  (0, 53)	5
  (0, 57)	5
  (0, 58)	4
  (0, 61)	4
  (0, 79)	4
  (0, 80)	5
  (0, 87)	5
  (0, 88)	5
  :	:
  (3607, 5183)	4
  (3607, 5530)	5
  (3607, 5541)	3
  (3608, 5151)	3
  (3609, 5180)	3
  (3610, 5218)	3
  (3610, 5752)	4
  (3611, 5225)	3
  (3612, 5287)	3
  (3613, 5311)	5
  (3614, 5326)	4
  (3615, 5332)	3
  (3616, 5332)	5
  (3617, 5418)	3
  (3618, 5431)	3
  (3619, 5492)	4
  (3620, 5554)	3
  (3620, 5947)	5
  (3621, 5673)	3
  (3622, 5715)	4
  (3623, 5849)	5
  (3624, 5852)	4
  (3625, 5852)	3
  (3626, 5936)	4
  (3627, 5946)	5


In [350]:
model = get_trained_model(matrix, iteration=50)

  0%|          | 0/50 [00:00<?, ?it/s]

학습 결과

In [351]:
my_index = user_to_index[-1]
validate_model(model, movies, movie_to_index, my_index, my_movies)

내가 평점을 남긴 영화의 선호도
Star Wars: Episode IV - A New Hope (1977): 0.6278454065322876
비슷한 영화
    Star Wars: Episode V - The Empire Strikes Back (1980)(유사도:0.9008286595344543)
    Star Wars: Episode VI - Return of the Jedi (1983)(유사도:0.8004236817359924)
    Raiders of the Lost Ark (1981)(유사도:0.7307040691375732)
    Terminator, The (1984)(유사도:0.5386630296707153)
    Alien (1979)(유사도:0.503733217716217)

Matrix, The (1999): 0.5630890727043152
비슷한 영화
    Men in Black (1997)(유사도:0.8544582724571228)
    Terminator 2: Judgment Day (1991)(유사도:0.7625496983528137)
    Total Recall (1990)(유사도:0.6260068416595459)
    Braveheart (1995)(유사도:0.5704169273376465)

Sixth Sense, The (1999): 0.5447432994842529
비슷한 영화
    Close Encounters of the Third Kind (1977)(유사도:0.5493741035461426)
    Back to the Future (1985)(유사도:0.5298430323600769)
    Time Bandits (1981)(유사도:0.4582599699497223)
    Dark Crystal, The (1982)(유사도:0.4543989896774292)
    Star Wars: Episode V - The Empire Strikes Back (1980)(유사도:0.44447234272

In [352]:
show_recommendation(model, matrix, movies, movie_to_index, my_index)

추천 영화
Star Wars: Episode IV - A New Hope (1977)(0.6278453469276428)
Terminator 2: Judgment Day (1991)(0.6079736351966858)
Matrix, The (1999)(0.5950902104377747)
Jurassic Park (1993)(0.5630890727043152)
Star Wars: Episode VI - Return of the Jedi (1983)(0.5591349601745605)
Sixth Sense, The (1999)(0.5485532283782959)
E.T. the Extra-Terrestrial (1982)(0.5447432994842529)
Star Wars: Episode V - The Empire Strikes Back (1980)(0.5232497453689575)
Star Wars: Episode I - The Phantom Menace (1999)(0.5084088444709778)
Men in Black (1997)(0.42914795875549316)
Back to the Future (1985)(0.42888301610946655)
Terminator, The (1984)(0.35830026865005493)
American Beauty (1999)(0.3512277603149414)
Raiders of the Lost Ark (1981)(0.33951881527900696)
Silence of the Lambs, The (1991)(0.33397459983825684)
Galaxy Quest (1999)(0.3299926221370697)
Fugitive, The (1993)(0.3243441879749298)
Braveheart (1995)(0.32012033462524414)
Total Recall (1990)(0.3115364909172058)
Saving Private Ryan (1998)(0.29264551401138306

# 결론

평점 데이터 중 평점을 받지 않은 영화가 있기 때문에 다시 인코딩을 하여 index를 다시 부여하였다.   
csr 행렬은 (사용자, 영화) 순이 아닌 (영화, 사용자)순으로 만들어 보았다.     
그렇기 때문에 훈련시에는 Transpose를 하지 않고, 추천 내역을 만들 때 Transpose를 하였다.   

이미 평점을 남긴(평점을 추가한) 영화에 대해 높은 선호도가 나온 것으로 보아 모델의 훈련이 잘 이루어진 것으로 보인다.   
또 이와 비슷한 영화를 추출했을 때 관련이 잇는 영화를 얻을 수 있었다.   

훈련된 모델을 바탕으로 추천 영화를 만들었을 때 내적 수치는 0.5 미만으로 낮더라도 비슷한 장르이거나 비슷한 느낌의 영화가 추천되었다.   
훈련 반복 횟수나 regularization수치를 바꾸어도, 추천 영화 목록은 바뀌지만 모두 비슷한 장르나 비슷한 느낌의 영화였다.  
여러 파라미터를 바꾸면 내적 값은 바뀌지만, 추천 결과는 대체로 비슷한 양상을 보였고, 내적 결과의 절대적 수치는 큰 영향이 없다고 추측할 수 있다.   