# E8_for_her : Movielens 영화 추천 실습

## ?? 프로젝트 목표 : 추천시스템의 기본 원리를 파악해 보고 나만의 추천시스템을 만들 수 있는 멋진 아이디어를 떠올려 봅시다

## Step.1 데이터 준비와 전처리

In [12]:
import os
import pandas as pd 
import numpy as np

rating_file_path=os.getenv('HOME') + '/recommendata_iu/data/ml-1m/ratings.dat'
ratings_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv(rating_file_path, sep='::', names=ratings_cols, engine='python')
orginal_data_size = len(ratings)
ratings.head()

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


### 평점 3점 이상만 남기고..

In [13]:
# 3점 이상만 남깁니다.
ratings = ratings[ratings['rating']>=3]
filtered_data_size = len(ratings)

print(f'orginal_data_size: {orginal_data_size}, filtered_data_size: {filtered_data_size}')
print(f'Ratio of Remaining Data is {filtered_data_size / orginal_data_size:.2%}')

orginal_data_size: 1000209, filtered_data_size: 836478
Ratio of Remaining Data is 83.63%


In [14]:
# rating 컬럼의 이름을 count로 바꿉니다.
ratings.rename(columns={'rating':'count'}, inplace=True)
ratings['count']

0          5
1          3
2          3
3          4
4          5
          ..
1000203    3
1000205    5
1000206    5
1000207    4
1000208    4
Name: count, Length: 836478, dtype: int64

In [15]:
# 영화 제목을 보기 위해 메타 데이터를 읽어옵니다.
movie_file_path=os.getenv('HOME') + '/recommendata_iu/data/ml-1m/movies.dat'
cols = ['movie_id', 'title', 'genre'] 
movies = pd.read_csv(movie_file_path, sep='::', names=cols, engine='python')

In [16]:
movies.head()

Unnamed: 0,movie_id,title,genre
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [17]:
ratings.head()

Unnamed: 0,user_id,movie_id,count,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


## Step.2 분석해 봅시다


    ratings에 있는 유니크한 영화 개수
    rating에 있는 유니크한 사용자 수
    가장 인기 있는 영화 30개(인기순)


In [20]:
print('유니크한 영화 :', ratings['movie_id'].nunique(), '개')

유니크한 영화 : 3628 개


In [21]:
print('유니크한 사용자 :', ratings['user_id'].nunique(), '명')

유니크한 사용자 : 6039 명


### ?? nunique()의 의미가 뭐지 ??

nunique() function return number of unique elements in the object. It returns a scalar value which is the count of all the unique values in the Index. By default the NaN values are not included in the count.

#### 이제 이해함... 결국 rating에 적용된 영화 수와 사용자 아이디 수 이네요

In [27]:
idx_to_movie = {}
movie_to_idx = {}

for i in range(movies.shape[0]):
    idx_to_movie[movies['movie_id'][i]] = movies['title'][i]
    movie_to_idx[movies['title'][i]] = movies['movie_id'][i]
    
grouping = ratings['user_id'].groupby(ratings['movie_id']).sum()
top_30_movies_id = grouping.sort_values(ascending=False)[:30]
for i in range(len(top_30_movies_id)):
    print('Hot No. {} : {}'.format(i+1, idx_to_movie[top_30_movies_id.index[i]]))

Hot No. 1 : American Beauty (1999)
Hot No. 2 : Star Wars: Episode IV - A New Hope (1977)
Hot No. 3 : Star Wars: Episode V - The Empire Strikes Back (1980)
Hot No. 4 : Star Wars: Episode VI - Return of the Jedi (1983)
Hot No. 5 : Back to the Future (1985)
Hot No. 6 : Saving Private Ryan (1998)
Hot No. 7 : Silence of the Lambs, The (1991)
Hot No. 8 : Raiders of the Lost Ark (1981)
Hot No. 9 : Sixth Sense, The (1999)
Hot No. 10 : Terminator 2: Judgment Day (1991)
Hot No. 11 : Matrix, The (1999)
Hot No. 12 : Fargo (1996)
Hot No. 13 : Princess Bride, The (1987)
Hot No. 14 : Jurassic Park (1993)
Hot No. 15 : Godfather, The (1972)
Hot No. 16 : Schindler's List (1993)
Hot No. 17 : Men in Black (1997)
Hot No. 18 : Shakespeare in Love (1998)
Hot No. 19 : Shawshank Redemption, The (1994)
Hot No. 20 : L.A. Confidential (1997)
Hot No. 21 : Braveheart (1995)
Hot No. 22 : E.T. the Extra-Terrestrial (1982)
Hot No. 23 : Groundhog Day (1993)
Hot No. 24 : Ghostbusters (1984)
Hot No. 25 : Being John Malko

## Step.3 내가 선호하는 영화를 5가지 골라서 rating에 추가해 줍시다.

## Step.4 CSR matrix를 직접 만들어 봅시다.

## Step.5 als_model = AlternatingLeastSquares 모델을 직접 구성하여 훈련시켜 봅시다.

## Step.6 내가 선호하는 5가지 영화 중 하나와 그 외의 영화 하나를 골라 훈련된 모델이 예측한 나의 선호도를 파악해 보세요.

## Step.7 내가 좋아하는 영화와 비슷한 영화를 추천받아 봅시다.

## Step.8 내가 가장 좋아할 만한 영화들을 추천받아 봅시다.

## 루브릭 평가

## 느낌점과 회고