In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

- 협업 필터링 : 제품이나 서비스에 대한 소비자의 평가를 중심으로 묶어서 평가 패턴이 비슷한 소비자에게 제품이나 서비스를 추천하는 기술
- 내용 기반 필터링 : 책이나 뉴스중에 소비자가 관심있을만한 텍스트를 골라내어 소비자에게 추천하는 기술
- 지식 기반 필터링 : 특정 분야(domain) 전문가의 도움을 받아서 그 분야에 대한 전체적 지식구조를 만들어서 활용
- 딥러닝 추천기술 : 소비자나 제품, 서비스의 각 특징값을 입력하여 이로 인한 출력값을 추천하는데 이용


- user데이터 불러오기

In [33]:
u_cols = ['user_id', 'age', 'sex', 'occupation', 'zip_code']
users = pd.read_csv('./RecoSys/Data/u.user', sep = '|', names=u_cols, encoding = 'latin-1')
users = users.set_index('user_id')
users.head()

Unnamed: 0_level_0,age,sex,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
2,53,F,other,94043
3,23,M,writer,32067
4,24,M,technician,43537
5,33,F,other,15213


- item데이터 불러오기

In [34]:
i_cols = ['movie_id','title','release date', 'video release date', 'IMDB URL', 'unknown', 'Action', 'Adventure', 'Animation', 'Children\'s','Comdy',
         'Crime','Documentary','Drama','Fantasy','Film-Noir','Horror','Musical','Mystery','Romance','Sci-Fi','Thriller','War','Western']
movies = pd.read_csv('./RecoSys/Data/u.item', sep='|',names = i_cols, encoding = 'latin-1')
movies = movies.set_index('movie_id')
movies.head()

Unnamed: 0_level_0,title,release date,video release date,IMDB URL,unknown,Action,Adventure,Animation,Children's,Comdy,...,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
movie_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,1,...,0,0,0,0,0,0,0,0,0,0
2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,0,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


- 평점데이터 불러오기

In [35]:
r_cols = ['user_id','movie_id','rating','timestamp']
ratings = pd.read_csv('./RecoSys/Data/u.data', sep = '\t',names = r_cols, encoding='latin-1')
ratings = ratings.set_index('user_id')
ratings.head()

Unnamed: 0_level_0,movie_id,rating,timestamp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
196,242,3,881250949
186,302,3,891717742
22,377,1,878887116
244,51,2,880606923
166,346,1,886397596


### Best-Seller : 전체 사용자의 평점평균을 이용
- 먄약 개별 사용자에 대한 정보가 없는 경우에는 모든 사람들에게 가장 인기 있는 제품을 추천 하는 것이 가장 합리적일 것
이를 위해선 각 제품(영화)에 대한 평가(평점)를 평균해서 평균값이 가장 높은 것을 순서대로 추천하면 될것이다

In [42]:
def recom_movie1(n_items):
    # 평점의 평균을 높은 순으로 뽑아냄
    movie_sort = movie_mean.sort_values(ascending = False)[:n_items]
    # 높은 평점의 인덱스(movie_id)를 영화 데이터에서 확인
    recom_movies = movies.loc[movie_sort.index]
    # 영화 데이터에서의 id의 제목을 확인
    recommendation = recom_movies['title']
    # 제목을 출력
    return recommendation

# 평점데이터를 id별로 묶은것의 평점 컬럼의 평균 -- 평점의 평균
movie_mean = ratings.groupby(['movie_id'])['rating'].mean()

In [43]:
recom_movie1(5) # 상위 5개만 출력

movie_id
814                         Great Day in Harlem, A (1994)
1599                        Someone Else's America (1995)
1201           Marlene Dietrich: Shadow and Light (1996) 
1122                       They Made Me a Criminal (1939)
1653    Entertaining Angels: The Dorothy Day Story (1996)
Name: title, dtype: object

In [46]:
def recom_movie2(n_items):
    return movies.loc[movie_mean.sort_values(ascending=False)[:n_items].index]['title']

In [47]:
recom_movie2(3)

movie_id
814                  Great Day in Harlem, A (1994)
1599                 Someone Else's America (1995)
1201    Marlene Dietrich: Shadow and Light (1996) 
Name: title, dtype: object

In [48]:
def RMSE(y_true, y_pred):
    return np.sqrt(np.mean((np.array(y_true) - np.array(y_pred))**2))

In [51]:
movie_mean[]

movie_id
1       3.878319
2       3.206107
3       3.033333
4       3.550239
5       3.302326
          ...   
1678    1.000000
1679    3.000000
1680    2.000000
1681    3.000000
1682    3.000000
Name: rating, Length: 1682, dtype: float64

In [53]:
rmse = []
for user in set(ratings.index): # 머 중복없는 집합으로 만드는듯?
    y_true = ratings.loc[user]['rating'] # 실제값은 rating데이터의 해당 평점
    y_pred = movie_mean[ratings.loc[user]['movie_id']] # 평점의 평균데이터에 해당 인덱스(movie_id)에 대입 == 평점의 평균
    accuracy = RMSE(y_true, y_pred) # RMSE(평점 - 평점의 평균) > 값
    rmse.append(accuracy) # 요 값을 rmse리스트에 담음

print(np.mean(rmse)) # 이 담은 값의 평균을 출력

0.996007224010567


### 사용자 집단별 추천
- 비슷한 특성의 사람들을 묶은 소집단으로 만든 다음에 각 집단의 평점평균을 바탕으로 추천

In [2]:
u_cols = ['user_id', 'age', 'sex', 'occupation', 'zip_code']
users = pd.read_csv('./RecoSys/Data/u.user', sep = '|', names=u_cols, encoding = 'latin-1')

i_cols = ['movie_id','title','release date', 'video release date', 'IMDB URL', 'unknown', 'Action', 'Adventure', 'Animation', 'Children\'s','Comdy',
         'Crime','Documentary','Drama','Fantasy','Film-Noir','Horror','Musical','Mystery','Romance','Sci-Fi','Thriller','War','Western']
movies = pd.read_csv('./RecoSys/Data/u.item', sep='|',names = i_cols, encoding = 'latin-1')

r_cols = ['user_id','movie_id','rating','timestamp']
ratings = pd.read_csv('./RecoSys/Data/u.data', sep = '\t',names = r_cols, encoding='latin-1')

# ratings의 timestamp제거
ratings = ratings.drop('timestamp', axis = 1)

# movie id와 title빼고 다른 데이터 제거
movies = movies[['movie_id','title']]

In [3]:
from sklearn.model_selection import train_test_split
x = ratings.copy() # 원본 보존을 위해, copy()사용
y = ratings['user_id'] # user_id기준으로 train set과 test set분리
# 75%는 train, 25%는 test y_train, y_test에는 사용자 id가 저장
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.25, stratify = y)

In [4]:
# 정확도(RMSE)를 계산하는 함수
def RMSE(y_true, y_pred):
    return np.sqrt(np.mean((np.array(y_true) - np.array(y_pred))**2))

# 모델별 정확도(RMSE)를 계산하는 함수
def score(model):
    # 예측 대상인 test set에 있는 사용자(user_id)와 영화(movie_id)를 pair로 짝을 맞춰 데이터를 만든다
    id_pairs = zip(x_test['user_id'], x_test['movie_id'])
    
    # 모든 사용자-영화 짝에 대해서 주어진 예측 모델(model)에 의한 예측값을 계산해서 y_pred에 리스트로 저장
    y_pred = np.array([model(user,movie) for (user, movie) in id_pairs])
    
    # 실제 평점값 리스트를 x_test에서 받아옴
    y_true = np.array(x_test['rating'])
    
    return RMSE(y_true, y_pred) # 얻어진 예측값 리스트와 실제값 리스트에 대한 RMSE를 계산해서 넘김

In [5]:
# train 데이터로 Full matrix 구하기, 이 full matrix는 추천 알고리즘에서 사용
rating_matrix = x_train.pivot(index = 'user_id', columns = 'movie_id', values ='rating')

In [6]:
rating_matrix # 1번 사용자는 1번 영화에 대해 평가 o, 2번 사용자는 2번영화에 대해 평가 x

movie_id,1,2,3,4,5,6,7,8,9,10,...,1672,1673,1674,1675,1676,1677,1679,1680,1681,1682
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,3.0,4.0,,3.0,5.0,4.0,1.0,,3.0,...,,,,,,,,,,
2,4.0,,,,,,,,,2.0,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,4.0,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
939,,,,,,,,,5.0,,...,,,,,,,,,,
940,,,,2.0,,,4.0,5.0,3.0,,...,,,,,,,,,,
941,,,,,,,4.0,,,,...,,,,,,,,,,
942,,,,,,,,,,,...,,,,,,,,,,


In [7]:
# 전체 평균으로 예측치를 계산하는 기본 모델
def best_seller(user_id, movie_id):
    """
    평점을 예측할 때 모든 사용자의 평균을 사용하는 함수, user_id와 movie_id를 받아 사용자의 해당 영화에 대한 예측치 반환
    """
    # train_set에는 없는데, test_set에는 존재하는 경우, rating을 3으로 설정
    try: 
        rating = train_mean[movie_id] 
    except:
        rating = 3.0 
    return rating

train_mean = x_train.groupby(['movie_id'])['rating'].mean() # movie_id로 묶은뒤에 rating의 평균을 구함


In [8]:
score(best_seller) # best_seller의 정확도(RMSE)계산

1.026508779669592

In [9]:
# Full matrix를 사용자 데이터와 merge
merged_ratings = pd.merge(x_train, users) # x_train(ratings의 학습데이터), users(유저 데이터)의 공통 key인 user_id기준으로 합침
users = users.set_index('user_id') # users의 index를 user_id로 정함

# gender별 평점평균 계산
g_mean = merged_ratings[['movie_id','sex','rating']].groupby(['movie_id','sex'])['rating'].mean()

In [14]:
users.head(3)

Unnamed: 0_level_0,age,sex,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
2,53,F,other,94043
3,23,M,writer,32067


In [15]:
g_mean.head(3)

movie_id  sex
1         F      3.862069
          M      3.904000
2         F      3.363636
Name: rating, dtype: float64

In [16]:
rating_matrix.head(3)

movie_id,1,2,3,4,5,6,7,8,9,10,...,1672,1673,1674,1675,1676,1677,1679,1680,1681,1682
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,3.0,4.0,,3.0,5.0,4.0,1.0,,3.0,...,,,,,,,,,,
2,4.0,,,,,,,,,2.0,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,


In [17]:
# Gender별 평균을 예측치로 돌려주는 함수
def cf_gender(user_id, movie_id):
    """
    예측치를 구해야 하는 user_id와 movie_id를 인자로 받음
    """
    if movie_id in rating_matrix:
        # 예측치를 구하는 영화가 데이터에 있는지 확인, 있으면 계속 진행, 없으면 기본 값인 3.0을 예측치로 함
        gender = users.loc[user_id]['sex'] # 예측 대상인 사용자의 성별을 users에서 구해온다, 이것 때문에 users의 index를 user_id로 지정
        if gender in g_mean[movie_id]:
            # 예측 대상 영화가 해당 성별의 평균을 가지고 있는지 확인
            gender_rating = g_mean[movie_id][gender] # 가지고 있으면 해당 성별의 평균을 할당
        else:
            gender_rating = 3.0 # 없으면 기본값인 3.0으로 함
    else:
        gender_rating = 3.0
        
    return gender_rating # 구해진 예측치를 출력

In [20]:
cf_gender(3,90) 

3.022727272727273

In [21]:
score(cf_gender)

1.0360168954884266

### 내용 기반 필터링 추천
- 각 아이템 간의 유사도(similarity)를 계산
 - tf-idf(term frequency-inverse document frequency) : 단어가 해당 문서에 얼마나 자주 등장하는가(tf) | 다른 문서에 비해서 상대적으로 얼마나 자주 등장하는가(idf)
 - tf와 idf를 조합해서 각 문서(아이템)에 등장하는 모든 단어의 가중치(중요도)를 계산
 - 이들 단어의 가중치가 문서 간에 얼마나 유사한지를 cosine similarity 지표를 사용해서 계산
 
 
- 추천 대상이 되는 사용자가 선호하는(좋게 평가한) 아이템을 선정한다
 - 다수의 아이템을 선정하는 것이 용이, 다수의 아이템 선정시에 몇개의 아이템을 선정하는 것이 최적인가 하는 것이 이슈
 
 
- 위에서 선정된 아이템과 가장 유사도가 높은 N개의 아이템을 찾는다
 - 다수의 아이템을 선정한 경우에 각 아이템과 유사도가 높은 아이템이 별도로 존재할것임,, 이를 어떻게 결합할 것인지..
 - 각각 유사한 아이템을 합쳐서 리스트를 만드는 방법, 각 아이템의 점수에 따라 순서대로 나열하는 방법
 
- 이 N개의 아이템을 사용자에게 추천한다

In [22]:
movies = pd.read_csv('./RecoSys/Data/movies_metadata.csv', encoding = 'latin-1', low_memory=False)
movies = movies[['id','title','overview']]
movies.head(3)

Unnamed: 0,id,title,overview
0,862,Toy Story,"Led by Woody, Andy's toys live happily in his ..."
1,8844,Jumanji,When siblings Judy and Peter discover an encha...
2,15602,Grumpier Old Men,A family wedding reignites the ancient feud be...


In [23]:
len(movies)

45442

In [24]:
movies = movies.drop_duplicates() # 중복제거
movies = movies.dropna() # 데이터가 비어 있는것 제거
movies['overview'] = movies['overview'].fillna(' ') # 줄거리가 비어있는 것은 빈칸으로 바꿈
len(movies)

44300

In [25]:
from sklearn.feature_extraction.text import TfidfVectorizer # tf-idf를 계산하기 위한 모듈을 불러옴

In [26]:
tfidf = TfidfVectorizer(stop_words = 'english') # 텍스트의 불용어를 영어로 지정
tfidf_matrix = tfidf.fit_transform(movies['overview']) # 줄거리 텍스트에 대해서 tf-idf를 계산

In [27]:
from sklearn.metrics.pairwise import cosine_similarity # cosine유사도 모듈을 가져옴

In [28]:
cosine_sim = cosine_similarity(tfidf_matrix,tfidf_matrix) # 영화 간의 유사도를 계산
cosine_sim = pd.DataFrame(cosine_sim, index = movies.index, columns = movies.index)
# 유사도를 다루기 편한 Pandas DataFrame으로 변환

In [33]:
cosine_sim.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,45432,45433,45434,45435,45436,45437,45438,45439,45440,45441
0,1.0,0.014981,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.005955,0.0
1,0.014981,1.0,0.046968,0.0,0.0,0.050222,0.0,0.102622,0.0,0.007219,...,0.0,0.0,0.0,0.011276,0.0,0.0,0.066866,0.0,0.022018,0.009356
2,0.0,0.046968,1.0,0.0,0.02507,0.0,0.006414,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.014077,0.0


In [37]:
indices.head(3)

title
Toy Story           0
Jumanji             1
Grumpier Old Men    2
dtype: int64

In [30]:
# index-title을 뒤집는다
indices = pd.Series(movies.index, index=movies['title'])
# 나중에 영화제목을 기준으로 영화를 선택할 수 있도록 제목을 index로 지정

def content_recommender(title, n_of_recomm):
    """
    영화 하나의 제목을 받아서 이와 유사한 영화를 지정된 개수(n_of_recomm)만큼 돌려주는 함수
    """
    idx = indices[title] # title에서 영화 index 받아오기
    sim_scores = cosine_sim[idx] # 해당 영화와 다른 모든 영화와의 유사도를 가져온다
    """
    유사도가 높은 순서대로 정렬한 후에 가장 유사도가 높은 영화 n_of_recomm개를 잘라낸다, 여기서 인덱스를 1부터하는 이유는
    유사도가 가장 높은 인덱스0은 자기자신이기 때문
    """
    sim_scores = sim_scores.sort_values(ascending = False)[1:n_of_recomm+1] 
    
    return movies.loc[sim_scores.index]['title']
    

In [38]:
content_recommender('Toy Story',5)

15334                    Toy Story 3
2987                     Toy Story 2
10287         The 40 Year Old Virgin
24506                      Small Fry
23827    Andy Hardy's Blonde Trouble
Name: title, dtype: object

### 협업 필터링 추천 시스템
- 어떤 제품이나 서비스에 대해서 비슷한 취향을 가진 사람들끼리 묶어서 추천해주는 알고리즘

- 상관계수 : x,y는 유사도의 계산 대상이 되는 두 사용자, __r__x,i, __r__y,i는 두 사용자가 공통으로 평가한 아이템 (__I__xy)중에서 i번째 아이템에 대한 이 두 사용자의 평가값이다. 상관계수는 최소 -1(완전반대)에서 최대 1(완전 일치)까지의 값을 가진다

![상관계수](./상관계수.png)

- 코사인 유사도 : 각 아이템을 하나의 차원으로 보고 사용자의 평가값을 좌표값으로 본다, 그렇게 되면 각 사용자의 평가값을 벡터로 해서 두 사용자 간의 벡터의 각도(코사인값)를 구할 수 있다.

ex) 사용자 x의 제품 A,B에 대한 평가 x(A1,B1), 사용자 y의 제품 A,B에 대한 평가 y(A2,B2)라 할 때, 원점에서 각 사용자까지의 선을 그으면 그 사용자의 벡터가 되고, 두 사용자의 평가값이 유사할수록 각도가 작다(코사인 값이 크다)

![코사인유사도](./코사인유사도.png)

만일 데이터가 이진값을 갖는다면 위의 상관계수나 코사인 유사도는 사용할 수 없음,,

타니모토 계수를 이용하여 이진값을 갖는 데이터에 대해서 유사도를 구할 수 있다 

![타니모토](./타니모토.png)

#### 기본적인 CF 알고리즘
1. 모든 사용자 간의 평가의 유사도를 계산(상관계수, 코사인 유사도 등등..)
2. 현재 추천 대상이 되는 사람과 다른 사용자의 유사도를 추출
3. 현재 사용자가 평가하지 않은 모든 아이템에 대해서 현재 사용자의 예상 평가 값을 구한다, 예상 평가값은 다른 사용자의 해당 아이템에 대한 평가(평점)를 현재 사용자와 그 사용자와의 유사도로 가중해서 평균을 낸다
4. 아이템 중에서 예상 평가값이 가장 높은 N개의 아이템을 추천한다

In [41]:
rating_matrix.head(3)

movie_id,1,2,3,4,5,6,7,8,9,10,...,1672,1673,1674,1675,1676,1677,1679,1680,1681,1682
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,3.0,4.0,,3.0,5.0,4.0,1.0,,3.0,...,,,,,,,,,,
2,4.0,,,,,,,,,2.0,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,


In [43]:
matrix_dummy = rating_matrix.copy().fillna(0) # 코사인 유사도 계산시에 NaN값이 있으면 에러가 발생하므로, NaN을 0으로 바꿔줌

user_similarity = cosine_similarity(matrix_dummy, matrix_dummy) # 실행시엔 대각선이 1.0인(자기 자신과의 유사도) 대칭 매트릭스임을 볼 수 있음

user_similarity = pd.DataFrame(user_similarity, index =rating_matrix.index, columns=rating_matrix.index)
user_similarity.head(3)

user_id,1,2,3,4,5,6,7,8,9,10,...,934,935,936,937,938,939,940,941,942,943
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1.0,0.073814,0.020554,0.04233,0.27687,0.336237,0.287415,0.216286,0.084538,0.288012,...,0.271067,0.083241,0.23669,0.166744,0.177547,0.05512,0.229709,0.085689,0.126778,0.302635
2,0.073814,1.0,0.052449,0.094954,0.02978,0.165748,0.079138,0.028599,0.158028,0.096412,...,0.08918,0.231767,0.289065,0.393553,0.255431,0.236296,0.13796,0.142588,0.158811,0.042991
3,0.020554,0.052449,1.0,0.198851,0.0,0.075458,0.053291,0.039059,0.023022,0.082828,...,0.024606,0.020098,0.120856,0.05759,0.042286,0.015937,0.121824,0.052812,0.080333,0.015658


In [44]:
# 주어진 영화의 (movie_id) 가중평균 rating을 계산하는 함수
# 가중치는 주어진 사용자와 다른 사용자 간의 유사도(user_similarity)
def CF_simple(user_id, movie_id):
    """
    주어진 user_id와 movie_id에 대한 예상 평점을 CF 알고리즘으로 계산해서 돌려주는 함수
    """
    if movie_id in rating_matrix:
        #train, test의 분할에 의해 주어진 movie_id가 rating_matrix에 없는 경우도 있기 때문..
        
        sim_scores = user_similarity[user_id].copy() # 주어진 사용자에 대한 유사도를 복사해서 가져옴
        movie_ratings = rating_matrix[movie_id].copy() # 주어진 영화에 대한 평점을 복사해서 가져옴
        
        # 주어진 영화에 대해서 평가를 하지 않은 사용자의 인덱스를 확인, 이 사람들에 대해서는 가중평균 계산에서 뺄거,,,
        none_rating_idx = movie_ratings[movie_ratings.isnull()].index 
        
        # 주어진 영화에 대한 평점 중에서 평가하지 않은 사람의 평점(NaN)을 제거
        movie_ratings = movie_ratings.dropna()
        
        # 주어진 영화를 평가하지 않은 사용자와의 유사도를 제거, 가중평균시 계산에 필요가 없기 때문
        sim_scores = sim_scores.drop(none_rating_idx)
        
        # 주어진 영화에 대해서 평가한 각 사용자에 대해서 평점을 유사도로 가중평균한 예측치를 구함
        mean_rating = np.dot(sim_scores, movie_ratings) / sim_scores.sum()
    else:
        mean_rating = 3.0
    
    return mean_rating

In [46]:
CF_simple(3,5), score(CF_simple)

(3.260579151142698, 1.0201260527184093)

#### 이웃을 고려한 CF

- 이웃을 전체 사용자로 하는 대신에 유사도가 높은 사람만을 이웃으로 선정해서 이웃의 크기를 줄이는 것
- 이웃을 정하는 기준
 1. 이웃의 크기를 미리 정해놓고 추천 대상 사용자와 가장 유사한 K명을 선택하는 KNN방법
 2. 크기 대신 유사도의 기준(예를 들면 상관계수 0.8이상)을 정해 놓고 이 기준을 충족시키는 사용자를 이웃으로 정하는 Thresholding

In [3]:
u_cols = ['user_id', 'age', 'sex', 'occupation', 'zip_code']
users = pd.read_csv('./RecoSys/Data/u.user', sep = '|', names=u_cols, encoding = 'latin-1')

i_cols = ['movie_id','title','release date', 'video release date', 'IMDB URL', 'unknown', 'Action', 'Adventure', 'Animation', 'Children\'s','Comdy',
         'Crime','Documentary','Drama','Fantasy','Film-Noir','Horror','Musical','Mystery','Romance','Sci-Fi','Thriller','War','Western']
movies = pd.read_csv('./RecoSys/Data/u.item', sep='|',names = i_cols, encoding = 'latin-1')

r_cols = ['user_id','movie_id','rating','timestamp']
ratings = pd.read_csv('./RecoSys/Data/u.data', sep = '\t',names = r_cols, encoding='latin-1')

# ratings의 timestamp제거
ratings = ratings.drop('timestamp', axis = 1)

# movie id와 title빼고 다른 데이터 제거
movies = movies[['movie_id','title']]

In [19]:
users.shape, movies.shape

((943, 5), (1682, 2))

In [20]:
ratings.shape

(100000, 3)

In [4]:
from sklearn.model_selection import train_test_split
x = ratings.copy() # 원본 보존을 위해, copy()사용
y = ratings['user_id'] # user_id기준으로 train set과 test set분리
# 75%는 train, 25%는 test y_train, y_test에는 사용자 id가 저장
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.25, stratify = y)

In [5]:
# 정확도(RMSE)를 계산하는 함수
def RMSE(y_true, y_pred):
    return np.sqrt(np.mean((np.array(y_true) - np.array(y_pred))**2))

# 모델별 정확도(RMSE)를 계산하는 함수
def score(model, neighbor_size=0):
    # 예측 대상인 test set에 있는 사용자(user_id)와 영화(movie_id)를 pair로 짝을 맞춰 데이터를 만든다
    id_pairs = zip(x_test['user_id'], x_test['movie_id'])
    
    # 모든 사용자-영화 짝에 대해서 주어진 예측 모델(model)에 의한 예측값을 계산해서 y_pred에 리스트로 저장
    y_pred = np.array([model(user,movie, neighbor_size) for (user, movie) in id_pairs])
    
    # 실제 평점값 리스트를 x_test에서 받아옴
    y_true = np.array(x_test['rating'])
    
    return RMSE(y_true, y_pred) # 얻어진 예측값 리스트와 실제값 리스트에 대한 RMSE를 계산해서 넘김

In [51]:
# train 데이터로 Full matrix 구하기, 이 full matrix는 추천 알고리즘에서 사용
rating_matrix = x_train.pivot(index = 'user_id', columns = 'movie_id', values ='rating')

In [52]:
from sklearn.metrics.pairwise import cosine_similarity # cosine유사도 모듈을 가져옴
matrix_dummy = rating_matrix.copy().fillna(0) # 코사인 유사도 계산시에 NaN값이 있으면 에러가 발생하므로, NaN을 0으로 바꿔줌

user_similarity = cosine_similarity(matrix_dummy, matrix_dummy) # 실행시엔 대각선이 1.0인(자기 자신과의 유사도) 대칭 매트릭스임을 볼 수 있음

user_similarity = pd.DataFrame(user_similarity, index =rating_matrix.index, columns=rating_matrix.index)
user_similarity.head(3)

user_id,1,2,3,4,5,6,7,8,9,10,...,934,935,936,937,938,939,940,941,942,943
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1.0,0.145804,0.040633,0.075669,0.250858,0.323,0.340347,0.22653,0.063431,0.277547,...,0.244392,0.070683,0.210822,0.162782,0.138422,0.094618,0.240043,0.066157,0.1105,0.277331
2,0.145804,1.0,0.098779,0.228562,0.079822,0.185215,0.062032,0.09626,0.13218,0.114841,...,0.144245,0.281131,0.314611,0.304209,0.242318,0.165623,0.172145,0.110319,0.131065,0.072566
3,0.040633,0.098779,1.0,0.277851,0.0,0.05631,0.044646,0.093505,0.058421,0.022555,...,0.028283,0.0186,0.097085,0.050269,0.096848,0.015266,0.11603,0.061965,0.09919,0.035116


In [53]:
rating_matrix.head(3)

movie_id,1,2,3,4,5,6,7,8,9,10,...,1670,1671,1672,1673,1674,1675,1676,1679,1680,1682
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,3.0,4.0,,3.0,,4.0,1.0,5.0,3.0,...,,,,,,,,,,
2,4.0,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,


In [8]:
# Neighbor size를 정해서 예측치를 계산하는 함수
def cf_knn(user_id, movie_id, neighbor_size = 0):
    if movie_id in rating_matrix:
        sim_scores = user_similarity[user_id].copy()  # 주어진 사용자에 대한 유사도를 복사해서 가져옴
        
        movie_ratings = rating_matrix[movie_id].copy() # 주어진 영화에 대한 평점을 복사해서 가져옴
        
        # 주어진 영화에 대해서 평가를 하지 않은 사용자의 인덱스를 확인, 이 사람들에 대해서는 가중평균 계산에서 뺄거,,,
        none_rating_idx = movie_ratings[movie_ratings.isnull()].index 
        
        movie_ratings = movie_ratings.drop(none_rating_idx) # 주어진 영화에 대한 평점 중에서 평가하지 않은 사람의 평점(NaN)을 제거
        
        # 주어진 영화를 평가하지 않은 사용자와의 유사도를 제거, 가중평균시 계산에 필요가 없기 때문
        sim_scores = sim_scores.drop(none_rating_idx)
        
        # Neighbor size가 지정되지 않은 경우
        if neighbor_size == 0:
            
            # 주어진 영화에 대해서 평가한 각 사용자에 대해서 평점을 유사도로 가중평균한 예측치를 구함
            mean_rating = np.dot(sim_scores, movie_ratings) / sim_scores.sum()
            
        # Neighbor size가 지정된 경우
        else:
            if len(sim_scores) > 1:
                """
                이 조건을 넣는 이유는 경우에 따라서 해당 영화를 평가한 다른 사용자 수가 매우 작으면 계산에 문제가 생기기
                때문에 평가자 수가 최소 2명 이상인 경우만 그 다음 계산을 진행하도록 하기 위함
                """
                neighbor_size = min(neighbor_size, len(sim_scores))
                """
                지정된 neighbor_size값과 해당 영화를 평가한 총 사용자 수 중에서 작은 것을 이웃크기로 설정, 이 코드가 필요한
                이유는 경우에 따라서 유사도 계산이 가능한 이웃의 수가 지정된 neighbor_size값보다 작을 수도 있기 때문..
                """
                sim_scores = np.array(sim_scores) # 현재 sim_scores는 pandas인데, argsort를 적용하기 위해 numpy array로 바꿔줌
                
                movie_ratings = np.array(movie_ratings) # 역시 numpy array로 바꿔줌
                
                user_idx = np.argsort(sim_scores) # 다른 사용자를 유사도 순서대로 정렬
                
                sim_scores = sim_scores[user_idx][-neighbor_size:] # 가장 유사도가 높은 K명의 사용자를 선정
                
                movie_ratings = movie_ratings[user_idx][-neighbor_size:] # 선정된 k명의 사용자의 주어진 영화(movie_id)에 대한 평점 추출
                
                mean_rating = np.dot(sim_scores, movie_ratings) / sim_scores.sum()
                """
                선정된 k명의 이웃 사용자의 해당 영화에 대한 평점을 유사도로 가중한 평점평균을 구한다.
                """
            else:
                mean_rating = 3.0
    else:
        mean_rating = 3.0
        
    return mean_rating

In [62]:
score(cf_knn, neighbor_size = 30) # neighbor_size를 30으로 하는 KNN방법을 사용한 CF의 정확도

1.0062048745205292

In [64]:
ratings

Unnamed: 0,user_id,movie_id,rating
0,196,242,3
1,186,302,3
2,22,377,1
3,244,51,2
4,166,346,1
...,...,...,...
99995,880,476,3
99996,716,204,5
99997,276,1090,1
99998,13,225,2


In [65]:
# 주어진 사용자에 대해 추천받기
## 전체 데이터로 full matrix와 cosine similarity구하기
rating_matrix = ratings.pivot_table(values = 'rating', index = 'user_id', columns = 'movie_id')
matrix_dummy = rating_matrix.copy().fillna(0)
user_similarity = cosine_similarity(matrix_dummy, matrix_dummy)
user_similarity = pd.DataFrame(user_similarity, index=rating_matrix.index, columns=rating_matrix.index)
# 실제 추천을 할때에는 train/test set을 나눌 필요가 없기 때문에 전체 데이터를 사용해서 full matrix와 사용자 간 유사도(user_similarity)를 구한다

def recommender(user, n_items=10, neighbor_size = 20):
    """
    사용자 ID, 추천 아이템 수, 이웃 크기를 넘겨 받아서 주어진 사용자에 대한 아이템을 돌려주는 함수, 추천받을 영화의 수는 10,
    이웃의 크기는 20을 기본값으로 함
    """
    predictions = []
    # 예상 평점을 저장할 predictions를 초기화함
    
    rated_index = rating_matrix.loc[user][rating_matrix.loc[user] > 0].index
    # 현 사용자가 이미 평가한 영화를 표시(추천에서 제외하기 위함)
    
    items = rating_matrix.loc[user].drop(rated_index)
    # 이미 평가한 영화는 대상에서 제외 > 안본 영화만 추천할 거
    
    for item in items.index: # 각 아이템에 대한 현 사용자의 예상 평점을 계산
        """
        cf_knn 함수를 호출해서 현재 사용자의 현재 아이템에 대한 예상 평점을 구해서 prediction에 추가,
        k명의 이웃 사용자의 해당 영화에 대한 평점을 유사도로 가중한 평점평균을 구함
        """
        predictions.append(cf_knn(user, item, neighbor_size))
        
    # 예상 평점을 Series로 변환    
    recommendations = pd.Series(data=predictions, index=items.index, dtype=float)
    
    # recommendation에서 예상평점이 높은 순서로 정렬해서 주어진 아이템 수(n_items) 만큼 추천할 영화를 뽑아냄
    recommendations = recommendations.sort_values(ascending=False)[:n_items]
    
    # 추천할 영화의 id에 해당하는 
    recommended_items = movies.loc[recommendations.index]['title']
    
    return recommended_items

In [66]:
recommender(user=2, n_items=5, neighbor_size = 30) # 2번 사용자에 대해서 5개의 영화를 추천받는다. 이웃의 크기는 30

movie_id
1189                              That Old Feeling (1997)
1293                     Ayn Rand: A Sense of Life (1997)
1500    Prisoner of the Mountains (Kavkazsky Plennik) ...
1467                                     Cure, The (1995)
318                       Everyone Says I Love You (1996)
Name: title, dtype: object

- 최적의 이웃 크기를 찾아보는 방법

In [6]:
rating_matrix = x_train.pivot_table(index = 'user_id', columns = 'movie_id', values ='rating')

In [7]:
from sklearn.metrics.pairwise import cosine_similarity # cosine유사도 모듈을 가져옴


matrix_dummy = rating_matrix.copy().fillna(0) # 코사인 유사도 계산시에 NaN값이 있으면 에러가 발생하므로, NaN을 0으로 바꿔줌

user_similarity = cosine_similarity(matrix_dummy, matrix_dummy) # 실행시엔 대각선이 1.0인(자기 자신과의 유사도) 대칭 매트릭스임을 볼 수 있음

user_similarity = pd.DataFrame(user_similarity, index =rating_matrix.index, columns=rating_matrix.index)
user_similarity.head(3)

user_id,1,2,3,4,5,6,7,8,9,10,...,934,935,936,937,938,939,940,941,942,943
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1.0,0.106289,0.052476,0.048398,0.332203,0.31987,0.34679,0.27356,0.052833,0.28242,...,0.299112,0.131471,0.190128,0.152545,0.120496,0.092496,0.202258,0.136502,0.136795,0.282516
2,0.106289,1.0,0.150951,0.094087,0.030187,0.175357,0.082306,0.057277,0.128934,0.122565,...,0.120313,0.246319,0.311521,0.208677,0.157812,0.116488,0.200072,0.149555,0.082122,0.076021
3,0.052476,0.150951,1.0,0.293805,0.029033,0.0457,0.028435,0.063626,0.02354,0.037602,...,0.0288,0.058962,0.124426,0.052519,0.087592,0.019606,0.1136,0.1082,0.099825,0.015164


In [9]:
#  최적의 neighbor_size 구하기
for neighbor_size in [10,20,30,40,50,60]:
    print(f"Neighbor size = {neighbor_size} : RMSE = {score(cf_knn, neighbor_size)}")
# 40이 최적인듯?

Neighbor size = 10 : RMSE = 1.033784647126236
Neighbor size = 20 : RMSE = 1.020271198734447
Neighbor size = 30 : RMSE = 1.0166708277939813
Neighbor size = 40 : RMSE = 1.0165443614940335
Neighbor size = 50 : RMSE = 1.017249359907346
Neighbor size = 60 : RMSE = 1.0176481959532575


#### 사용자의 평가경향을 고려한 CF

- CF의 정확도를 더 개선시키는 방법 중의 하나는 사용자의 평가경향(user bias)을 고려해서 예측치를 조정하는 것


![평가경향x](./평가경향x.png)

위는 사용자의 평가경향을 고려하지 않은 방법이다

a : 사용자, u : 이웃 이용자, n : 이웃 사용자의 수

P a,i : 아이템 i에 대한 사용자 a의 예상 평점

W a,u : 사용자 a와 u의 유사도

r u,i : 아이템 i에 대한 사용자 u의 평점

![평가경향o](./평가경향o.png)

위는 사용자의 평가경향을 고려한 방법이다

a : 사용자, u : 이웃 이용자, n : 이웃 사용자의 수

P a,i : 아이템 i에 대한 사용자 a의 예상 평점

W a,u : 사용자 a와 u의 유사도

r u,i : 아이템 i에 대한 사용자 u의 평점

-r a : 사용자 a의 전체 평점 평균

-r u : 사용자 u의 전체 평점 평균

예측치를 구하는 알고리즘

1. 각 사용자의 평점평균을 구한다


2. 각 아이템의 평점을 각 사용자의 평균에서의 차이(평점 - 해당 사용자의 평점 평균)으로 변환, 편의상 평점과 평균의 차이를 평점편차로 부르기로 한다


3. 평점편차를 사용해서 해당 사용자의 해당 아이템의 편차 예측값(평점편차의 예측값)을 구한다. 구체적으로는 해당 사용자의 이웃을 구하고 이들 이웃의 해당 아이템에 대한 평점편차와 유사도를 가중평균한다


4. 이렇게 구한 편차 예측값은 평균에서의 차이를 의미하기 때문에 실제 예측값으로 변환하기 위해서 현 사용자의 평균에 이 편차 예측값을 더해준다.


5. 예측값을 구할 수 없는 경우에 지금까지는 3.0을 할당했는데, 이번에는 해당 사용자의 평점평균으로 대체한다

In [12]:
rating_matrix

movie_id,1,2,3,4,5,6,7,8,9,10,...,1671,1672,1673,1675,1676,1677,1678,1679,1680,1681
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,3.0,4.0,3.0,,,4.0,,5.0,3.0,...,,,,,,,,,,
2,4.0,,,,,,,,,2.0,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,4.0,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
939,,,,,,,,,5.0,,...,,,,,,,,,,
940,,,,,,,4.0,,,,...,,,,,,,,,,
941,5.0,,,,,,4.0,,,,...,,,,,,,,,,
942,,,,,,,,,,,...,,,,,,,,,,


In [13]:
rating_mean = rating_matrix.mean(axis = 1) # 사용자의 평점 평균
rating_mean

user_id
1      3.612745
2      3.673913
3      2.756098
4      4.500000
5      2.824427
         ...   
939    4.243243
940    3.437500
941    4.117647
942    4.355932
943    3.452381
Length: 943, dtype: float64

In [14]:
rating_bias = (rating_matrix.T - rating_mean).T # 각 사용자의 평균에서의 차이(평점 - 해당 사용자의 평점평균)
rating_bias

movie_id,1,2,3,4,5,6,7,8,9,10,...,1671,1672,1673,1675,1676,1677,1678,1679,1680,1681
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1.387255,-0.612745,0.387255,-0.612745,,,0.387255,,1.387255,-0.612745,...,,,,,,,,,,
2,0.326087,,,,,,,,,-1.673913,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,1.175573,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
939,,,,,,,,,0.756757,,...,,,,,,,,,,
940,,,,,,,0.562500,,,,...,,,,,,,,,,
941,0.882353,,,,,,-0.117647,,,,...,,,,,,,,,,
942,,,,,,,,,,,...,,,,,,,,,,


In [16]:
def CF_knn_bias(user_id, movie_id, neighbor_size=0):
    if movie_id in rating_bias: # 주어진 영화가 rating_bias에 있는지 확인
        sim_scores = user_similarity[user_id].copy()
        movie_ratings = rating_bias[movie_id].copy() # 해당 영화의 평점(rating_matrix) 대신 평점편차(rating_bias)를 복사해서 가져옴 
        none_rating_idx = movie_ratings[movie_ratings.isnull()].index
        movie_ratings = movie_ratings.drop(none_rating_idx)
        sim_scores = sim_scores.drop(none_rating_idx)
        
        if neighbor_size == 0:
            prediction = np.dot(sim_scores, movie_ratings) / sim_scores.sum()
            prediction = prediction + rating_mean[user_id]
            
        else:
            if len(sim_scores) > 1:
                neighbor_size = min(neighbor_size, len(sim_scores))
                sim_scores = np.array(sim_scores)
                movie_ratings = np.array(movie_ratings)
                user_idx = np.argsort(sim_scores)
                sim_scores = sim_scores[user_idx][-neighbor_size:]
                movie_ratings = movie_ratings[user_idx][-neighbor_size:]
                prediction = np.dot(sim_scores, movie_ratings) / sim_scores.sum()
                
                # 예측치를 평점편차로 구했기 때문에 최종 예측값을 위해서 해당 사용자의 평균을 더해준다
                prediction = prediction + rating_mean[user_id]
            else:
                # 예측치를 정상적으로 구할 수 없는 경우 기본값을 3.0대신 해당 사용자의 평점평균으로 한다.
                prediction = rating_mean[user_id]
                
    else:
        prediction = rating_mean[user_id]
        
    return prediction

In [17]:
score(CF_knn_bias, 30)

0.9460736070265185