# 29. 사이킷런을 활용한 추천 시스템 입문

Youtube, 인터넷 쇼핑 사이트, 넷플릭스, 왓챠 같은 사이트들은 어떻게 내 취향을 알고 추천해줄까? 이 추천에도 머신러닝, 딥러닝 기법이 사용된다. 한번 알아보자.   

`$ mkdir -p ~/aiffel/movie_recommendation`

# 29-2. 추천 시스템이란?

추천 시스템을 한 마디로 표현하면 사용자(user)에게 관련 아이템(item)을 추천해 주는 것이다. 예를들어 영화 시스템을 추천해준다면 좌표 평면 위에 영화들을 배치한다.   
![](https://d3s0tskafalll9.cloudfront.net/media/images/0f-30.movie.max-800x600.png)

거리가 좁으면 좁을수록 유사도가 높다고 생각할 수 있다. 그래서 사용자와 관련된 유사한 항목을 찾아 추천해줄 수 있다. 혹은 A와 B의 개인정보를 보고 신규 사용자 C와 비슷한 유형을 가진 사람의 추천 항목을 추천해줄 수도 있다. 간단한 추천 로직에 대해 말했는데 2가지 사실을 강조하고 싶다.   
- 범주형 데이터를 다룬다   
영화 item 데이터와 A,B,C같은 user 데이터를 취급했다. 이러한 데이터는 연속적(continuous)이지 않고 이산적(discrete)이다. 이를 범주형(categorical) 데이터라고 한다.   
- (숫자 벡터로 변환한 뒤) 유사도를 계산한다.   
범주형 데이터들을 좌표에 나타냈는데, 그러기 위해 숫자로 이루어진 벡터(numerical vector)로 변환해야 한다. 그 거리를 계산하여 유사도를 계산하여 유사도가 가까운 제품을 추천해준다.

# 29-3. 코사인 유사도

범주형 데이터들을 벡터로 변환한 뒤 어떻게 유사도를 계산할 수 있을까? 유사도 계산법중 잘 알려진 방법은 __코사인 유사도(cosine similarity)__ 가 있다. 이는 두 벡터간 코사인 값을 이용해 유사도를 계산한다.   
코사인 유사도는 두 벡터의 방향이 이루는 각에 코사인을 취해 구한다.   
![](https://d3s0tskafalll9.cloudfront.net/media/images/0f-30.cosine_similarity.max-800x600.png)

![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-02-25%20%E1%84%8B%E1%85%A9%E1%84%8C%E1%85%A5%E1%86%AB%2010.39.26.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-02-25%20%E1%84%8B%E1%85%A9%E1%84%8C%E1%85%A5%E1%86%AB%2010.39.26.png)

Numpy를 활용해서 코사인 유사도를 구하는 함수를 알아보자.

In [None]:
import numpy as np

t1 = np.array([1, 1, 1])
t2 = np.array([2, 0, 1])

In [None]:
from numpy import dot
from numpy.linalg import norm
def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B)) # norm은 벡터의 길이를 측정하는 함수

In [None]:
cos_sim(t1, t2)

사이킷런 활용해서 코사인 유사도를 구해보자. 이 모듈은 입력값으로 2차원 배열을 받기 때문에 2차원으로 정의해야한다.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
t1 = np.array([[1, 1, 1]])
t2 = np.array([[2, 0, 1]])
cosine_similarity(t1,t2)

> 그 외에 유클리드 거리, 자카드 유사도, 피어슨 상관계수 등 다른 방법으로 유사도를 계산할 수 있다.

# 29-4. 추천시스템의 종류

가장 기본적으로 알려진 추천 방식으로 협업 필터링 방식과 콘텐츠 기반 필터링 방식이 있다. 더 나아가 딥러닝을 활용한 추천 방법과 여러 방법을 결합한 하이브리드 방법도 있다.   
- 콘텐츠 기반 필터링(content based filtering)
- 협업 필터링(collabrative filtering)   
사용자 기반, 아이템 기반, 잠재요인 협업 필터링(latent factor collaborative filteriing) -> 행렬 인수분해(matrix factorization)   
- Deep learning 적용 or hybrid 방식   

오늘은 __콘텐츠 기반 필터링__, __협업 필터링__에 대해 알아보자.   
![](https://d3s0tskafalll9.cloudfront.net/media/images/0f-30.content.max-800x600.png)

# 29-5. 콘텐츠 기반 필터링

영화를 보고 추천하는 방식은 장르, 배우, 감독 등의 정보들이 영화의 feature가 되고 이 특성이 콘첸츠가 비슷하다고 말할 수 있는 요인이 된다.   

[Building a Movie Recommendation Engine in Python using Scikit-Learn](https://www.codeheroku.com/post.html?name=Building%20a%20Movie%20Recommendation%20Engine%20in%20Python%20using%20Scikit-Learn) 데이터셋을 바탕으로 제작했다.

In [None]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

```
$ wget https://aiffelstaticprd.blob.core.windows.net/media/documents/movie_dataset.csv
$ mv movie_dataset.csv  ~/aiffel/movie_recommendation
```

In [None]:
import os
csv_path = os.getenv('HOME')+'/aiffel/movie_recommendation/movie_dataset.csv'
df = pd.read_csv(csv_path)
df.head()

In [None]:
df.columns

많은 features를 확인할 수 있다. 여기서 `keywords`, `cast`, `genres`, `director`만 고려해서 유사도를 계산하자.

In [None]:
features = ['keywords','cast','genres','director']
features

In [None]:
def combine_features(row):
    return row['keywords']+" "+row['cast']+" "+row['genres']+" "+row['director']

combine_features(df[:5])

In [None]:
for feature in features:
    df[feature] = df[feature].fillna('')

df["combined_features"] = df.apply(combine_features,axis=1)
df["combined_features"]

In [None]:
cv = CountVectorizer()
count_matrix = cv.fit_transform(df["combined_features"])
print(type(count_matrix))
print(count_matrix.shape)
print(count_matrix)

`count_matrix`의 type은 `CSR(Compressed Sparse Row) Matrix`이다. 이는 희소한 matrix에서 0이 아닌 유효한 데이터로 채워지는 데이터의 값과 좌표 정보로 구성하여 메모리 사용량을 최소화하고 sparse(희소)한 matrix와 동일한 행렬을 표현할 수 있도록 하는 데이터 구조이다.   
예를 들어 `(0, 3115) 1`이는 1번째 row에는 3116번째 단어가 1번 출현한다는 뜻이다. 이 데이터셋에 14845개의 단어가 있는데, 단어들을 범주형으로 보고 출현 빈도만을 표시한 matrix가 매우 sparse해서  공간 절약을 할 수 있는 형태로 표현한 것이다.   
4803개의 영화들이 vectorize가 되었는데, 이를 코사인 유사도로 표현하는 4803X4803의 코사인 유사도 matrix를 구해보자.

In [None]:
cosine_sim = cosine_similarity(count_matrix)
print(cosine_sim)
print(cosine_sim.shape)

In [None]:
def get_title_from_index(index):
    return df[df.index == index]["title"].values[0]
def get_index_from_title(title):
    return df[df.title == title]["index"].values[0]

movie_user_likes = "Avatar"
movie_index = get_index_from_title(movie_user_likes)
similar_movies = list(enumerate(cosine_sim[movie_index]))

sorted_similar_movies = sorted(similar_movies,key=lambda x:x[1],reverse=True)[1:]

i=0
print(movie_user_likes+"와 비슷한 영화 3편은 "+"\n")
for item in sorted_similar_movies:
    print(get_title_from_index(item[0]))
    i=i+1
    if i==3:
        break

# 29-6. 협업 필터링 (1) 종류

협업 필터링은 과거의 사용자 행동양식 데이터를 기반으로 추천하는 방식이다. 학습용 데이터 자체에서 사용자 행동양식을 추출하기 어렵지만, 잠재요인 기법을 통해 행동양식을 데이터로 나타내보자.   

사용자들의 정보는 `user_id`에 저장되어 있다. 영화 정보는 `item_id`이다. 사용자는 영화를 보고 평점 `rating`을 매겼다. 그 시각이 `timestamp`에 저장되어 있다.   
![](https://d3s0tskafalll9.cloudfront.net/media/images/0f-30.movie_data.max-800x600.png)   
이 데이터를 사용자와 아이템간 interaction matrix로 변환한다. 해당 행렬의 데이터로 평점을 넣으면 형태가 바뀌는데 이를 평점행렬이라고 부르기도 한다.   
![](https://d3s0tskafalll9.cloudfront.net/media/images/0f-30.interaction_matrix.max-800x600.png)   
이러한 행렬을 실제 데이터로 만들면 굉장히 희소(sparse)한 행렬이 만들어진다. 대부분 평점에 대한 데이터는 0이다.

협업 필터링 종류로 크게 __사용자 기반__, __아이템 기반__, __잠재 요인(latent factor)__ 방식이 있다고 했는데, 사용자 기반과 아이템 기반은 유사도를 계산하는 방식이고 잠재요인은 행렬 인수분해를 이용해 잠재요인을 분석한다. 넷플릭스가 추천 시스템으로 잠재요인 분석을 사용하여 최근 잠재요인을 분석하는 사례가 많아지는 추세다.   
평점행렬로 변환 후, 평점행렬의 유사도를 계산하여 추천하는 방식은 사용자 기반과 아이템 기반 방식이다. 이를 분해하여 더 많은 정보들을 고려하는 방식이 잠재요인 필터링이다.   

최근접 이웃 협업 필터링은 사용자 기반과 아이템 기반으로 나뉜다고 했는데, 이는 동일한 제품에 평점을 매긴 데이터를 분석하여 추천하는 방식이다. __사용자 기반 협업 필터링은 당신과 비슷한 고객들이 다음 상품을 구매했습니다.__ 로 표현할 수 있다.   

![](https://d3s0tskafalll9.cloudfront.net/media/images/0f-30.user.max-800x600.png)   
user4가 item1을 구매했다. user4와 가장 유사한 user2는 item1~4까지 평점을 매겼다. 그렇다면 user4에게 무엇을 추천해주면 좋을까? item3를 추천하는게 좋아보인다.

아이템 기반은 이들간의 유사도를 측정하여 아이템을 추천하는 방식이다. __이 상품을 선택한 다른 고객들은 다음 상품을 구매했습니다.__ 로 표현할 수 있다.   
![](https://d3s0tskafalll9.cloudfront.net/media/images/0f-30.item3.max-800x600.png)   
user2는 item1을 긍정적으로 생각한다. 동일하게 item1을 긍정적으로 생각하는 user4에게 item3를 추천해줄 수 있다. 그리고 user4가 보통으로 생각하는 결과가 나왔다. 다음 item1을 보통으로 생각하는 user1의 item3가 긍정적이었으니 user5에게 item3를 추천해준다. 이런식으로 다른 고객들의 선호도를 판단하여 추천해주고 나온 결과물의 유사도를 계산하고 다시 추천해주는 방식이다.

# 29-7. 협업 필터링 (2) 행렬 인수분해

잠재요인 협업 필터링은 평점행렬을 행렬 인수분해를 통해 잠재요인을 분석한다. 행렬 인수분해는 다음과 같은 기법들이 있다.   
- SVD(Singular Vector Decomposition)
- ALS(Alternating Least Squares)
- NMF(Non-Negative Factorization)   

__SVD__   

특이값 분해이다. `M X N` 형태의 행렬 `A`를 다음과 같은 형태로 분해하여 나타내는 것이다.   
$A=U \sum V^T$   
![](https://d3s0tskafalll9.cloudfront.net/media/images/0f-30.svd.max-800x600.png)   
SVD를 사용하는 이유가 정보 복원을 위해 사용한다고 한다. 기존 $U, \sum, VUT, \sum, VT$로 분해된 $AA$행렬을 특이값 $p$개만을 이용해 A'라는 행렬로 부분 복원할 수 있다. 최대한 중요한 정보들만 부분 복원해서 사용하면 사진의 용량은 줄지만 사진이 보여주고자 하는 내용은 살릴 수 있다.   

[numpy.linalg.svd](https://numpy.org/doc/stable/reference/generated/numpy.linalg.svd.html) 를 참고해서 4 X 4 형태의 행렬 A를 SVD하고 확인해보자.

In [None]:
import numpy as np
from numpy.linalg import svd

In [None]:
np.random.seed(30)
A = np.random.randint(0, 100, size=(4, 4))
A

In [None]:
svd(A)

행렬 $U, \sum, V$의 전치행렬이 생성됐다. 이 값들을 변수로 두어 분해한 후 다시 복원하는 과정을 거쳐보자. 복원을 위해 $U, \sum, V^T$를 내적한다. 유의할 사항은 $\sum$은 1차원 이므로 0을 포함한 대각 행렬로 변환한 뒤 내적을 해주어야한다.

In [None]:
U, Sigma, VT = svd(A)

print('U matrix: {}\n'.format(U.shape),U)
print('Sigma: {}\n'.format(Sigma.shape),Sigma)
print('V Transpose matrix: {}\n'.format(VT.shape),VT)

In [None]:
Sigma_mat = np.diag(Sigma)

A_ = np.dot(np.dot(U, Sigma_mat), VT)
A_

__Truncated SVD__   

추천 시스템에서 행렬 인수분해는 SVD 중에서도 Truncated SVD를 사용한다. 이는 잘린 SVD라고 하고 다른 말로 LSA(Latent semantic analysis), 잠재 의미 분석이라고 말하기도 한다. Truncated SVD를 이용해 분해한 뒤 복원하면 SVD처럼 완벽히 같은 행렬이 나오지 않는다. 왜냐면 차원을 축소한 다음 행렬을 분해하기 때문이다.   
- [sklearn.docomposition.TruncatedSVD](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html) 사이킷런 `TruncatedSVD` 함수 지원
- [SVD:optimal truncation](https://youtu.be/epoHE2rex0g) 동영상

# 29-8. 협업 필터링 (3) 행렬 인수분해와 잠재요인 협업 필터링

# 29-9. 실제 추천 시스템