# Scikit Learn을 활용한 추천 시스템 입문

![img](https://mblogthumb-phinf.pstatic.net/MjAyMDAxMTVfMjI3/MDAxNTc5MDkwNzE3ODQ3.ebgR3CuKR3M_b-JHgFUZcYr4MObO6NSCEOLtbgPaiR0g.64dG3M8jvL3kdzXMZlYKAT4urxPM0grzRML2RDnyeNkg.PNG.dkgoggog21/XCV.png?type=w2)

안녕하세요! 오늘은 추천 시스템에 대해서 다뤄봅시다.

위 사진과 같이, 여러분들 유튜브의 알수없는 알고리즘이 추천해주는 동영상을 계속 보신 적 있으실 것 같습니다. 저도 그렇게 좋아하는 오마이걸 영상을 엄청 보았습니다. ㅎㅎ

유튜브 뿐만 아니라 넷플릭스, 왓챠 이런 사이트들은 꼭 유저의 취향에 맞는 것을 추천해줍니다. 이러한 추천은 어떤 원리로 이루어지는 걸까요? 한번 시작해봅시다.

## 1. 추천 시스템이란?

> 사용자(USER)에게 관련된 아이템(item)을 추천해주는 것

예를들어 A와 B가 넷플릭스에 가입했다고 생각합시다. A와 B의 선호도를 아래와 같이 생각해보죠.

- A : 한국 드라마/영화, 로맨스물
- B : 미국 드라마/영화, 액션물

이런 두명의 유저가 있다고 했을 때, A에게는 `사이코지만 괜찮아`를 추천하고 B에게는 `워킹데드`를 추천해주면 괜찮을 것 같습니다. 

![Img](https://aiffelstaticprd.blob.core.windows.net/media/images/0f-30.movie.max-800x600.png)

이렇게 놓고 보았을 때, 거리가 좁을수록 유사도가 높다고 할 수 있을 것 같습니다. 여기서 우리는 두가지 아이디어를 생각해낼 수 있습니다.


1. **범주형 데이터**를 다룬다.
    - 액션물, 로맨스물, 한드, 미드 등의 컨텐츠는 `item` 데이터, A, B는 `user` 데이터로 취급했습니다. 
    - 이런 데이터는 연속적이지 않고 **이산적(discrete)**입니다. 이를 범주형(categorical) 데이터라고 합니다.
2. (숫자를 벡터로 변환한 뒤) **유사도**를 계산한다.
    - 범주형 데이터들을 좌표에 나타내었는데, 좌표에 나타내기 위해서는 숫자로 이루어진 벡터로 변환해야합니다. 그리고 그 거리를 계산하여 유사도를 계산합니다.

## 2. 코사인 유사도

그럼 실제로 범주형 데이터들을 어떻게 벡터로 변환하고 또 어떻게 유사도를 계산할까요?

유사도를 계산하는 방법 중 가장 잘 알려진 방법은 **코사인 유사도(Cosine Similarity)**입니다. 코사인 유사도는 두 벡터간의 코사인 값을 이용ㄹ해 두 벡터의 유사도를 계산합니다.

코사인 유사도는 *두 벡터의 방향이 이루는 각*에 코사인을 취해 구합니다. 따라서 두 벡터의 방향이 완전히 동일한 경우에는 1, 90°의 각을 이루면 0, 반대 방향, 즉 각이 180°면 -1의 값을 가지게 됩니다.

따라서 코사인 유사도는 `-1 ~ 1` 사이의 값이고, 1에 가까울수록 유사도가 높다고 할 수 있습니다.

![img](https://aiffelstaticprd.blob.core.windows.net/media/images/0f-30.cosine_similarity.max-800x600.png)

두 벡터 A와 B의 코사인 유사도 수식은 다음과 같습니다.

$${\displaystyle {\text{cosine similarity}}=\cos(\theta )={\mathbf {A} \cdot \mathbf {B} \over \|\mathbf {A} \|\|\mathbf {B} \|}={\frac {\sum_{i=1}^n {A_{i}B_{i}}}{{\sqrt {\sum_{i=1}^n{A_{i}^{2}}}}{\sqrt {\sum_{i=1}^n{B_{i}^{2}}}}}},}$$

우선 숫자 벡터가 만들어졌다고 가정한 뒤, 코사인 유사도를 계산하는 방법을 알아봅시다.

#### Numpy 활용

In [1]:
import numpy as np

t1 = np.array([1, 1, 1])
t2 = np.array([2, 0, 1])

위와 같이 숫자 벡터가 있다고 가정합시다. 위의 식을 참고해 코사인 유사도를 구하는 함수를 만들어봅시다.

In [2]:
from numpy import dot
from numpy.linalg import norm
def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

In [3]:
cos_sim(t1, t2)

0.7745966692414834

코사인 유사도를 구하면 약 0.775가 나옵니다.

#### 사이킷런 활용

위의 방법보다 좀 더 간편하게 구할 수 있습니다. 사이킷럿에서 코사인 다음 모듈을 import 해주면 쉽게 사용할 수 있습니다.

In [4]:
from sklearn.metrics.pairwise import cosine_similarity

`cosine_similarity` 모듈은 입력값으로 2차원 배열을 받기 때문에, 2차원 배열로 정의해줍시다.

In [5]:
t1 = np.array([[1, 1, 1]])
t2 = np.array([[2, 0, 1]])
cosine_similarity(t1, t2)

array([[0.77459667]])

배열 형태로 코사인 유사도가 나왔지만 코사인 유사도는 0.775로 동일하게 나옵니다.

## 3. 추천 시스템의 종류

본격적으로 추천 시스템에 대해서 알아봅시다.

![img](https://aiffelstaticprd.blob.core.windows.net/media/images/0f-30.content.max-800x600.png)

1. 콘텐츠 기반 필터링 (Contents Based Filtering)
2. 협업 필터링 (Collaborative Filtering)
    - 사용자 기반
    - 아이템 기반
    - 잠재 요인 협업 필터링 -> 행렬 인수분해
3. Deep Learning 적용 or Hybrid 방식

가장 기본적으로 알려진 추천의 방식으로는 **협업 필터링 방식**과 **콘텐츠 기반 필터링** 방식이 있습니다. 더 나아가서는 딥러닝 등을 활용한 추천 방법과 여러가지 방법을 결합한 하이브리드 방법도 있지만 이번 시간에는 전자 2가지만 다뤄봅시다.


## 4. 콘텐츠 기반 필터링

> 콘텐츠 기반 필터링 (Content Based Filtering)

콘텐츠기반 필터링은 말 그대로 비슷한 영화의 특성을 기반으로 추천해주는 것입니다. 예를들어 토이스토리1을 본 유저가 있다고 합시다. 그럼 그 유저에게는 토이스토리2, 토이스토리3, 겨울왕국 등을 추천하겠죠?

장르, 배우, 감독 등의 정보들이 영화의 **특성(Feature)**이 되고 이 특성이 콘텐츠와 비슷하다고 말할 수 있는 요인이 됩니다.

그럼 직접 다루며 확인해봅시다! 실습은 아래 링크를 바탕으로 만들었습니다. 

- [
HOME BLOG  LOGIN  REGISTER
Building a Movie Recommendation Engine in Python using Scikit-Learn](http://www.codeheroku.com/post.html?name=Building%20a%20Movie%20Recommendation%20Engine%20in%20Python%20using%20Scikit-Learn)

#### 1. 필요한 모듈을 Import 합시다.

In [6]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

#### 2. Load Data

필요한 데이터를 불러와봅시다. 데이터를 아래 커맨드로 다운받고 원하는 위치로 옮겨주세요.

```bash
wget https://aiffelstaticprd.blob.core.windows.net/media/documents/movie_dataset.csv
mv movie_dataset.csv  [원하는 위치]
```

In [7]:
import os
csv_path = os.path.dirname(os.path.abspath('__file__')) + r'/data/movie_dataset.csv'
df = pd.read_csv(csv_path)
df.head()

Unnamed: 0,index,budget,genres,homepage,id,keywords,original_language,original_title,overview,popularity,...,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,cast,crew,director
0,0,237000000,Action Adventure Fantasy Science Fiction,http://www.avatarmovie.com/,19995,culture clash future space war space colony so...,en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,...,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800,Sam Worthington Zoe Saldana Sigourney Weaver S...,"[{'name': 'Stephen E. Rivkin', 'gender': 0, 'd...",James Cameron
1,1,300000000,Adventure Fantasy Action,http://disney.go.com/disneypictures/pirates/,285,ocean drug abuse exotic island east india trad...,en,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...",139.082615,...,169.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"At the end of the world, the adventure begins.",Pirates of the Caribbean: At World's End,6.9,4500,Johnny Depp Orlando Bloom Keira Knightley Stel...,"[{'name': 'Dariusz Wolski', 'gender': 2, 'depa...",Gore Verbinski
2,2,245000000,Action Adventure Crime,http://www.sonypictures.com/movies/spectre/,206647,spy based on novel secret agent sequel mi6,en,Spectre,A cryptic message from Bond’s past sends him o...,107.376788,...,148.0,"[{""iso_639_1"": ""fr"", ""name"": ""Fran\u00e7ais""},...",Released,A Plan No One Escapes,Spectre,6.3,4466,Daniel Craig Christoph Waltz L\u00e9a Seydoux ...,"[{'name': 'Thomas Newman', 'gender': 2, 'depar...",Sam Mendes
3,3,250000000,Action Crime Drama Thriller,http://www.thedarkknightrises.com/,49026,dc comics crime fighter terrorist secret ident...,en,The Dark Knight Rises,Following the death of District Attorney Harve...,112.31295,...,165.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,The Legend Ends,The Dark Knight Rises,7.6,9106,Christian Bale Michael Caine Gary Oldman Anne ...,"[{'name': 'Hans Zimmer', 'gender': 2, 'departm...",Christopher Nolan
4,4,260000000,Action Adventure Science Fiction,http://movies.disney.com/john-carter,49529,based on novel mars medallion space travel pri...,en,John Carter,"John Carter is a war-weary, former military ca...",43.926995,...,132.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"Lost in our world, found in another.",John Carter,6.1,2124,Taylor Kitsch Lynn Collins Samantha Morton Wil...,"[{'name': 'Andrew Stanton', 'gender': 2, 'depa...",Andrew Stanton


#### 3.  칼럼 출력

In [8]:
df.columns

Index(['index', 'budget', 'genres', 'homepage', 'id', 'keywords',
       'original_language', 'original_title', 'overview', 'popularity',
       'production_companies', 'production_countries', 'release_date',
       'revenue', 'runtime', 'spoken_languages', 'status', 'tagline', 'title',
       'vote_average', 'vote_count', 'cast', 'crew', 'director'],
      dtype='object')

칼럼이 24개가 있습니다. 이번 실습에서믄 몇가지 특성만 고려해서 유사도를 계산해봅시다.

In [9]:
features = ['keywords','cast','genres','director']
features

['keywords', 'cast', 'genres', 'director']

In [10]:
def combine_features(row):
    return row['keywords']+" "+row['cast']+" "+row['genres']+" "+row['director']

combine_features(df[:5])

0    culture clash future space war space colony so...
1    ocean drug abuse exotic island east india trad...
2    spy based on novel secret agent sequel mi6 Dan...
3    dc comics crime fighter terrorist secret ident...
4    based on novel mars medallion space travel pri...
dtype: object

In [11]:
for feature in features:
    df[feature] = df[feature].fillna('')

df["combined_features"] = df.apply(combine_features,axis=1)
df["combined_features"]

0       culture clash future space war space colony so...
1       ocean drug abuse exotic island east india trad...
2       spy based on novel secret agent sequel mi6 Dan...
3       dc comics crime fighter terrorist secret ident...
4       based on novel mars medallion space travel pri...
                              ...                        
4798    united states\u2013mexico barrier legs arms pa...
4799     Edward Burns Kerry Bish\u00e9 Marsha Dietlein...
4800    date love at first sight narration investigati...
4801     Daniel Henney Eliza Coupe Bill Paxton Alan Ru...
4802    obsession camcorder crush dream girl Drew Barr...
Name: combined_features, Length: 4803, dtype: object

여기서는 간단하게 보기 위해 해당 특성을 텍스트 데이터로 보고, 보고자하는 특성으로 이루어진 텍스트 데이터를 새로운 칼럼으로 생성했습니다.

#### 4. 벡터화하고, 코사인 유사도를 계산합니다.

이제 이 칼럼을 벡터화하고 코사인 유사도를 계산해보겠습니다. 장르, 배우명, 감독명의 텍스트 데이터를 범주형 데이터로 보기 때문에 단순하게 등장 획수를 세어 숫자 벡터로 만들어봅시다.

사이킷런의 `CountVectorizer()`를 사용하면 편하게 할 수 있습니다.

In [12]:
cv = CountVectorizer()
count_matrix = cv.fit_transform(df["combined_features"])
print(type(count_matrix))
print(count_matrix.shape)
print(count_matrix)

<class 'scipy.sparse.csr.csr_matrix'>
(4803, 14845)
  (0, 3115)	1
  (0, 2616)	1
  (0, 4886)	1
  (0, 12386)	2
  (0, 14235)	1
  (0, 2755)	1
  (0, 12299)	1
  (0, 11517)	1
  (0, 14561)	1
  (0, 14820)	1
  (0, 11490)	1
  (0, 12134)	1
  (0, 14291)	1
  (0, 12567)	1
  (0, 7496)	1
  (0, 8831)	1
  (0, 11217)	1
  (0, 86)	1
  (0, 144)	1
  (0, 4435)	1
  (0, 11745)	1
  (0, 4566)	1
  (0, 6542)	1
  (0, 2061)	1
  (1, 86)	1
  :	:
  (4801, 10069)	1
  (4801, 5844)	1
  (4801, 252)	1
  (4801, 4098)	1
  (4801, 14796)	1
  (4801, 11361)	1
  (4801, 2978)	1
  (4801, 12036)	1
  (4801, 6138)	1
  (4802, 9659)	1
  (4802, 3812)	1
  (4802, 1788)	2
  (4802, 4210)	1
  (4802, 5181)	1
  (4802, 2912)	1
  (4802, 3821)	1
  (4802, 1069)	1
  (4802, 11185)	1
  (4802, 3681)	1
  (4802, 5399)	1
  (4802, 3894)	1
  (4802, 2056)	1
  (4802, 3093)	1
  (4802, 4502)	1
  (4802, 5900)	2


`count_matrix`는 type을 확인해 본 결과, `CSR(Compressed Sparse Row) Matrix`였습니다. **CSR Matrix**는 Sparse한 matrix에서 0이 아닌 유효한 데이터로 채워지는 데이터의 값과 좌표 정보로만으로 구성하여 메모리 사용량을 최소화하면서도 Sparse한 matrix와 동일한 행렬을 표현할 수 있도록 하는 데이터 구조입니다.

예를 들어, `(0, 3115) 1`라고 되어 있는 것은 1번째 row는 3116번째 단어가 1번 출현한다는 뜻입니다. 이 데이터셋에는 총 14845개의 단어가 존재하는데, 이 단어들을 범주형으로 보고 그 단어의 출현 빈도만을 표시한 Matrix가 매우 Sparse하기 때문에 공간을 절약할 수 있는 형태로 표현한 것입니다.

이제 4803개의 영화들이 모두 Vectorized되었습니다. 이 영화들끼리의 코사인 유사도를 표현하는 4803X4803 의 `cosine_similarity matrix`를 구해 봅시다.

In [13]:
cosine_sim = cosine_similarity(count_matrix)
print(cosine_sim)
print(cosine_sim.shape)

[[1.         0.10540926 0.12038585 ... 0.         0.         0.        ]
 [0.10540926 1.         0.0761387  ... 0.03651484 0.         0.        ]
 [0.12038585 0.0761387  1.         ... 0.         0.11145564 0.        ]
 ...
 [0.         0.03651484 0.         ... 1.         0.         0.04264014]
 [0.         0.         0.11145564 ... 0.         1.         0.        ]
 [0.         0.         0.         ... 0.04264014 0.         1.        ]]
(4803, 4803)


#### 5. 추천

코사인 유사도로 계산된 가장 비슷한 영화 3편을 선별하여 추천해봅시다.

In [14]:
def get_title_from_index(index):
    return df[df.index == index]["title"].values[0]
def get_index_from_title(title):
    return df[df.title == title]["index"].values[0]

movie_user_likes = "Avatar"
movie_index = get_index_from_title(movie_user_likes)
similar_movies = list(enumerate(cosine_sim[movie_index]))

sorted_similar_movies = sorted(similar_movies,key=lambda x:x[1],reverse=True)[1:]

i=0
print(movie_user_likes+"와 비슷한 영화 3편은 "+"\n")
for item in sorted_similar_movies:
    print(get_title_from_index(item[0]))
    i=i+1
    if i==3:
        break

Avatar와 비슷한 영화 3편은 

Guardians of the Galaxy
Aliens
Star Wars: Clone Wars: Volume 1


`아바타(Avatar)`와 유사한 영화 3편은 `가디언즈 오브 갤럭시`, `에어리언`, `스타워즈`로 나왔네요!!

## 5. 협업 필터링 (1) - 협업 필터링의 종류

**협업 필터링(Collaborative Filtering)**은 <u>과거의 사용자 행동 양식(User Behavior) 데이터를 기반으로 추천</u>하는 방식입니다. 여기서 다루는 학습용 데이터 자체에서 사용자 행동양식을 나타내기 어렵지만, 잠재요인 기법을 활용하면 행동양식을 어느 정도 데이터로 나타낼 수 있습니다.

우선은 협업 필터링의 기본 원리를 살펴봅시다. 영화 추천을 예시로 들어보겠습니다. 아래 표를 살펴볼까요. 사용자들의 정보는 user_id에 저장되어 있습니다. 그리고 영화 정보는 item_id입니다. 사용자는 영화를 보고 평점 (rating)을 매겼습니다. 그 평점을 매긴 시각이 timestamp 칼럼에 기록되어있습니다.

|user_id|item_id|rating|timestamp|
|:---:|:---:|:---:|:---:|
|196|242|3|881250949|
|186|302|3|891717742|
|22|377|1|878887116|
|244|51|2|880606923|
|166|346|1|889387596|

위 데이터를 사용자와 아이템 간 `interaction matrix`로 변환합니다. 해당 행렬의 데이터로 평점을 넣으면 아래와 같은 형태가 되겠죠? 우리는 이를 **평점 행렬**이라고 부르기도 합니다. :)

![img](./data/img7.png)

이러한 행렬을 실제 데이터로 만든다면 굉장히 희소(sparse)한 행렬이 만들어집니다. 유튜브나 넷플릭스에는 몇 억 개의 동영상이 있고, 몇 억 명의 사용자가 모든 동영상을 다 봤을리 만무합니다. 따라서 대부분 평점에 대한 데이터는 0입니다.


협업 필터링의 종류에는 크게 1) **사용자 기반**과 2) **아이템 기반** 그리고 3) **잠재요인(latent factor) 방식**이 있다고 했는데요. 사용자 기반과 아이템 기반은 *유사도*를 계산하는 방식이고 잠재요인은 *행렬 인수분해(matrix factorization)* 를 이용해 잠재요인을 분석합니다. 넷플릭스의 추천 시스템에 잠재요인 분석을 사용하여 최근에는 잠재요인을 분석하는 사례가 많아지고 있는 추세입니다. 즉, 위에서 설명한 평점행렬로 변환한 후, 평점행렬의 유사도를 계산하여 추천하는 방식은 사용자 기반과 아이템 기반 방식입니다. 그리고 이 평점행렬을 분해하여 더 많은 정보들을 고려하는 방식이 잠재요인 필터링입니다.


### 사용자 기반

나와 비슷한 유저의 행동을 기반으로 추천하는 형식입니다. 

여기 사용자와 아이템간의 평점행렬이 있습니다. User4가 item1을 구매하였고, User4와 가장 유사한 User2는 item 1~4까지 다음과 같이 평점을 매겼다고 생각해봅시다.

![img](./data/img8.png)

그럼 어떤 제품을 추천해주는 것이 좋을까요? 비슷한 성향의 User2가 선호나는 제품인 item3을 추천해줄 것입니다.





### 아이템 기반

아이템 기반은 말 그대로 아이템간의 유사도를 측정하여 해당 아이템을 추천하는 방식입니다. 

일반적으로 사용자 기반보다 아이템 기반 방식이 *정확도가 더 높다*고 합니다. 

예를 들어 User2가 선호나는 아이템이 item1, item3이라고 해봅시다.

![img](https://aiffelstaticprd.blob.core.windows.net/media/images/0f-30.item1.max-800x600.png)

그럼 그 아이템에 대한 다른 User들의 선호도를 조사합니다. 

![img](https://aiffelstaticprd.blob.core.windows.net/media/images/0f-30.item2.max-800x600.png)

item1을 좋아하는 user4에게 user2가 좋아하는 상품인 Item3을 추천해줍니다.

![img](https://aiffelstaticprd.blob.core.windows.net/media/images/0f-30.item3.max-800x600.png)

즉, 아래의 한 문장으로 표현할 수 있습니다.

> **사용자 기반** : 당신과 비슷한 고객들이 다음 상품을 구매했습니다.
**아이템 기반** : 이 상품을 선택한 다른 고객들은 다음 상품을 구매했습니다. 

## 6. 협업 필터링 - (2) 행렬 인수분해

잠재요인 협업 필터링은 평점 행렬을 행렬 인수분해(matrix factorization)을 통해 잠재 요인(latent factor)을 분석합니다. 

행렬 인수분해에는 아래와 같은 기법들이 있습니다.

- SVD (Singular Vector Decomposition)
- ALS (Alternating Least Squares)
- NMF (Non-Negative Factorization)

행렬 인수분해도 인수분해와 비슷합니다. 30을 인수분해하면 `30 = 6x5 = 3x10 = 1x30` 이런 식으로 나타낼 수 있습니다. 행렬도 이렇게 곱으로 분해할 수 있으며, 분해 행렬을 사용하면 원하는 답을 더 쉽게 찾을 수 있습니다.

### SVD

**SVD(Singular Vector Decomposition)**은 우리 말로 하면 **특잇값 분해**입니다.

쉽게 말하자면 `M X N` 형태의 행렬 `A`를 다음과 같은 형태로 분해하여 나타내는 것입니다.

$$A = UΣV^{T}$$

그림으로 표현하면 아래와 같습니다.

![img](https://raw.githubusercontent.com/angeloyeo/angeloyeo.github.io/master/pics/2019-08-01_SVD/pic_SVD.png)

SVD가 수학적으로, 기하학적으로 어떤 의미를 갖는지는 아래 글을 통해 한번 확인해봅시다.

- [특이값 분해(SVD)](https://angeloyeo.github.io/2019/08/01/SVD.html)
- [\[선형대수학 #4\] 특이값 분해(Singular Value Decomposition, SVD)의 활용](https://darkpgmr.tistory.com/106)

#### SVD 실습

SVD는 NumPy에 이미 구현되어 있습니다. 직접 이 함수를 사용해봅시다.

`numpy.linalg`의 `svg` 모듈을 import한 후, `4x4` 형태의 행렬 A를 SVD 해보도록 하겠습니다.

In [1]:
import numpy as np
from numpy.linalg import svd

In [2]:
np.random.seed(30)
A = np.random.randint(0, 100, size=(4, 4))
A

array([[37, 37, 45, 45],
       [12, 23,  2, 53],
       [17, 46,  3, 41],
       [ 7, 65, 49, 45]])

In [3]:
svd(A)

(array([[-0.54937068, -0.2803037 , -0.76767503, -0.1740596 ],
        [-0.3581157 ,  0.69569442, -0.13554741,  0.60777407],
        [-0.41727183,  0.47142296,  0.28991733, -0.72082768],
        [-0.6291496 , -0.46389601,  0.55520257,  0.28411509]]),
 array([142.88131188,  39.87683209,  28.97701433,  14.97002405]),
 array([[-0.25280963, -0.62046326, -0.4025583 , -0.6237463 ],
        [ 0.06881225, -0.07117038, -0.8159854 ,  0.56953268],
        [-0.73215039,  0.61782756, -0.23266002, -0.16767299],
        [-0.62873522, -0.47775436,  0.34348792,  0.50838848]]))

결과값으로 행렬 `U`와 행렬 `Σ`, 행렬 `V`의 전치행렬이 생성됩니다. 우리는 이 값들을 unpacking해서 각각 변수명에 할당해 줍니다. 각 행렬들을 확인해 봅시다.

In [4]:
U, Sigma, VT = svd(A)

print('U matrix: {}\n'.format(U.shape),U)
print('Sigma: {}\n'.format(Sigma.shape),Sigma)
print('V Transpose matrix: {}\n'.format(VT.shape),VT)

U matrix: (4, 4)
 [[-0.54937068 -0.2803037  -0.76767503 -0.1740596 ]
 [-0.3581157   0.69569442 -0.13554741  0.60777407]
 [-0.41727183  0.47142296  0.28991733 -0.72082768]
 [-0.6291496  -0.46389601  0.55520257  0.28411509]]
Sigma: (4,)
 [142.88131188  39.87683209  28.97701433  14.97002405]
V Transpose matrix: (4, 4)
 [[-0.25280963 -0.62046326 -0.4025583  -0.6237463 ]
 [ 0.06881225 -0.07117038 -0.8159854   0.56953268]
 [-0.73215039  0.61782756 -0.23266002 -0.16767299]
 [-0.62873522 -0.47775436  0.34348792  0.50838848]]


잘 분해가 되었습니다.

이제 다시 복원해볼까요? 복원을 위해서는 U, Σ, VT를 내적합니다. 한 가지 유의할 사항은 Σ는 1차원이므로 0을 포함한 대각 행렬로 변환한 뒤 내적을 해주어야 합니다.

In [5]:
Sigma_mat = np.diag(Sigma)

A_ = np.dot(np.dot(U, Sigma_mat), VT)
A_

array([[37., 37., 45., 45.],
       [12., 23.,  2., 53.],
       [17., 46.,  3., 41.],
       [ 7., 65., 49., 45.]])

복원된 `A_` 와 `A`는 같다는 것을 확인할 수 있습니다.

### Truncated SVD

추천 시스템에서의 행렬 인수분해는 SVD 중에서도 Truncated SVD를 사용합니다.

**Truncated SVD**는 SVD의 일종으로, 우리 말로 번역하면 *잘린 SVD* 입니다. 다른 말로 LSA(Latent semantic analysis), 잠재 의미 분석이라고 번역할 수 있습니다. Truncated SVD를 이용해 분해한 뒤 복원하면 SVD처럼 완벽히 같은 행렬이 나오지 않습니다. 그 이유는 Truncated SVD는 <u>차원을 축소한 다음 행렬을 분해</u>하기 때문입니다.

사이킷런에서는 `TruncatedSVD` 기능을 함수로 제공해주고 있습니다.

아래 동영상에서 한번 자세히 확인해봅시다.

- [SVD: Optimal Truncation [Python]](https://www.youtube.com/watch?v=epoHE2rex0g&feature=emb_title)


<iframe width="560" height="315" src="https://www.youtube.com/embed/epoHE2rex0g" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>


## 7. 협업 필터링 (3) - 행렬 인수분해와 잠재요인 협업 필터링

SVD(특이값 분해)를 평가행렬에 적용하여 잠재요인을 분석하는 것을 도식화하면 아래와 같습니다.

![img](https://aiffelstaticprd.blob.core.windows.net/media/images/0f-30.svd2.max-800x600.png)

**표기법**

- R : 사용자와 아이템 사이의 행렬
- P : 사용자와 잠재요인 사이의 행렬
- Q : 아이템과 잠재요인 사이의 행렬 -> 전치 행렬로 나타냄

![img](https://aiffelstaticprd.blob.core.windows.net/media/images/0f-30.svd3.max-800x600.png)

사용자가 아이템에 대한 평점을 매기는 요인으로 많은 항목들이 있을 겁니다. 배우가 마음에 들어서, 감독이 좋아서, 좋아하는 장르 등등 평점을 매기는 것은 매우 주관적입니다.

그래서 사용자가 평점을 매기는 요인을 그냥 **잠재요인**이라고 취급한 뒤 그걸 SVD 기법을 이용해 분해하고 다시 합치는 방법을 사용합니다. 영화에 평점을 매긴 이유를 벡터화하여 이를 기반으로 추천합니다. 이 기법은 넷플릭스나 왓챠, 유튜브같은 기업에서 사용하고 있습니다.

아래 링크는 행렬 인수분해를 추천 시스템에 적용한 것을 보다 상세하게 설명한 동영상입니다.

- [How does Netflix recommend movies? Matrix Factorization](https://www.youtube.com/watch?v=ZspR5PZemcs&feature=emb_title)

## 8. 실제 추천 시스템

이상으로 추천 시스템의 기본에 대해 살펴 보았는데요. 실제로 YouTube나 Netflix 같은 대형 기업에서는 추천에 더 많은 것들을 고려합니다.

사용자의 구매 여부와 평점 데이터 뿐만 아니라 얼마나 오랜 시간 동안 시청(혹은 해당 웹 사이트에 머물렀는지), 어떤 사이트에서 유입이 되었는지, 그리고 시청한 뒤 구매로 이어지기까지의 시간 등 우리의 족적들을 다 분석합니다. 이를 전문 용어로 **Digital Footprint(디지털 발자국), Digital Shadow(디지털 그림자)**라고 해요.

그리고 이중에서 가장 중요한 지표가 바로 **클릭률**입니다. 전문 용어로는 **CTR(Click Through Rate)**입니다. CTR은 마케팅에서도 중요한 지표로 작용하는 용어이기도합니다.

- [Clickthrough rate(CTR)](https://support.google.com/google-ads/answer/2615875?hl=en)

이러한 데이터들을 모아 추천을 한 뒤, 해당 아이템이 적절한 추천인지 여부를 평가하는 것 역시 중요한 일입니다. 추천한 제품이 구매로 이어졌는지를 통해 추천에 성공했는지를 평가하기도 하고 모델 단계에서 평가하기도 합니다.

이처럼, 추천 시스템은 굉장히 큰 시스템입니다. 데이터를 기반으로 사용자에게 적절한 제품을 추천한다는 것 그리고 그것이 구매로 이어지는것은 매출과 직결되는 문제이기도 합니다. 좋은 추천 시스템을 만들기 위해서는 어떤 데이터를 쓸지 많은 고민이 필요합니다. 사용자와 연관성이 있고, 구매와 직결되는 각종 데이터를 수집하고 정렬(sorting)하여 다시 순위(ranking)를 매긴 다음 평가하는 작업을 반복해가며 적합한 데이터와 추천 시스템을 만들어냅니다.

In [6]:
from IPython.core.display import display, HTML

display(HTML("<style> .container{width:90% !important;}</style>"))