# 내용 기반 추천

`1` 상품의 속성 데이터, 즉 `어떤` 삼품인지를 사용해서 추천

`2` 데이터 예시 1 : 각 영화마다 어떤 속성(장르)인지 0과 1사이로 표현

||액션|로맨스|코미디|감동|
|:---:|:---:|:---:|:---:|:---:|
|러브 액츄얼리|0.1|0.9|0.9|0.6|
|반지의 제왕|1.0|0.5|0|0.2|
|국제 시장|0.5|0.2|0|1.0|
|극한 직업|0.8|0.9|1.0|0|
|어바웃 타임|0.3|0.9|0.8|0.5|

`3` 데이터 예시 2 : 유저와 영화 평점 데이터

||러브 액츄얼리|반지의 제왕|해리 포터|극한 직업|
|:---:|:---:|:---:|:---:|:---:|
|현승|5|1|-|5|
|영훈|-|2|2|0|
|동욱|-|4|0|1|
|종훈|3|-|4|3|
|우재|5|4|-|2|
|...|...|...|...|...|

`4` 만약 현승에게 영화 추천을 한다면? 두 개의 데이터를 합해서 다음과 같은 구조로 만듬

* 입력 변수 : `액션 ~ 코미디`

* 목표 변수 : 현승의 영화 평점

||액션|로맨스|코미디|감동|현승|
|:---:|:---:|:---:|:---:|:---:|:---:|
|러브 액츄얼리|0.1|0.9|0.9|0.6|5|
|반지의 제왕|1.0|0.5|0|0.2|1.0|
|국제 시장|0.5|0.2|0|1.0|1.0|
|극한 직업|0.8|0.9|1.0|0|1.0|
|어바웃 타임|0.3|0.9|0.8|0.5|5|

`5` 해당 데이터를 기반으로 학습 시킨 모델로 현승이 어떤 영화의 어떤 평점을 줄 지 예상할 수 있음

* 분류 알고리즘 : 좋아요/싫어요

* 회귀 알고리즘 : 1~5점, 선형 회귀, 다항 회귀....

***

# ex1. 선형회귀

`1` 패키지 로드

In [2]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np

`2` 데이터 로드

In [6]:
MOVIE_DATA_PATH = './data/movie_rating.csv'
movie_rating_df = pd.read_csv(MOVIE_DATA_PATH)

movie_rating_df.head()

Unnamed: 0,romance,action,comedy,heart-warming,rating
0,0.740458,0.7338,0.526879,0.332906,3
1,0.658391,0.825211,0.608177,0.906809,5
2,0.68025,0.401992,0.400964,0.535223,2
3,0.572216,0.312618,0.496313,0.319996,1
4,0.543545,0.623021,0.71311,0.696774,4


`3` X, y 분리

In [7]:
target = "rating"

X = movie_rating_df.drop(target, axis = 1)
Y = movie_rating_df[target]

`4` 훈련, 검증 데이터 분리

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=5)

`5` 모델 학슴

In [9]:
model = LinearRegression()

model.fit(X_train, y_train)

`6` 예측

In [11]:
y_pred = model.predict(X_test)
y_pred

array([3.83034441, 2.59418977, 2.63653567, 3.48333221, 2.75217812,
       2.43303141, 3.03247628, 4.41312853, 4.28145539, 3.61139607,
       3.82260281, 3.01099122, 3.06324646, 4.41401949, 4.08837667,
       3.30347874, 4.69514621, 4.3397661 , 3.42084949, 3.94638571])

# 장단점

`1` 장점

* 상품을 추천할 때 다른 유저 데이터가 필요하지 않다.
    * 즉, 혼자서 부지런히 평점을 주면 자신의 활동을 기반으로 다른 상품들을 추천받을 수 있다.


* 새롭게 출시한 상품이나, 인기가 없는 상품을 추천할 수 있다.
    * 다른 유저들의 데이터를 사용하지 않기 때문!

`2` 단점

* 상품에 대한 적합한 속성을 고르는 것이 어렵다.
    * 어떤 영화는 배우, 어떤 영화는 감독이 중요한 영화일 수 있기 때문
 
* 고른 속성 값들이 주관적으로 선정될 수 있다.

* 유저가 준 데이터를 벗어나는 추천을 할 수 없다.
    * 유저가 코디디, 액션 영화만 평점을 주었다면, 로맨스, 스릴러와 같은 영화를 추천할 수 없다.
 
* 인기가 많은 상품들을 더 추천해 줄 수 없다.
    * 다른 사람들이 좋게 평가한 영화들을 추천받기 힘들기 때문!