# 140. User-Item based Collaborative Filtering - Matrix Factorization

## Keras로 MF(Matrix Factorization) 구현하기 - GPU 필요 / Colab 사용


### MF 방식의 원리

<img src="https://i.imgur.com/90NB5Y1.png" width=400 />

$$R \approx P\times Q^T=\hat{R}$$

R: Rating matrix, P: User latent matrix, Q: Item latent matrix, k: latent factor(잠재 요인), $\hat{R}$: 예측값

- R 행렬의 각 element는 해당 사용자 아이템에 대한 평점. 이 행렬은 사용자가 실제로 평가한 아이템에 대한 평점만을 가지고 있으므로 많은 원소가 null 로 채워진 sparse matrix 이다.
- R 행렬을 사용자 행렬 (P)와 아이템 행렬(Q)로 쪼개어 분석하는 방법이  MF  
- $\hat{R}$이 최대한 R에 가까운 값을 가지도록 하는 P와 Q를 구하면 그 것이 바로 추천을 위한 model이 된다.

$$\hat{r_{ij}}=b+bu_i + bd_j + \sum_{k=1}^k{p_{ik}q_{kj}}$$

$\hat{r_{ij}}$: 사용자 i 의 아이템 j 에  대한 예측값,  
b: 전체 평균. 일단 데이터가 주어지면 하나로 정해지는 값   
$bu_i$: 전체 평균을 제거한 후 사용자 i의 평가 경향(사용자 i의 평균과 전체 평균의 차이)     
$bd_j$: 전체 평균을 제거한 후 아이템 j의 평가 경향(아이템 j의 평균과 전체 평균의 차이)   
$p_{ik}$: 행렬 P의 i 번째 사용자 vector    
$q_{kj}$: 행렬 Q의 column j 번째 item vector

### MF 를 신경망으로 구현

<img src="https://ichi.pro/assets/images/max/724/1*VqQ5B6ah4KhbDKNBgX-cfg.png" />

- Input Layer 는 one-hot-encoding 과 같다.
- Embedding Layer 는 latent factor d 에 해당.  
- 사용자와 아이템의 경향성(bias)을 feature 가 1 인  Embedding 으로 구현  
- 전체 평균(b)는 하나의 숫자이므로 신경망의 target value에서 일률적으로 빼 주고, 나중에 산출된 예측치에 일률적으로 더해주는 것이 전체 평균을 모델화 하는 것 보다 간단함.

In [None]:
# 필요한 library import
# 평점 데이터를 URL로부터 불러옵니다. r_cols는 열 이름을 정의합니다.
# 'timestamp' 열을 제거하고, 'user_id', 'movie_id', 'rating' 열만 남깁니다.
# 데이터 타입을 int로 변환하여 정수형 데이터로 처리합니다.

In [None]:
# 사용자 데이터를 URL로부터 불러옵니다. u_cols는 열 이름을 정의합니다.

In [None]:
# 필요한 열만 선택합니다.
# 'age' 열을 'age'의 최대값으로 나누어 0과 1 사이의 값으로 정규화합니다.

In [None]:
# 'user_id'를 기준으로 'ratings' 데이터프레임과 'users' 데이터프레임을 병합합니다.
# 이 과정을 통해 각 평점 데이터에 해당 사용자의 정보가 추가됩니다.

In [None]:
# 원-핫 인코딩을 적용하여 범주형 변수를 수치형으로 변환합니다.

In [None]:
# ratings 데이터프레임에서 'rating' 열을 제거하고, 이를 target_ratings에 저장

In [None]:
# 'ratings' 데이터프레임에서 첫 두 열을 제외한 나머지 열들을 선택하고,
# 열의 수를 'others_input_shape' 변수에 저장합니다.
# 이는 모델의 입력으로 사용될 기타 특성의 차원 수를 지정에 사용합니다.

In [None]:
# train test set 분리

In [None]:
# 잠재 요인(latent factor)의 수를 설정합니다.
# 훈련 데이터셋에서 평점의 평균을 계산합니다. 이 평균값은 추천 시스템의 기준선(baseline) 평가로 사용됩니다.
# 사용자 수를 계산합니다. user_id의 최대값에 1을 더함으로써 0부터 시작하는 인덱스를 맞춥니다.
# 영화 수를 계산합니다. movie_id의 최대값에 1을 더함으로써 0부터 시작하는 인덱스를 맞춥니다.
# 계산된 값을 출력합니다.

In [None]:
# 사용자 임베딩의 shape 확인
# 사용자 수(M)와 잠재 요인의 수(K)를 기반으로 한 임베딩 행렬에서
# 하나의 사용자 임베딩 벡터를 가져온 후 그 shape을 출력

### Shallow Neural Network

<img src="https://i.imgur.com/90NB5Y1.png" width=400 />

$$\hat{r}_{ij} = b + bu_i + bd_i + \sum_1^k{p_{ik}q_{jk}}$$
  
k :  잠재 요인(latent factor)의 수   
$\hat{r}_{ij}$ : 사용자 i의 아이템 j에 대한 예측값  
b : 전체 평균 (데이터가 주어지면 하나로 정해지는 상수)  
$bu_i$ : 전체 평균을 제거한 후 사용자 i의 평가 경향 (사용자 i의 평균과 전체 평균의 차이)  
$bd_i$ : 전체 평균을 제거한 후 아이텐 j의 평가 경향 (아이템 j의 평균과 전체 평균의 차이)  
$p_{ik}$ : 행렬 P의 i번째 사용자 vector  
$q_{jk}$ : 행렬 Q의 column j 번째 item vector  

In [None]:
# 사용자 입력 레이어
# Item 입력 레이어
# 기타 특성 입력 레이어
# 사용자 임베딩 레이어 (M, K)
# Item 임베딩 레이어 (N, K)
# 사용자 편향 (M, 1) 임베딩 레이어
# Item 편향 (N, 1) 임베딩 레이어
# Concatenate를 위해 임베딩 레이어들을 1차원으로 flatten
# 4개의 임베딩 레이어와 기타 특성들을 concatenate
# Hidden Layer로 연결
# 모델 설정

In [None]:
# 모델 학습
    # 타겟 값에서 전체 평점의 평균을 뺀 값으로, 타입은 float32
    # 이렇게 하는 이유는 데이터의 평균을 0으로 맞추어 학습 성능을 향상시키기 위함.

In [None]:
# 모델 평가를 수행합니다.
    # 테스트 타겟 값에서 전체 평점의 평균을 뺀 값

In [None]:
# Plot MSE

In [None]:
# 테스트 세트에서 사용자 ID와 영화 ID, 그리고 기타 특성을 6개 선택
# 학습된 모델을 사용하여 선택된 샘플에 대한 평점 예측을 수행합니다.
# 예측된 결과에 전체 평점 평균(mu)을 더하여 실제 평점 범위로 변환합니다.
# 실제 평점과 예측 평점을 출력하여 비교

In [None]:
# 테스트 세트에서 사용자 ID, 영화 ID, 그리고 기타 특성을 전체 선택
# 모델을 사용하여 전체 테스트 세트에 대한 예측을 수행하고, 전체 평균(mu)을 더해 실제 평점 범위로 변환
# 실제 평점
# 실제 값과 예측 값 사이의 평균 제곱 오차(MSE) 계산