# Matrix Factorization Model

- https://velog.io/@vvakki_/Matrix-Factorization-2
- https://youtu.be/Z49JNxS4vsc
- https://angeloyeo.github.io/2019/08/01/SVD.html (SVD) -> 근데 SGD를 사용하는게 일반적이라고 함, SVD는 현실적으로 불가능에 가깝다 ㅇㅇ
- MF(Matrix Factorization): 행렬분해로 추천시스템에서 사용자, 아이템의 관계를 가장 잘 설명하는 P, Q행렬로 분해하는 것을 의미한다.

- 가상의 사용자 A, B, C
- 의류 아이템 X, Y, Z

![](./imgs/img1.png)

- 위 행렬은 사용자 A가 의류 아이템 X와 Z를 구매했음을 나타내며, 사용자 B는 의류 아이템 X와 Y를, 사용자 C는 의류 아이템 Y와 Z를 구매했음을 나타냅니다.

### SVD를 사용하여 행렬 분해하기

1. 사용자-아이템 행렬을 SVD를 통해 세 개의 작은 행렬로 분해합니다. 일반적으로 행렬 A는 U, Σ, V^T 세 개의 행렬로 분해됩니다.
2. U는 사용자 특성 벡터를 담은 행렬이며, 사용자의 차원을 나타냅니다.
3. Σ는 특이값을 대각 성분으로 가지는 대각 행렬이며, 행렬의 크기는 사용자와 아이템의 개수에 따라 달라집니다.
4. V^T는 아이템 특성 벡터를 담은 행렬이며, 아이템의 차원을 나타냅니다.

### 특성 벡터 학습하기

1. SVD를 통해 얻은 U와 V^T 행렬을 사용하여 사용자와 아이템 간의 특성 벡터를 학습합니다.
2. 일반적으로, U와 V^T의 특정 행은 각각 사용자와 아이템에 대한 특성 벡터를 나타냅니다.

### 새로운 사용자에게 추천하기

1. 새로운 사용자에게 의류 아이템을 추천할 때, 해당 사용자의 특성 벡터를 예측하고, 다른 사용자나 아이템과의 유사도를 계산하여 추천할 아이템을 결정합니다.
2. 유사도는 벡터 간의 거리나 내적 등의 측정 방법으로 계산할 수 있습니다.


In [21]:
import numpy as np

# 사용자-아이템 행렬 정의
user_item_matrix = np.array([
    [1, 0, 1],
    [1, 1, 0],
    [0, 1, 1],
])

# SVD 적용
U, s, VT = np.linalg.svd(user_item_matrix)

# 사용자 특성 벡터
user_features = U
print("사용자 특성 벡터:")
for i in range(user_features.shape[0]):
    print(f"사용자 {chr(ord('A') + i)}: {user_features[i]}")

# 아이템 특성 벡터
item_features = VT.T
print("\n아이템 특성 벡터:")
for i in range(item_features.shape[0]):
    print(f"아이템 {chr(ord('X') + i)}: {item_features[i]}")


사용자 특성 벡터:
사용자 A: [-0.57735027  0.40824829  0.70710678]
사용자 B: [-0.57735027  0.40824829 -0.70710678]
사용자 C: [-0.57735027 -0.81649658  0.        ]

아이템 특성 벡터:
아이템 X: [-0.57735027  0.81649658  0.        ]
아이템 Y: [-0.57735027 -0.40824829 -0.70710678]
아이템 Z: [-0.57735027 -0.40824829  0.70710678]


- 위의 예시에서 가상의 사용자 A, B, C와 의류 아이템 X, Y, Z에 대한 특성 벡터를 얻을 수 있음
- SVD를 통해 얻은 특성 벡터는 사용자와 아이템 간의 상관 관계를 나타내며, 추천 시스템 등에 활용할 수 있음
- 실제 데이터에 SVD를 적용할 때에도 비슷한 방식으로 특성 벡터를 구할 수 있음
- 스칼라 값 자체가 더 중요하지 백테 방향 (양수 음수)는 중요하지 않음


### Collaborative Filtering Approach

1. neighborhood methods
- 아이템 끼리, 사용자 끼리 관계 계산 후 가장 가까운 거리 (사용자 또는 아이템)을 추천

2. latent factor models
- rating pattern, factor를 추출하는 방식
- 해석하기 어려운 factor가 추출될 수 있음
- **이 경우를 matrix factorization method를 활용할 수 있다**
- cold start 의 문제, 기존 데이터가 없고 완전 신규 유저 문제


### 위 예시에 이어서 새로운 유저 유입 & 예제

![](./imgs/img2.png)

In [36]:
import numpy as np

# 사용자-아이템 행렬 정의
user_item_matrix = np.array([[1, 0, 1],
                             [1, 1, 0],
                             [0, 1, 1],
                             [1, 0, 0]])

# SVD 적용
U, s, VT = np.linalg.svd(user_item_matrix)

# 사용자 특성 벡터
user_features = U
print("사용자 특성 벡터:")
for i in range(user_features.shape[0]):
    print(f"사용자 {chr(ord('A') + i)}: {user_features[i]}")

# 아이템 특성 벡터
item_features = VT.T
print("\n아이템 특성 벡터:")
for i in range(item_features.shape[0]):
    print(f"아이템 {chr(ord('X') + i)}: {item_features[i]}")

print("====================================================")

user_d_features = user_features[3]
print(f"user_d_features >> {user_d_features}")

# # 다른 아이템에 대한 추천, 4 by 3 내적으로 인해 제외
# item_scores = np.dot(user_d_features[1:], VT)
# print(f"item_scores >> {item_scores}")

# recommended_items = np.argsort(item_scores)[::-1]  # 추천 아이템을 점수의 내림차순으로 정렬합니다.
# print(f"recommended_items >> {recommended_items}")
# recommended_items = [chr(ord('X') + item_index) for item_index in recommended_items]
# print(recommended_items)


사용자 특성 벡터:
사용자 A: [-0.57453835  0.16446442 -0.70710678 -0.37796447]
사용자 B: [-0.57453835  0.16446442  0.70710678 -0.37796447]
사용자 C: [-4.75963149e-01 -7.94104488e-01  1.11022302e-16  3.77964473e-01]
사용자 D: [-3.36556771e-01  5.61516668e-01 -2.22044605e-16  7.55928946e-01]

아이템 특성 벡터:
아이템 X: [-0.70710678  0.70710678 -0.        ]
아이템 Y: [-0.5        -0.5         0.70710678]
아이템 Z: [-0.5        -0.5        -0.70710678]
user_d_features >> [-3.36556771e-01  5.61516668e-01 -2.22044605e-16  7.55928946e-01]


### 아래 부터가 찐, SGD 활용, Collaborative Filtering Approach의 latent factor models

In [40]:
# https://eda-ai-lab.tistory.com/528

import numpy as np
from tqdm import tqdm_notebook as tqdm

# Base code : https://yamalab.tistory.com/92
class MatrixFactorization():
    def __init__(self, R, k, learning_rate, reg_param, epochs, verbose=False):
        """
        :param R: rating matrix
        :param k: latent parameter
        :param learning_rate: alpha on weight update
        :param reg_param: beta on weight update
        :param epochs: training epochs
        :param verbose: print status
        """

        self._R = R
        self._num_users, self._num_items = R.shape
        self._k = k
        self._learning_rate = learning_rate
        self._reg_param = reg_param
        self._epochs = epochs
        self._verbose = verbose


    def fit(self):
        """
        training Matrix Factorization : Update matrix latent weight and bias

        참고: self._b에 대한 설명
        - global bias: input R에서 평가가 매겨진 rating의 평균값을 global bias로 사용
        - 정규화 기능. 최종 rating에 음수가 들어가는 것 대신 latent feature에 음수가 포함되도록 해줌.

        :return: training_process
        """

        # init latent features
        self._P = np.random.normal(size=(self._num_users, self._k))
        self._Q = np.random.normal(size=(self._num_items, self._k))

        # init biases
        self._b_P = np.zeros(self._num_users)
        self._b_Q = np.zeros(self._num_items)
        self._b = np.mean(self._R[np.where(self._R != 0)])

        # train while epochs
        self._training_process = []
        for epoch in range(self._epochs):
            # rating이 존재하는 index를 기준으로 training
            xi, yi = self._R.nonzero()
            for i, j in zip(xi, yi):
                self.gradient_descent(i, j, self._R[i, j])
            cost = self.cost()
            self._training_process.append((epoch, cost))

            # print status
            if self._verbose == True and ((epoch + 1) % 10 == 0):
                print("Iteration: %d ; cost = %.4f" % (epoch + 1, cost))


    def cost(self):
        """
        compute root mean square error
        :return: rmse cost
        """

        # xi, yi: R[xi, yi]는 nonzero인 value를 의미한다.
        # 참고: http://codepractice.tistory.com/90
        xi, yi = self._R.nonzero()
        # predicted = self.get_complete_matrix()
        cost = 0
        for x, y in zip(xi, yi):
            cost += pow(self._R[x, y] - self.get_prediction(x, y), 2)
        return np.sqrt(cost/len(xi))


    def gradient(self, error, i, j):
        """
        gradient of latent feature for GD

        :param error: rating - prediction error
        :param i: user index
        :param j: item index
        :return: gradient of latent feature tuple
        """

        dp = (error * self._Q[j, :]) - (self._reg_param * self._P[i, :])
        dq = (error * self._P[i, :]) - (self._reg_param * self._Q[j, :])
        return dp, dq


    def gradient_descent(self, i, j, rating):
        """
        graident descent function

        :param i: user index of matrix
        :param j: item index of matrix
        :param rating: rating of (i,j)
        """

        # get error
        prediction = self.get_prediction(i, j)
        error = rating - prediction

        # update biases
        self._b_P[i] += self._learning_rate * (error - self._reg_param * self._b_P[i])
        self._b_Q[j] += self._learning_rate * (error - self._reg_param * self._b_Q[j])

        # update latent feature
        dp, dq = self.gradient(error, i, j)
        self._P[i, :] += self._learning_rate * dp
        self._Q[j, :] += self._learning_rate * dq


    def get_prediction(self, i, j):
        """
        get predicted rating: user_i, item_j
        :return: prediction of r_ij
        """
        return self._b + self._b_P[i] + self._b_Q[j] + self._P[i, :].dot(self._Q[j, :].T)


    def get_complete_matrix(self):
        """
        computer complete matrix PXQ + P.bias + Q.bias + global bias

        - PXQ 행렬에 b_P[:, np.newaxis]를 더하는 것은 각 열마다 bias를 더해주는 것
        - b_Q[np.newaxis:, ]를 더하는 것은 각 행마다 bias를 더해주는 것
        - b를 더하는 것은 각 element마다 bias를 더해주는 것

        - newaxis: 차원을 추가해줌. 1차원인 Latent들로 2차원의 R에 행/열 단위 연산을 해주기위해 차원을 추가하는 것.

        :return: complete matrix R^
        """
        return self._b + self._b_P[:, np.newaxis] + self._b_Q[np.newaxis:, ] + self._P.dot(self._Q.T)



# run example
if __name__ == "__main__":
    # rating matrix - User X Item : (7 X 5)
    R = np.array([
        [1, 0, 0, 1, 3],
        [2, 0, 3, 1, 1],
        [1, 2, 0, 5, 0],
        [1, 0, 0, 4, 4],
        [2, 1, 5, 4, 0],
        [5, 1, 5, 4, 0],
        [0, 0, 0, 1, 0],
    ])

    # P, Q is (7 X k), (k X 5) matrix
    factorizer = MatrixFactorization(R, k=3, learning_rate=0.01, reg_param=0.01, epochs=100, verbose=True)
    factorizer.fit()
    print(factorizer.get_complete_matrix())



Iteration: 10 ; cost = 1.1079
Iteration: 20 ; cost = 0.8494
Iteration: 30 ; cost = 0.6812
Iteration: 40 ; cost = 0.5510
Iteration: 50 ; cost = 0.4509
Iteration: 60 ; cost = 0.3761
Iteration: 70 ; cost = 0.3204
Iteration: 80 ; cost = 0.2780
Iteration: 90 ; cost = 0.2449
Iteration: 100 ; cost = 0.2185
[[0.98769979 2.84597234 2.17617542 1.13005279 2.94194643]
 [1.92352147 0.56290515 2.55842729 1.74797987 0.85477717]
 [1.01778402 2.13965893 5.96520207 4.76524356 2.7625116 ]
 [1.04882045 2.15540713 4.51881071 3.87763933 4.05656033]
 [2.04353085 0.95668995 5.16991124 3.80932237 0.31702405]
 [4.94272182 0.96416527 4.95294799 4.12326927 0.72202091]
 [4.72636954 1.0010211  1.14396956 0.7503631  1.08591756]]
