In [2]:
import numpy as np
import pandas as pd

# 영화 예시 평점 행렬 R (0은 아직 평점이 없는 항목)
data = {
    '사용자': ['사용자 A', '사용자 B', '사용자 C', '사용자 D'],
    '기생충': [5, 4, 1, 0],
    '부산행': [0, 2, 0, 4],
    '도둑들': [3, 0, 5, 4],
    '태극기휘날리며': [1, 0, 4, 2]
}

# 데이터프레임으로 변환
df = pd.DataFrame(data)
df.set_index('사용자', inplace=True)

print("평점 행렬 R:")
print(df)

평점 행렬 R:
       기생충  부산행  도둑들  태극기휘날리며
사용자                          
사용자 A    5    0    3        1
사용자 B    4    2    0        0
사용자 C    1    0    5        4
사용자 D    0    4    4        2


In [3]:
# 행렬 분해 함수
def matrix_factorization(R, K, steps=5000, alpha=0.0002, beta=0.02):
    N = len(R)
    M = len(R[0])
    
    # 사용자 잠재 요인 행렬 P (N x K)
    P = np.random.rand(N, K)
    
    # 아이템 잠재 요인 행렬 Q (M x K)
    Q = np.random.rand(M, K)
    
    # Q.T를 구함
    Q = Q.T
    
    # 학습 과정
    for step in range(steps):
        for i in range(N):
            for j in range(M):
                if R[i][j] > 0:
                    # 예측된 평점
                    eij = R[i][j] - np.dot(P[i, :], Q[:, j])
                    
                    # 경사 하강법으로 P와 Q 업데이트
                    for k in range(K):
                        P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])
                        Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])
        
        # 손실 함수 계산
        eR = np.dot(P, Q)
        e = 0
        for i in range(N):
            for j in range(M):
                if R[i][j] > 0:
                    e = e + pow(R[i][j] - np.dot(P[i, :], Q[:, j]), 2)
                    for k in range(K):
                        e = e + (beta/2) * (pow(P[i][k], 2) + pow(Q[k][j], 2))
        if e < 0.001:
            break
    
    return P, Q.T

In [4]:
# 평점 행렬을 넘파이 배열로 변환
R = df.values

# 잠재 요인 수 K
K = 2

# 행렬 분해 수행
P, Q = matrix_factorization(R, K)

# 예측 평점 행렬
nR = np.dot(P, Q.T)

# 결과를 데이터프레임으로 변환
nR_df = pd.DataFrame(nR, index=df.index, columns=df.columns)

print("원래 평점 행렬 R:")
print(df)
print("\n사용자 잠재 요인 행렬 P:")
print(pd.DataFrame(P, index=df.index))
print("\n아이템 잠재 요인 행렬 Q:")
print(pd.DataFrame(Q, index=df.columns))
print("\n예측 평점 행렬 nR:")
print(nR_df)

원래 평점 행렬 R:
       기생충  부산행  도둑들  태극기휘날리며
사용자                          
사용자 A    5    0    3        1
사용자 B    4    2    0        0
사용자 C    1    0    5        4
사용자 D    0    4    4        2

사용자 잠재 요인 행렬 P:
              0         1
사용자                      
사용자 A  1.642064  0.908459
사용자 B  0.943131  1.302904
사용자 C -0.656783  2.260339
사용자 D  1.941840  1.397582

아이템 잠재 요인 행렬 Q:
                0         1
기생충      2.431363  1.167378
부산행      1.445443  0.719130
도둑들      0.452065  2.321348
태극기휘날리며 -0.248432  1.696559

예측 평점 행렬 nR:
            기생충       부산행       도둑들   태극기휘날리며
사용자                                          
사용자 A  5.052968  3.026810  2.851169  1.133312
사용자 B  3.814077  2.300200  3.450851  1.976149
사용자 C  1.041793  0.676136  4.950126  3.997964
사용자 D  6.352823  3.811861  4.122112  1.888664


In [5]:
# 더 많은 데이터의 경우
data = {
    '사용자': ['사용자 A', '사용자 B', '사용자 C', '사용자 D', '사용자 E'],
    '기생충': [5, 4, 1, 0, 3],
    '부산행': [0, 2, 0, 4, 0],
    '태극기 휘날리며': [3, 0, 5, 4, 0],
    '도둑들': [1, 0, 4, 2, 4],
    '설국열차': [0, 3, 0, 0, 5],
    '범죄도시': [2, 0, 4, 0, 3],
}

# 데이터프레임으로 변환
df = pd.DataFrame(data)
df.set_index('사용자', inplace=True)

# 행렬 분해 함수
def matrix_factorization(R, K, steps=5000, alpha=0.0002, beta=0.02):
    N = len(R)
    M = len(R[0])
    
    # 사용자 잠재 요인 행렬 P (N x K)
    P = np.random.rand(N, K)
    
    # 아이템 잠재 요인 행렬 Q (M x K)
    Q = np.random.rand(M, K)
    
    # Q.T를 구함
    Q = Q.T
    
    # 학습 과정
    for step in range(steps):
        for i in range(N):
            for j in range(M):
                if R[i][j] > 0:
                    # 예측된 평점
                    eij = R[i][j] - np.dot(P[i, :], Q[:, j])
                    
                    # 경사 하강법으로 P와 Q 업데이트
                    for k in range(K):
                        P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])
                        Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])
        
        # 손실 함수 계산
        eR = np.dot(P, Q)
        e = 0
        for i in range(N):
            for j in range(M):
                if R[i][j] > 0:
                    e = e + pow(R[i][j] - np.dot(P[i, :], Q[:, j]), 2)
                    for k in range(K):
                        e = e + (beta/2) * (pow(P[i][k], 2) + pow(Q[k][j], 2))
        if e < 0.001:
            break
    
    return P, Q.T

# 평점 행렬을 넘파이 배열로 변환
R = df.values

# 잠재 요인 수 K
K = 2

# 행렬 분해 수행
P, Q = matrix_factorization(R, K)

# 예측 평점 행렬
nR = np.dot(P, Q.T)

# 결과를 데이터프레임으로 변환
nR_df = pd.DataFrame(nR, index=df.index, columns=df.columns)

print("원래 평점 행렬 R:")
print(df)
print("\n사용자 잠재 요인 행렬 P:")
print(pd.DataFrame(P, index=df.index))
print("\n아이템 잠재 요인 행렬 Q:")
print(pd.DataFrame(Q, index=df.columns, columns=['잠재 요인 1', '잠재 요인 2']))
print("\n예측 평점 행렬 nR:")
print(nR_df)

원래 평점 행렬 R:
       기생충  부산행  태극기 휘날리며  도둑들  설국열차  범죄도시
사용자                                       
사용자 A    5    0         3    1     0     2
사용자 B    4    2         0    0     3     0
사용자 C    1    0         5    4     0     4
사용자 D    0    4         4    2     0     0
사용자 E    3    0         0    4     5     3

사용자 잠재 요인 행렬 P:
              0         1
사용자                      
사용자 A -0.003346  2.096099
사용자 B  0.036301  1.686590
사용자 C  2.424756  0.841172
사용자 D  1.257176  1.254504
사용자 E  1.693002  1.557821

아이템 잠재 요인 행렬 Q:
           잠재 요인 1   잠재 요인 2
기생충      -0.409604  2.368458
부산행       1.789102  1.217231
태극기 휘날리며  1.597280  1.447805
도둑들       1.468344  0.574999
설국열차      1.414989  1.697509
범죄도시      1.255223  0.833432

예측 평점 행렬 nR:
            기생충       부산행  태극기 휘날리며       도둑들      설국열차      범죄도시
사용자                                                              
사용자 A  4.965894  2.545450  3.029398  1.200341  3.553412  1.742756
사용자 B  3.979749  2.117915  2.499836  1.023089  2.914366 