<a href="https://colab.research.google.com/github/jeongwoo22/ESAA_assignments/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 9. 추천 시스템

- 추천시스템 : 사용자의 취향을 이해하고 맞춤 상품과 콘텐츠를 제공
- 유형
1. 콘텐츠 기반 필터링 방식
2. 협업 필터링 방식
3. 최근접 이웃(nearest neighbor) 협업 필터링
4. 잠재 요인(latent factor) 협업 필터링

### 최근접 이웃 협업 필터링
- 사용자 기반 : 당신과 비슷한 고객들이 다음 상품도 구매했습니다
- 아이템 기반 : 이 상품을 선택한 다른 고객들은 다음 상품도 구매했습니다

### 잠재 요인 협업 필터링
- 행렬 분해 : 다차원의 매트릭스를 저차원의 매트릭스로 분해하는 기법
- P와 Q 행렬로 계산된 예측 R 행렬 값이 실제 R 행렬 값과 가장 최소의 오류를 가질 수 있도록 반복적인 비용 함수 최적화를 통해 P와 Q를 유추

In [1]:
# SGD 이용 행렬 분해 예제 구현
import numpy as np

# 원본 행렬 R 생성, 분해 행렬 P와 Q 초기화, 잠재 요인 차원 k는 3으로 설정
R = np.array([[4, np.NaN, np.NaN, 2, np.NaN],
             [np.NaN, 5, np.NaN, 3, 1],
             [np.NaN, np.NaN, 3, 4, 4],
             [5,2,1,2,np.NaN]])
num_users, num_items = R.shape
K=3

# P와 Q 행렬의 크기를 지정하고 정규 분포를 가진 임의의 값으로 입력
np.random.seed(1)
P = np.random.normal(scale=1./K, size=(num_users, K))
Q = np.random.normal(scale=1./K, size=(num_items, K))

# 실제 R 행렬과 예측 행렬의 오차를 구하는 함수
from sklearn.metrics import mean_squared_error

def get_rmse(R, P, Q, non_zeros):
    error=0
    # 두개의 분해된 행렬 P와 Q.T의 내적으로 예측 R행렬 생성
    full_pred_matrix = np.dot(P, Q.T)
    
    # 실제 R 행렬에서 널이 아닌 값의 위치 인덱스 추출해 실제 R 행렬과 예측 R 행렬의 RMSE 추출
    x_non_zero_ind = [non_zero[0] for non_zero in non_zeros]
    y_non_zero_ind = [non_zero[1] for non_zero in non_zeros]
    R_non_zeros = R[x_non_zero_ind, y_non_zero_ind]
    full_pred_matrix_non_zeros = full_pred_matrix[x_non_zero_ind, y_non_zero_ind]
    mse = mean_squared_error(R_non_zeros, full_pred_matrix_non_zeros)
    rmse = np.sqrt(mse)
    
    return rmse

In [2]:
# 행렬 분해 수행


# R>0인 행 위치, 열 위치, 값을 non_zeros 리스트에 저장
non_zeros = [(i,j,R[i,j]) for i in range(num_users) for j in range(num_items) if R[i,j] >0]

               
steps = 1000
learning_rate=0.01
r_lambda = 0.01
               
# SGD 기법으로 P와 Q 매트릭스를 계속 업데이트
for step in range(steps):
    for i, j, r in non_zeros:
        # 실제 값과 예측 값의 차이인 오류 값 구함
        eij = r - np.dot(P[i, :], Q[j, :].T)
        # regulazation을 반영한 SGD 업데이트 공식 적용
        P[i,:] = P[i,:] + learning_rate*(eij*Q[j,:] - r_lambda*P[i,:])
        Q[i,:] = Q[j,:] + learning_rate*(eij*P[i,:] - r_lambda*Q[j,:])
        
        rmse = get_rmse(R, P, Q, non_zeros)
        if (step % 50) == 0:
            print('### iteration step :', step, " rmse : ", rmse)

### iteration step : 0  rmse :  3.261355059488935
### iteration step : 0  rmse :  3.1984901171855276
### iteration step : 0  rmse :  3.191938612664226
### iteration step : 0  rmse :  3.269724036977048
### iteration step : 0  rmse :  3.273369970593006
### iteration step : 0  rmse :  3.2721602492357884
### iteration step : 0  rmse :  3.2595556940159316
### iteration step : 0  rmse :  3.2574865706972673
### iteration step : 0  rmse :  3.2507063320619514
### iteration step : 0  rmse :  3.2452320011487616
### iteration step : 0  rmse :  3.2456642090625136
### iteration step : 0  rmse :  3.2435761148227993
### iteration step : 50  rmse :  2.558752831432773
### iteration step : 50  rmse :  2.5793381235643746
### iteration step : 50  rmse :  2.5570412153604507
### iteration step : 50  rmse :  2.541584103356699
### iteration step : 50  rmse :  2.5763441849253392
### iteration step : 50  rmse :  2.5680973443592583
### iteration step : 50  rmse :  2.5596361960197918
### iteration step : 50  rmse 

In [3]:
# 분해된 P, Q 함수로 예측 행렬 만들어서 출력
pred_matrix = np.dot(P, Q.T)
print('예측 행렬:\n', np.round(pred_matrix, 3))

예측 행렬:
 [[2.228 1.861 3.348 2.528 2.856]
 [2.175 1.816 3.271 2.468 2.791]
 [2.524 2.109 3.792 2.864 3.234]
 [1.801 1.504 2.709 2.044 2.311]]
