<a href="https://colab.research.google.com/github/ShinwooChoi/ESAA-OB/blob/main/10_13_ESAA_OB_%ED%95%84%EC%82%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

범위: <파이썬 머신러닝 완벽 가이드> 9장 p.584-601

### 01 추천 시스템의 개요와 배경

### 추천 시스템의 개요
- 현대 사회는 ‘추천 시스템(Recommendation System)’의 전성시대  
- 유튜브, 애플뮤직, 넷플릭스 등은 사용자의 취향을 분석해 맞춤형 상품과 콘텐츠를 제공  
- 추천 시스템은 사용자를 오래 머물게 하여 매출을 극대화하는 핵심 기술로 발전  

### 추천 시스템의 효과
- 전자상거래 업계는 추천 시스템을 통해 **매출 상승**과 **사용자 만족도 향상** 달성  
- 사용자의 클릭, 구매, 시청 기록을 기반으로 개인화된 추천 제공  
- 예시:  
  - 유튜브: 사용자가 자주 듣는 노래와 유사한 음악 추천  
  - 넷플릭스: 시청한 영화 장르와 비슷한 콘텐츠 추천  
  - 아마존: ‘이 상품을 본 고객이 함께 본 상품’ 형태의 추천  

### 온라인 스토어에서의 필요성
- 온라인 스토어는 너무 많은 상품으로 인해 사용자가 선택 피로를 느낌  
- 추천 시스템은 사용자가 원하는 상품을 빠르게 찾을 수 있도록 도와줌  
- 즉, **사용자의 선택 부담을 줄이고 쇼핑의 즐거움 향상**



### 02 추천 시스템의 유형

### 1) 콘텐츠 기반 필터링(Content-based Filtering)
- 사용자가 과거에 좋아한 아이템과 **유사한 속성**을 가진 아이템을 추천  
- 예: 사용자가 특정 영화를 높게 평가했다면, 그 영화의 장르·감독·배우와 유사한 영화 추천  
- 장점: 개인 취향 반영이 뛰어남  
- 단점: 새로운 아이템에 대한 정보 부족 시 추천 어려움 (콜드스타트 문제)  

### 2) 협업 필터링(Collaborative Filtering)
- 사용자 간의 **유사성(Similarity)** 또는 **아이템 간 유사성**을 기반으로 추천  
- 주요 방식  
  - **사용자 기반(User-based)**: 나와 비슷한 사용자가 좋아한 아이템 추천  
  - **아이템 기반(Item-based)**: 내가 좋아한 아이템과 비슷한 아이템 추천  



### 03 최근접 이웃 협업 필터링

### 개념
- 사용자의 평가 패턴을 기반으로 **비슷한 취향을 가진 사용자** 또는 **유사한 아이템**을 찾아 추천  
- 예: 사용자가 영화 ‘인터스텔라’를 좋아하면, 비슷한 평가를 한 다른 사용자가 좋아한 영화 추천  

### 방식
- 사용자-아이템 평점 데이터를 행렬로 구성  
- 대부분의 행렬은 희소(sparse) 형태이므로 효율적인 연산 필요  
- 예시:  
  - 사용자 A와 B가 비슷한 영화에 높은 점수를 주었다면, A에게 B가 좋아한 다른 영화를 추천  

### 최근접 이웃 기반 협업 필터링의 구분
- **사용자 기반 협업 필터링(User-User CF)**  
  → 나와 비슷한 사람을 찾아 그 사람이 좋아한 아이템 추천  
- **아이템 기반 협업 필터링(Item-Item CF)**  
  → 내가 좋아한 아이템과 유사한 아이템 추천  



### 04 잠재 요인 협업 필터링(Latent Factor Model)

### 개념
- 사용자-아이템 평점 행렬을 **행렬 분해(Matrix Factorization)** 기법으로 차원 축소  
- 숨겨진 패턴(잠재 요인)을 찾아 사용자와 아이템의 특성을 공통 요인으로 표현  
- 넷플릭스 추천 경연대회에서 널리 사용된 방식으로, 추천 정확도를 크게 향상  

### 특징
- 희소 행렬 문제를 효과적으로 해결  
- 사용자와 아이템의 내재된 요인(예: 장르 선호, 배우 성향 등)을 수학적으로 모델링  
- 대표 알고리즘: SVD(Singular Value Decomposition), ALS(Alternating Least Squares)  

### 예시
- 사용자가 특정 배우와 장르를 선호한다면, 해당 잠재 요인을 공유하는 영화 추천  
- 즉, 직접적으로 평가하지 않은 영화라도 **유사한 잠재 요인**을 통해 추천 가능  



In [3]:
import numpy as np

#원본 행렬 R 생성, 분해 행렬 P와 Q 초기화, 잠재 요인 차원 K는 3으로 설정
R=np.array([[4, np.nan, np.nan, 2, np.nan],
              [np.nan, 5, np.nan, 3, 1],
              [np.nan, np.nan, 3, 4, 4],
              [5, 2, 1, 2, np.nan]])
num_users, num_items=R.shape
K=3

#P와 Q 행렬의 크기를 지정하고 정규 분포를 가진 임의의 값으로 입력
np.random.seed(1)
P=np.random.normal(scale=1./K, size=(num_users, K))
Q=np.random.normal(scale=1./K, size=(num_items, K))

In [4]:
from sklearn.metrics import mean_squared_error

def get_rmse(R, P, Q, non_zeros):
    error=0
    #두 개의 분해된 행렬 P와 Q.T의 내적으로 예측 R 행렬 생성
    full_pred_matrix=np.dot(P, Q.T)

    #실제 R 행렬에서 널이 아닌 값의 위치 인덱스 추출해 실제 R 행렬과 예측 행렬의 RMSE 추출
    x_non_zero_ind=[non_zero[0] for non_zero in non_zeros]
    y_non_zero_ind=[non_zero[1] for non_zero in non_zeros]
    R_non_zeros=R[x_non_zero_ind, y_non_zero_ind]
    full_pred_matrix_non_zeros=full_pred_matrix[x_non_zero_ind, y_non_zero_ind]
    mse=mean_squared_error(R_non_zeros, full_pred_matrix_non_zeros)
    rmse=np.sqrt(mse)

    return rmse

In [5]:
#R>0인 행 위치, 열 위치, 값을 non_zeros 리스트에 저장
non_zeros=[(i, j, R[i,j]) for i in range(num_users) for j in range(num_items) if R[i,j]>0]

steps=1000
learning_rate=0.01
r_lambda=0.01

#SGD 기법으로 P와 Q 매트릭스를 계속 업데이트
for step in range(steps):
    for i, j, r in non_zeros:
        #실제 값과 예측 값의 차이인 오류 값 구함
        eij=r - np.dot(P[i, :], Q[j, :].T)
        #Regularization을 반영한 SGD 업데이트 공식 적용
        P[i,:]=P[i,:]+learning_rate*(eij*Q[j,:]-r_lambda*P[i,:])
        Q[j,:]=Q[j,:]+learning_rate*(eij*P[i,:]-r_lambda*Q[j,:])

    rmse=get_rmse(R, P, Q, non_zeros)
    if (step % 50)==0:
        print("### iteration step: ", step, " rmse: ", rmse)

### iteration step:  0  rmse:  3.2388050277987723
### iteration step:  50  rmse:  0.4876723101369648
### iteration step:  100  rmse:  0.1564340384819247
### iteration step:  150  rmse:  0.07455141311978046
### iteration step:  200  rmse:  0.04325226798579314
### iteration step:  250  rmse:  0.029248328780878973
### iteration step:  300  rmse:  0.022621116143829466
### iteration step:  350  rmse:  0.019493636196525135
### iteration step:  400  rmse:  0.018022719092132704
### iteration step:  450  rmse:  0.01731968595344266
### iteration step:  500  rmse:  0.016973657887570753
### iteration step:  550  rmse:  0.016796804595895633
### iteration step:  600  rmse:  0.01670132290188466
### iteration step:  650  rmse:  0.01664473691247669
### iteration step:  700  rmse:  0.016605910068210026
### iteration step:  750  rmse:  0.016574200475705
### iteration step:  800  rmse:  0.01654431582921597
### iteration step:  850  rmse:  0.01651375177473524
### iteration step:  900  rmse:  0.016481465738

In [6]:
pred_matrix=np.dot(P, Q.T)
print('예측 행렬:\n', np.round(pred_matrix, 3))

예측 행렬:
 [[3.991 0.897 1.306 2.002 1.663]
 [6.696 4.978 0.979 2.981 1.003]
 [6.677 0.391 2.987 3.977 3.986]
 [4.968 2.005 1.006 2.017 1.14 ]]
