# 비음수 행렬 분해(Non-negative matrix factorization, NMF)

다른 이름 : 자기 모델링 그래프 분해, 양수 행렬 분해, 음수 미포함 행렬 분해

음수를 포함하지 않은 행렬 V를 음수를 포함하지 않은 행렬 W(샘플수)와 H(차원수)의 곱으로 분해하는 알고리즘  

- 행렬이 음수를 포함하지 않는 성질 → 분해 결과 행렬을 찾기 쉽게 만든다.
- 일반적으로 행렬 분해는 정확한 해가 없다 → 대략적인 해를 구함
- 컴퓨터 시각 처리, 문서 분류, 음파 분석, 계량분석화학, 추천 시스템 등에 쓰인다.
- PCA(주성분분석), SVD(특이값분해), ICA(독립성분분석)

**적용**

- 우리는 데이터 셋에서 특징을 추출하는 방법으로 쓰겠다
- 여러개의 값으로 구성된 데이터를 가중치행렬과 특성행렬로 분리하는 방법으로 적용

예제

- 행렬 10000x500 → 10000x10과 10x500의 크기를 가지는W(샘플수)와 H(차원수)로 분해
- 파이썬 함수 from sklearn.decomposition import NMF
- 예제 코드 : NMF(n_components=3, random_state=0, max_iter=1000, tol=1e-3) : 3개 차원으로 분해. 1000번 반복. 허용오차 0.001

**장점**

1. 두 행렬의 곱으로 표현되므로 W와 H의 요소로 설명할 수 있다. (interpretability)
2. Part-based Representations

**단점**
1. 데이터가 비음수 조건이 필요하다. 데이터값이 음수가 있다면 NMF는 적용할 수 없다. 
2. component 개수을 고르는 것은 정해져있지 않다.

In [1]:
# 부모 폴더의 경로 추가
import sys; sys.path.insert(0, '..')

from util.data_loader import DataLoader
from util.metric_calculator import MetricCalculator

In [2]:
# Movielens 데이터 로딩
data_loader = DataLoader(num_users=1000, num_test_items=5, data_path='../data/ml-10M100K/')
movielens = data_loader.load()

In [3]:
# NMF 추천
from src.nmf import NMFRecommender
recommender = NMFRecommender()
recommend_result = recommender.recommend(movielens)



In [4]:
# 평가
metric_calculator = MetricCalculator()
metrics = metric_calculator.calc(
    movielens.test.rating.tolist(), recommend_result.rating.tolist(),
    movielens.test_user2items, recommend_result.user2items, k=10)
print(metrics)

rmse=3.340, Precision@K=0.010, Recall@K=0.032


In [5]:
# 결손값을 평균값으로 채운다
recommend_result = recommender.recommend(movielens, fillna_with_zero=False)
metrics = metric_calculator.calc(
movielens.test.rating.tolist(), recommend_result.rating.tolist(),
movielens.test_user2items, recommend_result.user2items, k=10)
print(metrics)

rmse=1.051, Precision@K=0.018, Recall@K=0.059
