# Implicit Matrix Factorization

- Implicit Matrix Factorization은 Collaborative Filtering 방법론   
- Implicit Feedback 데이터를 활용하여 유저와 아이템 간의 상호작용을 모델링하는 기술

### 1. 데이터
- Implicit Matrix Factorization은 유저의 선호도를 간접적으로 추정하기 위해 사용되는 데이터에 기반합니다. 
- 예를 들어 유저의 행동 패턴, 온라인 쇼핑몰에서의 제품 구매 이력, 검색 행동, 또는 마우스 이동 등을 포함합니다.

#### Explicit Datasets (명시적 데이터) vs Implicit Datasets (묵시적 데이터)


**Explicit Datasets (명시적 데이터)**

- 유저의 선호도를 직접적으로 나타내는 데이터. 
- 예를 들어, 영화나 제품에 대한 별점, 리뷰, 구독 여부 등이 이에 해당합니다.
- 데이터를 구하기 어려울 수 있지만, 사용자의 선호를 명확히 알 수 있습니다.

**Implicit Datasets (묵시적 데이터)**

- 유저의 선호도를 간접적으로 나타내는 데이터. 
- 검색 기록, 방문 페이지, 구매 내역, 마우스 움직임 등이 여기에 해당합니다.
- 부정적인 피드백이 없어서 사용자의 불호를 명확히 파악하기 어려우며, 노이즈가 많을 수 있습니다.
- 수치는 신뢰도를 나타내며, 평가는 적절한 방법을 고민해야 합니다. Item의 availability와 반복되는 feedback 등을 고려해야 합니다.

### 2. 모델링 가정 
- Implicit Matrix Factorization은 유저가 아이템을 선택하거나 상호작용하는 빈도가 해당 아이템에 대한 선호도를 나타낸다고 가정
- 유저가 특정 아이템에 더 많은 상호작용을 할수록 해당 아이템에 대한 관심도가 높다고 가정합니다.

### 3. 부정적 피드백
- mplicit Feedback 데이터에서는 부정적인 피드백을 직접적으로 파악하기 어렵다
- 따라서 모델은 유저가 특정 아이템을 선택하지 않았을 때 이를 선호하지 않는다고 가정
- 유저의 선택 이유를 명확히 알 수 없는 단점

### 4. 노이즈 처리
- Implicit Feedback 데이터는 항상 정확한 선호도를 반영하지 않을 수 있다
- 행동에 대한 동기를 정확히 알 수 없습니다. 이러한 노이즈는 모델링 과정에서 고려되어야 합니다.

### 5. 모델 평가
- Implicit Matrix Factorization 모델의 평가는 Explicit Feedback에 비해 복잡
- 왜냐하면 Implicit Feedback 데이터는 선호도가 아닌 유저의 상호작용을 나타내기 때문에 정확한 평가 척도가 필요
- 이러한 평가 척도는 다양한 요소를 고려하여 모델의 성능 측정 필요

In [1]:
# 부모 폴더의 경로 추가
import sys; sys.path.insert(0, '..')

from util.data_loader import DataLoader
from util.metric_calculator import MetricCalculator

In [2]:
# Movielens 데이터 로딩
data_loader = DataLoader(num_users=1000, num_test_items=5, data_path='../data/ml-10M100K/')
movielens = data_loader.load()

In [3]:
# Implicit Matrix Factorization 추천
from src.imf import IMFRecommender
recommender = IMFRecommender()
recommend_result = recommender.recommend(movielens)

AttributeError: 'NoneType' object has no attribute 'split'

In [None]:
!pip install --user Threadpoolctl

In [None]:
# 평가
metric_calculator = MetricCalculator()
metrics = metric_calculator.calc(
    movielens.test.rating.tolist(), recommend_result.rating.tolist(),
    movielens.test_user2items, recommend_result.user2items, k=10)

print(metrics)

In [None]:
# 인자 수와 정밀도의 관계

for factors in [5, 10, 30]:
    recommend_result = recommender.recommend(movielens, factors=factors)
    metrics = metric_calculator.calc(
    movielens.test.rating.tolist(), recommend_result.rating.tolist(),
    movielens.test_user2items, recommend_result.user2items, k=10)
    
    print(metrics)

In [None]:
# alpha와 정밀도의 관계

for alpha in [0.5, 1.0, 2.0, 5.0]:
    recommend_result = recommender.recommend(movielens, alpha=alpha)
    metrics = metric_calculator.calc(
    movielens.test.rating.tolist(), recommend_result.rating.tolist(),
    movielens.test_user2items, recommend_result.user2items, k=10)
    
    print(metrics)