## 제9강. 추천 / 검색 모델의 성능평가 지표

In [23]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
from math import ceil
from tqdm import trange
from subprocess import call
from scipy.sparse import csr_matrix, dok_matrix

In [46]:
df = pd.read_csv('datasets/ratings.csv')
df.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [47]:
df.rename(columns={'movieId':'item_id', 'userId':'user_id'}, inplace=True)
df.head()

Unnamed: 0,user_id,item_id,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [48]:
def create_matrix(data, user_col, item_col, rating_col):
    # map each item and user to a unique numeric value
    for col in (item_col, user_col):
        data[col] = data[col].astype('category')
    
    # create a sparse matrix of using the (rating, (rows, cols)) format
    rows = data[user_col].cat.codes
    cols = data[item_col].cat.codes
    rating = data[rating_col]
    ratings = csr_matrix((rating, (rows, cols)))
    ratings.eliminate_zeros()
    return ratings, data

In [49]:
user_col = 'user_id'
item_col = 'item_id'
rating_col = 'rating'
X, df = create_matrix(df, user_col, item_col, rating_col)
X

<610x9724 sparse matrix of type '<class 'numpy.float64'>'
	with 100836 stored elements in Compressed Sparse Row format>

In [50]:
def create_train_test(ratings, test_size = 0.2, seed = 1234):
    assert test_size < 1.0 and test_size > 0.0
 
    train = ratings.copy().todok()
    test = dok_matrix(train.shape)
 
    rstate = np.random.RandomState(seed)
    for u in range(ratings.shape[0]):
        split_index = ratings[u].indices
        n_splits = ceil(test_size * split_index.shape[0])
        test_index = rstate.choice(split_index, size = n_splits, replace = False)
        test[u, test_index] = ratings[u, test_index]
        train[u, test_index] = 0
    
    train, test = train.tocsr(), test.tocsr()
    return train, test

In [51]:
seed = 42
test_size = 0.2
X_train, X_test = create_train_test(X, test_size, seed)
X_train

<610x9724 sparse matrix of type '<class 'numpy.float64'>'
	with 80419 stored elements in Compressed Sparse Row format>

In [52]:
class ALSWR:
    def __init__(self, n_iters, n_factors, alpha, reg, seed):
        self.reg = reg
        self.seed = seed
        self.alpha = alpha
        self.n_iters = n_iters
        self.n_factors = n_factors
    
    def fit(self, ratings):
        """
        ratings : scipy sparse csr_matrix [n_users, n_items]
            sparse matrix of user-item interactions
        """        
        Cui = ratings.copy().tocsr()
        Cui.data *= self.alpha
        Ciu = Cui.T.tocsr()
        self.n_users, self.n_items = Cui.shape
        
        rstate = np.random.RandomState(self.seed)
        self.user_factors = rstate.normal(size = (self.n_users, self.n_factors))
        self.item_factors = rstate.normal(size = (self.n_items, self.n_factors))
        
        for _ in trange(self.n_iters, desc = 'training progress'):
            self._als_step(Cui, self.user_factors, self.item_factors)
            self._als_step(Ciu, self.item_factors, self.user_factors)  
        
        return self
    
    def _als_step(self, Cui, X, Y):
        """
        when solving the user latent vectors,
        the item vectors will be fixed and vice versa
        """
        YtY = Y.T.dot(Y)
        data = Cui.data
        indptr, indices = Cui.indptr, Cui.indices
 
        for u in range(self.n_users):
            # initialize a new A and b for every user
            b = np.zeros(self.n_factors)
            A = YtY + self.reg * np.eye(self.n_factors)
            
            for index in range(indptr[u], indptr[u + 1]):
                # indices[index] stores non-zero positions for a given row
                # data[index] stores corresponding confidence,
                # we also add 1 to the confidence, since we did not 
                # do it in the beginning, when we were to give every 
                # user-item pair and minimal confidence
                i = indices[index]
                confidence = data[index] + 1
                factor = Y[i]
                
                A += (confidence - 1) * np.outer(factor, factor)
 
            X[u] = np.linalg.solve(A, b)
        
        return self
 
    def predict(self):
        """predict ratings for every user and item"""
        prediction = self.user_factors.dot(self.item_factors.T)
        return prediction
    
    def _predict_user(self, user):
        """
        returns the predicted ratings for the specified user,
        this is mainly used in computing evaluation metric
        """
        user_pred = self.user_factors[user].dot(self.item_factors.T)
        return user_pred

In [53]:
als = ALSWR(n_iters = 15, n_factors = 20, alpha = 15, reg = 0.01, seed = 1234)
als.fit(X_train)

training progress: 100%|██████████| 15/15 [00:09<00:00,  1.60it/s]


<__main__.ALSWR at 0x325aec050>

___
## MAP (Mean Average Precision) 설명
<img src="images/map1.webp" style="background-color: white;">

#### 1. MAP의 정의
- **MAP**은 여러 사용자 또는 쿼리에 대한 평균 정밀도(Average Precision, AP)의 평균입니다. 각 사용자 또는 쿼리별로 계산된 AP를 모두 합산한 후, 사용자 또는 쿼리의 총 수로 나누어 계산됩니다.

#### 2. AP의 정의
- **AP (Average Precision)** 는 특정 쿼리에 대한 검색 결과의 질을 나타내는 지표입니다. 관련 있는 항목들이 상위에 위치할수록 높은 값을 가집니다.
- AP를 계산하는 공식:
- 여기서 $k$는 고려한 결과 항목의 수입니다.

#### 3. Precision과 Recall
- **Precision at i**는 첫  $i$번째 항목까지의 정확한 추천 비율을 의미합니다. 즉, 첫 $i$개의 항목 중 정확하게 예측된 항목의 수를 $i$로 나눈 값입니다.
- **Change in Recall at i**는 $i$번째 항목이 정확할 경우 증가하는 재현율의 변화량을 나타냅니다. 한 항목당 재현율의 증가는 $1/k$이며, $i$번째 항목이 정확하지 않은 경우 증가량은 0입니다.

#### 4. 예시와 계산
예를 들어, 실제 관련 데이터가 [1, 2, 3, 4, 5]이고 시스템이 [6, 4, 7, 1, 2]를 추천했다고 가정해보겠습니다.
- 첫 번째 예측 6은 잘못되었으므로 precision@1은 0입니다.
- 두 번째 예측 4는 정확하므로 precision@2는 0.5입니다 (1개 맞추고, 2개를 추천했으니까).
- change in recall은 각각 0과 0.5입니다.
- 따라서 AP@2는 $ \frac{0}{1} + \frac{0.5}{2} = 0.25$가 됩니다.

#### 5. 순의 중요성
- AP 및 MAP에서는 추천된 항목의 순서가 중요합니다. 잘못된 추측이 먼저 나오면 precision의 값이 감소하므로, 정확한 추천을 가능한 앞쪽에 위치시키는 것이 중요합니다.

이러한 방식으로 MAP는 복잡한 정보 환경에서 사용자에게 유용하고 정확한 정보를 제공하는 시스템의 능력을 정량적으로 평가하는 데 매우 유용한 메트릭입니다.


#### 6. 장단점
* 장점
    ```
    단순성과 직관성: MAP는 계산이 단순하며 결과를 해석하기 쉬워, 많은 연구 및 산업 분야에서 선호됩니다.
    정확성 중시: 관련성 있는 항목의 개수와 그 순서를 고려하여 평균 정밀도를 계산하기 때문에, 추천 시스템이 얼마나 정확한 정보를 제공하는지를 효과적으로 측정합니다.
    이진 관련성: 항목이 관련성이 있는지 여부만 판단하므로, 평가가 비교적 명확합니다.
    ```
* 단점
    ```
    순위 민감도 부족: 첫 번째로 제공되는 항목과 마지막으로 제공되는 항목의 중요성 차이를 충분히 반영하지 못합니다.
    이진 관련성의 한계: 실제로 많은 항목들이 다양한 수준의 관련성을 가질 수 있는데, MAP는 이를 구분하지 못하고 단순히 관련성 있는 항목으로만 취급합니다.
    ```



___

In [54]:
def compute_apk(y_true, y_pred, k):
    """
    average precision at k, y_pred is assumed 
    to be truncated to length k prior to feeding
    it to the function
    """
    # convert to set since membership 
    # testing in a set is vastly faster
    actual = set(y_true)
    
    # precision at i is a percentage of correct 
    # items among first i recommendations; the
    # correct count will be summed up by n_hit
    n_hit = 0
    precision = 0
    for i, p in enumerate(y_pred, 1):
        if p in actual:
            n_hit += 1
            precision += n_hit / i
 
    avg_precision = precision / min(len(actual), k)
    return avg_precision

In [55]:
# example 1
 
k = 2
y_true = np.array([1, 2, 3, 4, 5])
y_pred = np.array([6, 4, 7, 1, 2])
compute_apk(y_true, y_pred[:k], k) # 0.25

0.25

In [56]:
# example 2
 
k = 5
y_true = np.array([1, 2])
y_pred = np.array([6, 4, 7, 1, 2])
compute_apk(y_true, y_pred[:k], k) # 0.325

0.325

In [57]:
def mapk_score(model, ratings, k):
    """
    mean average precision at rank k for the ALS model
 
    Parameters
    ----------
    model : ALSWR instance
        fitted ALSWR model
 
    ratings : scipy sparse csr_matrix [n_users, n_items]
        sparse matrix of user-item interactions
 
    k : int
        mean average precision at k's k
        
    Returns
    -------
    mapk : float
        the mean average precision at k's score
    """
    # compare the top k predictions' index to the actual index,
    # the model is assumed to have the _predict_user method
    mapk = 0
    n_users = ratings.shape[0]
    for u in range(n_users):
        y_true = ratings[u].indices
        u_pred = model._predict_user(u)
        y_pred = np.argsort(u_pred)[::-1][:k]
        mapk += compute_apk(y_true, y_pred, k)
 
    mapk /= n_users
    return mapk

In [60]:
k = 5
mapk_train = mapk_score(als, X_train, k)
mapk_test = mapk_score(als, X_test, k)
print('mAP@5 training:', mapk_train)
print('mAP@5 testing:', mapk_test)

mAP@5 training: 0.0013715846994535518
mAP@5 testing: 6.557377049180328e-05


___
## NDCG (Normalized Discounted Cumulative Gain) 설명
<img src="images/ndcg.webp" style="background-color: white;">

#### 1. Cumulative Gain (CG)의 정의
- **Cumulative Gain (CG)** 는 특정 순위 \( k \)까지의 결과에 대해 각 항목의 관련성(relevance) 점수를 단순히 합산한 값입니다. CG 계산에서는 항목의 순서가 결과 값에 영향을 주지 않습니다.
- CG는 다음과 같이 정의됩니다.
   - $\color{yellow}{CG_k = \sum_{i=1}^{k} relevance_i}$

#### 2. Discounted Cumulative Gain (DCG)
- **DCG**는 순위를 고려한 측정 지표로, 상위 순위의 항목이 더 중요하다는 가정 하에 점수를 계산합니다.
- 각 관련성 점수는 순위에 따른 감쇠(discount)를 적용받아 합산됩니다. 이 감쇠는 일반적으로 항목 위치의 로그에 따라 적용됩니다.
- DCG는 다음과 같이 정의됩니다

   - $\color{yellow}{DCG_k = \sum_{i=1}^{k} \frac{relevance_i}{\log_2(i+1)}}$

여기서 \( i \)는 항목의 순위를 나타내며, \( k \)는 고려된 결과 항목의 수입니다.

#### 3. Normalized DCG (NDCG)
- **NDCG**는 DCG 값을 최대 가능한 DCG 값(이상적인 순서에서의 DCG)으로 나눈 것입니다.
- NDCG의 계산은 현재의 DCG를 이상적인 DCG와 비교하여 시스템의 이상적인 성능 대비 실제 성능을 평가합니다.
- NDCG의 계산 공식은 다음과 같습니다:
  
   - $\color{yellow}{NDCG_k = \frac{DCG_k}{IDCG_k}}$

여기서 \( IDCG_k \)는 \( k \)개의 최고 관련성 점수가 이상적인 순서로 배열된 경우의 DCG 값입니다.

#### 4. 순위의 중요성

- NDCG에서는 가장 관련성 높은 아이템이 높은 순위에 오를수록 더 높은 점수를 받습니다. 이는 검색 결과의 질을 더욱 신뢰성 있게 반영합니다.
- NDCG는 추천 시스템의 정확성뿐만 아니라 그 정렬 순서의 적합성까지 고려할 수 있는 유용한 평가 방법입니다.

#### 5. 장단점
* 장점
    ```
    순위 중요성 반영: NDCG는 항목의 순위에 따라 가중치를 다르게 적용하여 상위 순위의 항목이 더 중요하게 평가됩니다. 이로 인해 결과의 순위에 대한 성능을 더 정확하게 반영할 수 있습니다.
    다양한 관련성 수준 처리: 각 항목의 관련성을 다양한 수치로 표현할 수 있어, 단순 이진 평가보다 더 세밀한 평가가 가능합니다.
    정규화를 통한 비교 용이성: 최대 DCG 값으로 정규화함으로써, 다른 쿼리 또는 시스템 간의 성능을 공정하게 비교할 수 있습니다.
    ```
* 단점
    ```
    계산 복잡성: 로그 함수를 사용한 할인율 계산으로 인해 MAP보다 계산이 복잡합니다.
    최적 값 의존성: 최적의 DCG 값(IDCG)에 의존하여 계산되므로, 이 값의 정확성이 결과의 신뢰도에 큰 영향을 미칩니다.
    ```
___

In [61]:
def dcg_at_k(score, k = None):
    if k is not None:
        score = score[:k]
 
    discounts = np.log2(np.arange(2, score.size + 2))
    dcg = np.sum(score / discounts)
    return dcg
 
 
score = np.array([2, 0, 3, 2])
dcg_at_k(score)

4.361353116146786

In [62]:
def ndcg_at_k(score, k = None):
    actual_dcg = dcg_at_k(score, k)
    sorted_score = np.sort(score)[::-1]
    best_dcg = dcg_at_k(sorted_score, k)
    ndcg = actual_dcg / best_dcg
    return ndcg
 
 
ndcg_at_k(score)

0.8288615669472547

In [63]:
def ndcg_score(model, ratings, k):
    """
    Normalized discounted cumulative gain (NDCG) at rank k
    for the ALS model; which computes the ndcg score for
    each users' recommendation and does a simply average
    
    Parameters
    ----------
    model : ALSWR instance
        fitted ALSWR model
 
    ratings : scipy sparse csr_matrix [n_users, n_items]
        sparse matrix of user-item interactions
 
    k : int
        rank k's k
        
    Returns
    -------
    avg_ndcg : float
        ndcg at k's score averaged across all users
    """
    ndcg = 0.0
    n_users, n_items = ratings.shape
    for u in range(n_users):
        y_true = np.zeros(n_items)
        y_true[ratings[u].indices] = 1
        u_pred = model._predict_user(u)
        ndcg += ndcg_at_k(y_true, u_pred, k)
        
    avg_ndcg = ndcg / n_users
    return avg_ndcg
 
 
def ndcg_at_k(y_true, y_score, k = 10):
    """
    Normalized discounted cumulative gain (NDCG) at rank k
    
    Parameters
    ----------
    y_true : array-like, shape = [n_samples]
        Ground truth (true relevance labels)
    
    y_score : array-like, shape = [n_samples]
        Predicted scores
    
    k : int
        Rank
 
    Returns
    -------
    ndcg : float, 0.0 ~ 1.0
    """
    actual = dcg_at_k(y_true, y_score, k)
    best = dcg_at_k(y_true, y_true, k) 
    ndcg = actual / best
    return ndcg
 
 
def dcg_at_k(y_true, y_score, k = 10):
    """
    Discounted cumulative gain (DCG) at rank k
    
    Parameters
    ----------
    y_true : array-like, shape = [n_samples]
        Ground truth (true relevance labels)
    
    y_score : array-like, shape = [n_samples]
        Predicted scores
    
    k : int
        Rank
 
    Returns
    -------
    dcg : float
    """
    order = np.argsort(y_score)[::-1]
    y_true = np.take(y_true, order[:k])
    gains = 2 ** y_true - 1
    discounts = np.log2(np.arange(2, gains.size + 2))
    dcg = np.sum(gains / discounts)
    return dcg

In [64]:
k = 5
ndcg_train = ndcg_score(als, X_train, k)
ndcg_test = ndcg_score(als, X_test, k)
print('ndcg training:', ndcg_train)
print('ndcg testing:', ndcg_test)

ndcg training: 0.002864981492034436
ndcg testing: 0.000215090291003839


#### 수업내용 Reference
 - Hu, Y., Koren, Y., & Volinsky, C. (2008, December). Collaborative filtering for implicit feedback datasets. In 2008 Eighth IEEE international conference on data mining (pp. 263-272). Ieee.
 - https://en.wikipedia.org/wiki/Discounted_cumulative_gain
 - http://fastml.com/evaluating-recommender-systems/
 - https://gist.github.com/mblondel/7337391
 - http://ethen8181.github.io/machine-learning/recsys/2_implicit.html
 - https://ysg2997.tistory.com/39

____
#### # 과제#4. KMU-TRIP ( https://yangang.co.kr ) 에 접속해 개인당 최소 10회 이상 검색어를 입력하여 검색하고 선호하는 숙소를 장바구니 버튼을 클릭해주세요.
    - 다음시간에 생성된 데이터로 검색 성능을 평가해보겠습니다.

____
#### # KMU-TRIP 검색 데이터 조회 방법

In [1]:
# !conda install psycopg2
# !pip install sqlalchemy

In [1]:
from sqlalchemy import create_engine
import pandas as pd

In [3]:
jdbc_url = 'postgresql://kmu.nyytaxrizjztsgcmrlnj:kmu@aws-0-ap-northeast-2.pooler.supabase.com:5432/postgres' # 수업내용을 위해 데이터 조회 권한이 부여된 계정입니다.

In [5]:
engine = create_engine(jdbc_url)

In [None]:
hotels_df = pd.read_sql_table('hotels', engine)
clicks_df = pd.read_sql_table('clicks', engine)

____
수고하셨습니다
____