<a href="https://colab.research.google.com/github/HwangHanJae/Recommendation_Study/blob/main/kakao/Mini%20Reco/Mini_Reco.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 소개

이 문제의 목표는 Memory-based Collaborative Filtering 기법 중 하나인 User-based Collaborative filtering 알고리즘을 사용해 추천 시스템을 만드는 것입니다.  
아래 알고리즘을 구현하여 Task를 수행하세요.

# User-based Collaborative Filtering

The [memory-based](https://en.wikipedia.org/wiki/Collaborative_filtering#Memory-based) approach uses user rating data to compute the similarity between users or items. Typical examples of this approach are neighbourhood-based CF and item-based/user-based top-N recommendations. For example, in user based approaches, the value of ratings user $\large u$ gives to item $\large i$ is calculated as an aggregation of some similar users' rating of the item:

$$\large r_{u,i} = \operatorname{aggr}\limits_{u^\prime \in U} r_{u^\prime, i}$$

where $\large U$ denotes the set of top N users that are most similar to user $\large u$ who rated item $\large i$.

Some examples of the aggregation function includes:

$$\large \displaylines{
r_{u,i} =& \frac{1}{N}\sum\limits_{u^\prime \in U}r_{u^\prime, i}\\
r_{u,i} =& k\sum\limits_{u^\prime \in U}\operatorname{simil}(u,u^\prime)r_{u^\prime, i}
}$$

where $\large k$ is a normalizing factor defined as $\large k = 1/\sum_{u^\prime \in U}|\operatorname{simil}(u,u^\prime)|$, and

$$\large \textbf{(1)} \qquad r_{u,i} = \bar{r_u} + k\sum\limits_{u^\prime \in U}\operatorname{simil}(u,u^\prime)(r_{u^\prime, i}-\bar{r_{u^\prime}})$$

where $\large \bar{r_u}$ is the average rating of user $\large u$ for all the items rated by $\large u$.

The neighborhood-based algorithm calculates the similarity between two users or items, and produces a prediction for the user by taking the [weighted average](https://en.wikipedia.org/wiki/Weighted_average) of all the ratings. Similarity computation between items or users is an important part of this approach. Multiple measures, such as [Pearson correlation](https://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient) and [vector cosine](https://en.wikipedia.org/wiki/Cosine_similarity) based similarity are used for this.

The cosine similarity of two users $\large x$, $\large y$ is defined as:

$$\large \textbf{(2)} \qquad \operatorname{simil}(x,y) = \cos(\vec x,\vec y) = \frac{\vec x \cdot \vec y}{||\vec x|| \times ||\vec y||} = \frac{\sum\limits_{i \in I_{xy}}r_{x,i}r_{y,i}}{\sqrt{\sum\limits_{i \in I_{x}}r_{x,i}^2}\sqrt{\sum\limits_{i \in I_{y}}r_{y,i}^2}}$$

where $\large I_{xy}$ is the set of items that rated by both user $\large x$ and user $\large y$.

The user based top-N recommendation algorithm uses a similarity-based vector model to identify the $\large k$ most similar users to an active user. After the $\large k$ most similar users are found, their corresponding user-item matrices are aggregated to identify the set of items to be recommended.

메모리 기반 접근방식은 사용자 평가 데이터를 사용하여 사용자 또는 아이템간의 유사성을 계산합니다. 이 접근방식의 일반적인 예는 이웃 기반 CF와 아이템 기반/사용자 기반 Top-N 추천입니다. 예를들어 사용자 기반 접근방식에서는, 사용자 $u$가 아이템 $i$에 대해 부여한 평점은 아이템에 대한 유사한 사용자를 계산하는데 쓰입니다.

$$\large r_{u,i} = \operatorname{aggr}\limits_{u^\prime \in U} r_{u^\prime, i}$$

여기서 $U$는 아이템 $i$를 평가한 사용자 $u$와 가장 유사한 상위 $N$명의 사용자 집합(피어그룹)을 나타냅니다.

집계 함수의 몇 가지 예는 다음과 같습니다.

$$\large \displaylines{
r_{u,i} =& \frac{1}{N}\sum\limits_{u^\prime \in U}r_{u^\prime, i}\\
r_{u,i} =& k\sum\limits_{u^\prime \in U}\operatorname{simil}(u,u^\prime)r_{u^\prime, i}
}$$

여기서 $\large k$는 $\large k = 1/\sum_{u^\prime \in U}|\operatorname{simil}(u,u^\prime)|$이고, 

$$\large \textbf{(1)} \qquad r_{u,i} = \bar{r_u} + k\sum\limits_{u^\prime \in U}\operatorname{simil}(u,u^\prime)(r_{u^\prime, i}-\bar{r_{u^\prime}})$$

여기서 $\large \bar{r_u}$는 사용자 $\large u$가 평가한 모든 아이템에 대한 사용자 $\large u$의 평균 평점입니다.

이웃 기반 알고리즘은 두 사용자 혹은 두 아이템 간의 유사성을 계산하고 모든 평점의 가중 평균을 취하여 사용자에 대한 예측을 생성합니다. 아이템 또는 사용자간의 유사성 계산은 이 접근방식의 중요한 부분입니다. 이를 위해 피어슨 상관계수, 벡터 코사인과 같은 여러 방식이 사용됩니다.

두 사용자 $\large x$, $\large y$의 코사인 유사도는 다음과 같이 정의됩니다.

$$\large \textbf{(2)} \qquad \operatorname{simil}(x,y) = \cos(\vec x,\vec y) = \frac{\vec x \cdot \vec y}{||\vec x|| \times ||\vec y||} = \frac{\sum\limits_{i \in I_{xy}}r_{x,i}r_{y,i}}{\sqrt{\sum\limits_{i \in I_{x}}r_{x,i}^2}\sqrt{\sum\limits_{i \in I_{y}}r_{y,i}^2}}$$

여기서 $\large I_{xy}$는 사용자 $\large x$, $\large y$ 모두가 평가한 아이템 집합입니다.

사용자 기반 top-N 추천 알고리즘은 유사성 기반 벡터 모델을 사용하여 활성 사용자와 가장 유사한 k명의 사용자를 확인합니다.
$\large k$명의 가장 유사한 사용자들을 찾은 후 사용자-아이템 매트릭스를 집계하여 추천할 항목 집합을 확인합니다.

# 문제

`num_reco_users`명의 사용자를 위해 User-based Collaborative Filtering 알고리즘으로 추천 결과를 만들어야 합니다.

추천 결과를 만드는 방법은 다음과 같습니다.
1. 식 (2)를 활용하여 최근접 이웃 집합 $U$를 계산합니다.
- $U$는 사용자와 유사도가 가장 높은 `num_sim_user_top_N`명의 최근접 이웃 사용자로 구성됩니다.
2. 식 (1)로 생성한 `num_item_rec_top_M`개의 추천 결과를 한 줄로 출력합니다.
- 추천 결과의 각 아이템 ID는 공백으로 구분되어야 합니다.
- 사용자에게 추천할 수 있는 아이템은 전체 아이템 집합 $I$가아닌 최근접 이웃 $U$가 평가한 아이템 집합 $I^\prime$입니다.


## 참고사항
문제를 해결할 때 아래 내용을 참고하시기 바랍니다.
1. 사용자가 이미 평가한 아이템은 추천 결과에 포함하지 않습니다.
2. 추천할 수 있는 아이템의 수($n$)가 `num_item_rec_top_M`보다 작은 경우, 그 n개에 대해서만 추천합니다.
3. 한 사용자가 같은 아이템을 중복해서 평가한 경우는 없습니다.
4. 데이터는 희소 행렬 데이터입니다. 그러므로 모든 사용자와 아이템 쌍에 대한 평가가 존재하는 것은 아닙니다.
5. Cosine similarity 계산이 정의되지 않은 경우에는 0으로 정의합니다.
6. 식 (1)에서 normalizing factor $k$ 값이 정의되지 않은 경우에는 0으로 정의합니다.

# 입력 데이터
데이터는 알고리즘 구현에 필요한 변수값과 사용자가 아이템에 평가한 점수 그리고 추천 결과를 출력할 사용자 ID로 구성됩니다.
- Line 1에는 `num_sim_user_top_N` 값이 있습니다. 평점 예측 시 사용할 최근접 이웃 사용자 수입니다.
- Line 2에는 `num_item_rec_top_M` 값이 있습니다. 사용자별로 추천해야 하는 아이템 개수입니다.
- Line 3, 4에는 각각 `num_users`, `num_items` 값이 있습니다. 해당 테스트 케이스에서 제공되는 데이터에 있는 사용자, 아이템 수입니다.
- Line 5에는 `num_rows` 값이 있습니다. 데이터로 제공될 (`user_id`, `item_id`, `rating`) triplet의 개수입니다.
- Line 6부터 `num_rows`개의 Line에는 (`user_id`, `item_id`, `rating`) triplet이 있으며 각 값은 공백으로 구분되어 있습니다.
- Line (6 + `num_rows`)에는 `num_reco_users` 값이 있습니다. 추천 결과를 만들어야 할 사용자의 수입니다.
- Line (6 + `num_rows` + 1)부터 `num_reco_users`개의 Line에는 추천 결과를 만들어야 할 사용자 ID가 있습니다.

아래는 예시입니다. _(**주의**: `//` 이하는 데이터에 대한 설명이며 실제 데이터에는 존재하지 않습니다.)_

```C
2         // num_sim_user_top_N
2         // num_item_rec_top_M
5         // num_users
10        // num_items
15        // num_rows
1 1 2.34  // 사용자 1이 아이템 1에 2.34점 부여
1 2 6.21  // 사용자 1이 아이템 2에 6.21점 부여
2 3 1.1   // 사용자 2가 아이템 3에 1.1점 부여
...
...       // Line 20 (= 5 + num_rows)
2         // num_reco_users
1         // print num_item_rec_top_M items for user 1
2         // print num_item_rec_top_M items for user 2
```

## 제한사항
- 1 <= `num_sim_user_top_N` <= 100 (integer)
- 1 <= `num_item_rec_top_M` <= 30 (integer)
- 1 <= `num_users` <= 300 (integer)
- 1 <= `num_items` <= 70 (integer)
- 1 <= `num_rows` <= 21,000 (integer)
- 1 <= `num_reco_users` <= 100 (integer)
- 1 <= `user_id` <= 300 (integer)
- 1 <= `item_id` <= 70 (integer)
- 1.0 <= `rating` <= 10.0 (real number)

# 평가

채점은 추천 결과와 정답 데이터의 유사성으로 평가합니다.  
_(nDCG: <https://en.wikipedia.org/wiki/Discounted_cumulative_gain>)_

채점 코드에서는 정답에서 추천 결과 위치와 제출한 추천 결과 위치가 동일하면 1.0, 다르면 0.7을 부여하는 방식을 사용합니다.

간단하게 아래 두 가지 특징을 참고하시기 바랍니다.

1. 정답 추천 결과와 최대한 같은 순서로 추천해야 높은 nDCG 값을 얻을 수 있습니다.  
    (이 문제의 목적은 Memory-based CF 알고리즘 로직을 정확하게 구현하는 것이지, 더 좋은 추천 결과를 생성하는 것이 아니라는 점을 유념해주시기 바랍니다.)
1. 높은 순위의 추천 결과를 틀릴수록 페널티가 큽니다.

이렇게 계산한 nDCG가 0.9를 넘으면 해당 테스트 케이스는 정답으로 채점하며, 0.9를 넘지 못하면 해당 테스트 케이스는 오답으로 채점합니다.

참고로 Python으로 작성된 nDCG 계산 코드는 아래와 같습니다.

```python
# evaluation.py
import math


def ndcg(gt, rec):
    idcg = sum([1.0 / math.log(i + 2, 2) for i in range(len(gt))])
    dcg = 0.0
    for i, r in enumerate(rec):
        if r not in gt:
            continue
        gt_index = gt.index(r)
        if i != gt_index:
            rel = 0.7
        else:
            rel = 1.0
        dcg += rel / math.log(i + 2, 2)
    ndcg = dcg / idcg

    return ndcg
```

위 코드에서 변수 `gt`는 정답 추천 결과이며, 변수 `rec`는 제출된 추천 결과를 의미합니다.

## 예시

```python
# 예시 1
>>> gt = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> rec = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> ndcg(gt, rec)
1.0
```

예시 1은 정답과 완전히 동일한 경우이며, nDCG는 1.0입니다.

```python
# 예시 2
>>> gt = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> rec = [1, 2, 3, 11, 5, 6, 7, 8, 9, 10]
>>> ndcg(gt, rec)
0.9052116356304495
```

예시 2는 네 번째 추천 결과를 틀린 경우입니다.

```python
# 예시 3
>>> gt = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> rec = [1, 2, 3, 4, 5, 6, 7, 11, 9, 10]
>>> ndcg(gt, rec)
0.9305687780632229
```

예시 3은 여덟 번째 추천 결과를 틀린 경우입니다.

네 번째 추천 결과를 틀린 예시 2보다는 여덟 번째 추천 결과를 틀린 예시 3의 nDCG가 높습니다.  
즉, 높은 순위의 추천 결과를 틀릴수록 nDCG 페널티가 큽니다.

예시 1은 정답과 완전히 동일한 경우이며, nDCG는 1.0입니다.

# 예제 테스트 케이스

## 예제 입력


```text
2
2
5
10
15
1 1 1.0
1 2 2.0
1 5 1.2
2 2 1.5
2 3 3.0
3 1 2.2
3 2 6.2
3 7 1.5
4 6 1.2
4 3 1.5
4 1 3.1
4 2 4.0
5 4 8.2
5 2 6.5
5 7 8.0
2
1
2
```

## 예제 출력

```text
3 6
1 6
```

## 설명

위 입력으로부터 얻은 값들은 아래와 같습니다.

- Line 1: `num_sim_user_top_N` = 2 (집합 U는 최고 유사 사용자 2명으로 만들어야 함)
- Line 2: `num_item_rec_top_M` = 2 (사용자별 추천 결과는 2개를 만들어야 함)
- Line 3: `num_users` = 5 (평점 데이터의 사용자 수는 총 5명)
- Line 4: `num_items` = 10 (평점 데이터의 아이템 수는 총 10개)
- Line 5: `num_rows` = 15 (평점 데이터의 row 개수는 15개)
- Line 6~20: 평점 데이터의 triplet (`user_id`, `item_id`, `rating`)
- Line 21: `num_reco_users` = 2 (추천 결과를 만들어야 할 사용자 수는 2명)
- Line 22~23: 추천 결과를 만들어야 할 사용자의 ID 리스트 (`user_id`= 1, 2에 해당하는 사용자의 추천 결과를 만들어서 출력해야 함)

정리하면, 주어진 평점 데이터를 이용해서 사용자 1, 사용자 2에게 각각 추천 결과를 2개씩 만들어주면 됩니다.  
식(1)을 이용해 추천 결과를 계산할 때 사용하는 집합 $\large U$는 추천 결과를 만들어야 할 사용자와 가장 유사한 사용자 2명으로 구성합니다.

사용자 1의 경우, 최고 유사 사용자는 사용자 3, 사용자 4이고, 사용자 1과의 유사도는 각각 0.85263, 0.80806입니다.  
이렇게 구한 집합 U를 이용해서 식(1)을 계산해서 예상 평점이 가장 높은 아이템 2개를 예상 평점 순으로 내림차순 정렬해서 출력하면 됩니다.  
단, 추천 결과를 만들 때는 사용자 1이 기존에 평가한 아이템(샘플에서는 아이템 1, 아이템 2, 아이템 5)은 추천 결과에서 빠져야 하는 점을 유의해주시기 바랍니다.

위 출력 예시의 첫 번째 줄에 있는 `3 6`은 정답 소스 코드로 계산한 사용자 1의 추천 결과 1순위는 아이템 3이며, 2순위는 아이템 6이라는 뜻입니다.

사용자 1, 사용자 2의 정답 추천 결과와 제출된 추천 결과 간 nDCG 계산 후, 0.9 이상이면 정답 처리합니다.

# 풀이

## 테스트 케이스 입력

In [279]:
import os
import pandas as pd
class TestCase():
  def __init__(self, number, type_='Dict'):
    number = str(number)
    base_input_path = os.getcwd()+'/drive/MyDrive/kakao/testcase/input'
    base_output_path = os.getcwd()+'/drive/MyDrive/kakao/testcase/output'
    input_file = f'input00{number}.txt'
    output_file = f'output00{number}.txt'

    #input
    input_path = os.path.join(base_input_path, input_file)
    f = open(input_path, 'r')
    lines = f.readlines()
    self.num_sim_user_top_N = int(lines[0].strip())
    self.num_item_rec_top_N = int(lines[1].strip())
    self.num_users = int(lines[2].strip())
    self.num_items = int(lines[3].strip())
    num_rows  = int(lines[4].strip())

    #matrix 초기화
    if type_ == 'Dict':
      self.matrix = {}
      for u in range(1,self.num_users+1):
        self.matrix[u] = {}
        for i in range(1, self.num_items+1):
          self.matrix[u][i] = None

      for line in lines[5:num_rows+5]:
        data = line.strip().split()
        u = int(data[0])
        i = int(data[1])
        rating = float(data[2])
        self.matrix[u][i] = rating
    elif type_ == 'DataFrame':
      self.matrix = pd.DataFrame()
  
      for line in lines[5:num_rows+5]:
        data = line.strip().split()
        u = int(data[0])
        i = int(data[1])
        rating = float(data[2])
        self.matrix.loc[u, i] = rating
      
    num_reco_users = lines[num_rows+5]
    self.active_users = []
    for line in lines[num_rows+6:]:
      user = int(line.strip())
      self.active_users.append(user)
      
    f.close()
    # output
    output_path = os.path.join(base_output_path, output_file)
    f = open(output_path, 'r')
    lines = f.readlines()
    self.gts = []
    for line in lines:
      gt = list(map(int,line.strip().split()))
      self.gts.append(gt)
    f.close()

## 평가지표(ndcg)

In [280]:
import math

def ndcg(gt, rec):
    idcg = sum([1.0 / math.log(i + 2, 2) for i in range(len(gt))])
    dcg = 0.0
    for i, r in enumerate(rec):
        if r not in gt:
            continue
        gt_index = gt.index(r)
        if i != gt_index:
            rel = 0.7
        else:
            rel = 1.0
        dcg += rel / math.log(i + 2, 2)
    ndcg = dcg / idcg

    return ndcg

## 표준 라이브러리(Standard Library)

### 모델

In [354]:
class Model():
  def __init__(self, matrix, num_users, num_items, num_sim_user_top_N, num_item_rec_top_N):
    self.R = matrix
    self.num_users = num_users
    self.num_items = num_items
    self.num_sim_user_top_N = num_sim_user_top_N
    self.num_item_rec_top_N = num_item_rec_top_N
    self.simil_matrix = self._get_simil_matrix()
    self.null_item_matrix = self._get_null_item_matrix()
    self.mean_matrix = self._get_mean_matrix()
    self.U = self._get_U()
    self.user_rating_items = self._get_rating_item_matrix()

  def _get_Ixy(self, x, y):
    """
    사용자 x, y 모두가 평가한 아이템 집합을 구하는 함수
    """

    Ixy = set()
    for i in range(1, self.num_items+1):
      if self.R[x][i] != None and self.R[y][i] != None:
        Ixy.add(i)
    return Ixy
  
  def _get_I(self, u):
    """
    사용자(u)가 평가한 아이템 집합을 구하는 함수
    """
    I = set()
    for i in range(1, self.num_items+1):
      if self.R[u][i] != None:
        I.add(i)
    return I

  def _simil(self, x, y):
      """
      사용자 x, y의 코사인 유사도를 구하는 함수
      """
      Ixy = self._get_Ixy(x, y)
      Ix = self._get_I(x)
      Iy = self._get_I(y)

      rxi2s = []
      ryi2s = []
      numerator = []
      for i in Ixy:
        rxi = self.R[x][i]
        ryi = self.R[y][i]
        numerator.append((rxi*ryi))
      
      for i in Ix:
        rxi = self.R[x][i]
        rxi2s.append((rxi ** 2))
      
      for i in Iy:
        ryi = self.R[y][i]
        ryi2s.append((ryi ** 2))
      
      numerator = sum(numerator)
      denominator = (sum(rxi2s)**0.5) * (sum(ryi2s) ** 0.5)
      #Cosine similarity 계산이 정의되지 않는 경우
      #zero division error가 나올때
      if denominator == 0:
        return 0
      else:
        return (numerator / denominator)
    
  def _get_simil_matrix(self):
      """
      코사인 유사도 매트릭스를 구하는 함수
      """
      simil_matrix = {}
      for x in range(1,self.num_users+1):
        simil_matrix[x] = {}
        for y in range(1, self.num_users+1):
          simil_matrix[x][y] = None

      for x in range(1, self.num_users+1):
        for y in range(1, self.num_users+1):
          if x == y:
            simil_matrix[x][y] = 1
          else:
            simil_matrix[x][y] = self._simil(x, y)
      return simil_matrix
  def _get_rating_item_matrix(self):
    """
    사용자가 평가한 아이템 매트릭스를 구하는 함수

    """
    matrix = {}
    for u in range(1, self.num_users+1):
      matrix[u] = None
    for u in range(1, self.num_users+1):
      items = set()
      for i in range(1, self.num_items+1):
        if self.R[u][i] != None:
          items.add(i)
      matrix[u] = items
    return matrix

  def _get_null_item_matrix(self):
      """
      사용자가 아직 평가하지 않은 아이템 매트릭스를 구하는 함수
      """
      matrix = {}
      
      for u in range(1,self.num_users+1):
        matrix[u] = None
      
      for u in range(1, self.num_users+1):
        items = set()
        for i in range(1, self.num_items+1):
          if self.R[u][i] == None:
            items.add(i)
        matrix[u] = items
      return matrix
    
  def _get_mean_matrix(self):
      """
      유저의 평균 매트릭스를 구하는 함수
      """
      matrix = {}
      for u in range(1, self.num_users+1):
        values = []
        for i in range(1, self.num_items+1):
          if self.R[u][i] == None:
            pass
          else:
            values.append(self.R[u][i])
        mean = sum(values) / len(values)
        matrix[u] = mean
      return matrix

  def _get_U(self):
    """
    아이템  i 를 평가한 사용자 u와 가장 유사한 상위 N명의 사용자 집합(피어그룹) U 매트릭스를 구하는 함수
    """
    matrix = {}
    
    for u in range(1, self.num_users+1):
      peergroup = []
      sorted_simil_matrix = sorted(self.simil_matrix[u].items(), key = lambda x : x[1], reverse=True)
      for i in range(1, len(sorted_simil_matrix)):
        user = sorted_simil_matrix[i][0]
        peergroup.append(user)
      matrix[u] = peergroup[:self.num_sim_user_top_N]

    return matrix
  def _get_k(self, u):
    sum_value = 0
    for u_prime in self.U[u]:
      sum_value += (self.simil_matrix[u][u_prime])
    #식 (1)에서 normalizing factor  k  값이 정의되지 않은 경우에는 0으로 정의
    #zero division error가 나올때
    if sum_value == 0:
      return 0
    else:
      return (1 / sum_value)

  def _get_rui(self, u, i):
    ru = self.mean_matrix[u]
    k = self._get_k(u)

    sum_value = 0
    for u_prime in self.U[u]:
      r_uprime_i = self.R[u_prime][i]
      r_uprime_bar = self.mean_matrix[u_prime] 
      if r_uprime_i == None:
        sum_value += 0
      else:
        sum_value += (self.simil_matrix[u][u_prime] * (r_uprime_i - r_uprime_bar))

    return ru + (sum_value * k)
  
  def recommend(self,u):
    null_items = self.null_item_matrix[u]
    u_prime_rating_items = set()
    recommendation = []
    for u_prime in self.U[u]:
      u_prime_rating_items = u_prime_rating_items.union(self.user_rating_items[u_prime])

    recom_items = null_items.intersection(u_prime_rating_items)

    result = []
    for i in recom_items:
      rui = self._get_rui(u, i)
      result.append([i, rui])

    result.sort(key=lambda x : x[1], reverse=True)
    
    for i in range(len(result)):
        item = result[i][0]
        recommendation.append(item)

    if len(recommendation) < self.num_item_rec_top_N:
      self.num_item_rec_top_N = len(recommendation) 
    return recommendation[:self.num_item_rec_top_N]



### 모델링

In [364]:
number = str(1)
testcase= TestCase(number, type_ = 'Dict')
matrix = testcase.matrix
num_users = testcase.num_users
num_items = testcase.num_items
num_sim_user_top_N = testcase.num_sim_user_top_N
num_item_rec_top_N = testcase.num_item_rec_top_N
active_users = testcase.active_users
gts = testcase.gts

In [365]:
model = Model(matrix, num_users, num_items, num_sim_user_top_N, num_item_rec_top_N)

In [366]:

ndcgs=[]
for i in range(len(active_users)):
  rec = model.recommend(active_users[i])
  gt = gts[i]
  ndcg_score = ndcg(gt, rec)
  ndcgs.append(ndcg_score)
  print("rec : ", rec)
  print("gt : ", gt)
  print(ndcg_score)

rec :  [6, 25, 35, 24, 21, 28, 50]
gt :  [50, 49, 35, 6, 48, 25, 21]
0.589824447123412
rec :  [15, 28, 30, 42, 26, 29, 41]
gt :  [30, 15, 42, 26, 41, 28, 3]
0.6314609522550224
rec :  [20, 31, 28, 4, 11, 3, 26]
gt :  [30, 42, 28, 20, 3, 26, 31]
0.5839278181472287
rec :  [15, 35, 19, 28, 31, 30, 29]
gt :  [15, 30, 35, 41, 19, 28, 31]
0.7183250888609526
rec :  [29, 12, 25, 46, 15, 28, 40]
gt :  [35, 40, 25, 21, 29, 28, 41]
0.4919023358604514
rec :  [15, 14, 25, 45, 30, 26, 1]
gt :  [15, 30, 25, 14, 41, 45, 1]
0.7826429353578825
rec :  [25, 35, 11, 20, 3, 41, 28]
gt :  [35, 20, 25, 41, 11, 40, 3]
0.6358621889866652
rec :  [15, 29, 41, 30, 44, 47, 45]
gt :  [30, 15, 41, 29, 47, 44, 45]
0.7687190832285726
rec :  [35, 14, 20, 11, 24, 6, 12]
gt :  [35, 20, 11, 14, 24, 6, 12]
0.8712254150797757
rec :  [25, 35, 20, 15, 11, 46, 24]
gt :  [35, 50, 25, 20, 11, 6, 15]
0.5992241455507569
rec :  [20, 15, 31, 33, 24, 28, 19]
gt :  [20, 15, 33, 31, 28, 24, 30]
0.7703533859574244
rec :  [25, 29, 46, 24, 

In [367]:
print('ndcg 평균 : ', np.mean(ndcgs))

ndcg 평균 :  0.6605078687871985


테스팅결과.. 성능은 개선 했지만 0.9이상이 나오지 않는다..
대략 0.6~0.7정도의 성능을 보임

## 외부 라이브러리(Third-Party Library)

이전에 만들었던 UserBaseCF모델을 수정하여 활용

- pandas
- numpy

### 모델

In [259]:
import numpy as np
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
class UserBaseCF():
  def __init__(self, table, num_users, num_items, num_sim_user_top_N, num_item_rec_top_N):
    """
    R : 원본테이블
    S : 원본테이블에서 평균값을 뺀 테이블
    Cosine : 사용자-사용자 유사도
    U : 피어그룹(상관계수가 0보다 크고 자기자신이 아님)
    """
    self.R = table
    self.num_users = num_users
    self.num_items = num_items
    self.num_sim_user_top_N = num_sim_user_top_N
    self.num_item_rec_top_N = num_item_rec_top_N
    self.S = self._get_S()
    self.Cosine = self._consine_similarity()

  def _consine_similarity(self):
    temp = self.R.copy().fillna(0)
    similarity = cosine_similarity(temp,temp)
    matrix = pd.DataFrame(similarity, index=self.R.index, columns=self.R.index)

    return matrix
  def _get_U(self, user_id):
    
    return self.Cosine.loc[user_id].sort_values(ascending=False)[1:self.num_sim_user_top_N+1].index
  def _get_S(self):
    """
    S 테이블을 만드는 함수
    
    """
    Mu = self.R.mean(axis=1)
    return (self.R.T - Mu).T


  def _find_item(self,user_id):
    """
    유저에게 추천할 수 있는 아이템을 찾는 함수
    """
    #유저가 아직 평가하지 않은 아이템
    user_null_items = set(self.R.loc[user_id, self.R.loc[user_id].isna()].index)

    # 피어그룹이 평가한 아이템 집합
    # 피어그룹
    U = self._get_U(user_id)
    items = set()
    for u in U:
      items.update(set(self.R.loc[u, ].dropna().index))
    recom_items = user_null_items.intersection(items)
    return recom_items
  def recommend(self, user_id):
    """
    사용자가 아직 평가하지 않은 아이템을 찾고
    해당 아이템에 대하여 평점을 예측한 뒤 평점이 높은 순으로 인덱스를 반환하는 함수

    """
    #추천할 수 있는 아이템을 찾음
    recom_items  = self._find_item(user_id)
    
    #유저의 평균
    Mu = self.R.mean(axis=1).loc[user_id]
    #피어그룹
    U = self._get_U(user_id)
    #계산
    sim_scores = np.array(self.Cosine.loc[user_id, U])
    ratings = pd.DataFrame(self.S.loc[U])
    a = ratings.mul(sim_scores, axis=0).sum(0)
    
    b = np.sum(sim_scores)

    prediction = (a / b)

    result = prediction + Mu
    result = result[recom_items]
    result = result.sort_values(ascending=False)
    
    recommendation = result.index[:self.num_item_rec_top_N]
    
    return  list(recommendation)
    

### 모델링

In [368]:
number = str(1)
testcase= TestCase(number, type_ = 'DataFrame')
matrix = testcase.matrix
num_users = testcase.num_users
num_items = testcase.num_items
num_sim_user_top_N = testcase.num_sim_user_top_N
num_item_rec_top_N = testcase.num_item_rec_top_N
active_users = testcase.active_users
gts = testcase.gts

In [369]:
model = UserBaseCF(matrix, num_users, num_items, num_sim_user_top_N, num_item_rec_top_N)



In [370]:
ndcgs = []
for i in range(len(active_users)):
  rec = model.recommend(active_users[i])
  gt = gts[i]
  ndcg_score = ndcg(gt, rec)
  ndcgs.append(ndcg_score)
  print("rec : ", rec)
  print("gt : ", gt)
  print(ndcg_score)

rec :  [6, 25, 35, 24, 21, 28, 50]
gt :  [50, 49, 35, 6, 48, 25, 21]
0.589824447123412
rec :  [15, 28, 30, 42, 26, 29, 41]
gt :  [30, 15, 42, 26, 41, 28, 3]
0.6314609522550224
rec :  [20, 31, 28, 4, 11, 3, 26]
gt :  [30, 42, 28, 20, 3, 26, 31]
0.5839278181472287
rec :  [15, 35, 19, 28, 31, 30, 29]
gt :  [15, 30, 35, 41, 19, 28, 31]
0.7183250888609526
rec :  [29, 12, 25, 46, 15, 28, 40]
gt :  [35, 40, 25, 21, 29, 28, 41]
0.4919023358604514
rec :  [15, 14, 25, 45, 30, 26, 1]
gt :  [15, 30, 25, 14, 41, 45, 1]
0.7826429353578825
rec :  [25, 35, 11, 20, 3, 41, 28]
gt :  [35, 20, 25, 41, 11, 40, 3]
0.6358621889866652
rec :  [15, 29, 41, 30, 44, 47, 45]
gt :  [30, 15, 41, 29, 47, 44, 45]
0.7687190832285726
rec :  [35, 14, 20, 11, 24, 6, 12]
gt :  [35, 20, 11, 14, 24, 6, 12]
0.8712254150797757
rec :  [25, 35, 20, 15, 11, 46, 24]
gt :  [35, 50, 25, 20, 11, 6, 15]
0.5992241455507569
rec :  [20, 15, 31, 33, 24, 28, 19]
gt :  [20, 15, 33, 31, 28, 24, 30]
0.7703533859574244
rec :  [25, 29, 46, 24, 

In [371]:
print('ndcg 평균 : ', np.mean(ndcgs))

ndcg 평균 :  0.6605078687871985


pandas, numpy 모듈로 작성

테스트 결과 0.6~0.7로 표준 라이브러리로 만든 결과와 동일