# 추천 시스템
흔한 데이터 문제 중 하나는 **추천(recommendation)** 이다. 

In [1]:
users_interests = [
    ["Hadoop", "Big Data", "HBase", "Java", "Spark", "Storm", "Cassandra"],
    ["NoSQL", "MongoDB", "Cassandra", "HBase", "Postgres"],
    ["Python", "scikit-learn", "scipy", "numpy", "statsmodels", "pandas"],
    ["R", "Python", "statistics", "regression", "probability"],
    ["machine learning", "regression", "decision trees", "libsvm"],
    ["Python", "R", "Java", "C++", "Haskell", "programming languages"],
    ["statistics", "probability", "mathematics", "theory"],
    ["machine learning", "scikit-learn", "Mahout", "neural networks"],
    ["neural networks", "deep learning", "Big Data", "artificial intelligence"],
    ["Hadoop", "Java", "MapReduce", "Big Data"],
    ["statistics", "R", "statsmodels"],
    ["C++", "deep learning", "artificial intelligence", "probability"],
    ["pandas", "R", "Python"],
    ["databases", "HBase", "Postgres", "MySQL", "MongoDB"],
    ["libsvm", "regression", "support vector machines"]
]

사용자의 현재 관심사를 토대로 새로운 관심사를 추천해 주는 문제를 풀 것이다.

## 23.1 수작업을 이용한 추천
인터넷이 있기 전에는, 도서관 사서에게 책을 추천 받았다. 하지만 이 방법은 개인적 지식과 상상력에 의해 제한을 받는다는 단점이 있다.

## 23.2 인기도를 활용한 추천
한 가지 쉬운 접근법은 단순히 인기 있는 것을 추천하는 것이다.

In [2]:
from collections import Counter

popular_interests = Counter(interest
                           for user_interests in users_interests
                           for interest in user_interests)

In [3]:
popular_interests

Counter({'Hadoop': 2,
         'Big Data': 3,
         'HBase': 3,
         'Java': 3,
         'Spark': 1,
         'Storm': 1,
         'Cassandra': 2,
         'NoSQL': 1,
         'MongoDB': 2,
         'Postgres': 2,
         'Python': 4,
         'scikit-learn': 2,
         'scipy': 1,
         'numpy': 1,
         'statsmodels': 2,
         'pandas': 2,
         'R': 4,
         'statistics': 3,
         'regression': 3,
         'probability': 3,
         'machine learning': 2,
         'decision trees': 1,
         'libsvm': 2,
         'C++': 2,
         'Haskell': 1,
         'programming languages': 1,
         'mathematics': 1,
         'theory': 1,
         'Mahout': 1,
         'neural networks': 2,
         'deep learning': 2,
         'artificial intelligence': 2,
         'MapReduce': 1,
         'databases': 1,
         'MySQL': 1,
         'support vector machines': 1})

해당 내용을 계산한 뒤에는 특정 사용자가 관심사에 적지 않은 항목들을 전체 인기순으로 사용자에게 추천해 준다.

In [7]:
from typing import List, Tuple

def most_popular_new_interests(user_interests: List[str],
                              max_results: int = 5) -> List[Tuple[str, int]]:
    suggestions = [(interest, frequency)
                  for interest, frequency in popular_interests.most_common()
                  if interest not in user_interests]
    return suggestions[:max_results]

## 23.3 사용자 기반 협업 필터링
사용자의 관심사를 기반으로 추천해 주는 방법 중 하나는, 특정 사용자와 유사한 다른 사용자를 찾은 후, 해당 사용자의 관심사를 추천해 주는 것이다.

그렇게 하기 위해 먼저 사용자들 간 유사도를 정의할 수 있어야 한다.

이를 위해 코사인 유사도(cosine similarity) 지표를 사용할 것이다.

이것을 0, 1로 구성된 벡터에 적용할 것이다. 여기서 벡터 v는 각 사용자의 관심사를 나타낸다. 사용자가 관심사 i에 관심이 있을 때 v[i]의 값은 1이고 그렇지 않으면 0이다. '유사한 사용자'는 '벡터끼리 유사한 방향을 가리키는 사용자'를 의미한다. 완전히 동일한 관심사를 가진 사용자끼리는 유사도가 1이고, 관심사가 전혀 겹치지 않는 사용자끼리는 유사도가 0이 된다. 대부분의 경우, 유사도는 그 사이의 값이 될 것이며, 1에 가까울수록 유사하고 0에 가까울수록 유사하지 않음을 의미한다.

사용자들의 관심사에 무엇이 있는지 파악하고, 각각의 관심사에 인덱스 번호를 부여하는 것으로 시작하자. 집합 컴프리헨션을 이용하여 전체 관심사 목록을 앚을 수 있고 해당 결과를 리스트에 넣고 정렬하자.

In [9]:
unique_interests = sorted({interest
                          for user_interests in users_interests
                          for interest in user_interests})

이제 0과 1로 구성된 각 사용자의 '관심사' 벡터를 만들어 보자. unique_interests를 사용해 사용자가 해당 관심사를 가지고 있으면 1, 그렇지 않으면 0인 값을 갖는 벡터로 사용자의 관심사를 나타내자.

In [10]:
def make_user_interest_vector(user_interests: List[str]) -> List[int]:
    """
    unique_interests[i]가 관심사 리스트에 존재한다면
    i번째 요소가 1이고, 존재하지 않는다면 0인 벡터를 생성
    """
    return [1 if interest in user_interests else 0
           for interest in unique_interests]

사용자 관심사 벡터의 리스트를 만들 수 있다.

In [11]:
user_interest_vectors = [make_user_interest_vector(user_interests)
                         for user_interests in users_interests]

여기서 user_interest_matrix[i][j]는 사용자 i가 관심사 j에 관심이 있다면 1, 관심이 없다면 0이다. 

In [14]:
import math
from typing import List

Vector = List[float]

def dot(v: Vector, w: Vector) -> float:
    """v_1 * w_1 + ... + v_n * w_n"""
    assert len(v) == len(w),  "vectors must be same length"
    
    return sum(v_i * w_i for v_i, w_i in zip(v,w))

def cosine_similarity(v1: Vector, v2: Vector) -> float:
    return dot(v1, v2) / math.sqrt(dot(v1, v2) * dot(v2, v2))

In [15]:
user_similarities = [[cosine_similarity(interest_vector_i, interest_vector_j)
                     for interest_vector_j in user_interest_vectors]
                    for interest_vector_i in user_interest_vectors]

ZeroDivisionError: float division by zero

user_similarities[i]는 사용자 i의 관심사를 다른 모든 사용자와 비교한 벡터이다.

본인을 비롯해서, 유사도가 0인 다른 사용자는 반드시 제외하자. 그리고 가장 유사한 사용자부터 가장 덜 유사한 사용자 순서로 정렬할 것이다.

In [16]:
def most_similar_users_to(user_id: int) -> List[Tuple[int, float]]:
    pairs = [(other_user_id, similarity)   # 0이 아닌
            for other_user_id, similarity in  # 유사도를 지닌
            enumerate(user_similarities[user_id])  # 다른 사용자
            if user_id != other_user_id and similarity > 0]  # 찾기
    
    return sorted(pairs, 
                 key=lambda pair: pair[-1],
                 reverse=True)

이 결괏값을 가지고 각각의 관심사에 대해 해당 관심사에 관심이 있는 다른 사용자와의 유사도를 모두 더해 주면 된다.

In [18]:
from collections import defaultdict

def user_based_suggestions(user_id: int,
                          include_current_interests: bool = False):
    # 유사도를 더한다.
    suggestions: Dict[str, float] = defaultdict(float)
    for other_user_id, similarity in most_similar_users_to(user_id):
        for interest in users_interests[other_user_id]:
            suggestions[interest] += similarity
                
    # 정렬된 리스트로 변환
    suggestions = sorted(suggestions.items(),
                        key=lambda pair: pair[-1],  # 가중치
                        reverse=True)
    
    # (필요하다면) 이미 관심사로 표시한 것은 제외
    if include_current_interests:
        return suggestions
    else:
        return [(suggestion, weight)
               for suggestion, weight in suggestions
               if suggestion not in users_interests[user_id]]

In [19]:
user_based_suggestions(0)

NameError: name 'user_similarities' is not defined

이 접근법은 아이템(관심사)의 수가 아주 많으면 잘 작동하지 않는다. 12.3절 '차원의 저주'에서 차원이 아주 커지면 대부분의 벡터들은 서로 멀리 떨어지게 되기 때문에 결과적으로 대부분의 벡터는 서로 상당히 다른 방향을 가리키게 된다. 즉, 관심사의 수가 아주 많아지면 특정 사용자와 '가장 유사한 사용자'는 사실 전혀 유사하지 않을 가능성이 높다.

## 23.4 상품 기반 협업 필터링
또 다른 접근 방법으로 관심사 자체에 대한 유사도를 구하는 방법이 있다. 

이 방법은 사용자의 현재 관심사와 가장 유사한 관심사들을 직접적으로 추천해준다. 

먼저 기존의 사용자-관심사 행렬의 **전치행렬(transpose)** 을 구한다. 이 행렬은 관심사가 행, 사용자가 열이 된다.

In [21]:
interest_user_matrix = [[user_interest_vector[j]
                        for user_interest_vector in user_interest_vectors]
                       for j, _ in enumerate(unique_interests)]

interest_user_matrix의 행 j는 user_interest_matrix의 열 j와 같다. 즉, 관심사에 특정 사용자가 관심을 가지면 1, 관심을 가지지 않으면 0이다. 

여기에 다시 코사인 유사도를 적용해 보자. 완전히 동일한 사용자들의 집합이 두 관심사에 관심이 있다면 이 관심사들의 유사도는 1이다. 만약 두 관심사에 동일하게 관심을 갖는 사용자가 단 한 명이라도 없다면 이 관심사들의 유사도는 0이다.

In [22]:
interest_similarities = [[cosine_similarity(user_vector_i, user_vector_j)
                         for user_vector_j in interest_user_matrix]
                        for user_vector_i in interest_user_matrix]

ZeroDivisionError: float division by zero

e.g. interest 0인 Big Data와 가장 유사한 관심사는 아래 함수를 이용해서 구할 수 있다.

In [24]:
def most_similar_interests_to(interest_id: int):
    similarities = interest_similarities[interest_id]
    pairs = [(unique_interests[other_interest_id], similarity)
             for other_interest_id, similarity in enumerate(similarities)
             if interest_id != other_interest_id and similarity > 0]
    return sorted(pairs,
                  key=lambda pair: pair[-1],
                  reverse=True)

추천 목록은 사용자의 관심사와 유사한 관심사들의 유사도의 합으로 구할 수 있다.

In [25]:
def item_based_suggestions(user_id: int,
                           include_current_interests: bool = False):
    # 비슷한 관심사를 더한다
    suggestions = defaultdict(float)
    user_interest_vector = user_interest_vectors[user_id]
    for interest_id, is_interested in enumerate(user_interest_vector):
        if is_interested == 1:
            similar_interests = most_similar_interests_to(interest_id)
            for interest, similarity in similar_interests:
                suggestions[interest] += similarity

    # 가중치 기준으로 정렬
    suggestions = sorted(suggestions.items(),
                         key=lambda pair: pair[-1],
                         reverse=True)

    if include_current_interests:
        return suggestions
    else:
        return [(suggestion, weight)
                for suggestion, weight in suggestions
                if suggestion not in users_interests[user_id]]

## 23.5 행렬 분해
사용자의 선호도를 0과 1로 구성된 [사용자 수, 상품 수]의 행렬로 표현할 수 있다. 이때 1은 좋다고 표현한 상품을 의미하며 0은 그렇지 않은 상품에 대응된다. 

대로는 실제 숫자로 구성된 평점이 주어질때도 있다. 상품에 후기에 1~5까지 별점을 줄 수 있다. 해당 숫자는(만약 평점을 받지 않은 상품은 일단은 무시한다면) 여전히 [사용자 수, 상품 수] 행렬로 표현할 수 있다.

이런 평점 데이터에서 어떤 사용자가 특정 상품에 어떤 평점을 줄 것인지를 예측하는 모델을 학습하는 방법을 알아볼 것이다.

이 문제에 접근하는 한 가지 방법으로, 모든 사용자에게 **잠재적인** '타입'이 주어지고 이를 숫자로 구성된 벡터로 표현할 수 있다고 가정하는 것이다.
상품 또한 잠재적인 '타입'이 주어진다고 가정할 것이다.

마약 사용자의 타입을 [사용자 수, 차원] 행렬로 표현할 수 있고, 상품 타입의 전치행렬을 [차원, 상품 수] 행렬로 표현될 수 있다면, 둘의 곱은 [사용자 수, 상품 수] 행렬이 될 것이다. 즉, 선호도 행렬을 사용자 행렬과 상품 행렬 둘로 '분해' 하는 모델을 만들 수 있다.

In [26]:
MOVIES = "u.item" 
RATINGS = "u.data"

from typing import NamedTuple

class Rating(NamedTuple):
    user_id: str
    movie_id: str
    rating: float

import csv
# UnicodeDecodeError를 피하기 위해 인코딩 정보를 추가한다.
with open(MOVIES, encoding="iso-8859-1") as f:
    reader = csv.reader(f, delimiter="|")
    movies = {movie_id: title for movie_id, title, *_ in reader}

FileNotFoundError: [Errno 2] No such file or directory: 'u.item'

평점 파일은 탭으로 구분된 데이터이며, 총 4개의 열로 구성되어 있다.(user_id, movie_id, rating(1~5), timestamp)

In [28]:
#  [평점] 리스트 만들기
with open(RATINGS, encoding="iso-8859-1") as f:
    reader = csv.reader(f, delimiter="\t")
    ratings = [Rating(user_id, movie_id, float(rating))
               for user_id, movie_id, rating, _ in reader]

FileNotFoundError: [Errno 2] No such file or directory: 'u.data'

In [29]:
# 943명의 사용자가 평가한 1682개의 영화
assert len(movies) == 1682
assert len(list({rating.user_id for rating in ratings})) == 943

NameError: name 'movies' is not defined

In [30]:
import re

# movie_id 기준으로 평점을 모으기 위한 자료 구조
star_wars_ratings = {movie_id: []
                     for movie_id, title in movies.items()
                     if re.search("Star Wars|Empire Strikes|Jedi", title)}

NameError: name 'movies' is not defined

In [31]:
# 평점을 순회하며 스타워즈 영화들의 평점을 수집
for rating in ratings:
    if rating.movie_id in star_wars_ratings:
        star_wars_ratings[rating.movie_id].append(rating.rating)

NameError: name 'ratings' is not defined

In [32]:
# 각 영화별로 평균 평점을 계산
avg_ratings = [(sum(title_ratings) / len(title_ratings), movie_id)
               for movie_id, title_ratings in star_wars_ratings.items()]

NameError: name 'star_wars_ratings' is not defined

In [33]:
# 순서대로 출력
for avg_rating, movie_id in sorted(avg_ratings, reverse=True):
    print(f"{avg_rating:.2f} {movies[movie_id]}")

NameError: name 'avg_ratings' is not defined

In [35]:
import random
random.seed(0)
random.shuffle(ratings)

split1 = int(len(ratings) * 0.7)
split2 = int(len(ratings) * 0.85)

train = ratings[:split1]              # 데이터의 70% 
validation = ratings[split1:split2]   # 데이터의 15%
test = ratings[split2:]               # 데이터의 15%

NameError: name 'ratings' is not defined

단순한 베이즈라인 모델을 만들어 우리의 모델이 그보다 잘하는지 확인하는 것이 좋다. 여기서는 '평균 평점을 예측'하는 모델이 베이스라인이 될 수 도 있다. 모델의 평가 척도로 오차 제곱 합의 평균을 사용할 것이다. 

In [36]:
avg_rating = sum(rating.rating for rating in train) / len(train)
baseline_error = sum((rating.rating - avg_rating) ** 2
                     for rating in test) / len(test)

# 우리는 이보다 잘해야 한다.
assert 1.26 < baseline_error < 1.27

NameError: name 'train' is not defined

임베딩이 주어졌을 때, 예측된 평점은 사용자 임베딩과 영화 임베딩의 행렬곱으로 주어진다. 어떤 사용자와 영화가 주어지면 해당 값은 각각 임베딩의 내적이다. 

우선 임베딩을 생성하는 것부터 시작하자. 이를 딕셔너리를 사용하여 키는 아이디, 값은 벡터로 만들어서 특정 아이디에 대응되는 임베딩을 손쉽게  검색할 수 있도록 하겠다.

In [38]:
Tensor = list

def random_tensor(*dims: int, init: str = 'normal') -> Tensor:
    if init == 'normal':
        return random_normal(*dims)
    elif init == 'uniform':
        return random_uniform(*dims)
    elif init == 'xavier':
        variance = len(dims) / sum(dims)
        return random_normal(*dims, variance=variance)
    else:
        raise ValueError(f"unkown init: {init}")

In [39]:
EMBEDDING_DIM = 2

# 서로 다른 아이디를 찾는다.
user_ids = {rating.user_id for rating in ratings}
movie_ids = {rating.movie_id for rating in ratings}

# 각 아이디별로 임의의 벡터를 생성
user_vectors = {user_id: random_tensor(EMBEDDING_DIM)
                for user_id in user_ids}
movie_vectors = {movie_id: random_tensor(EMBEDDING_DIM)
                 for movie_id in movie_ids}

NameError: name 'ratings' is not defined

In [42]:
from typing import List
import tqdm
from scratch.linear_algebra import dot

def loop(dataset: List[Rating],
         learning_rate: float = None) -> None:
    with tqdm.tqdm(dataset) as t:
        loss = 0.0
        for i, rating in enumerate(t):
            movie_vector = movie_vectors[rating.movie_id]
            user_vector = user_vectors[rating.user_id]
            predicted = dot(user_vector, movie_vector)
            error = predicted - rating.rating
            loss += error ** 2

            if learning_rate is not None:
                # 예측치 = m_0 * u_0 + ... + m_k * u_k
                # 각각 u_j가 가중치 m_j를 받고 출력에 들어가며
                # 각각 m_j가 가중치 u_j를 받고 출력에 들어간다.
                user_gradient = [error * m_j for m_j in movie_vector]
                movie_gradient = [error * u_j for u_j in user_vector]

                # 그래디언트만큼 이동
                for j in range(EMBEDDING_DIM):
                    user_vector[j] -= learning_rate * user_gradient[j]
                    movie_vector[j] -= learning_rate * movie_gradient[j]

            t.set_description(f"avg loss: {loss / (i + 1)}")
            

ModuleNotFoundError: No module named 'scratch'

모델을 학습하여 최적의 임베딩을 찾을 수 있다. 학습률(learning rate)을 에폭이 지날 때마다 조금씩 줄여주는 편이 좋다.

In [41]:
learning_rate = 0.05
for epoch in range(20):
    learning_rate *= 0.9
    print(epoch, learning_rate)
    loop(train, learning_rate=learning_rate)
    loop(validation)
loop(test)

0 0.045000000000000005


NameError: name 'loop' is not defined

이 모델은 쉽게 학습 데이터에 오버피팅될 수 있다. EMBEDDING_DIM=2 인 경우에 가장 좋은 결과를 얻을 수 있었으며 평가 데이터에서의 평균 손실이 0.89정도 나왔다.

이제 학습된 벡터를 보자. 각각의 항목이 특별히 의미를 갖고 있어야 할 이유는 없기 때문에 주성분 분석을 사용할 것이다.

In [43]:
from scratch.working_with_data import pca, transform

original_vectors = [vector for vector in movie_vectors.values()]
components = pca(original_vectors, 2)

ratings_by_movie = defaultdict(list)
for rating in ratings:
    ratings_by_movie[rating.movie_id].append(rating.rating)

vectors = [
    (movie_id,
     sum(ratings_by_movie[movie_id]) / len(ratings_by_movie[movie_id]),
     movies[movie_id],
     vector)
    for movie_id, vector in zip(movie_vectors.keys(),
                                transform(original_vectors, components))
]

# 주성분 기준으로 첫 25, 마지막 25를 출력
print(sorted(vectors, key=lambda v: v[-1][0])[:25])
print(sorted(vectors, key=lambda v: v[-1][0])[-25:])

ModuleNotFoundError: No module named 'scratch'

첫 25개 영화는 높은 평점을 받은 데에 비해 마지막 25개는 대체로 낮은 평점을 받았다. 이로부터 제1 주성분은 대체로 '얼마나 좋은 영화인가?' 라는 정보를 담고 있음을 시사한다.

제2 주성분의 의미를 파악하는 것은 어렵다. 실제로 2차원 임베딩이 1차원 임베딩에 비해 아주 약간 더 나았는데, 이는 제2 주성분의 정보력이 미묘하다는 것을 시사한다.