- 공부하며 이해한 바를 바탕으로 KNN based CF model을 구현한 것입니다. 
- 코드에 잘못된 부분이 있을 수 있습니다⛔️                            

In [27]:
import pandas as pd
import numpy as np
from tqdm import tqdm
import warnings
warnings.filterwarnings('ignore')

## DATA

In [None]:
# data = surprise.Dataset.load_builtin('ml-100k', prompt=False)
# col_names = ["userid", "itemid", "rating", "timestamp"]
raw_data = pd.read_csv("ratings.csv")

# idx mapping
item2idx, idx2item = {}, {}
user2idx, idx2user = {}, {}

for idx, user_id in enumerate(np.unique(raw_data["userId"])):
    user2idx[user_id] = idx
    idx2user[idx] = user_id
for idx, item_id in enumerate(np.unique(raw_data["movieId"])):
    item2idx[item_id] = idx
    idx2item[idx] = item_id

# make index data
index_data = raw_data
index_data["userId"] = raw_data["userId"].apply(lambda idx:user2idx[idx])
index_data["movieId"] = raw_data["movieId"].apply(lambda idx:item2idx[idx])

n_user = np.unique(raw_data["userId"]).shape[0]
n_item = np.unique(raw_data["movieId"]).shape[0]

shape = (n_user, n_item)
rating_matrix = np.zeros(shape)

# make rating matrix
for user_idx, movie_idx, rating in zip(index_data.userId, index_data.movieId, index_data.rating):
    rating_matrix[user_idx][movie_idx] = rating # interaction

# prepare side info
gen_data = pd.read_csv("movies.csv")
id2gen = {}
id2title = {}

for i in range(gen_data.shape[0]):
    item_id = gen_data.movieId[i]
    id2gen[item_id] = gen_data.genres[i].split("|")
    id2title[item_id] = gen_data.title[i]

예측 성능 확인을 위해 임의로 평점 마스킹

In [46]:
nzero_indices = np.where(rating_matrix != 0)
print(len(rating_matrix[nzero_indices[0], nzero_indices[1]]))

np.random.seed(42)
test_index = np.random.randint(0, len(rating_matrix[nzero_indices[0], nzero_indices[1]])-1, 100)

row = nzero_indices[0]
col = nzero_indices[1]

row = row[test_index]
col = col[test_index]

orgin_list = []

for i in range(len(row)):
    orgin_list.append([row[i], col[i], rating_matrix[row[i]][col[i]]])
    rating_matrix[row[i]][col[i]] = 0

100836


## Model 

### BASE module
유사도 및 예측 평점 구하는 부분 말고는 다른 부분이 없기 때문에 공통된 부분에 대한 base 모듈 정의

In [65]:
class KNN_CF:
    def __init__(self, data:np.ndarray, k:int=25, method:str="simple", sim:str="cosin"):
        super().__init__()
        self.data = data
        self.k = k
        self.method = method
        self.sim = sim
        self.n_user = data.shape[0]
        self.n_item = data.shape[1]
        self.pred_matrix = np.zeros((self.n_user, self.n_item))

    # 코사인 유사도
    def cos_sim(self,a:np.array, b:np.array) -> float:
        return np.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b))
    
    # 유클리드 거리의 역수
    def euclidean_sim(self,a:np.array, b:np.array) -> float:
        return float(1/(np.sqrt(np.sum((a-b)**2))+ 1e-15))
    
    def get_sim_matrix(self) -> None:
        pass
    
    def pred_one(self) -> float:
        pass
    
    # 한 유저에 대한 모든 비관측 아이템에 대한 평점 예측
    def pred_user(self, u_idx:int) -> None:
        for j in range(n_item):
            if not self.data[u_idx,j]:
                self.pred_matrix[u_idx,j] = self.pred_one(u_idx,j)

    # 전체 유저와 전체 아이템에 대한 평점 예측
    def pred_full(self) -> np.ndarray:
        for i in tqdm(range(n_user)):
            for j in range(n_item):
                if not self.data[i,j]:
                    self.pred_matrix[i,j] = self.pred_one(i,j)
        return self.pred_matrix

    # 한 유저에 대한 top k item list
    def get_top_k(self, u_idx: int, k: int) -> tuple[np.array, np.array]:
        self.pred_user(u_idx)
        user_pred = self.pred_matrix[u_idx]
        item_ranking = sorted(range(len(user_pred)), key=lambda i: user_pred[i], reverse=True)
        return (item_ranking[:k], user_pred[item_ranking[:k]])


### User based CF
1. 유저 - 유저 유사도를 구한다.
2. 유사도를 기준으로 k명의 유사 유저를 구한다.
3. k명의 유저의 item i에 대한 평점을 simple mean / weighted avg 하여 평점을 예측한다.

In [59]:
class KNN_UBCF(KNN_CF):
    def __init__(self, data:np.ndarray, k:int=25, method:str="simple", sim:str="cosin"):
        super().__init__(data, k, method, sim)
        self.sim_matrix = np.zeros((self.n_user, self.n_user)) # 유사도 행렬 (user x user)
        self.get_sim_matrix()

    # 모든 유저 사이의 유사도 계산
    def get_sim_matrix(self) -> None:
        if self.sim == "cosin":
            sim_func = self.cos_sim
        if self.sim == "euclid":
            sim_func = self.euclidean_sim

        for i in tqdm(range(n_user)):
            for j in range(i+1, n_user):
                self.sim_matrix[i][j] = sim_func(self.data[i],self.data[j])
                self.sim_matrix[j][i] = self.sim_matrix[i][j]

        np.fill_diagonal(self.sim_matrix, np.min(self.sim_matrix)-5) # 대각행렬 값 변경
        
    # 한 유저와 한 아이템에 대한 평점 예측
    def pred_one(self, u_idx:int, i_idx:int) -> float:
        k_users = []

        sims = self.sim_matrix[u_idx] # 한 유저의 유사도 벡터
        sim2idx = sorted(range(len(sims)), key=lambda i: sims[i], reverse=True) # 유사도 값 기준으로 정렬된 다른 유저 idx

        for idx in sim2idx:
            if self.data[idx, i_idx] != 0: # 이웃 유저가 해당 아이템을 평가하지 않은 경우, 이웃 유저로 뽑지 않음
                k_users.append(idx)
            if len(k_users)==self.k:
                break

        # 평점 계산 방법 (simple mean / weighted average)
        # 이웃 유저(k_users)가 한 아이템에 준 평점을 기준으로 쿼리 유저의 평점 예측
        if self.method == "simple":
            self.pred_matrix[u_idx,i_idx] = np.mean(self.data[k_users, i_idx])
        if self.method == "weighted":
            self.pred_matrix[u_idx,i_idx] = np.dot(sims[k_users], self.data[k_users, i_idx])/np.sum(sims[k_users])

        return self.pred_matrix[u_idx,i_idx]

In [72]:
u_id = 4
i_id = 858
top_k = 15
n_neighbor = 40

model = KNN_UBCF(rating_matrix, n_neighbor, method ="simple" ,sim="cosin")
# full_matrix_UBCF = model.pred_full()
print(f'user: {u_id}, item: {i_id}, pred_rating: {model.pred_one(user2idx[u_id], item2idx[i_id])}')

item_list, pred_rating = model.get_top_k(user2idx[u_id], top_k)
top_k_list = [(idx2item[idx], id2title[idx2item[idx]]) for idx in item_list]

print(f'user: {u_id}\ntop_k_list')
for item_id, title in top_k_list:
    print(f'    - Item: {item_id:4}  Title: {title}')

100%|██████████| 610/610 [00:05<00:00, 113.71it/s]


user: 4, item: 858, pred_rating: 4.6125
user: 4
top_k_list
    - Item:   53  Title: Lamerica (1994)
    - Item:   99  Title: Heidi Fleiss: Hollywood Madam (1995)
    - Item:  148  Title: Awfully Big Adventure, An (1995)
    - Item:  467  Title: Live Nude Girls (1995)
    - Item:  495  Title: In the Realm of the Senses (Ai no corrida) (1976)
    - Item:  496  Title: What Happened Was... (1994)
    - Item:  626  Title: Thin Line Between Love and Hate, A (1996)
    - Item:  633  Title: Denise Calls Up (1995)
    - Item:  876  Title: Supercop 2 (Project S) (Chao ji ji hua) (1993)
    - Item: 1140  Title: Entertaining Angels: The Dorothy Day Story (1996)
    - Item: 1151  Title: Lesson Faust (1994)
    - Item: 1310  Title: Hype! (1996)
    - Item: 1349  Title: Vampire in Venice (Nosferatu a Venezia) (Nosferatu in Venice) (1986)
    - Item: 1631  Title: Assignment, The (1997)
    - Item: 1759  Title: Four Days in September (O Que É Isso, Companheiro?) (1997)


### Item based CF
1. 아이템 - 아이템 유사도를 구한다.
2. 유사도를 기준으로 k개의 유사 아이템을 구한다.
3. k개의 아이템에 대한 user u의 평점을 simple mean / weighted avg 하여 평점을 예측한다.

In [70]:
class KNN_IBCF(KNN_CF):
    def __init__(self, data:np.ndarray, k:int=25, method:str="simple", sim:str="cosin"):
        super().__init__(data, k, method, sim)
        self.sim_matrix = np.zeros((self.n_item, self.n_item)) # 유사도 행렬 (item x item)
        self.get_sim_matrix()
    
    # 모든 아이템 사이의 유사도 계산
    def get_sim_matrix(self) -> None:
        if self.sim == "cosin":
            sim_func = self.cos_sim
        if self.sim == "euclid":
            sim_func = self.euclidean_sim

        for i in tqdm(range(n_item)):
            for j in range(i+1, n_item):
                self.sim_matrix[i][j] = sim_func(self.data[:, i],self.data[:, j])
                self.sim_matrix[j][i] = self.sim_matrix[i][j]
        
        np.fill_diagonal(self.sim_matrix, np.min(self.sim_matrix)-5)
        
    # 한 유저와 한 아이템에 대한 평점 예측
    def pred_one(self, u_idx:int, i_idx:int) -> float:
        k_items = []

        sims = self.sim_matrix[i_idx] # 한 아이템의 유사도 벡터
        sim2idx = sorted(range(len(sims)), key=lambda i: sims[i], reverse=True) # 유사도 기준으로 정렬된 타 아이템 idx

        for idx in sim2idx:
            if self.data[u_idx, idx] != 0: # 쿼리 유저에게 평가되지 않은 아이템은 제외
                k_items.append(idx)
            if len(k_items)==self.k:
                break

        # 평점 계산 방법 (simple mean / weighted average)
        # 이웃 아이템(k_items)의 평점을 기반으로 쿼리 유저의 쿼리 아이템에 대한 평점 예측
        if self.method == "simple":
            self.pred_matrix[u_idx,i_idx] = np.mean(self.data[u_idx, k_items])
        if self.method == "weighted":
            self.pred_matrix[u_idx,i_idx] = np.dot(sims[k_items], self.data[u_idx, k_items])/np.sum(sims[k_items])
                    
        return self.pred_matrix[u_idx,i_idx]

In [71]:
u_id = 4
i_id = 14
top_k = 15
n_neighbor = 40

model = KNN_IBCF(rating_matrix, n_neighbor, method ="simple" ,sim="cosin")
# full_matrix_IBCF = model.pred_full()
print(f'user: {u_id}, item: {i_id}, pred_rating: {model.pred_one(user2idx[u_id], item2idx[i_id])}')

item_list, pred_rating = model.get_top_k(user2idx[u_id], top_k)
top_k_list = [(idx2item[idx], id2title[idx2item[idx]]) for idx in item_list]

print(f'user: {u_id}\ntop_k_list')
for item_id, title in top_k_list:
    print(f'    - Item: {item_id:4}  Title: {title}')

 25%|██▌       | 2431/9724 [03:28<10:26, 11.65it/s]


KeyboardInterrupt: 

### Item based CF with side info
- item에 대한 side info인 장르를 유사도 구할 때 활용
- 유사도 외에는 IBCF와 차이 없음
- 유사도 구하는 방법
    1. 자카드 유사도
    2. 장르 원-핫인코딩 후 코사인 유사도

In [5]:
class KNN_SIBCF(KNN_CF):
    def __init__(self, data:np.ndarray, gen_info:dict, k:int=25, method:str="simple", sim:str="cosin"):
        super().__init__(data, k, method, sim)
        self.gen_info = gen_info
        self.sim_matrix = np.zeros((self.n_item, self.n_item))
        self.get_sim_matrix()
    
    # 장르 유사도 계산을 위한 자카드 유사도
    def jaccard_sim(self,a, b):
        a = set(a)
        b = set(b)
        return float(len(a.intersection(b)) / len(a.union(b)))
    
    # 모든 아이템 사이의 유사도 계산
    def get_sim_matrix(self) -> None:
        if self.sim == "cosin":
            sim_func = self.cos_sim
        if self.sim == "euclid":
            sim_func = self.euclidean_sim

        for i in tqdm(range(n_item)):
            for j in range(i+1, n_item):
                # IBCF와 다르게 장르의 자카드 유사도 추가됨
                gen_sim = self.jaccard_sim(self.gen_info[i], self.gen_info[j])
                self.sim_matrix[i][j] = sim_func(self.data[:, i],self.data[:, j]) + gen_sim
                self.sim_matrix[j][i] = self.sim_matrix[i][j]
        
        np.fill_diagonal(self.sim_matrix, np.min(self.sim_matrix)-5)

    # 한 유저와 한 아이템에 대한 평점 예측
    def pred_one(self, u_idx:int, i_idx:int) -> float:
        k_items = []

        sims = self.sim_matrix[i_idx]
        sim2idx = sorted(range(len(sims)), key=lambda i: sims[i], reverse=True)

        for idx in sim2idx:
            if self.data[u_idx, idx] != 0:
                k_items.append(idx)
            if len(k_items)==self.k:
                break

        # 평점 계산 방법 (simple mean / weighted average)
        if self.method == "simple":
            self.pred_matrix[u_idx,i_idx] = np.mean(self.data[u_idx, k_items])
        if self.method == "weighted":
            self.pred_matrix[u_idx,i_idx] = np.dot(sims[k_items], self.data[u_idx, k_items])/np.sum(sims[k_items])

        return self.pred_matrix[u_idx,i_idx]

In [7]:
u_id = 4
i_id = 14
top_k = 15
n_neighbor = 40

model = KNN_SIBCF(rating_matrix, id2gen, n_neighbor, method ="simple" ,sim="cosin")
# full_matrix_SIBCF = model.pred_full()
print(f'user: {u_id}, item: {i_id}, pred_rating: {model.pred_one(user2idx[u_id], item2idx[i_id])}')

item_list, pred_rating = model.get_top_k(user2idx[u_id], top_k)
top_k_list = [(idx2item[idx], id2title[idx2item[idx]]) for idx in item_list]

print(f'user: {u_id}\ntop_k_list')
for item_id, title in top_k_list:
    print(f'    - Item: {item_id:4}  Title: {title}')


100%|██████████| 1682/1682 [00:18<00:00, 88.55it/s] 
100%|██████████| 943/943 [17:48<00:00,  1.13s/it]

user:4, item:14, pred_rating:4.335331349731403
user:4
top_k_list:[1251 1654 1532 1642  341 1652 1431 1357 1678 1679  914 1395 1243 1120
 1680]





모델에 따른 RMSE 비교

In [13]:
from sklearn.metrics import mean_squared_error

def rmse(actual, pred):
    return np.sqrt(mean_squared_error(actual, pred))

actual = np.array([ele[-1] for ele in orgin_list])


In [None]:
pred_UBCF = []
pred_IBCF = []
pred_SIBCF = []

for row, col, rating in orgin_list:
    pred_UBCF.append(full_matrix_UBCF[row][col])
    pred_IBCF.append(full_matrix_IBCF[row][col])
    pred_SIBCF.append(full_matrix_SIBCF[row][col])

print(f'UBCF rmse : {rmse(actual,pred_UBCF)}')
print(f'IBCF rmse : {rmse(actual,pred_IBCF)}')
print(f'SIBCF rmse : {rmse(actual,pred_SIBCF)}')

n_neighbor 개수에 따른 RMSE 비교

In [8]:
u_id = 4
i_id = 14
top_k = 15
n_neighbor = 30

model = KNN_SIBCF(rating_matrix, id2gen, n_neighbor, method ="simple" ,sim="cosin")
full_matrix_SIBCF_30 = model.pred_full()
print(f'user: {u_id}, item: {i_id}, pred_rating: {model.pred_one(user2idx[u_id], item2idx[i_id])}')

item_list, pred_rating = model.get_top_k(user2idx[u_id], top_k)
top_k_list = [(idx2item[idx], id2title[idx2item[idx]]) for idx in item_list]

print(f'user: {u_id}\ntop_k_list')
for item_id, title in top_k_list:
    print(f'    - Item: {item_id:4}  Title: {title}')
#######################################################

n_neighbor = 50

model = KNN_SIBCF(rating_matrix, id2gen, n_neighbor, method ="simple" ,sim="cosin")
full_matrix_SIBCF_50 = model.pred_full()
print(f'user: {u_id}, item: {i_id}, pred_rating: {model.pred_one(user2idx[u_id], item2idx[i_id])}')

item_list, pred_rating = model.get_top_k(user2idx[u_id], top_k)
top_k_list = [(idx2item[idx], id2title[idx2item[idx]]) for idx in item_list]

print(f'user: {u_id}\ntop_k_list')
for item_id, title in top_k_list:
    print(f'    - Item: {item_id:4}  Title: {title}')


100%|██████████| 1682/1682 [00:18<00:00, 90.15it/s] 
100%|██████████| 943/943 [17:04<00:00,  1.09s/it]


user:4
top_k_list:[1251 1654 1532 1642  341 1652 1431 1357 1678 1679  914 1395 1243 1120
 1680]


100%|██████████| 1682/1682 [00:18<00:00, 89.87it/s] 
100%|██████████| 943/943 [18:27<00:00,  1.17s/it]

user:4
top_k_list:[1251 1654 1532 1642  341 1652 1431 1357 1678 1679  914 1395 1243 1120
 1680]





In [14]:
pred_SIBCF_30 = []
pred_SIBCF_50 = []

for row, col, rating in orgin_list:
    pred_SIBCF_30.append(full_matrix_SIBCF_30[row][col])
    pred_SIBCF_50.append(full_matrix_SIBCF_50[row][col])

print(f'SIBCF_50 rmse : {rmse(actual,pred_SIBCF_50)}')
print(f'SIBCF_40 rmse : {rmse(actual,pred_SIBCF)}')
print(f'SIBCF_30 rmse : {rmse(actual,pred_SIBCF_30)}')


SIBCF_50 rmse : 0.9941878159483233


NameError: name 'pred_SIBCF' is not defined