<a href="https://colab.research.google.com/github/lqcgithub/MiningofMassiveDatasets/blob/main/Recommender_Systems.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Recommendation system.**


# I. Tổng quát 


---


Recommender System (RS) là một hệ thống khuyến nghị. Nhiệm vụ của RS là dự đoán mức độ quan tâm của người dùng với một sản phẩm nào đó thông qua các mô hình khuyến nghị thích hợp.

Cần quan tâm: users, items, ratings.
# II. Mô hình khuyến nghị


---


a. Content-based System

Khuyến nghị dựa trên đặc tính sản phẩm. Dễ thấy nhất là các hệ thống sử dụng loại, thể loại sản phẩm mà user tiêu thụ để khuyến nghị cho họ những sản phẩm có loại, thể loại tương tự. 

--> những sản phẩm không rõ phân loại, hay quá nhiều phân loại sẽ ảnh hưởng đến acuracy của mô hình.

b. Collaborative Filtering

Khuyến nghị dựa trên sự tương quan giữa users vs users, items vs items, hoặc cả 2. Ví dụ một nhóm user A, B, C thích item I và dữ liệu cho thấy B, C cũng thích item I2. Hệ thống sẽ khuyến nghị item I2 cho A vì có khả năng A cũng thích I2.

--> hoàn thiện hơn Content-based System.




In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd
import numpy as np

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
from scipy import sparse

In [None]:
metadata = pd.read_csv('/content/drive/MyDrive/sample-datasets/ratings.csv');

In [None]:
metadata.head(5)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,296,5.0,1147880044
1,1,306,3.5,1147868817
2,1,307,5.0,1147868828
3,1,665,5.0,1147878820
4,1,899,3.5,1147868510


In [None]:
len(metadata)

25000095

In [None]:
users = metadata['userId']
movies = metadata['movieId']
ratings = metadata['rating']

In [None]:
class CF(object):
    def __init__(self, Y_data, k, dist_func = cosine_similarity, uuCF = 1):
        self.uuCF = uuCF 
        self.Y_data = Y_data if uuCF else Y_data[:, [1, 0, 2]]
        self.k = k
        self.dist_func = dist_func
        self.Ybar_data = None
        self.n_users = int(np.max(self.Y_data[:, 0])) + 1 
        self.n_items = int(np.max(self.Y_data[:, 1])) + 1
    def add(self, new_data):
        self.Y_data = np.concatenate((self.Y_data, new_data), axis = 0)
    def normalize_Y(self):
        users = self.Y_data[:, 0]
        self.Ybar_data = self.Y_data.copy()
        self.mu = np.zeros((self.n_users,))
        for n in range(self.n_users):         
            ids = np.where(users == n)[0].astype(np.int32)
            item_ids = self.Y_data[ids, 1] 
            ratings = self.Y_data[ids, 2]
            m = np.mean(ratings) 
            if np.isnan(m):
                m = 0
            self.Ybar_data[ids, 2] = ratings - self.mu[n]
        self.Ybar = sparse.coo_matrix((self.Ybar_data[:, 2],
            (self.Ybar_data[:, 1], self.Ybar_data[:, 0])), (self.n_items, self.n_users))
        self.Ybar = self.Ybar.tocsr()

    def similarity(self):
        self.S = self.dist_func(self.Ybar.T, self.Ybar.T)
    def refresh(self):
      
        self.normalize_Y()
        self.similarity() 
        
    def fit(self):
        self.refresh()
    def __pred(self, u, i, normalized = 1):
        """ 
        predict the rating of user u for item i (normalized)
        if you need the un
        """
        # Step 1: find all users who rated i
        ids = np.where(self.Y_data[:, 1] == i)[0].astype(np.int32)
        # Step 2: 
        users_rated_i = (self.Y_data[ids, 0]).astype(np.int32)
        # Step 3: find similarity btw the current user and others 
        # who already rated i
        sim = self.S[u, users_rated_i]
        # Step 4: find the k most similarity users
        a = np.argsort(sim)[-self.k:] 
        # and the corresponding similarity levels
        nearest_s = sim[a]
        # How did each of 'near' users rated item i
        r = self.Ybar[i, users_rated_i[a]]
        if normalized:
            # add a small number, for instance, 1e-8, to avoid dividing by 0
            return (r*nearest_s)[0]/(np.abs(nearest_s).sum() + 1e-8)

        return (r*nearest_s)[0]/(np.abs(nearest_s).sum() + 1e-8) + self.mu[u]
    
    
    def pred(self, u, i, normalized = 1):
        """ 
        predict the rating of user u for item i (normalized)
        if you need the un
        """
        if self.uuCF: return self.__pred(u, i, normalize)
        return self.__pred(i, u, normalize)
    def recommend(self, u, normalized = 1):
        """
        Determine all items should be recommended for user u. (uuCF =1)
        or all users who might have interest on item u (uuCF = 0)
        The decision is made based on all i such that:
        self.pred(u, i) > 0. Suppose we are considering items which 
        have not been rated by u yet. 
        """
        ids = np.where(self.Y_data[:, 0] == u)[0]
        items_rated_by_u = self.Y_data[ids, 1].tolist()              
        recommended_items = []
        for i in xrange(self.n_items):
            if i not in items_rated_by_u:
                rating = self.__pred(u, i)
                if rating > 0: 
                    recommended_items.append(i)
        
        return recommended_items 
    def print_recommendation(self):
        """
        print all items which should be recommended for each user 
        """
        print ('Recommendation: ')
        for u in range(self.n_users):
            recommended_items = self.recommend(u)
            if self.uuCF:
                print ('Recommend item(s):', recommended_items, 'to user', u)
            else: 
                print ('Recommend item', u, 'to user(s) : ', recommended_items)       

In [None]:
Y_data = metadata[['userId', 'movieId', 'rating']].to_numpy()

rs = CF(Y_data, k = 2, uuCF = 1)
rs.fit()
rs.print_recommendation()

  out=out, **kwargs)
  ret = ret.dtype.type(ret / rcount)
