# Recommender system with collaborative filtering

## Какво е Recommender system
Recommender system или Система за препоръки е система която помага на потребител да намери най-подходящите опции, когато търси нещо, било то в сайт за 
електронна търговия или платформа за развлечение. 

## Видове Система за препоръки
Има два основни вида системи: персонализирани и неперсонализирани. Не персонализираните са прости, но персонализираните работят по добре, защото отговаря на нуждите на всеки потребител. 

## Collaborative filtering
Collaborative filtering e метод за извличане на информация, който се основава на анализа на предпочитания или поведението на потребителите. Този метод разчита на информацията от множество потребители, за да направи препоръка. <br/>
Има два основни вида филтриране
- Базирано на потребители
- Базирано на елементи <br>

Филтрирането базирано на потребители работи на предположението че потребители, които са уцени един и същ предмет с подобни оценки, то те вероятно ще имат едно и също предпочитание за други елементи. Този метод разчита на намирането на прилики между потребителите. <br>
<br>
Филтрирането базирано на елементи работи като сравнява елементи, които са оценени сходно от различни потребители. Като пример: Ако много хора, които са гледали Филм А, също са гледали Филм Б, можем да препоръчаме Филм Б на потребители, които са гледали Филм А. <br>
<br>
Ще реализираме филтриране базирано на потребители

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

## Данни
Данните които са използвани са оценки на филми на Амазон, които се намира в [Kaggle](https://www.kaggle.com/datasets/eswarchandt/amazon-movie-ratings).

In [2]:
pd.read_csv("Amazon.csv").head()

Unnamed: 0,user_id,Movie1,Movie2,Movie3,Movie4,Movie5,Movie6,Movie7,Movie8,Movie9,...,Movie197,Movie198,Movie199,Movie200,Movie201,Movie202,Movie203,Movie204,Movie205,Movie206
0,A3R5OBKS7OM2IR,5.0,5.0,,,,,,,,...,,,,,,,,,,
1,AH3QC2PC1VTGP,,,2.0,,,,,,,...,,,,,,,,,,
2,A3LKP6WPMP9UKX,,,,5.0,,,,,,...,,,,,,,,,,
3,AVIY68KEPQ5ZD,,,,5.0,,,,,,...,,,,,,,,,,
4,A1CV1WROP5KTTW,,,,,5.0,,,,,...,,,,,,,,,,


Първо ще дефинираме функция за базова оценка която е глобалната средна оценка с добавено отклонение на потребителя и елементите

In [3]:
def baseline_prediction(data, userid, movieid):
    global_mean = data.stack().dropna().mean()

    user_mean = data.loc[userid, :].mean()

    item_mean = data.loc[:, movieid].mean()

    user_bias = global_mean - user_mean

    item_bias = global_mean - item_mean

    baseline = global_mean + user_bias + item_bias

    return baseline

След това ще дефинираме функция която намира съседите на база оценката на сходство, който е изчислен чрез cosine similarity

In [4]:
def find_neighbour(data, userid, neighbours_count=5):
    user_mean = data.mean(axis=0)
    user_removed_mean_rating = (data - user_mean).fillna(0)

    n_users = len(user_removed_mean_rating.index)
    similarity_score = np.zeros(n_users)

    user_target = user_removed_mean_rating.loc[userid].values.reshape(1, -1)

    for i, neighbour in enumerate(user_removed_mean_rating.index):
        user_neighbour = user_removed_mean_rating.loc[neighbour].values.reshape(1, -1)

        sim_i = cosine_similarity(user_target, user_neighbour)

        similarity_score[i] = sim_i[0, 0]

    sorted_idx = np.argsort(similarity_score)[::-1]

    similarity_score = np.sort(similarity_score)[::-1]

    closest_neighbour = user_removed_mean_rating.index[sorted_idx[1:neighbours_count + 1]].tolist()

    neighbour_similarities = list(similarity_score[1:neighbours_count + 1])

    return {
        'closest_neighbour': closest_neighbour,
        'closest_neighbour_similarity': neighbour_similarities,
    }



След като имаме функция за намиране на съседите, може да дефинираме функция за прогнозиране на оценките на елементи базирани на данните за оценка на съседите

In [5]:
def predict_item_rating(userid, movieid, data, neighbour_data, neighbour_count, min_rating=1, max_rating=5):
    baseline = baseline_prediction(data, userid, movieid)

    similarity_rating_total = 0
    similarity_sum = 0

    for i in range(neighbour_count):
        neighbour_rating = data.loc[neighbour_data['closest_neighbour'][i], movieid]

        if np.isnan(neighbour_rating):
            continue

        neighbour_baseline = baseline_prediction(data, neighbour_data['closest_neighbour'][i], movieid)

        adjusted_rating = neighbour_rating - neighbour_baseline

        similarity_rating = neighbour_data['closest_neighbour_similarity'][i] * adjusted_rating

        similarity_rating_total += similarity_rating

        similarity_sum += neighbour_data['closest_neighbour_similarity'][i]

    # Prevent invalid division
    if similarity_sum > 0:
        user_item_prediction_rating = baseline + (similarity_rating_total / similarity_sum)
    else:
        user_item_prediction_rating = baseline

    # Clip prediction to within allowed range
    user_item_prediction_rating = max(min(user_item_prediction_rating, max_rating), min_rating)

    return user_item_prediction_rating

В последната функция ще сортираме предсказаните оценки и ще предложим елементите с най-висока оценка

In [6]:
def recommend_items(data, userid, neighbours_count, items_count, recommend_seen=False):
    """Function to recommend items based on a given userid"""

    neighbour_data = find_neighbour(data=data, userid=userid, neighbours_count=neighbours_count)

    prediction_df = pd.DataFrame()

    predicted_raitings = []

    mask = np.isnan(data.loc[userid])

    items_to_predict = data.columns[mask]

    if recommend_seen:
        items_to_predict = data.columns

    for movie in items_to_predict:
        predictions = predict_item_rating(userid=userid, movieid=movie, data=data, neighbour_data=neighbour_data,
                                          neighbour_count=5)

        predicted_raitings.append(predictions)

    prediction_df['movieId'] = data.columns[mask]

    prediction_df['predictions'] = predicted_raitings

    prediction_df = prediction_df.sort_values('predictions', ascending=False).head(items_count)

    return prediction_df

In [7]:
# read data
data = pd.read_csv("Amazon.csv")

# dataframe index
data = data.set_index('user_id')

# view data
data.head()

Unnamed: 0_level_0,Movie1,Movie2,Movie3,Movie4,Movie5,Movie6,Movie7,Movie8,Movie9,Movie10,...,Movie197,Movie198,Movie199,Movie200,Movie201,Movie202,Movie203,Movie204,Movie205,Movie206
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A3R5OBKS7OM2IR,5.0,5.0,,,,,,,,,...,,,,,,,,,,
AH3QC2PC1VTGP,,,2.0,,,,,,,,...,,,,,,,,,,
A3LKP6WPMP9UKX,,,,5.0,,,,,,,...,,,,,,,,,,
AVIY68KEPQ5ZD,,,,5.0,,,,,,,...,,,,,,,,,,
A1CV1WROP5KTTW,,,,,5.0,,,,,,...,,,,,,,,,,


In [8]:
user_recommendation = recommend_items(data=data, userid="A78D02YDLHDJ9", neighbours_count=5, items_count=5,
                                      recommend_seen=False)

user_recommendation

Unnamed: 0,movieId,predictions
2,Movie3,5.0
4,Movie5,5.0
5,Movie6,5.0
65,Movie67,5.0
62,Movie64,5.0
