In [201]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.neighbors import NearestNeighbors
from scipy.sparse import csr_matrix
# from src.mapk import *
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics.pairwise import linear_kernel
from sklearn.model_selection import train_test_split
from pymongo import MongoClient
import matplotlib.pyplot as plt

In [202]:
client = MongoClient("mongodb://root:password@localhost:27017/")

db = client["anime"]
collection = db["animelist"]

In [203]:
# Файлы
INPUT_DIR = 'C:/Dataset'

In [204]:
# Чтение файлов с рейтингами пользователей для каждого аниме
anime_ratings = pd.read_csv(INPUT_DIR + '/rating_complete.csv',
                        low_memory=False,
                        decimal=',',
                        usecols=["user_id","anime_id","rating"]
                        )

In [205]:
# (60% train, 40% test)
anime_ratings, train_ratings = train_test_split(anime_ratings, test_size=0.6, random_state=42)

# (50% train, 50% test)
train_ratings, test_ratings = train_test_split(train_ratings, test_size=0.5, random_state=42)

In [206]:
# Пользователь должен оценить минимум 500 аниме (train_ratings)
ntrain_ratings = train_ratings['user_id'].value_counts()
train_ratings = train_ratings[train_ratings['user_id'].isin(ntrain_ratings[ntrain_ratings >= 500].index)].copy()
# Пользователь должен оценить минимум 500 аниме (test_ratings)
ntest_ratings = test_ratings['user_id'].value_counts()
test_ratings = test_ratings[test_ratings['user_id'].isin(ntest_ratings[ntest_ratings >= 500].index)].copy()


In [207]:
# Удаление Duplicated Rows
train_ratings = train_ratings.drop_duplicates()
test_ratings = test_ratings.drop_duplicates()


In [208]:
# Создание сводной таблицы (pivot table). 
# По горизонтали будут аниме, по вертикали - пользователи, значения - оценки
user_item_matrix_train = train_ratings.pivot(index = 'anime_id', columns = 'user_id', values= 'rating')

# NaN преобразовываю в нули
user_item_matrix_train.fillna(0, inplace = True)

# Преобразую разреженную матрицу в формат csr
# Метод values передаст функции csr_matrix только значения датафрейма
csr_data_train = csr_matrix(user_item_matrix_train.values)

# Сброшу индекс с помощью reset_index()
user_item_matrix_train = user_item_matrix_train.rename_axis(None, axis = 1).reset_index()

In [209]:
# Импорт модуля functools для использования декоратора lru_cache
from functools import lru_cache

# Получение данных об аниме с кэшированием результатов
@lru_cache(maxsize=None)
def load_anime_data():
    anime_data = []
    for document in collection.find():
        anime_id = document.get('anime_id')
        title = document.get('title')
        synopsis = document.get('synopsis')
        anime_data.append({
            'anime_id': anime_id,
            'title': title,
            'synopsis': synopsis
        })
    return anime_data

# Item Based

In [210]:
# item-based
def get_item_based_recommendations(search_words, n_recommendations=10):
    anime_data = load_anime_data()  # Загрузка данных

    recommendations = []
    knn = NearestNeighbors(metric='cosine', algorithm='brute', n_neighbors=20, n_jobs=-1)
    knn.fit(csr_data_train)

    anime_ids = []  # Создание пустого списка для хранения идентификаторов аниме

    for word in search_words:
        # Фильтрация аниме по заданному слову в заголовке
        anime_search = [anime for anime in anime_data if word in anime['title']]
        if not anime_search:
            continue
        anime_id = anime_search[0]['anime_id']

        # Преобразование anime_id в индекс матрицы
        anime_id = user_item_matrix_train[user_item_matrix_train['anime_id'] == anime_id].index[0]

        # Поиск ближайших соседей и расстояний до них
        distances, indices = knn.kneighbors(csr_data_train[anime_id], n_neighbors=n_recommendations + 1)
        indices_list = indices.squeeze().tolist()[1:]
        distances_list = distances.squeeze().tolist()[1:]
        indices_distances = list(zip(indices_list, distances_list))

        # Получение рекомендаций и добавление идентификаторов аниме в список
        for ind_dist in indices_distances:
            anime_id = int(user_item_matrix_train.iloc[ind_dist[0]]['anime_id'])
            anime_ids.append(anime_id)

    return anime_ids[:n_recommendations]  # Возвращаем только список идентификаторов аниме



In [211]:
print(get_item_based_recommendations(['Naruto', 'Bleach'], 10))

[4437, 5114, 10863, 14227, 2251, 9062, 1519, 9515, 30, 14813]


# User Based

In [212]:
# Создание матрицы пользователь-аниме
user_anime_matrix = csr_matrix((train_ratings['rating'],
                                (train_ratings['user_id'], train_ratings['anime_id'])))

# Создание модели NearestNeighbors
model = NearestNeighbors(metric='cosine', algorithm='brute')
model.fit(user_anime_matrix)

In [213]:
# User-based
def get_user_based_recommendations(user_id, n_recommendations=10):
    # Загрузка данных об аниме
    anime_data = load_anime_data()
    
    # Получение оценок выбранного пользователя
    user_rated_anime = train_ratings[train_ratings['user_id'] == user_id]['anime_id'].unique()

    # Нахождение индексов наиболее похожих пользователей
    similar_users = model.kneighbors(user_anime_matrix[user_id], n_neighbors=n_recommendations)[1].flatten()

    # Получение списка аниме, оцененных найденными похожими пользователями
    similar_anime = train_ratings[train_ratings['user_id'].isin(similar_users)]['anime_id'].unique()

    # Исключение аниме, которые уже оценил выбранный пользователь
    recommended_anime = [anime_id for anime_id in similar_anime if anime_id not in user_rated_anime]

    # Получение данных о рекомендуемом аниме
    recommended_anime_data = [anime['anime_id'] for anime in anime_data if anime['anime_id'] in recommended_anime]

    # Список рекомендуемого аниме
    return recommended_anime_data[:n_recommendations]


In [214]:
train_ratings.head(4)

Unnamed: 0,user_id,anime_id,rating
50579508,310065,32900,7
1733703,10851,19023,5
16250982,99690,819,4
35925526,220437,35069,2


In [215]:
print(get_user_based_recommendations(220437, 10))

[6, 7, 8, 17, 19, 20, 24, 25, 27, 28]


# Content Based

In [216]:
# Conten-based
def get_content_based_recommendations(search_words, n_recommendations=10):
    anime_data = load_anime_data()  # Загружаем данные 

    # Создание матрицы признаков на основе synopsis (content-based)
    content_matrix = pd.DataFrame(anime_data)  # Создаем DataFrame из данных аниме
    content_matrix['synopsis'] = content_matrix['synopsis'].fillna('')  # Заполняем пропущенные значения в столбце "synopsis" пустой строкой

    tfidf = TfidfVectorizer(stop_words='english')  # Создаем объект TfidfVectorizer для создания матрицы TF-IDF
    tfidf_matrix = tfidf.fit_transform(content_matrix['synopsis'].values.astype('U'))  # Преобразуем synopsis в TF-IDF матрицу признаков

    knn = NearestNeighbors(metric='cosine', algorithm='brute', n_neighbors=n_recommendations+1, n_jobs=-1)  # Инициализируем модель NearestNeighbors для поиска ближайших соседей
    knn.fit(tfidf_matrix)  # Обучаем модель на матрице признаков

    recommendations = []

    for word in search_words:
        anime_search = content_matrix[content_matrix['title'].str.contains(word, case=False)]  # Ищем аниме, в названии которого есть заданное слово (без учета регистра)

        if anime_search.empty:
            continue

        anime_ids = anime_search['anime_id'].values
        anime_recommendations = []

        for anime_id in anime_ids:
            anime_index = content_matrix[content_matrix['anime_id'] == anime_id].index[0]
            distances, indices = knn.kneighbors(tfidf_matrix[anime_index], n_neighbors=n_recommendations + 1)
            indices_list = indices.squeeze()[1:].tolist()  # Исключаем первый элемент, который является самим аниме
            anime_recommendations.extend(indices_list)

        anime_recommendations = list(set(anime_recommendations))[:n_recommendations]  # Извлекаем n уникальных рекомендаций

        for anime_index in anime_recommendations:
            anime_id = content_matrix.loc[anime_index]['anime_id']
            if anime_id not in anime_ids:
                recommendations.append(anime_id)

    return recommendations[:n_recommendations]



In [217]:
print(get_content_based_recommendations(['Naruto', 'Bleach'], 10))

[6573, 34683, 28953, 20757, 2822, 25861, 20871, 42317, 553, 34688]


In [226]:
# Hybrid
def merge_recommendations(search_words, n_recommendations, user_id, recommendations_count):
    # Получение рекомендаций с использованием content-based метода
    content_based = get_content_based_recommendations(search_words, recommendations_count)
    
    # Получение рекомендаций с использованием user-based метода
    user_based = get_user_based_recommendations(user_id, recommendations_count)
    
    # Получение рекомендаций с использованием item-based метода
    item_based = get_item_based_recommendations(search_words, recommendations_count)
    
    # Объединение всех рекомендаций в один список
    all_recommendations = content_based + user_based + item_based
    
    # Удаление дубликатов
    unique_recommendations = list(set(all_recommendations))
    
    return unique_recommendations[:recommendations_count]


In [219]:
print(merge_recommendations(['Naruto', 'Bleach'], 10, 310065, 10 ))

[34688, 1, 25861, 2822, 20871, 6, 7, 15, 16, 17]


# Metrics

In [234]:
actual_recommendations = []
for user_id in test_ratings['user_id'].unique():
    user_actual_items = test_ratings[test_ratings['user_id'] == user_id]['anime_id'].unique()
    actual_recommendations.append(list(user_actual_items))

In [239]:
def mapk(actual, predicted, k=10):
    """
    Вычисляет метрику MAPK@k для оценки эффективности рекомендательной системы.

    Параметры:
    actual (list): Список фактических рекомендаций для каждого пользователя.
    predicted (list): Список предсказанных рекомендаций для каждого пользователя.
    k (int): Количество рекомендаций для оценки.

    Возвращает:
    float: Значение метрики MAPK@k.
    """
    mapk_sum = 0
    for i in range(len(actual)):
        actual_i = actual[i]
        predicted_i = predicted[i][:k]

        # Подсчет числа правильных предсказаний в топ-k
        num_correct = 0
        for j in range(len(predicted_i)):
            if predicted_i[j] in actual_i:
                num_correct += 1

        # Вычисление точности в топ-k
        precision = num_correct / k

        # Добавление точности в сумму MAPK
        mapk_sum += precision

    # Вычисление средней точности MAPK
    mapk_score = mapk_sum / len(actual)

    return mapk_score


In [240]:
# Получение фактических рекомендаций
actual_recommendations = []
for user_id in test_ratings['user_id'].unique():
    user_actual_items = test_ratings[test_ratings['user_id'] == user_id]['anime_id'].unique()
    actual_recommendations.append(list(user_actual_items))

# Получение предсказанных рекомендаций для каждого типа рекомендательной системы
item_based_recommendations = []
user_based_recommendations = []
content_based_recommendations = []
hybrid_recommendations = []

for user_id in test_ratings['user_id'].unique():
    search_words = ['Naruto', 'Bleach']  # Задайте соответствующие поисковые слова для content-based и hybrid-based рекомендаций
    n_recommendations = 10  # Количество рекомендаций для каждого типа рекомендательной системы

    item_based_rec = get_item_based_recommendations(search_words, n_recommendations)
    user_based_rec = get_user_based_recommendations(user_id, n_recommendations)
    content_based_rec = get_content_based_recommendations(search_words, n_recommendations)
    hybrid_rec = merge_recommendations(search_words, n_recommendations, user_id, n_recommendations)

    item_based_recommendations.append(item_based_rec)
    user_based_recommendations.append(user_based_rec)
    content_based_recommendations.append(content_based_rec)
    hybrid_recommendations.append(hybrid_rec)

# Вычисление метрики MAPK@10 для каждого типа рекомендательной системы
mapk_item_based = mapk(actual_recommendations, item_based_recommendations)
mapk_user_based = mapk(actual_recommendations, user_based_recommendations)
mapk_content_based = mapk(actual_recommendations, content_based_recommendations)
mapk_hybrid_based = mapk(actual_recommendations, hybrid_recommendations)

print("MAPK@10 for item-based:", mapk_item_based)
print("MAPK@10 for user-based:", mapk_user_based)
print("MAPK@10 for content-based:", mapk_content_based)
print("MAPK@10 for hybrid-based:", mapk_hybrid_based)


MAPK@10 for item-based: 0.23633663366336574
MAPK@10 for user-based: 0.18643564356435585
MAPK@10 for content-based: 0.05009900990099045
MAPK@10 for hybrid-based: 0.13306930693069255
