# Анализ и сравнение рекомендательных систем для книг

В этом ноутбуке мы проведем полный анализ данных и сравним различные подходы рекомендательных систем.

In [None]:
import sys
sys.path.append('..')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

from config import *
from data.loader import DataLoader
from data.preprocessor import DataPreprocessor

In [None]:
# Загрузка данных
loader = DataLoader()
ratings, books, tags, book_tags = loader.load_all_data()

In [None]:
# Предобработка
preprocessor = DataPreprocessor()

# Разделение данных
train_ratings, test_ratings = preprocessor.train_test_split_temporal(
    ratings, test_size=TEST_SIZE, random_state=RANDOM_STATE
)

print(f'Train size: {len(train_ratings):,}')
print(f'Test size: {len(test_ratings):,}')

In [None]:
# Подготовка данных для контентной модели
books_with_tags = preprocessor.prepare_book_content_data(books, book_tags, tags)
books_with_tags.head()

In [None]:
# Импорт моделей
from models.popularity_model import PopularityRecommender
from models.content_model import ContentBasedRecommender
from models.cf_model import ItemBasedCF
from models.svd_model import SVDRecommender
from models.evaluator import ModelEvaluator

In [None]:
# Обучение моделей
print('1. Обучение модели популярности...')
pop_model = PopularityRecommender(min_ratings=MIN_RATINGS)
pop_model.fit(train_ratings)

print('\n2. Обучение контентной модели...')
content_model = ContentBasedRecommender(max_features=TFIDF_MAX_FEATURES)
content_model.fit(books_with_tags)

print('\n3. Обучение Item-based CF...')
cf_model = ItemBasedCF(k_neighbors=CF_K_NEIGHBORS)
cf_model.fit(train_ratings)

print('\n4. Обучение SVD модели...')
svd_model = SVDRecommender(n_factors=SVD_N_FACTORS)
svd_model.fit(train_ratings)

print('\nВсе модели успешно обучены!')

In [None]:
# Демонстрация рекомендаций
test_users = test_ratings['user_id'].unique()[:5]

for user_id in test_users:
    print(f'\n=== Пользователь {user_id} ===')
    
    # Что пользователю понравилось
    liked_books = test_ratings[
        (test_ratings['user_id'] == user_id) & 
        (test_ratings['rating'] >= 4)
    ].merge(books[['book_id', 'title']], on='book_id')
    
    if not liked_books.empty:
        print(f'Понравилось: {liked_books["title"].values[0]}')
        
        # Контентные рекомендации
        seed_book = liked_books.iloc[0]['book_id']
        content_recs = content_model.recommend_similar_books(seed_book, n=3)
        
        print('Контентные рекомендации:')
        for i, book_id in enumerate(content_recs, 1):
            title = books[books['book_id'] == book_id]['title'].values
            if len(title) > 0:
                print(f'  {i}. {title[0]}')
    
    # SVD рекомендации
    try:
        svd_recs = svd_model.recommend(user_id, n=3)
        print('Персональные рекомендации (SVD):')
        for i, book_id in enumerate(svd_recs, 1):
            title = books[books['book_id'] == book_id]['title'].values
            if len(title) > 0:
                print(f'  {i}. {title[0]}')
    except:
        print('Недостаточно данных для SVD рекомендаций')

In [None]:
# Оценка моделей
evaluator = ModelEvaluator(test_ratings, rating_threshold=RATING_THRESHOLD)
test_users_sample = test_ratings['user_id'].unique()[:100]

print('Сбор предсказаний для оценки...')

# Собираем предсказания для каждой модели
all_predictions = {}

for model_name, model in [
    ('Popularity', pop_model),
    ('SVD', svd_model)
]:
    print(f'\nСбор предсказаний для {model_name}...')
    predictions = []
    
    for user_id in test_users_sample:
        try:
            recommendations = model.recommend(user_id, n=TOP_N)
            user_ratings = test_ratings[test_ratings['user_id'] == user_id]
            relevant_items = user_ratings[user_ratings['rating'] >= RATING_THRESHOLD]['book_id'].tolist()
            
            if recommendations and relevant_items:
                predictions.append({
                    'user_id': user_id,
                    'recommendations': recommendations,
                    'relevant_items': relevant_items
                })
        except:
            continue
    
    all_predictions[model_name] = predictions

# Оценка
results = {}
for model_name, predictions in all_predictions.items():
    results[model_name] = evaluator.evaluate_model(
        predictions, model_name, k_values=[5, 10]
    )

In [None]:
# Визуализация результатов
fig = evaluator.plot_metrics_comparison(results)
plt.show()

In [None]:
# Анализ проблем данных
print('\n=== АНАЛИЗ ПРОБЛЕМ ДАННЫХ ===')

# Разреженность
sparsity = preprocessor.calculate_sparsity(ratings)

# Холодный старт
cold_start_users = preprocessor.identify_cold_start_users(ratings, threshold=5)
cold_start_books = preprocessor.identify_cold_start_books(ratings, threshold=10)

print(f'\n1. Разреженность матрицы: {sparsity:.2%}')
print(f'2. Пользователей с холодным стартом (<5 оценок): {len(cold_start_users):,} ({len(cold_start_users)/ratings["user_id"].nunique():.1%})')
print(f'3. Книг с холодным стартом (<10 оценок): {len(cold_start_books):,} ({len(cold_start_books)/ratings["book_id"].nunique():.1%})')

In [None]:
# Выводы и рекомендации
print('\n=== ВЫВОДЫ И РЕКОМЕНДАЦИИ ===')

print('\n1. Лучшая модель: SVD показывает наилучшие результаты для персонализации')
print('2. Для холодного старта: использовать контентные рекомендации')
print('3. Для новых пользователей: начинать с популярных книг')
print('4. Для улучшения: реализовать гибридный подход')

print('\n=== ПРЕДЛОЖЕНИЯ ПО УЛУЧШЕНИЮ ===')
print('1. Добавить фичи пользователей (возраст, пол, интересы)')
print('2. Использовать нейросетевые подходы (NCF, DeepFM)')
print('3. Добавить временные факторы (тренды, сезонность)')
print('4. Реализовать A/B тестирование рекомендаций')