# Задание
## Вопросы по заданию
### Преподаватель: Наталья Баданина, Иван Анисковец, Юлия Пономарева, Ярослав Сапронов, Егор Шишковец, Павел Мехнин
### Что нужно делать?
- Датасет ml-latest.
- Вспомнить подходы, которые мы разбирали.
- Выбрать понравившийся подход к гибридным системам.
- Написать свою.

#### 1. Загрузка и подготовка данных

In [1]:
import pandas as pd
from surprise import Dataset, Reader
from surprise.model_selection import train_test_split
from surprise import SVD
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity


In [2]:
# Загрузка данных
ratings = pd.read_csv('ratings.csv')  # Файл из датасета ml-latest
movies = pd.read_csv('movies.csv')    # Файл из датасета ml-latest

#### 2. Коллаборативная фильтрация с использованием SVD

In [3]:
# Подготовка данных для Surprise
reader = Reader(rating_scale=(0.5, 5.0))
data = Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)
trainset, testset = train_test_split(data, test_size=0.2)

# Обучение модели SVD
svd = SVD()
svd.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0xffffb06cfdf0>

#### 3. Контентная фильтрация с использованием TF-IDF

In [4]:
# Обработка жанров
movies['genres'] = movies['genres'].replace('(no genres listed)', '')
tfidf = TfidfVectorizer(token_pattern='[a-zA-Z\-]+')
tfidf_matrix = tfidf.fit_transform(movies['genres'])

# Создание словаря соответствия movieId и индекса в матрице TF-IDF
movie_indices = pd.Series(movies.index, index=movies['movieId'])

#### 4. Гибридная рекомендация

In [5]:
def hybrid_recommendation(user_id, movie_id, top_n=10, alpha=0.5):
    # Коллаборативная часть
    svd_score = svd.predict(user_id, movie_id).est

    # Контентная часть
    idx = movie_indices[movie_id]
    cosine_sim = cosine_similarity(tfidf_matrix[idx], tfidf_matrix).flatten()
    sim_scores = list(enumerate(cosine_sim))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:top_n+1]
    movie_indices_similar = [i[0] for i in sim_scores]
    content_score = movies.iloc[movie_indices_similar]['movieId'].tolist()

    # Комбинированный результат
    hybrid_scores = {}
    for mid in content_score:
        try:
            pred = svd.predict(user_id, mid).est
            hybrid_scores[mid] = alpha * pred + (1 - alpha) * cosine_similarity(tfidf_matrix[movie_indices[mid]], tfidf_matrix[idx])[0][0]
        except:
            continue

    # Сортировка и вывод
    hybrid_scores = sorted(hybrid_scores.items(), key=lambda x: x[1], reverse=True)
    recommended_movie_ids = [i[0] for i in hybrid_scores]
    return movies[movies['movieId'].isin(recommended_movie_ids)].head(top_n)

In [6]:
# Пример использования
user_id = 1
movie_id = 1  # ID фильма, который пользователь оценил
recommendations = hybrid_recommendation(user_id, movie_id)
print(recommendations)

      movieId                                              title  \
1706     2294                                        Antz (1998)   
2355     3114                                 Toy Story 2 (1999)   
2809     3754     Adventures of Rocky and Bullwinkle, The (2000)   
3000     4016                   Emperor's New Groove, The (2000)   
3568     4886                              Monsters, Inc. (2001)   
6194    45074                                   Wild, The (2006)   
6486    53121                             Shrek the Third (2007)   
6948    65577                     Tale of Despereaux, The (2008)   
7760    91355  Asterix and the Vikings (Astérix et les Viking...   
8219   103755                                       Turbo (2013)   

                                           genres  
1706  Adventure|Animation|Children|Comedy|Fantasy  
2355  Adventure|Animation|Children|Comedy|Fantasy  
2809  Adventure|Animation|Children|Comedy|Fantasy  
3000  Adventure|Animation|Children|Comedy|F