In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
# Загрузка данных
df = pd.read_csv("BooksDataset.csv", nrows=1000)
df.fillna("", inplace=True)

In [None]:
df.info()
df.head()

In [None]:
# Объединяем текстовые поля для векторизации
df['combined'] = df['Title'] + " " + df['Authors'] + " " + df['Description'] + " " + df['Category']

# Векторизация текста
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(df['combined'])

# Вычисляем косинусное сходство
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

In [None]:
# Функция для получения рекомендаций
def recommend_books(book_title, num_recommendations=5):
    # Получаем индекс книги
    idx = df[df['Title'] == book_title].index[0]

    # Получаем пары (индекс, сходство)
    sim_scores = list(enumerate(cosine_sim[idx]))

    # Сортируем по сходству
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # Получаем индексы книг
    book_indices = [i[0] for i in sim_scores[1:num_recommendations + 1]]

    # Возвращаем названия книг
    return df['Title'].iloc[book_indices]

In [None]:
# Пример использования
book_title = "Goat Brothers"
recommended_books = recommend_books(book_title)
print(f"Рекомендованные книги для '{book_title}':")
print(recommended_books.tolist())

Как это работает:

1. Создание DataFrame: Мы создаем DataFrame из данных о книгах.
2. Объединение текстовых полей: Мы объединяем заголовок, авторов, описание и категорию в одно поле для векторизации.
3. TF-IDF векторизация: Мы используем TfidfVectorizer для преобразования текста в числовые векторы.
4. Косинусное сходство: Мы вычисляем косинусное сходство между всеми книгами.
5. Функция recommend_books принимает название книги и возвращает список похожих книг на основе вычисленного сходства. В примере мы вызываем эту функцию для книги "Goat Brothers" и выводим рекомендованные книги.
