In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
# Загрузка данных
df = pd.read_csv("BooksDataset.csv", nrows=1000)
df.fillna("", inplace=True)

In [None]:
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Title         1000 non-null   object
 1   Authors       1000 non-null   object
 2   Description   1000 non-null   object
 3   Category      1000 non-null   object
 4   Publisher     1000 non-null   object
 5   Publish Date  1000 non-null   object
 6   Price         1000 non-null   object
dtypes: object(7)
memory usage: 54.8+ KB


Unnamed: 0,Title,Authors,Description,Category,Publisher,Publish Date,Price
0,Goat Brothers,"By Colton, Larry",,"History , General",Doubleday,"Friday, January 1, 1993",Price Starting at $8.79
1,The Missing Person,"By Grumbach, Doris",,"Fiction , General",Putnam Pub Group,"Sunday, March 1, 1981",Price Starting at $4.99
2,Don't Eat Your Heart Out Cookbook,"By Piscatella, Joseph C.",,"Cooking , Reference",Workman Pub Co,"Thursday, September 1, 1983",Price Starting at $4.99
3,When Your Corporate Umbrella Begins to Leak: A...,"By Davis, Paul D.",,,Natl Pr Books,"Monday, April 1, 1991",Price Starting at $4.99
4,Amy Spangler's Breastfeeding : A Parent's Guide,"By Spangler, Amy",,,Amy Spangler,"Saturday, February 1, 1997",Price Starting at $5.32


In [None]:
# Объединяем текстовые поля для векторизации
df['combined'] = df['Title'] + " " + df['Authors'] + " " + df['Description'] + " " + df['Category']

# Векторизация текста
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(df['combined'])

# Вычисляем косинусное сходство
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

In [None]:
# Функция для получения рекомендаций
def recommend_books(book_title, num_recommendations=5):
    # Получаем индекс книги
    idx = df[df['Title'] == book_title].index[0]

    # Получаем пары (индекс, сходство)
    sim_scores = list(enumerate(cosine_sim[idx]))

    # Сортируем по сходству
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # Получаем индексы книг
    book_indices = [i[0] for i in sim_scores[1:num_recommendations + 1]]

    # Возвращаем названия книг
    return df['Title'].iloc[book_indices]

In [None]:
# Пример использования
book_title = "Goat Brothers"
recommended_books = recommend_books(book_title)
print(f"Рекомендованные книги для '{book_title}':")
print(recommended_books.tolist())

Рекомендованные книги для 'Goat Brothers':
['The Survival Factor', 'Taking on the World: Joseph and Stewart Alsop, Guardians of the American Century', "The World's Whales: The Complete Illustrated Guide", 'Communications and Networking for the IBM PC and Compatibles', 'Essential History of Art']


Как это работает:

1. Создание DataFrame: Мы создаем DataFrame из данных о книгах.
2. Объединение текстовых полей: Мы объединяем заголовок, авторов, описание и категорию в одно поле для векторизации.
3. TF-IDF векторизация: Мы используем TfidfVectorizer для преобразования текста в числовые векторы.
4. Косинусное сходство: Мы вычисляем косинусное сходство между всеми книгами.
5. Функция recommend_books принимает название книги и возвращает список похожих книг на основе вычисленного сходства. В примере мы вызываем эту функцию для книги "Goat Brothers" и выводим рекомендованные книги.
