<a href="https://colab.research.google.com/github/tutsilianna/Gift_Recommendation_System/blob/main/Gift_Recommendation_System.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Аннотация

Список литературы:
1. https://education.yandex.ru/handbook/ml/article/intro-recsys
2. Анализ текстовых данных https://habr.com/ru/companies/otus/articles/774498/
---
https://neurohive.io/ru/tutorial/sozdaem-rekomendatelnuju-sistemu-s-ispolzovaniem-biblioteki-fastai/

https://habr.com/ru/companies/skillfactory/articles/585182/   

https://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B

https://vc.ru/u/1389654-machine-learning/592278-5-luchshih-generatorov-sinteticheskih-dannyh-na-python-i-kak-ih-ispolzovat-kogda-vam-ne-hvataet-dannyh

### Есть три варианта реализации:


1.  Content-Based Filtering (Фильтрация на основе контента)

    **Принцип:** Анализирует характеристики подарков и предпочтения пользователя (пол, возраст, интересы, хобби).
    
    **Данные:** Описания подарков, профили пользователей.
    
    **Алгоритмы:**TF-IDF, cosine similarity.
    
    **Пример:** Если пользователь увлекается фотографией, система порекомендует фотоаппарат, объектив или аксессуары для фотосъемки.

2. Collaborative Filtering (Коллаборативная фильтрация):

    **Принцип:** Анализирует историю покупок и оценок пользователей, чтобы найти похожих пользователей и рекомендовать подарки, которые понравились им.

    **Данные:** История покупок, рейтинги, отзывы.

    **Алгоритмы:** K-Nearest Neighbors, Matrix Factorization.

    **Пример:** Если пользователь А и пользователь Б имеют похожую историю покупок, и пользователь А купил книгу, которая понравилась пользователю Б, система порекомендует эту книгу другим пользователям с похожими предпочтениями.



3. Hybrid Approach (Гибридный подход):

    **Принцип:** Комбинирует content-based и collaborative filtering для повышения точности рекомендаций.

    **Пример:** Система использует content-based filtering, чтобы найти подарки, соответствующие интересам пользователя, а затем использует collaborative filtering, чтобы ранжировать эти подарки на основе предпочтений похожих пользователей.



* Дополнительные факторы:

    **Бюджет пользователя:** Система должна учитывать бюджет пользователя при рекомендации подарков.

    **Повод:** Подарки на день рождения, Новый год или свадьбу будут отличаться.

    **Социальная информация:** Информация о друзьях и семье пользователя в социальных сетях может помочь в подборе подарков.

**Входные параметры:** (опционально) пол, возраст, интересы/хобби - строковое описание увлечений человека.

**Данные для обучения:** даные о пользователе (входные параметры) + какие подарки он выбрал. Эти данные будут синтетическими

## Генерация анкет

In [None]:
import random

# Список интересов
interests_list = ["спорт", "музыка", "кино", "книги", "игры", "кулинария",
                  "путешествия", "искусство", "технологии", "мода", "красота",
                  "шоппинг", "автомобили", "рыбалка", "охота", "финансы",
                  "образование", "здоровье", "саморазвитие", "домашние животные",
                  "садоводство", "фотография", "танцы", "йога", "волонтерство",
                  "рисование", "живопись", "скульптура", "фотография", "музыка",
                  "танцы", "театр", "кино", "писательство", "поэзия", "рукоделие",
                  "дизайн", "кулинария", "марки", "монеты", "комиксы", "антиквариат",
                  "игрушки", "видеоигры", "компьютерные игры", "мобильные игры",
                  "настольные игры", "азартные игры"]

# Функция для генерации данных пользователя
def generate_user():
    gender = random.choice(["male", "female"])
    age = random.randint(18, 75)
    num_interests = random.randint(2, 5)  # Количество интересов
    interests = random.sample(interests_list, num_interests)
    return f"{gender}\t{age}\t{','.join(interests)}"

# Генерация и запись данных
with open("users.txt", "w") as f:
    for _ in range(5000):
        user_data = generate_user()
        f.write(user_data + "\n")

print("Файл users.txt создан!")

Файл users.txt создан!


## Подключение репозитория

In [None]:
! git clone https://github.com/tutsilianna/Gift_Recommendation_System

Cloning into 'Gift_Recommendation_System'...
remote: Enumerating objects: 52, done.[K
remote: Counting objects: 100% (52/52), done.[K
remote: Compressing objects: 100% (37/37), done.[K
remote: Total 52 (delta 16), reused 24 (delta 5), pack-reused 0[K
Receiving objects: 100% (52/52), 15.59 MiB | 11.75 MiB/s, done.
Resolving deltas: 100% (16/16), done.


## Импорт необходимых библиотек

In [None]:
import re
import nltk
import json
import warnings
import pandas as pd
import numpy as np
from nltk import stem
from nltk.corpus import stopwords
from pymystem3 import Mystem
from string import punctuation
from gensim.models import Word2Vec
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.metrics.pairwise import linear_kernel
from sklearn.feature_extraction.text import TfidfVectorizer

nltk.download("stopwords")
warnings.filterwarnings("ignore")

mystem = Mystem()
russian_stopwords = stopwords.words("russian")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Чтение данных и предобработка

In [None]:
data = pd.read_csv('/content/Gift_Recommendation_System/data/raw/ozon_data_.csv')
data.head(2)

Unnamed: 0,название,описание,код товара,оценка,количество отзывов,цена,категория,подкатегория,подподкатегория,ссылка
0,Проектор для смартфона 2-го поколения своими р...,Проектор для смартфона (проектор для смартфона...,Артикул: 1320591182,3.3,13,808,Электроника,Телевизоры и видеотехника,Проекторы,https://www.ozon.ru/product/proektor-dlya-smar...
1,"Проектор 90411567, белый",3D увеличитель экрана телефона – это универсал...,Артикул: 619939085,4.4,205,300,Электроника,Телевизоры и видеотехника,Проекторы,https://www.ozon.ru/product/proektor-90411567-...


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22591 entries, 0 to 22590
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   название            22591 non-null  object 
 1   описание            16366 non-null  object 
 2   код товара          21916 non-null  object 
 3   оценка              22591 non-null  float64
 4   количество отзывов  22591 non-null  int64  
 5   цена                22591 non-null  int64  
 6   категория           22591 non-null  object 
 7   подкатегория        22591 non-null  object 
 8   подподкатегория     20793 non-null  object 
 9   ссылка              22591 non-null  object 
dtypes: float64(1), int64(2), object(7)
memory usage: 1.7+ MB


## **1. Подготовка данных**



### **Предобработка данных:** обработка пропущенных значений, удаление дубликатов, преобразование столбца "код товара";    


In [None]:
data['подподкатегория'] = data['подподкатегория'].fillna('')
data['код товара'] = data['код товара'].fillna('Артикул: 0')
data['описание'] = data['описание'].fillna('')

In [None]:
data.drop_duplicates(inplace=True)

In [None]:
# удаление слова из "Код товара", удаление строк,
# где нет атрибута и преобразование столбца к численному типу

data['код товара'] = data['код товара'].str.split().str.get(-1)
data = data.loc[data['код товара'].str.isdigit()]
data['код товара'] = data['код товара'].astype(np.int64)

In [None]:
data.drop_duplicates(subset=['код товара'], keep='first', inplace=True)

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18427 entries, 0 to 22589
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   название            18427 non-null  object 
 1   описание            18427 non-null  object 
 2   код товара          18427 non-null  int64  
 3   оценка              18427 non-null  float64
 4   количество отзывов  18427 non-null  int64  
 5   цена                18427 non-null  int64  
 6   категория           18427 non-null  object 
 7   подкатегория        18427 non-null  object 
 8   подподкатегория     18427 non-null  object 
 9   ссылка              18427 non-null  object 
dtypes: float64(1), int64(3), object(6)
memory usage: 1.5+ MB


### **Составление набора данных в виде анкет:** с помощью GPT4 была получена переменная `test`, в которой каждому интересу из переменной `interests_list` была сопоставлена подподкатегория из переменной `categories_list`


In [None]:
# Список интересов
interests_list = ["спорт", "музыка", "кино", "книги", "игры", "кулинария",
                  "путешествия", "искусство", "технологии", "мода", "красота",
                  "шоппинг", "автомобили", "рыбалка", "охота", "финансы",
                  "образование", "здоровье", "саморазвитие", "домашние животные",
                  "садоводство", "фотография", "танцы", "йога", "волонтерство",
                  "рисование", "живопись", "скульптура",
                  "театр", "писательство", "поэзия", "рукоделие",
                  "дизайн", "марки", "монеты", "комиксы", "антиквариат",
                  "игрушки", "видеоигры", "компьютерные игры", "мобильные игры",
                  "настольные игры", "азартные игры"]

categories_list = [category for category in set(data['подподкатегория'].values) if category != '']
categories = [f'{x[0]}/{x[1]}/{x[2]}' for x in data.groupby(['категория', 'подкатегория'])['подподкатегория'].value_counts().index]
print(f'Количество интересов: {len(interests_list)},\nКоличество категорий вариант №1: {len(categories_list)},\nКоличество категорий вариант №2: {len(categories)}')

Количество интересов: 43,
Количество категорий вариант №1: 277,
Количество категорий вариант №2: 331


` interests_categories = { "интерес": ['подподкатегория', ..],  ... }`

In [None]:
interests_categories = {
    "спорт":             ["Красота, здоровье и спорт", "Cпортивные игры"],

    "музыка":            ["Искусство и культура", "Музыкальные инструменты", "Уход за музыкальными инструментами",
                          "Гитары и аксессуары", "Струнные инструменты", "Ударные и перкуссия", "Клавишные инструменты"],

    "кино":              ["Искусство и культура", "Кино", 'Проекторы', 'Экраны и проекторы'],

    "книги":             ["Книги", "Художественная литература", "Нехудожественная литература", "Проза", "Поэзия",
                          "Сентиментальная проза", "Религиозные книги", "Биографии и истории успеха", "Юридическая литература",
                          "Саморазвитие", "Компьютерные технологии", "Итальянский язык", "Наборы", "Другие языки", "Энциклопедии и справочники",
                          "Медицина", "История", "Фантастика", "Публицистика", "Английский язык", "Эзотерика и спиритизм", "Французский язык",
                          "Путешествия. Путеводители", "Учебная литература", "Пьесы и драматургия", "Товары для рукоделия",
                          "Научно-популярная литература", "Фольклор", "Молодежная и подростковая литература", "Немецкий язык",
                          "Античная литература", "Научная литература", "Детям и родителям", "Инвестиции и недвижимость",
                          "Финансы", "Манга", 'Детективы', "Фэнтези", "Приключения", "Ужасы и триллеры"],

    "игры":              ["Игры", "Игровые приставки", "Игры для Nintendo Switch", "Игры для Xbox Series", "Игры для Xbox 360",
                          "Игры для PlayStation Portable/Vita", "Игры для Xbox One", "Игры для всей семьи (Family)",
                          "Игры для Nintendo Wii/3DS", "Игры для PlayStation 4", "Игры для PlayStation 5",
                          "Игры для PlayStation 2/3", "Настольные игры", "Дополнения к настольным играм",
                          "Ходилки",  "Робототехника", 'Боевики', 'Геймпады и джойстики', 'Гонки (Racing)', 'Детективы', 'Игровые адаптеры',
                          "Очки виртуальной реальности для смартфонов",  "Видеоигры", "Компьютерные игры",
                          "Мобильные игры", "Настольные игры", "Азартные игры", "Приключения (Adventure)", "Игровые консоли",
                          "Аркады (Arcade)", "Ролевые игры (RPG & MMORPG)", "Стратегии (Strategy)", "Дополнения", "Лото",
                          "Сюжетно-ролевые игрушки", "Симуляторы (Simulation)", "Модели и фигурки",
                          "Ужасы (Horror)", "Драки (Fighting)", "Шутеры и экшн (Shooter & Action)", "Квесты и логика (Quest & Logic)",
                          "Интерактивные и электронные игрушки", "Военная техника и оружие", "Фигурки и аксессуары", "Гонки",
                          "Фэнтези", "Приключения", "Ужасы и триллеры","Спортивные игры (Sports)"],

    "кулинария":         ["Кулинария", "Кулинарные книги", "Домоводство и хобби", "Тарелки и блюда", "Предметы сервировки", "Стекло и всё для бара"],

    "путешествия":       ["Путешествия. Путеводители", "Сувениры и подарки"],

    "искусство":         ["Искусство и культура", "Материалы и инструменты для ювелиров", "Пигменты",
                          "Рисование жидким акрилом (Флюид-арт)", "Наборы для лепки", "Мольберты и этюдники",
                          "Штампы и трафареты", "Картины из пайеток", "Картины из эпоксидной смолы",
                          "Авторская посуда", "Средства для очищения кистей", "Топперы для торта",
                          "Вазы, кашпо", "Выжигание и поделки из дерева", "Создание украшений",
                          "Пластилин", "Глина для лепки", "Реставрация и золочение", "Инструменты",
                          "Авторские игрушки", "Бумага для черчения и рисования",
                          "Наборы для квиллинга", "Шелкография", "Духовые инструменты",
                          "Скетчбуки", "Краски", "Уголь, сангина, сепия и соус", "Маркеры",
                          "Наборы для росписи", "Подставки", "Картриджи для 3D ручек", "Шитье",
                          "Поделки из бумаги", "Веники для бань", "Изготовление ножей", "Ткачество и прядение",
                          "Текстиль", "Рисование на воде Эбру", "Клеи и лак для полимерной глины", "Наперстки",
                          "Вязание", "Краски Холи", "Валяние", "Наборы для рисования песком", "Элементы интерьера",
                          "Свадебные товары", "Открытки", "Заготовки для декорирования", "Подсвечники и аромалампы",
                          "Наборы для создания фоторамок", "Декупаж", "Папье-маше", "Модели из дерева", "Кожевенное дело",
                          "Алмазные мозаики", "Лэмпворк", "Ароматы для дома", "Парфюмированный набор", "Карандаши",
                          "Цветной песок", "Значки", "Наборы для создания слепков", "Украшения на машину",
                          "Изготовление игрушек", "Пиньяты", "Пастель", "Глиттеры", "Флористика", "Досуг и творчество",
                          "Фотобутафория", "Картины и панно", "Аксессуары и материалы", "Куклы",  "Карточки",
                          "Наборы для гигиены", "Картины по номерам", "Воздушные шары", "Свечи и подсвечники",
                          "Антикварные газеты и журналы", "Пэчворк и квилтинг", "Раскраски", "Папертоли",
                          "Фотоаппараты мгновенной печати", "Билеты", "Наборы для создания причесок",
                          "Масса и тесто для лепки", "Наборы для создания духов", "Открытки и конверты",
                          "Цветы", "Наборы средств для лица", "Интерьерные миниатюры и сборка зданий",
                          "Косметические наборы", "Холсты, артборды и картон грунтованный", "Хранение коллекций",
                          "Аксессуары"],

    "технологии":        ["Компьютерные технологии", "Электроника", "Компьютеры",  "Периферия", "Игровые планшеты", 'Проекторы'],

    "мода":              ["Журналы и наклейки", "Мода", "Красота", "Шоппинг", "Этикетки и пробки", "Карнавальные товары",
                          "Подарочные наборы", "Марки", "Банкноты", "Журналы и газеты",
                          "Наборы для макияжа", "Испанский язык", "Английский язык", "Значки"],

    "красота":           ["Красота, здоровье и спорт", "Изготовление косметики", "Наборы косметики", "Косметические наборы",
                          "Наборы средств для лица", "Наборы для гигиены"],

    "шоппинг":           ["Всё для дома", "Подарочные наборы", "Сувениры и подарки"],

    "автомобили":        ["Автомобили и мотоциклы"],

    "рыбалка":           ["Инструменты и инвентарь", "Аксессуары"],

    "охота":             ["Инструменты и инвентарь", "Аксессуары"],

    "финансы":           ["Финансы", "Экономика", "Бухгалтерский учет и делопроизводство", "Инвестиции и недвижимость",
                          "Маркетинг и продажи", "Менеджмент и управление", "Банкноты", "Монеты"],

    "образование":       ["Бизнес-образование и развитие карьеры", "Развитие детей", "Учебная литература",
                          "Научно-популярная литература", "Детям и родителям", "Познавательная литература"],

    "здоровье":          ["Красота, здоровье и спорт", "Медицина", "Средства для ухода", "Наборы для гигиены"],

    "саморазвитие":      ["Саморазвитие", "Трансформационные психологические игры", "Психология"],

    "домашние животные": ["Домашние животные", "Товары для животных"],

    "садоводство":       ["Домоводство и хобби", "Инструменты и инвентарь", "Садоводство", "Цветы"],

    "фотография":        ["Фотография", "Цифровые фоторамки", "Фотоаппараты мгновенной печати"],

    "танцы":             ["Танцы"],
    "йога":              ["Красота, здоровье и спорт", "Йога"],

    "волонтерство":      ["Волонтерство"],

    "рисование":         ["Рисование жидким акрилом (Флюид-арт)", "Мольберты и этюдники", "Штампы и трафареты",
                          "Скетчбуки", "Краски", "Уголь, сангина, сепия и соус", "Маркеры", "Наборы для росписи",
                          "Картриджи для 3D ручек", "Рисование на воде Эбру", "Наборы для рисования песком",
                          "Карандаши", "Пастель", "Раскраски"],

    "живопись":          ["Рисование жидким акрилом (Флюид-арт)", "Мольберты и этюдники", "Штампы и трафареты",
                          "Картины из пайеток", "Картины из эпоксидной смолы", "Средства для очищения кистей",
                          "Краски", "Уголь, сангина, сепия и соус", "Маркеры", "Наборы для росписи",  "Картриджи для 3D ручек",
                          "Рисование на воде Эбру", "Карандаши", "Пастель", "Картины и панно", "Картины по номерам"],

    "скульптура":        ["Наборы для лепки", "Глина для лепки", "Пластилин", "Гипс", "Масса и тесто для лепки"],

    "театр":             ["Театр", "Пьесы и драматургия"],

    "писательство":      ["Письменные принадлежности", "Бумага для черчения и рисования", "Карандаши"],

    "поэзия":            ["Поэзия"],

    "рукоделие":         ["Гобелены и стринг-арт", "Вышивание", "Изготовление косметики", "Наборы для лепки",
                          "Вышивание", "Штампы и трафареты", "Картины из пайеток", "Авторская посуда",
                          "Топперы для торта", "Выжигание и поделки из дерева", "Создание украшений",
                          "Пластилин", "Глина для лепки", "Принадлежности", "Оригами", "Реставрация и золочение",
                          "Шелкография", "Скетчбуки", "Краски", "Уголь, сангина, сепия и соус", "Маркеры",
                          "Наборы для росписи", "Подставки", "Картриджи для 3D ручек", "Шитье", "Поделки из бумаги",
                          "Веники для бань", "Аксессуары и атрибутика для гаданий", "Изготовление ножей",
                          "Ткачество и прядение", "Текстиль", "Рисование на воде Эбру", "Клеи и лак для полимерной глины",
                          "Наперстки", "Вязание", "Краски Холи", "Валяние", "Наборы для рисования песком",
                          "Элементы интерьера", "Свадебные товары", "Открытки", "Заготовки для декорирования",
                          "Подсвечники и аромалампы", "Наборы для создания фоторамок", "Декупаж", "Папье-маше",
                          "Модели из дерева", "Кожевенное дело", "Алмазные мозаики", "Лэмпворк", "Наборы для макияжа",
                          "Ароматы для дома", "Парфюмированный набор", "Карандаши", "Цветной песок", "Значки",
                          "Наборы для создания слепков", "Украшения на машину", "Изготовление игрушек", "Пиньяты",
                          "Пастель", "Глиттеры", "Флористика", "Досуг и творчество", "Фотобутафория", "Картины и панно",
                          "Аксессуары и материалы", "Куклы",  "Карточки", "Товары для рукоделия", "Наборы для гигиены",
                          "Картины по номерам", "Воздушные шары", "Свечи и подсвечники", "Антикварные газеты и журналы",
                          "Пэчворк и квилтинг", "Наборы косметики", "Раскраски", "Папертоли", "Наборы для создания причесок",
                          "Масса и тесто для лепки", "Наборы для создания духов", "Открытки и конверты", "Цветы",
                          "Наборы средств для лица", "Интерьерные миниатюры и сборка зданий", "Косметические наборы",
                          "Холсты, артборды и картон грунтованный", "Скрапбукинг", "Мыловарение", "Наборы для рисования",
                          "Аппликации", "Плетение"],

    "дизайн":            ["Дизайн", "Мольберты и этюдники", "Штампы и трафареты", "Бумага для черчения и рисования",
                          "Карандаши", "Наборы для создания фоторамок", "3D ручки"],

    "марки":             ["Марки", "Коллекционирование", "Хранение коллекций"],

    "монеты":            ["Монеты", "Коллекционирование", "Хранение коллекций"],

    "комиксы":           ["Комиксы", "Журналы и наклейки"],

    "антиквариат":       ["Антиквариат", "Минералы и окаменелости", "Амулеты, талисманы и ловцы снов",
                          "Античная литература", "Автографы и фото коллекционные", "Награды и кубки",
                          "Банкноты", "Монеты", "Антикварные газеты и журналы"],

    "игрушки":           ["Мягкие игрушки", "Игрушечное оружие", "Роботы и трансформеры", "Развивающие игры",
                          "Игрушки для малышей", "Конструкторы", "Игрушки-антистресс", "Сюжетно-ролевые игрушки",
                          "Модели и фигурки", "Игрушки для ванной", "Интерактивные и электронные игрушки", "Куклы",
                          "Военная техника и оружие", "Фигурки и аксессуары", "Игрушечный транспорт",
                          "Куклы и аксессуары", "Мыльные пузыри", "Игрушки для ванной", "Игрушечный транспорт",
                          "Игральные карты", "Головоломки", "Трансформационные психологические игры",
                          "Корабли и подводные лодки", "Мягкие игрушки", "Игрушечное оружие","Радиоуправляемые игрушки",
                          "3D ручки", "Кинетический песок", "Роботы и трансформеры", "Развивающие игры", "Игрушки для малышей",
                          "Конструкторы", "Игрушки-антистресс", "Пазлы",'Самолеты и космические корабли', "Копилки", "Слаймы"],
    "видеоигры":         ["Видеоигры", "Игры для Nintendo Switch", "Игры для Xbox Series", "Игры для Xbox 360",
                          "Игры для PlayStation Portable/Vita", "Игры для Xbox One", "Игры для всей семьи (Family)",
                          "Игры для Nintendo Wii/3DS", "Игры для PlayStation 4", "Игры для PlayStation 5",
                          "Игры для PlayStation 2/3", 'Очки виртуальной реальноcти для смартфонов'],
    "компьютерные игры": ["Компьютерные игры", "Игры для Nintendo Switch", "Игры для Xbox Series",
                          "Игры для Xbox 360", "Игры для PlayStation Portable/Vita", "Игры для Xbox One",
                          "Игры для всей семьи (Family)", "Игры для Nintendo Wii/3DS", "Игры для PlayStation 4",
                          "Игры для PlayStation 5", "Игры для PlayStation 2/3"],

    "мобильные игры":    ["Мобильные игры"],

    "настольные игры":   ["Настольные игры", "Дополнения к настольным играм", "Ходилки", "Игральные карты",
                          "Головоломки", "Трансформационные психологические игры", "Корабли и подводные лодки",
                          "Дополнения", "Лото", "Карты Таро", "Руны",  "Сюжетно-ролевые игрушки", "Шахматы", "Шашки", "Нарды",
                          "Карточные игры"],

    "азартные игры":     ["Азартные игры", "Игральные карты", "Игры в рулетку", "Наборы для покера", "Карты оплаты", "Домино и маджонг"],
    "коллекционирование":['Банкноты', 'Наборы', 'Значки', 'Этикетки и пробки', 'Карточки',
                          'Куклы', 'Билеты', 'Автографы и фото коллекционные',
                          'Минералы и окаменелости', 'Открытки и конверты', 'Наперстки',
                          'Хранение коллекций', 'Журналы и наклейки', 'Монеты', 'Марки',
                          'Календари', 'Средства для ухода', 'Модели и фигурки', 'Насекомые', "Фигурки"]
}
# size = 18427
interests_codes = {}
for interest in interests_categories:
    codes = []
    for word in interests_categories[interest]:
        codes += data.loc[data['подподкатегория'] == word, 'код товара'].values.tolist()
    if codes:
        interests_codes[interest] = codes
        print(f'{interest} {interests_codes[interest]}')

with open('interests_categories.json', 'w', encoding='utf-8') as file:
    json.dump(interests_codes, file, indent=4,  ensure_ascii=False)

keys = list(interests_categories.keys())
interests_codes_code  = {keys[i]: i+1  for i in range(len(keys))}

спорт [2130524, 482231739, 250970185, 250803970, 231648553, 31432890, 252734105, 1202755130, 658045563, 231648510, 1262906846, 31763354, 291992349, 324401964, 157804021, 1431518928, 1252526404, 388014458, 231648399, 211432418, 1358455694, 207921218, 267303955, 783514028, 819878142, 660370742, 158873698, 533841531, 250456382, 211432837, 249025521, 250876411, 1352666135, 1397875334, 820918597, 249179759, 355950751, 249166924, 250949612, 901137625, 250059248, 26419023, 34870845, 934325701, 892379875, 267320951, 249173671, 137652886, 250999058, 253327264, 181292157, 1413807149, 1171570200, 181292155, 24700170, 805198893, 27936698, 147055608, 871459123, 135462206, 730856796, 1282867657, 571118709, 166482309, 796387608, 256442249, 135892589, 805035664, 298278173, 269215469, 1427919963, 1275935926, 1418775173, 747554009, 229445055, 383685217, 587975281, 798108521, 1253970847, 855605187, 801644242, 1116580961, 166567508, 1469262973, 909776699, 229445173, 1112990878, 260533998, 981621799, 80164

In [None]:
import random

user_vectors = {}
for i in range(1000):
    user_vectors[i] = [] # интересы, коды товаров
    random.sample(interests_list, random.randint(2, 11))
    interests_list
    interests_codes

In [None]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

# Создание словаря для хранения векторов товаров
item_vectors = {}

# Функция для создания вектора товара
def create_item_vector(row):
    vector = []
    vector.append(row['оценка'])
    vector.append(row['количество отзывов'])
    vector.append(row['цена'])
    vector += [1 if cat == row['категория'] else 0 for cat in data['категория'].unique()]
    vector += [1 if subcat == row['подкатегория'] else 0 for subcat in data['подкатегория'].unique()]
    vector += [1 if subsubcat == row['подподкатегория'] else 0 for subsubcat in data['подподкатегория'].unique()]
    return vector

# Заполнение словаря векторами товаров
for index, row in data.iterrows():
    item_vectors[row['код товара']] = create_item_vector(row)

# Функция для получения рекомендаций
def get_recommendations(item_id, top_n=3):
    input_vector = item_vectors[item_id]
    similarities = {}
    for key, value in item_vectors.items():
        if key != item_id:
            similarities[key] = cosine_similarity([input_vector], [value])[0][0]
    return sorted(similarities, key=similarities.get, reverse=True)[:top_n]

# Пример использования
recommendations = get_recommendations(926943324)
print(f"Рекомендации для товара с кодом 926943324: {recommendations}")

# Вывод рекомендаций с информацией о товаре
data.loc[data['код товара'].isin(recommendations), ['название', 'описание', 'ссылка']]

Рекомендации для товара с кодом 926943324: [173139380, 161855043, 1036269459]


Unnamed: 0,название,описание,ссылка
3070,"Настольные классические игры ""Шахматы, шашки"" ...",,https://www.ozon.ru/product/nastolnye-klassich...
3812,"Подарочный набор DREAMBOX ""БРАТУ"" Подарок для ...",Условия хранения\n\nХранить в защищенном от пр...,https://www.ozon.ru/product/podarochnyy-nabor-...
14103,Декоративные Сухие Блестки для творчества и ру...,Комплектация\n\nДекоративные Сухие Блестки Lux...,https://www.ozon.ru/product/dekorativnye-suhie...


### **Предобработка текста:** лемматизация и стемминг для поля "текст", где "текст" = "название", "описание" и "ключевые слова" (объединение "категории", "подкатегории" и "подподкатегории"), чтобы привести слова к базовой форме и улучшить поиск.


In [None]:
data['ключевые слова'] = data['категория'] + ', ' + data['подкатегория'] + ', ' + data['подкатегория']
data.drop(columns=['категория', 'подкатегория', 'подподкатегория'], axis=1, inplace=True)

In [None]:
text_columns = [column for column in data.columns if data[column].dtype == 'object' and column != 'ссылка']
text_columns

['название', 'описание', 'ключевые слова']

In [None]:
def preprocess_text(text):
    tokens = mystem.lemmatize(text.lower())
    tokens = [token for token in tokens if token not in russian_stopwords\
              and token != " " \
              and token.strip() not in punctuation]

    text = " ".join(tokens)

    return text

In [None]:
data_ = data.copy(deep=True)

In [None]:
data["текст"] = data[text_columns].apply(lambda x: ". ".join(x), axis=1)
data.head(2)

Unnamed: 0,название,описание,код товара,оценка,количество отзывов,цена,ссылка,ключевые слова,текст
0,Проектор для смартфона 2-го поколения своими р...,Проектор для смартфона (проектор для смартфона...,1320591182,3.3,13,808,https://www.ozon.ru/product/proektor-dlya-smar...,"Электроника, Телевизоры и видеотехника, Телеви...",Проектор для смартфона 2-го поколения своими р...
1,"Проектор 90411567, белый",3D увеличитель экрана телефона – это универсал...,619939085,4.4,205,300,https://www.ozon.ru/product/proektor-90411567-...,"Электроника, Телевизоры и видеотехника, Телеви...","Проектор 90411567, белый. 3D увеличитель экран..."


In [None]:
data['текст'] = data['текст'].apply(preprocess_text)

In [None]:
data[['текст']].head(3)

Unnamed: 0,текст
0,проектор смартфон 2 го поколение свой рука под...
1,проектор 90411567 белый 3d увеличитель экран т...
2,проектор 90411553 3d увеличительный экран ваш ...


### **Векторизация данных:** TF-IDF и word2vec для преобразования текстовых данных ("название", "описание" и "ключевые слова") в числовые векторы.


#### TD-IDF

In [None]:
"""
# Создание TF-IDF векторайзера
vectorizer = TfidfVectorizer(max_features=10)  # Можно настроить max_features

# Обучение векторайзера и преобразование текста в векторы
tfidf_vectors = vectorizer.fit_transform(data["текст"])

# Преобразование в DataFrame
tfidf_df = pd.DataFrame(tfidf_vectors.toarray(), columns=vectorizer.get_feature_names_out())

# Объединение с исходным DataFrame
data_tfidf = pd.concat([data, tfidf_df], axis=1)

data_tfidf.head(2)
"""

'\n# Создание TF-IDF векторайзера\nvectorizer = TfidfVectorizer(max_features=10)  # Можно настроить max_features\n\n# Обучение векторайзера и преобразование текста в векторы\ntfidf_vectors = vectorizer.fit_transform(data["текст"])\n\n# Преобразование в DataFrame\ntfidf_df = pd.DataFrame(tfidf_vectors.toarray(), columns=vectorizer.get_feature_names_out())\n\n# Объединение с исходным DataFrame\ndata_tfidf = pd.concat([data, tfidf_df], axis=1)\n\ndata_tfidf.head(2)\n'

#### Word2Vec

In [None]:
"""
# Подготовка текстов для Word2Vec
text_corpus = [text.split() for text in data["текст"]]

# Обучение Word2Vec модели
model = Word2Vec(text_corpus, vector_size=10, window=5, min_count=5, workers=4)  # Настройте параметры

# Получение векторов для каждого текста
word2vec_vectors = []
for text in text_corpus:
    word_vectors = [model.wv[word] for word in text if word in model.wv]
    if word_vectors:
        text_vector = np.mean(word_vectors, axis=0)
    else:
        text_vector = np.zeros(model.vector_size)
    word2vec_vectors.append(text_vector)

# Преобразование в DataFrame
word2vec_df = pd.DataFrame(word2vec_vectors)

# Объединение с исходным DataFrame
data_word2vec = pd.concat([data, word2vec_df], axis=1)

data_word2vec.head(2)
"""

'\n# Подготовка текстов для Word2Vec\ntext_corpus = [text.split() for text in data["текст"]]\n\n# Обучение Word2Vec модели\nmodel = Word2Vec(text_corpus, vector_size=10, window=5, min_count=5, workers=4)  # Настройте параметры\n\n# Получение векторов для каждого текста\nword2vec_vectors = []\nfor text in text_corpus:\n    word_vectors = [model.wv[word] for word in text if word in model.wv]\n    if word_vectors:\n        text_vector = np.mean(word_vectors, axis=0)\n    else:\n        text_vector = np.zeros(model.vector_size)\n    word2vec_vectors.append(text_vector)\n\n# Преобразование в DataFrame\nword2vec_df = pd.DataFrame(word2vec_vectors)\n\n# Объединение с исходным DataFrame\ndata_word2vec = pd.concat([data, word2vec_df], axis=1)\n\ndata_word2vec.head(2)\n'

### **Нормализация числовых данных:** Нормализовация данные о цене и количестве отзывов, чтобы они имели одинаковый масштаб.


In [None]:
# scaler = MinMaxScaler().fit(data[normalize_column])

# data_normalize = scaler.transform(data[normalize_column])
# data[normalize_column] = pd.DataFrame(data_normalize, columns = normalize_column)

# data[normalize_column].head(2)

In [None]:
# normalize_column = [column for column in data.columns if data[column].dtype != 'object' and column != 'код товара']
# data[normalize_column].head(2)

## **2.  Модель:**

* **Контент-базированная фильтрация:**
    * Вычислить сходство между векторами запроса пользователя и векторами товаров.
    * Для этого можно использовать косинусную меру или евклидово расстояние.
    * Рекомендуйте товары с наибольшим сходством.

Вычисление сходства между векторами запроса пользователя (кому, на какой праздник подарок), интересы и векторами товаров (название + описание + категории) с помощью  `linear_kernel`



In [None]:
def filter_products(data, query, interests, price_range):
    # Пример фильтрации по ценовому диапазону
    filtered_data = data.loc[(data['цена'] >= price_range[0]) & (data['цена'] <= price_range[1])]

    # Пример фильтрации по интересам
    tfidf = TfidfVectorizer(stop_words=russian_stopwords)
    tfidf_matrix = tfidf.fit_transform(filtered_data['текст'])
    query = query + ' ' + ' '.join(interests)
    query_vec = tfidf.transform([query])

    filtered_data['similarity'] = linear_kernel(query_vec, tfidf_matrix).flatten()

    return filtered_data.sort_values(by=['similarity', 'оценка', 'количество отзывов'], ascending=False)[:10]

In [None]:
# Пример запроса пользователя
query = 'подарок папе на день рождения 30 лет'
interests = ['машины', 'электроника']
price_range = (500, 2000)

# Получение рекомендаций
filter_products(data, query, interests, price_range)[['название', 'ключевые слова',  'цена', 'ссылка', 'код товара']]

Unnamed: 0,название,ключевые слова,цена,ссылка,код товара
235,Аккумуляторный блок,"Электроника, Аксессуары для электроники, Аксес...",905,https://www.ozon.ru/product/akkumulyatornyy-bl...,1505883105
271,Сделай сам Электронные шестеренки и механическ...,"Электроника, Аксессуары для электроники, Аксес...",1220,https://www.ozon.ru/product/sdelay-sam-elektro...,1391730221
254,Power Functions 8883/1 Средний мотор M-Motor с...,"Электроника, Аксессуары для электроники, Аксес...",1163,https://www.ozon.ru/product/power-functions-88...,1217816637
253,Дополнение к набору робототехники / Ресурсный ...,"Электроника, Аксессуары для электроники, Аксес...",1265,https://www.ozon.ru/product/dopolnenie-k-nabor...,646844950
265,"Шасси основа для мобильных роботов ардуино, ма...","Электроника, Аксессуары для электроники, Аксес...",1677,https://www.ozon.ru/product/shassi-osnova-dlya...,1142343926
236,WEDO2.0 Датчик наклона/45305/200+ чертежи,"Электроника, Аксессуары для электроники, Аксес...",782,https://www.ozon.ru/product/wedo2-0-datchik-na...,1313345590
233,WEDO2.0 Датчик перемещения/45304/200+ рисунков,"Электроника, Аксессуары для электроники, Аксес...",782,https://www.ozon.ru/product/wedo2-0-datchik-pe...,1313337750
239,Электродвигатель Электрический Средний линейны...,"Электроника, Аксессуары для электроники, Аксес...",861,https://www.ozon.ru/product/elektrodvigatel-el...,1479801517
3839,Подарочные наборы для женщин: подарок маме сес...,"Продукты питания, Выпечка и сладости, Выпечка ...",1439,https://www.ozon.ru/product/podarochnye-nabory...,1088337894
11008,"Линейка для квилтинга и пэчворка, 30 x 30 см, ...","Хобби и творчество, Рукоделие, Рукоделие",1119,https://www.ozon.ru/product/lineyka-dlya-kvilt...,1528410848


## **3.  Гибридный подход:**

* Комбинируйте контент-базированную и коллаборативную фильтрацию для большей точности рекомендаций.

Использование ruBERT


In [None]:
from transformers import BertTokenizer, BertModel
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd


# Инициализация модели и токенизатора BERT
tokenizer = BertTokenizer.from_pretrained('DeepPavlov/rubert-base-cased')
model = BertModel.from_pretrained('DeepPavlov/rubert-base-cased')

tokenizer_config.json:   0%|          | 0.00/24.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/1.65M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/642 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/714M [00:00<?, ?B/s]

Some weights of the model checkpoint at DeepPavlov/rubert-base-cased were not used when initializing BertModel: ['cls.predictions.bias', 'cls.predictions.decoder.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [None]:
# Функция для получения эмбеддингов
def get_embedding(text):
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True, max_length=512)
    outputs = model(**inputs)
    embeddings = outputs.last_hidden_state.mean(dim=1)
    return embeddings.squeeze().detach().numpy()

# Получение эмбеддингов для описаний товаров
data[:100]['текст'] = data[:100]['текст'].apply(lambda x: get_embedding(x))

# Пример профиля пользователя на основе интересов
user_interests = 'фитнес йога здоровье'
user_profile = get_embedding(user_interests)

# Рекомендации на основе гибридного подхода
def recommend_hybrid(user_profile, item_embeddings, top_n=10):
    similarities = cosine_similarity(user_profile, item_embeddings)
    recommendations = similarities.argsort()[0][-top_n:][::-1]
    return data.iloc[recommendations]

# Получение рекомендаций
recommended_products = recommend_hybrid(user_profile, data[:100]['текст'].tolist())
recommended_products[['название', 'ключевые слова',  'цена', 'ссылка', 'код товара']]

ValueError: Expected 2D array, got 1D array instead:
array=[ 1.29374862e-01 -6.42155390e-03  2.00620532e-01 -3.17758858e-01
 -2.03787237e-01  2.61379898e-01  1.06578663e-01 -2.57226583e-02
  3.55661035e-01 -2.12697417e-01  3.01197678e-01  2.87725627e-01
 -1.85120299e-01 -3.68283093e-01 -2.78757423e-01 -1.66703761e-01
  5.60701601e-02  2.91499555e-01 -1.82715312e-01  4.16289717e-01
  1.09217405e-01  6.25826240e-01 -1.42488126e-02  4.18527797e-02
 -4.85604964e-02 -1.02858603e-01  7.92486295e-02  3.50846231e-01
 -2.44112208e-01  3.36753204e-02 -2.38462299e-01  3.22285920e-01
 -7.04105720e-02 -1.35366321e-01 -7.55567625e-02 -3.12760882e-02
 -1.57096654e-01  5.66343069e-01 -3.22307236e-02  5.51178217e-01
 -4.47533697e-01  5.69839180e-02  4.44624811e-01 -1.58008143e-01
  1.94815770e-02  3.16515148e-01 -1.07428350e-01  3.39996040e-01
  1.53516680e-01  1.80761963e-01 -5.21938987e-02 -3.04128945e-01
  5.64269945e-02 -2.63218105e-01 -9.45610628e-02  2.64355481e-01
  4.37157631e-01  2.63619244e-01 -2.28654779e-02  5.08784950e-01
 -1.79321706e-01  2.29563899e-02  3.31257656e-02  4.31350358e-02
 -1.12751886e-01 -3.61122948e-04  1.91443801e-01 -4.07996565e-01
 -2.01768801e-01 -2.99384743e-01  1.33804530e-01  1.38359383e-01
  1.01961076e-01  4.01299566e-01 -1.59212619e-01  1.65122241e-01
 -1.50722846e-01 -6.37120605e-02 -3.66002142e-01 -3.64645749e-01
  1.44205675e-01  1.69997379e-01 -2.95595884e-01  6.88260645e-02
  2.06739858e-01  3.33565056e-01 -2.53074914e-01 -5.64924851e-02
  3.39643896e-01  2.17941124e-02 -3.11001781e-02 -4.67349868e-03
  5.49803197e-01 -3.92266661e-01  5.34647815e-02 -1.45914610e-02
  3.43891867e-02  1.07892510e-02  3.09846431e-01  1.94533318e-01
 -1.13384888e-01 -2.50602905e-02  2.29340747e-01 -2.76885867e-01
 -8.89941096e-01 -2.87046760e-01  3.25167716e-01  3.76306713e-01
  3.23482066e-01  8.25919509e-02  6.29097164e-01 -5.60548186e-01
  3.81691307e-02  1.55448511e-01  3.28739807e-02 -3.88408899e-02
 -9.00326222e-02 -1.06356665e-01  7.31241927e-02  5.27644269e-02
 -7.73537576e-01  1.98151954e-02  7.08641261e-02  3.26433852e-02
  6.29959330e-02 -1.05659522e-01 -4.34643924e-01 -8.91790166e-02
  5.48570812e-01  1.90327764e-01  1.23207688e-01  5.76440036e-01
 -2.08291456e-01 -1.75717413e-01  3.61073320e-03 -3.40596512e-02
  1.62727147e-01  4.44751829e-01 -1.05821893e-01  7.16300488e-01
  2.65085455e-02  2.32719272e-01 -5.54143131e-01 -8.57045203e-02
 -7.99036101e-02 -1.78605720e-01  4.44921017e-01  2.14148283e-01
 -4.15443838e-01 -6.17824979e-02  4.73767042e-01  3.42796713e-01
  3.24022442e-01  6.61329329e-01 -2.96905190e-01 -1.35982037e-02
 -1.86289594e-01  1.50507931e-02 -2.19798416e-01  4.43322182e-01
  6.62453398e-02 -2.34044120e-01 -4.15283501e-01  2.80582964e-01
 -2.44193792e-01 -4.73881736e-02 -1.46701429e-02 -5.87226152e-01
 -1.32414609e-01 -2.12919429e-01 -2.85825551e-01 -6.18261397e-02
 -2.55146444e-01  3.30571413e-01  2.25816086e-01 -2.72171080e-01
  1.11325942e-01  3.48825641e-02 -8.79694670e-02 -6.05828539e-02
  1.02171995e-01  3.54196727e-01  2.46163994e-01  2.91065276e-01
  3.35377395e-01  1.85971111e-01  1.34133846e-01  5.49016008e-03
  1.20424390e-01  4.09410536e-01 -2.13810369e-01  2.45815203e-01
 -1.23820547e-02 -1.49738818e-01 -2.35581443e-01 -1.55971959e-01
 -3.30437347e-02  1.55964375e-01  3.23046803e-01  1.03608988e-01
 -5.15466094e-01  1.46876127e-01 -2.31841996e-01 -2.13145345e-01
  3.84502625e-03 -1.55173466e-01 -5.77393889e-01 -2.62109071e-01
 -2.98789322e-01 -2.65427321e-01 -2.84122489e-02  1.63367242e-01
  5.16559958e-01 -9.22808424e-02  4.82364595e-02 -1.09766006e-01
  2.62554079e-01 -1.69050008e-01  3.04316282e-01  6.32595271e-02
 -6.47124043e-03  1.22572007e-02 -3.81465435e-01  1.55467913e-01
 -3.60471487e-01  2.87652493e-01 -8.01935941e-02  2.89118260e-01
  8.61549526e-02 -2.92571872e-01 -4.16747868e-01 -8.75724703e-02
 -5.72316349e-01 -1.76458433e-01 -8.53310585e-01  6.18811056e-04
 -2.45184422e-01 -9.91316438e-02 -2.37825543e-01 -7.47662038e-02
  6.61514178e-02 -5.39251685e-01  6.50342852e-02  3.82995784e-01
 -6.56788126e-02  3.16717033e-03  2.41198823e-01  3.04251760e-01
 -1.07938431e-01 -2.62667984e-01  3.47714961e-01 -3.94490004e-01
  3.51038873e-01  2.76766904e-02 -2.54613042e-01  2.16953345e-02
  7.53611997e-02 -2.19405368e-01  5.53476036e-01 -5.04924297e-01
  3.90063107e-01  1.99556202e-01 -3.01924378e-01  2.62057513e-01
 -2.01184936e-02  4.34074938e-01 -1.14452783e-02  3.68647605e-01
  7.54335076e-02 -2.79700667e-01  2.88606770e-02 -1.80617809e-01
  4.37227875e-01 -1.94877554e-02 -2.35455558e-01  4.02703762e-01
 -1.10675015e-01  7.25839064e-02 -4.46087360e-01  2.38307193e-01
  3.42233106e-02  1.06586061e-01  2.16908500e-01  5.63336551e-01
  3.63736808e-01  2.41843417e-01  5.27296066e-01 -1.47007123e-01
  2.73238569e-01 -9.62351486e-02 -1.61842450e-01 -2.52752483e-01
  3.03504139e-01 -2.68633306e-01 -1.36331841e-01  2.03765780e-01
 -4.36112165e-01 -2.32210040e-01 -1.42305776e-01 -4.33270395e-01
 -1.33546116e-02 -3.77759337e-01 -3.38865548e-01 -6.56941682e-02
 -4.56100941e-01 -2.86441386e-01 -1.18482172e-01 -2.39893407e-01
  1.32634625e-01  4.27902043e-01 -3.56806740e-02  1.78170323e-01
 -1.59523278e-01  2.78497010e-01 -3.55623573e-01 -1.01446308e-01
  7.76747540e-02 -3.70468855e-01  9.97049827e-03  2.68277258e-01
 -8.27374011e-02  1.13634124e-01 -9.03551131e-02  1.98377565e-01
  2.08566591e-01  1.29282266e-01 -8.46471041e-02  1.85310543e-01
  4.42073256e-01 -1.40523851e-01  1.01192957e-02  1.11296880e+00
 -8.34251940e-02 -9.42181796e-02 -2.51648307e-01 -2.24335507e-01
  1.86657310e-02 -3.35064113e-01 -1.18198499e-01 -1.25680298e-01
  2.94341948e-02 -1.86115354e-01 -3.90519723e-02  1.85055435e-02
  3.60774606e-01 -4.60424125e-01 -2.71181524e-01  6.04236841e-01
 -3.79022062e-01 -4.83294636e-01 -1.85350209e-01 -2.64823824e-01
  1.30886406e-01 -1.36593148e-01  3.30969512e-01  9.11637992e-02
 -3.80165316e-02 -3.28493178e-01 -5.55740967e-02  4.57669735e-01
 -2.67956465e-01  2.11016729e-01  1.12241998e-01 -4.55287658e-02
  2.41409108e-01 -2.00932309e-01 -7.57965207e-01 -2.21468121e-01
  1.14548326e-01 -2.59258807e-01  8.20202157e-02 -4.08734642e-02
 -1.98291272e-01 -2.98132002e-01  4.94469643e-01 -1.74181312e-01
  2.82365493e-02 -2.33888060e-01 -4.02908213e-02  4.46540505e-01
  1.96703121e-01 -3.93622249e-01  6.69611841e-02  2.46142715e-01
 -8.31377059e-02 -4.54689831e-01 -6.08762987e-02  2.00787395e-01
  5.05905151e-01 -1.93198159e-01 -9.42165181e-02  5.14668226e-01
 -1.88991711e-01  3.26557815e-01 -3.03610861e-02 -1.30325690e-01
  9.16733593e-02  1.26443878e-01  6.15541935e-02  8.51773471e-02
 -8.05344805e-02 -3.02938700e-01 -3.53842109e-01  1.66598797e-01
 -4.00606006e-01 -5.86971156e-02  7.73931980e-01  2.61019617e-01
  9.05131549e-02 -4.83294189e-01 -1.03360263e-03  1.71363656e-03
  8.23099986e-02  5.39157033e-01 -6.76772073e-02 -8.86476017e-04
 -1.44730136e-01 -1.13629578e-02 -5.73635042e-01  5.79684861e-02
  1.42644215e-02 -2.38693923e-01  4.83194664e-02 -9.45956409e-01
  8.39840844e-02  2.51326449e-02 -3.54532935e-02 -3.99268061e-01
 -1.39476866e-01 -4.26599205e-01 -4.33618397e-01 -6.25701025e-02
 -2.18793869e-01 -2.85402387e-01 -4.21401322e-01 -2.56315116e-02
 -1.10497020e-01 -4.86937195e-01 -1.16659120e-01  4.61096376e-01
  3.38779122e-01  8.55895877e-02  2.26295546e-01 -1.23053668e-02
  4.12563086e-02  7.45465994e-01  1.22399271e-01 -8.47577080e-02
  6.02065265e-01 -3.81453335e-01  4.49668080e-01 -7.71279335e-01
 -2.58958012e-01 -2.44862005e-01  3.33273113e-01 -6.55797243e-01
 -1.74451858e-01  1.45087510e-01  7.89881870e-02 -4.62741464e-01
 -1.67883962e-01  1.86505795e-01 -3.25511634e-01  5.98964989e-02
 -3.73171642e-02  2.18079999e-01 -1.28695217e-03  5.59025168e-01
 -2.98059464e-01 -1.48499206e-01 -3.87418211e-01  2.83869863e-01
  5.36846161e-01 -2.48577312e-01 -2.08740234e-01 -5.91236651e-01
  3.26898426e-01  7.86467195e-02 -2.72820562e-01  2.25724056e-01
 -9.15779248e-02  1.95784017e-01  6.83793366e-01 -4.26936615e-03
  2.04478785e-01  2.22319886e-01  3.39734733e-01 -1.23061657e-01
 -6.26141846e-01 -1.40499920e-01 -1.02963343e-01  1.97294150e-02
 -3.67919356e-01  1.36761576e-01 -3.91288519e-01 -3.01179022e-01
 -1.88548326e-01 -5.45664966e-01 -4.89962488e-01 -2.70312041e-01
 -8.54090676e-02  1.72618061e-01 -2.17749760e-01  2.60773569e-01
 -8.25133100e-02 -5.65651283e-02 -4.13575977e-01 -4.93654236e-02
 -3.08772326e-01 -1.22571550e-01 -4.41657081e-02 -6.95876539e-01
  1.37264282e-01  1.42382950e-01  1.83978289e-01  2.66378466e-02
 -6.59942031e-02  4.14199591e-01 -2.25469261e-01  2.64297068e-01
 -2.86656860e-02  2.94246495e-01  4.10517275e-01 -4.50578064e-01
 -1.48726255e-02  2.11643577e-01 -7.50097036e-02 -3.99649471e-01
  6.86055198e-02 -3.66180688e-01 -2.70918936e-01  4.01166454e-02
 -1.83751509e-01  3.63674015e-01  1.98586732e-01  3.62664133e-01
  5.93695343e-01 -1.39076589e-02  2.38853544e-01  5.23655638e-02
 -1.32243231e-01 -2.13719293e-01  1.02812074e-01  8.85802954e-02
 -7.66042620e-02 -2.49660518e-02  1.15764262e-02 -1.26884699e-01
 -1.40733108e-01 -9.74104404e-02 -4.04084623e-01  5.06855845e-01
  2.63533592e-02  2.08669096e-01  2.55396217e-01  2.26672202e-01
 -3.81375730e-01 -5.87646306e-01 -1.82908103e-01 -1.45038635e-01
  3.58691439e-02  8.09765793e-03 -1.13346376e-01  3.51633324e-04
 -1.25291350e-03  1.16112307e-01  2.44495913e-01  3.29280168e-01
 -1.20877407e-01 -2.69734383e-01  3.05173457e-01  5.55169523e-01
  1.54996589e-01  3.26218014e-03 -7.65638053e-02 -1.32012770e-01
 -1.31582394e-01  1.17676936e-01  9.26266685e-02  4.10603583e-02
 -1.54143989e-01  1.54316248e-02  1.19054469e-03  6.33104205e-01
 -5.43572903e-02 -1.06295690e-01  1.87010005e-01  4.69122112e-01
 -1.94581956e-01  1.52543098e-01  1.12849712e-01 -3.23521718e-02
  7.01429188e-01 -1.53481200e-01 -7.52435327e-01  5.45974150e-02
  2.78026879e-01 -3.81528258e-01  4.45216238e-01  1.25068411e-01
 -3.34486216e-02 -2.95687675e-01 -2.57686377e-01 -5.41746736e-01
 -3.47210258e-01  5.52489273e-02  3.04140061e-01  8.41308534e-02
  9.41386670e-02  7.99012840e-01 -1.10782050e-01  2.54357368e-01
 -1.23100832e-01  1.15499355e-01  1.08204626e-01 -3.27624381e-01
 -3.64560515e-01  7.79706379e-03  4.61328417e-01 -4.05981317e-02
  1.61749884e-01  2.62072265e-01  5.12410998e-01  1.89516842e-02
  3.80408615e-02  2.85159618e-01  5.38863018e-02  2.27907687e-01
 -8.48667603e-03 -8.39470252e-02  2.90401336e-02 -3.21248770e-02
 -1.97762653e-01 -3.39299262e-01  6.44808769e-01 -3.73474121e-01
  1.45764407e-02 -1.23651661e-02 -2.27713231e-02 -2.76899308e-01
 -4.23274457e-01 -4.29438539e-02  2.67363518e-01 -5.08675218e-01
  2.39936307e-01 -1.38045743e-01  2.83766925e-01  5.66460304e-02
 -2.04156041e-01  1.25620753e-01  3.71364027e-01 -8.90775621e-02
  3.32893282e-01  1.02821730e-01 -1.81963265e-01  1.19973995e-01
 -4.52018589e-01  3.56774718e-01 -5.07548869e-01  2.88493276e-01
  3.25291663e-01  1.55650884e-01  7.37214327e-01 -5.09031415e-01
  4.39642280e-01 -1.67737007e-01 -4.33273703e-01  7.31094629e-02
 -1.51650459e-01  7.37888440e-02  1.21511839e-01  1.22904144e-01
  2.01670676e-01  5.03885970e-02  4.05261189e-01 -2.33980089e-01
  1.66546777e-01  3.15331191e-01  1.62759334e-01 -3.40913087e-02
  2.44575113e-01  3.74501914e-01 -2.37555057e-01  5.06734192e-01
 -6.02602482e-01  2.01544195e-01 -1.35123923e-01  1.19561136e+00
 -4.16802496e-01 -7.74754137e-02  1.17733717e-01  3.75058129e-02
  4.76383835e-01 -2.05848459e-02  7.66952261e-02  5.08961618e-01
 -4.88047302e-01  3.30649503e-02  3.58413160e-01 -7.18871951e-02
 -3.25529397e-01 -6.10203743e-01 -9.92166847e-02 -2.57038563e-01
 -5.84815927e-02 -1.89736396e-01 -2.89629996e-01  9.63695645e-02
  3.69865090e-01  4.20758069e-01  6.60207450e-01 -5.00014901e-01
 -1.55653283e-01 -1.39079124e-01 -4.89293896e-02  3.12562406e-01
 -2.23187357e-01 -8.31485391e-01 -4.19519484e-01  1.57143831e-01
 -8.12309533e-02  4.71949100e-01 -2.06454799e-01  2.59428263e-01
 -1.75073579e-01  2.63570957e-02 -1.07377037e-01 -1.40024070e-02
  3.98592472e-01  2.12371200e-01  4.20019060e-01 -1.11272693e+00
  1.28532629e-02  7.18842983e-01  1.76945701e-01 -3.50266397e-01
 -5.96417207e-03 -3.58450401e-04 -8.74482654e-03  1.84902117e-01
  1.61022544e-01 -5.10854542e-01 -4.73609596e-01 -6.33189321e-01
  1.94033355e-01 -1.77403331e-01 -4.85247076e-02  3.20442766e-01
 -1.01094440e-01 -6.44624352e-01  1.14863016e-01 -8.31957832e-02
 -5.27812004e-01 -1.80382535e-01  1.46704078e-01 -1.09095708e-01
  5.26036993e-02  7.44833127e-02  2.29610950e-01  2.48070523e-01
  2.45813839e-02  2.53154099e-01  3.13170016e-01 -3.65329653e-01
  5.90950847e-01 -3.28158796e-01 -2.65931427e-01 -3.69147152e-01].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

In [None]:
data.to_csv('out.csv', index=False)

## **4. Ранжирование и фильтрация:**

* **Ранжирование:** Отсортируйте рекомендации по убыванию сходства или прогнозируемого рейтинга.
* **Фильтрация:** Примените фильтры по цене, категории, подкатегории и т.д., чтобы сузить список рекомендаций в соответствии с предпочтениями пользователя.



## **5.  Дополнительные функции:**

* **Персонализация:** Используйте информацию о прошлых взаимодействиях пользователя с системой для повышения релевантности рекомендаций.
* **Разнообразие:** Стремитесь к разнообразию в рекомендациях, избегая предлагать слишком похожие товары.
* **Объяснение:** Отобразите пользователю, почему ему были рекомендованы те или иные товары.