Цель: Разработать простую рекомендательную систему, которая будет рекомендовать пользователям самые популярные товары на основе имеющихся данных о продажах или взаимодействии с товарами, и проанализировать ее эффективность.

In [229]:
import pandas as pd

1.	Подготовка данных: создать или использовать существующий датасет с данными о товарах, их продажах или оценках. 
Датасет должен содержать:
- идентификаторы товаров
- информацию о продажах или оценках
- другую релевантную информацию.
Необходимо использовать набор данных с информацией о продажах товаров (например, количество покупок каждого товара) или о взаимодействии пользователей с товарами (например, просмотры, клики, добавления в корзину).

In [230]:
data = pd.read_csv('Products\\Products.csv', index_col=0)
data.head()

Unnamed: 0_level_0,product,category,sub_category,brand,sale_price,market_price,type,rating,description
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,Garlic Oil - Vegetarian Capsule 500 mg,Beauty & Hygiene,Hair Care,Sri Sri Ayurveda,220.0,220.0,Hair Oil & Serum,4.1,This Product contains Garlic Oil that is known...
2,Water Bottle - Orange,"Kitchen, Garden & Pets",Storage & Accessories,Mastercook,180.0,180.0,Water & Fridge Bottles,2.3,"Each product is microwave safe (without lid), ..."
3,"Brass Angle Deep - Plain, No.2",Cleaning & Household,Pooja Needs,Trm,119.0,250.0,Lamp & Lamp Oil,3.4,"A perfect gift for all occasions, be it your m..."
4,Cereal Flip Lid Container/Storage Jar - Assort...,Cleaning & Household,Bins & Bathroom Ware,Nakoda,149.0,176.0,"Laundry, Storage Baskets",3.7,Multipurpose container with an attractive desi...
5,Creme Soft Soap - For Hands & Body,Beauty & Hygiene,Bath & Hand Wash,Nivea,162.0,162.0,Bathing Bars & Soaps,4.4,Nivea Creme Soft Soap gives your skin the best...


1.1.	Загрузка и предобработка данных

Загрузите данные и очистите их (удалите дубликаты, обработайте пропуски и т.д.).

In [231]:
data.duplicated().sum()

354

In [232]:
data = data.drop_duplicates()
data.duplicated().sum()

0

In [233]:
data.isna().sum()

product            1
category           0
sub_category       0
brand              1
sale_price         0
market_price       0
type               0
rating          8463
description      113
dtype: int64

In [234]:
data = data.dropna()
data.isna().sum()

product         0
category        0
sub_category    0
brand           0
sale_price      0
market_price    0
type            0
rating          0
description     0
dtype: int64

1.2.	Анализ данных:

Проанализируйте данные, чтобы понять, какие товары наиболее популярны (например, по количеству покупок или по частоте взаимодействия).

In [235]:
data.describe()

Unnamed: 0,sale_price,market_price,rating
count,18650.0,18650.0,18650.0
mean,266.552195,320.816505,3.94408
std,363.974002,458.994859,0.736008
min,3.0,3.0,1.0
25%,85.0,95.0,3.7
50%,165.0,195.0,4.1
75%,300.0,360.0,4.3
max,6660.0,7400.0,5.0


In [236]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18650 entries, 1 to 27555
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   product       18650 non-null  object 
 1   category      18650 non-null  object 
 2   sub_category  18650 non-null  object 
 3   brand         18650 non-null  object 
 4   sale_price    18650 non-null  float64
 5   market_price  18650 non-null  float64
 6   type          18650 non-null  object 
 7   rating        18650 non-null  float64
 8   description   18650 non-null  object 
dtypes: float64(3), object(6)
memory usage: 1.4+ MB


In [237]:
top_count = data.groupby('product')['product'].count().sort_values(ascending=False)
top_count

product
Turmeric Powder/Arisina Pudi                   23
Soft Drink                                     12
Cow Ghee/Tuppa                                 11
Ghee/Tuppa                                     11
Powder - Coriander                             10
                                               ..
Glass Bowl With Lid - Polo                      1
Glass Bowl With Pink Lid - Polo                 1
Glass Bowl With Pink Lid Set - Freezowarm       1
Glass Bowl with Orange Lid Set - Freezowarm     1
oriental-Instant Noodles - Tomato Flavour       1
Name: product, Length: 16217, dtype: int64

In [238]:
ratings = data.groupby('product')['rating'].mean().sort_values(ascending=False)
ratings

product
Plastic Yolk - Separator                                                                                               5.0
Precious Brightening Night Creme                                                                                       5.0
Face Mask for Kids - 7-12 Years, Red & Blue                                                                            5.0
Ion Woman  Eau De Toilette Deodorant                                                                                   5.0
Chocolate - Hazelnut Eclair                                                                                            5.0
                                                                                                                      ... 
Omega Select Plus Non-Stick Paniyarakkal-11 Holes (30727)                                                              1.0
Premium Ocean Steel Cloth Dryer - White                                                                                1.0
Premium 

In [248]:
prices = data.groupby('product')['sale_price'].mean().sort_values(ascending=False)
prices

product
Good Girl Eau De Parfum For Women                    6660.0
Man In Black Eau De Parfum                           6100.0
Casserole Set - Die-Cast, Induction Base, Granite    6000.0
Black Edition Eau De Parfum For Men                  5940.0
Eau De Toilette For Men                              4905.0
                                                      ...  
Tiger Elaichi Cream Biscuits                            5.0
Biscuits - Magix Kreams Choc                            5.0
Polo - The Mint With The Hole                           5.0
Tiger Chocolate Cream Biscuits                          5.0
Serum                                                   3.0
Name: sale_price, Length: 16217, dtype: float64

2.	Реализация простой рекомендательной системы

Разработать простую систему рекомендаций, которая рекомендует наиболее популярные товары на основе количества продаж или средней оценки.

2.1.	Определите, какие товары являются самыми популярными (например, топ-10 товаров по количеству покупок). Можно использовать функции из задания 1.2.

In [249]:
top_count

product
Turmeric Powder/Arisina Pudi                   23
Soft Drink                                     12
Cow Ghee/Tuppa                                 11
Ghee/Tuppa                                     11
Powder - Coriander                             10
                                               ..
Glass Bowl With Lid - Polo                      1
Glass Bowl With Pink Lid - Polo                 1
Glass Bowl With Pink Lid Set - Freezowarm       1
Glass Bowl with Orange Lid Set - Freezowarm     1
oriental-Instant Noodles - Tomato Flavour       1
Name: product, Length: 16217, dtype: int64

2.2.	Постройте простую рекомендательную систему, которая будет рекомендовать эти популярные товары всем пользователям: реализуйте функцию, которая принимает на вход ID пользователя и возвращает список рекомендуемых товаров (например, топ- N популярных товаров).

In [255]:
top_10 = ((top_count / top_count.max()) * (ratings / ratings.max()) * (prices / prices.max())).sort_values(ascending=False)[:10]
top_10

product
Olive Pomace Oil                                     0.065837
Extra Light Olive Oil                                0.059409
Olive Oil - Pomace                                   0.055341
Extra Virgin Olive Oil                               0.053986
Good Girl Eau De Parfum For Women                    0.043478
Olive Oil - Extra Virgin                             0.039578
Casserole Set - Die-Cast, Induction Base, Granite    0.039170
Olive Oil - Extra Light                              0.034277
Eau De Toilette For Men                              0.032021
Man In Black Eau De Parfum                           0.031858
dtype: float64

In [271]:
data['category'].unique()

array(['Beauty & Hygiene', 'Kitchen, Garden & Pets',
       'Cleaning & Household', 'Gourmet & World Food',
       'Foodgrains, Oil & Masala', 'Snacks & Branded Foods', 'Beverages',
       'Bakery, Cakes & Dairy', 'Baby Care'], dtype=object)

In [272]:
def recsys(id, cat):
    filtered_data = data[data['category'] == cat]
    
    top_count = filtered_data.groupby('product')['product'].count().sort_values(ascending=False)
    ratings = filtered_data.groupby('product')['rating'].mean().sort_values(ascending=False)
    prices = filtered_data.groupby('product')['sale_price'].mean().sort_values(ascending=False)
    top_10 = ((top_count / top_count.max()) * (ratings / ratings.max()) * (prices / prices.max())).sort_values(ascending=False)[:10]
    print(f'Рекомендуемые товары для пользователя:')
    return top_10.index.tolist()

In [273]:
recsys(100, 'Bakery, Cakes & Dairy')

Рекомендуемые товары для пользователя:


['Almond Milk - Unsweetened',
 'Cooking Butter - Unsalted',
 'Assorted Cookies',
 'Cheese - Slices',
 'Almond Coconut - Unsweetened Milk',
 'Cooking Butter - Unsalted, Organic',
 'Soya Milk - Chocolate',
 'Almond Milk Cacao - Lactose Free, Dairy Free & Vegan',
 'Almond Milk - Natural, Unsweetened',
 'Nourish Toned Milk']

3.	Оценка и анализ

Оцените работу вашей рекомендательной системы. Для этого можно использовать метрику точности (accuracy) на тестовом наборе данных. Например, можно проверить, насколько часто товары из топ-N популярных оказываются в списке покупок пользователей.

In [267]:
data['product'].isin(top_count.index[:10]).sum() / data.shape[0]

0.005951742627345845

3.1.	Оценить эффективность системы на основе метрик, таких как точность рекомендаций и удовлетворенность пользователей.

In [270]:
data['product'].isin(top_10.index).sum() / data.shape[0]

0.002412868632707775

3.2.	Сравнить результаты с другими простыми подходами, например, случайными рекомендациями.

In [264]:
data['product'].sample(10).shape[0] / data.shape[0]

0.0005361930294906167