Поиск инсайтов в данных продуктовых магазинов компании. В файле содержится информация о покупках людей.  
Необходимо выяснить, какие пары товаров пользователи чаще всего покупают вместе. По сути, необходимо найти паттерны покупок, что позволит оптимизировать размещение продуктов в магазине для удобства пользователей и увеличения выручки.       
_________
**Описание данных:**                  
 id – означает покупку (в одну покупку входят все товары, купленные пользователем во время 1 похода в магазин)      
 Товар – наименование товара      
 Количество – число единиц купленного товара        

In [1]:
import pandas as pd
from tqdm.auto import tqdm
import scipy.special

In [2]:
data = pd.read_csv('https://stepik.org/media/attachments/lesson/409319/test1_completed.csv')
data.head(5)

Unnamed: 0,id,Товар,Количество
0,17119,Лимон,1.1
1,17119,Лимон оранжевый,0.7
2,17119,Лук-порей,10.0
3,17119,Лук репчатый,2.5
4,17119,Малина свежая,1.0


In [3]:
# Число уникальных товаров:
data['Товар'].nunique()

199

In [4]:
# Список всех товаров:
products = list(data['Товар'].unique())
products

['Лимон',
 'Лимон оранжевый',
 'Лук-порей',
 'Лук репчатый',
 'Малина свежая',
 'Морковь немытая',
 'Черешня сушеная',
 'Изюм Султана',
 'Капуста цветная',
 'Бразильский орех',
 'Дыня Гуляби',
 'Шпинат мини',
 'Изюм Голд',
 'Огурцы Луховицкие',
 'Чеснок весовой',
 'Огурцы Белоруссия',
 'Черешня отборная',
 'Абрикосы молдавские',
 'Кукуруза мини',
 'Грибы лисички',
 'Слива Президент',
 'Апельсины столовые',
 'Кукуруза свежая',
 'Салат Руккола',
 'Гранат',
 'Подпись открытки',
 'Лук зеленый',
 'Цукаты (брусочки)',
 'Кокос питьевой',
 'Петрушка',
 'Помидоры Парадайз',
 'Ягоды Годжи',
 'Укроп',
 'Черника свежая',
 'Персики',
 'Арбуз',
 'Салат Айсберг',
 'Галангал корень',
 'Петрушка Кудрявая',
 'Яблоки Гала',
 'Курага коричневая',
 'Горох стручковый',
 'Персики узбекские',
 'Персик сушеный',
 'Груша Форел',
 'Яблоки Айдаред',
 'Яблоки Симиренко',
 'Кабачки',
 'Кинза',
 'Морковь мытая',
 'Капуста Кольраби',
 'Груша Аббат',
 'Шпинат',
 'Вишня садовая',
 'Сахар-песок, 5кг',
 'Сельдерей корень

In [5]:
# Составим список всех возможных пар товаров:
pairs = []
for i in range(len(products)):
    for j in range(i+1, len(products)):
        pairs.append([products[i],products[j]])
pairs

[['Лимон', 'Лимон оранжевый'],
 ['Лимон', 'Лук-порей'],
 ['Лимон', 'Лук репчатый'],
 ['Лимон', 'Малина свежая'],
 ['Лимон', 'Морковь немытая'],
 ['Лимон', 'Черешня сушеная'],
 ['Лимон', 'Изюм Султана'],
 ['Лимон', 'Капуста цветная'],
 ['Лимон', 'Бразильский орех'],
 ['Лимон', 'Дыня Гуляби'],
 ['Лимон', 'Шпинат мини'],
 ['Лимон', 'Изюм Голд'],
 ['Лимон', 'Огурцы Луховицкие'],
 ['Лимон', 'Чеснок весовой'],
 ['Лимон', 'Огурцы Белоруссия'],
 ['Лимон', 'Черешня отборная'],
 ['Лимон', 'Абрикосы молдавские'],
 ['Лимон', 'Кукуруза мини'],
 ['Лимон', 'Грибы лисички'],
 ['Лимон', 'Слива Президент'],
 ['Лимон', 'Апельсины столовые'],
 ['Лимон', 'Кукуруза свежая'],
 ['Лимон', 'Салат Руккола'],
 ['Лимон', 'Гранат'],
 ['Лимон', 'Подпись открытки'],
 ['Лимон', 'Лук зеленый'],
 ['Лимон', 'Цукаты (брусочки)'],
 ['Лимон', 'Кокос питьевой'],
 ['Лимон', 'Петрушка'],
 ['Лимон', 'Помидоры Парадайз'],
 ['Лимон', 'Ягоды Годжи'],
 ['Лимон', 'Укроп'],
 ['Лимон', 'Черника свежая'],
 ['Лимон', 'Персики'],
 ['Лимо

In [6]:
# Число пар в списке должно быть равно числу сочетаний из n по k, где n - кол-во товаров, k = 2:
len(pairs) == scipy.special.comb(data['Товар'].nunique(), 2)

True

Другими словами, из 199 имеющихся товаров мы составили $199! / (2! * (199-2)!) = 198 * 199 / 2 = 19 701$ всех возможных пар, чтобы далее посчитать, как часто каждая из них встречается в покупках.

In [7]:
# Преобразуем данные так, чтобы получить для каждой покупки весь список товаров:

data1 = data.groupby('id')['Товар'].apply(list).to_frame()
data1

Unnamed: 0_level_0,Товар
id,Unnamed: 1_level_1
17119,"[Лимон, Лимон оранжевый, Лук-порей, Лук репчат..."
17530,"[Лимон оранжевый, Изюм Султана, Капуста цветна..."
17618,"[Абрикосы молдавские, Кукуруза мини, Грибы лис..."
17724,"[Абрикосы молдавские, Арбуз, Салат Айсберг, Га..."
17814,"[Арбуз, Кабачки, Кинза, Малина свежая, Морковь..."
...,...
119062,"[Баклажаны грунтовые, Персики, Персики армянск..."
119110,"[Авокадо ХАСС, Апельсины столовые, Базилик зел..."
119206,"[Огурцы длинноплодные, Грибы шампиньоны, Подпи..."
119393,"[Петрушка, Грибы Еринги, Инжир свежий, Редис, ..."


In [8]:
freq = []

# Для каждого списка-пары товаров посмотрим, является ли он подмножеством множества товаров в каждой покупке, и посчитаем
# сумму таких подмножеств для всех покупок:
for i in tqdm(pairs):
    freq.append({'1_Товар':i[0],'2_Товар':i[1],'Встречаемость':data1['Товар'].apply(lambda x: set(x) >= set(i)).sum()})
    
# Теперь добавим все данные в датафрейм:    
data3 = pd.DataFrame(freq)
data3 = data3.sort_values('Встречаемость', ascending = False)
data3.head(30)

# Получаем датафрейм со встречаемостью для всех возможных пар продуктов:

HBox(children=(FloatProgress(value=0.0, max=19701.0), HTML(value='')))




Unnamed: 0,1_Товар,2_Товар,Встречаемость
2514,Огурцы Луховицкие,Укроп,431
5338,Петрушка,Укроп,408
2517,Огурцы Луховицкие,Арбуз,345
2529,Огурцы Луховицкие,Кабачки,326
5855,Укроп,Кинза,303
4828,Лук зеленый,Укроп,300
2511,Огурцы Луховицкие,Петрушка,286
600,Лук репчатый,Огурцы Луховицкие,285
8240,Кабачки,Баклажаны грунтовые,284
5854,Укроп,Кабачки,281


Итак, мы получили датафрейм со встречаемостью всевозможных пар продуктов в нашем магазине. Нельзя, например, не отметить тот факт, что потребители часто покупают разную зелень вместе (Укроп-Петрушка-Кинза-Лук зеленый и т.д.) - такие комбинации встречаются очень часто, или овощи с овощами (Огурцы-Кабачки-Баклажаны-Лук репчатый-Помидоры Парадайз), фрукты с фруктами(Персики армянские - Персики азербайджанские), ягоды с ягодами, орехи с орехами.


Можно взять топ-30 по встречаемости пар и закончить на этом наш анализ. Но будет ли это означать, что эти продукты покупатели действительно часто берут вместе (в паре), или же это значит лишь просто то, что первый и/или второй продукт очень популярны, и часто попадают в корзину потребителя друг с другом (при этом эти товары не матчатся друг с другом, как например, Арбуз и Огурцы Луховицкие - третья пара по встречаемости, или Укроп-Арбуз). Если не рассматривать такой вариант событий, то можно просто взять топ-15 самых популярных товаров в магазине и разместить их на одной полке, что приведет скорее к убыткам магазинов, чем если бы самые популярные товары лежали бы вдалеке друг от друга, но при этом рядом с ними лежали бы сопутствующие товары, которые действительно могут идти в паре с другими. Поэтому есть смысл поискать интересные паттерны, выкинув из датафрейма самые популярные продукты, или посмотреть комбинации популярных продуктов и непопулярных.


In [33]:
# Посмотрим, сколько раз купили каждый продукт (число_покупок), и посчитаем процент покупок (percent), в которых этот 
# продукт присутствует, чтобы оценить "популярность" каждого продукта:

products_df = data["Товар"].value_counts().to_frame()
products_df = products_df.rename(columns={"Товар": "число_покупок"})
products_df["percent"] = round(
    data["Товар"].value_counts().to_frame().mul(100) / data["id"].nunique(), 2
)
products_df

Unnamed: 0,число_покупок,percent
Огурцы Луховицкие,1022,31.23
Арбуз,978,29.88
Укроп,828,25.30
Бананы,691,21.11
Кабачки,662,20.23
...,...,...
Лук-резанец (шнитт-лук),124,3.79
Барбарис сушеный,121,3.70
Капуста белокочанная,121,3.70
Яблоки сушеные,119,3.64


In [55]:
# Например, самый популярный продукт - Огурцы Луховицкие - есть в 31% покупок или ~ в каждой третьей покупке! Встречаемость
# данного товара в паре практически с любым другим продуктом будет высокой. 

data3[(data3['1_Товар'] == 'Огурцы Луховицкие') | (data3['2_Товар'] == 'Огурцы Луховицкие')]

Unnamed: 0,1_Товар,2_Товар,Встречаемость
2514,Огурцы Луховицкие,Укроп,431
2517,Огурцы Луховицкие,Арбуз,345
2529,Огурцы Луховицкие,Кабачки,326
2511,Огурцы Луховицкие,Петрушка,286
600,Лук репчатый,Огурцы Луховицкие,285
...,...,...,...
2612,Огурцы Луховицкие,"Рычал-Су, 1л",47
2597,Огурцы Луховицкие,Открытка Love,47
2616,Огурцы Луховицкие,Яблоки сушеные,43
2603,Огурцы Луховицкие,Рамбутан,41


In [64]:
# Поэтому есть смысл рассмотреть комбинации из не самых популярных продуктов, н-р, не из топ-15.
# Список 15 самых популярных продуктов (эти товары встречаются более чем в 15% покупок):

list_of_tops = list(data['Товар'].value_counts().index)[:15]
list_of_tops

['Огурцы Луховицкие',
 'Арбуз',
 'Укроп',
 'Бананы',
 'Кабачки',
 'Лук репчатый',
 'Персики азербайджанские',
 'Баклажаны грунтовые',
 'Персики армянские',
 'Петрушка',
 'Помидоры Парадайз',
 'Кинза',
 'Абрикосы молдавские',
 'Лук зеленый',
 'Кукуруза свежая']

In [65]:
# Датафрейм с товарами не из топ-15 по популярности:
data4 = data3[~data3['1_Товар'].isin(list_of_tops) & ~data3['2_Товар'].isin(list_of_tops)]

# При этом будем рассматривать только пары товаров, встречаемость которых выше 95% пар - такую встречаемость будем считать 
# высокой,т.е. будем искать паттерны только среди 5% самых часто встречающихся пар:

data4 = data4[data4['Встречаемость'] > data3['Встречаемость'].quantile(0.95)]
data4

Unnamed: 0,1_Товар,2_Товар,Встречаемость
3064,Черешня отборная,Черника свежая,87
14,Лимон,Огурцы Белоруссия,81
4,Лимон,Морковь немытая,80
56,Лимон,Чеснок молодой,76
989,Морковь немытая,Огурцы Белоруссия,76
106,Лимон,Мята,75
8533,Морковь мытая,Чеснок молодой,74
7,Лимон,Капуста цветная,70
11342,Миндаль жареный,Фундук жареный,70
2973,Огурцы Белоруссия,Редис,70


В этом датафрейме можно заметить более интересные паттерны, н-р, Черешня-Черника/Вишня, Лимон-Чеснок/Мята/Корень Имбиря/Авокадо,  Чеснок-Базилик, Миндаль-Фундук-Кешью (жареные\сырые), Морковь-Свекла/Шпинат/Щавель и т.д.
Можно также увеличить список исключенных популярных продуктов до 20 и получить еще пару популярных пар: Капуста цветная - Морковь, Морковь - Цуккини, Черешня - Нектарины.