 # Паттерны покупок

**Задание:** Выяснить, какие пары товаров пользователи чаще всего покупают вместе, т.е. найти паттерны покупок, что позволит оптимизировать размещение продуктов в магазине, для удобства пользователей и увеличения выручки.  
Указать 5 наиболее распространённых паттернов.

In [1]:
import pandas as pd
from itertools import combinations

Загрузка и предобработка данных:

In [2]:
df = pd.read_csv('https://stepik.org/media/attachments/lesson/409319/test1_completed.csv')

In [3]:
df.head()

Unnamed: 0,id,Товар,Количество
0,17119,Лимон,1.1
1,17119,Лимон оранжевый,0.7
2,17119,Лук-порей,10.0
3,17119,Лук репчатый,2.5
4,17119,Малина свежая,1.0


In [4]:
df.dtypes

id              int64
Товар          object
Количество    float64
dtype: object

In [5]:
df.isna().sum()

id            0
Товар         0
Количество    0
dtype: int64

In [6]:
df.shape

(43514, 3)

In [7]:
df.id.nunique()

3273

In [4]:
df.rename(columns={'Товар': 'product_name', 'Количество': 'quantity'}, inplace=True)

In [5]:
df.head()

Unnamed: 0,id,product_name,quantity
0,17119,Лимон,1.1
1,17119,Лимон оранжевый,0.7
2,17119,Лук-порей,10.0
3,17119,Лук репчатый,2.5
4,17119,Малина свежая,1.0


In [10]:
df.product_name.nunique()

199

In [15]:
# поскольку уникальных продуктов не много, можно ознакомиться с их списком для большего понимания данных
pd.Series(df.product_name.unique()).to_excel("unique_products.xlsx", index=False)

In [11]:
df.query('quantity > 0').shape

(43514, 3)

Находим паттерны покупок: какие пары товаров пользователи чаще всего покупают вместе:

In [12]:
df_pattern = (
                pd
                .value_counts([(x, y) for _, purch in df.groupby('id') for x, y in combinations(sorted(purch.product_name), 2)])
                .reset_index()
             )

In [13]:
df_pattern

Unnamed: 0,index,0
0,"(Огурцы Луховицкие, Укроп)",431
1,"(Петрушка, Укроп)",408
2,"(Арбуз, Огурцы Луховицкие)",345
3,"(Кабачки, Огурцы Луховицкие)",326
4,"(Кинза, Укроп)",303
...,...,...
19692,"(Тимьян (чабрец), Яблоки Голден)",1
19693,"(Лонган, Цукаты (брусочки))",1
19694,"(Абрикос вяленый, Семена Чиа)",1
19695,"(Букет ""Фаворит"", Семена Чиа)",1


In [14]:
df_pattern.columns = ['product_pattern', 'Встречаемость']

Формируем таблицу нужного вида:

In [15]:
df_pattern[['1_Товар', '2_Товар']] = pd.DataFrame(df_pattern['product_pattern'].tolist())

In [16]:
df_pattern = df_pattern[['1_Товар', '2_Товар', 'Встречаемость']]

In [17]:
df_pattern

Unnamed: 0,1_Товар,2_Товар,Встречаемость
0,Огурцы Луховицкие,Укроп,431
1,Петрушка,Укроп,408
2,Арбуз,Огурцы Луховицкие,345
3,Кабачки,Огурцы Луховицкие,326
4,Кинза,Укроп,303
...,...,...,...
19692,Тимьян (чабрец),Яблоки Голден,1
19693,Лонган,Цукаты (брусочки),1
19694,Абрикос вяленый,Семена Чиа,1
19695,"Букет ""Фаворит""",Семена Чиа,1


5 наиболее распространённых паттернов:

In [18]:
df_pattern.to_csv("all_product_patterns.csv", index=False)

In [19]:
df_pattern.head()

Unnamed: 0,1_Товар,2_Товар,Встречаемость
0,Огурцы Луховицкие,Укроп,431
1,Петрушка,Укроп,408
2,Арбуз,Огурцы Луховицкие,345
3,Кабачки,Огурцы Луховицкие,326
4,Кинза,Укроп,303


Сохраняем 5 наиболее распространённых паттернов в файл Excel для дальнейшей отправки:

In [20]:
df_pattern.head().to_excel("5_product_patterns.xlsx", index=False)

**Вывод:**  
Исходя из того, что список продуктов содержит только товары из разделов "фрукты", "овощи", "ягоды", стоит уточнить полный ли это список товаров, для которых необходимо выявить паттерны.  
Также стоит обратить внимание на то, что самые частные паттерны покупок содержат сезонные овощи/фрукты (например, арбуз), значит нужно учитывать актуальность данных и иметь ввиду, что такой паттерн будет бесполезен во внесезонное для данных товаров время.