**Задача**: проанализировать данные продуктовых магазинов компании. Отследить покупки людей и выяснить, *какие пары товаров пользователи чаще всего покупают вместе*. Нахождение подобных паттернов позволит оптимизировать размещение продуктов в 
магазине для удобства пользователей и увеличения выручки.
<hr>

In [1]:
import pandas as pd
from itertools import combinations
import numpy as np

**Загружаем данные, группируем данные по id покупки:**

In [2]:
products = pd.read_csv("https://stepik.org/media/attachments/lesson/409319/test1_completed.csv")

In [3]:
products.head()

Unnamed: 0,id,Товар,Количество
0,17119,Лимон,1.1
1,17119,Лимон оранжевый,0.7
2,17119,Лук-порей,10.0
3,17119,Лук репчатый,2.5
4,17119,Малина свежая,1.0


In [4]:
products_list = products.groupby("id", as_index=False).agg({"Товар": "unique"})

In [5]:
products_list

Unnamed: 0,id,Товар
0,17119,"[Лимон, Лимон оранжевый, Лук-порей, Лук репчат..."
1,17530,"[Лимон оранжевый, Изюм Султана, Капуста цветна..."
2,17618,"[Абрикосы молдавские, Кукуруза мини, Грибы лис..."
3,17724,"[Абрикосы молдавские, Арбуз, Салат Айсберг, Га..."
4,17814,"[Арбуз, Кабачки, Кинза, Малина свежая, Морковь..."
...,...,...
3268,119062,"[Баклажаны грунтовые, Персики, Персики армянск..."
3269,119110,"[Авокадо ХАСС, Апельсины столовые, Базилик зел..."
3270,119206,"[Огурцы длинноплодные, Грибы шампиньоны, Подпи..."
3271,119393,"[Петрушка, Грибы Еринги, Инжир свежий, Редис, ..."


**Находим всевозможные комбинации товаров с помощью функции combinations() модуля itertools:**

In [6]:
products_combinations = products_list["Товар"].apply(lambda x: list(combinations(x, 2)))

In [7]:
products_combinations

0       [(Лимон, Лимон оранжевый), (Лимон, Лук-порей),...
1       [(Лимон оранжевый, Изюм Султана), (Лимон оранж...
2       [(Абрикосы молдавские, Кукуруза мини), (Абрико...
3       [(Абрикосы молдавские, Арбуз), (Абрикосы молда...
4       [(Арбуз, Кабачки), (Арбуз, Кинза), (Арбуз, Мал...
                              ...                        
3268    [(Баклажаны грунтовые, Персики), (Баклажаны гр...
3269    [(Авокадо ХАСС, Апельсины столовые), (Авокадо ...
3270    [(Огурцы длинноплодные, Грибы шампиньоны), (Ог...
3271    [(Петрушка, Грибы Еринги), (Петрушка, Инжир св...
3272    [(Фасоль стручковая, Лук-резанец (шнитт-лук)),...
Name: Товар, Length: 3273, dtype: object

**Поместим комбинации в датафрейм:**

In [8]:
products_combinations = pd.DataFrame(products_combinations.sum())

In [9]:
products_combinations.head(30)

Unnamed: 0,0,1
0,Лимон,Лимон оранжевый
1,Лимон,Лук-порей
2,Лимон,Лук репчатый
3,Лимон,Малина свежая
4,Лимон,Морковь немытая
5,Лимон,Черешня сушеная
6,Лимон оранжевый,Лук-порей
7,Лимон оранжевый,Лук репчатый
8,Лимон оранжевый,Малина свежая
9,Лимон оранжевый,Морковь немытая


**Загружаем данные, группируем данные по id покупки:**

**Посчитаем встречаемость комбинаций в датафрейме:**

In [10]:
products_combinations_count_values = products_combinations.apply(lambda x: tuple(sorted(x)), axis=1).value_counts()

In [11]:
products_combinations_count_values

(Огурцы Луховицкие, Укроп)                431
(Петрушка, Укроп)                         408
(Арбуз, Огурцы Луховицкие)                345
(Кабачки, Огурцы Луховицкие)              326
(Кинза, Укроп)                            303
                                         ... 
(Рамбутан, Шиповник)                        1
(Салат Фризе, Яблоки сушеные)               1
(Лонган, Цукаты (брусочки))                 1
(Капуста краснокочанная, Огурцы Кураж)      1
(Букет "Фаворит", Семена Чиа)               1
Length: 19697, dtype: int64

**Приведём табличку к необходимому виду, выведем 5 наиболее распространённых паттернов:**

In [12]:
products_combinations_count_values = pd.DataFrame(products_combinations_count_values, columns={"Встречаемость"})

In [13]:
products_combinations_count_values = products_combinations_count_values.reset_index(drop=False).rename(columns={0: "1_Товар", 1: "2_Товар"})

In [16]:
products_combinations_count_values.head(5)

Unnamed: 0,index,Встречаемость
0,"(Огурцы Луховицкие, Укроп)",431
1,"(Петрушка, Укроп)",408
2,"(Арбуз, Огурцы Луховицкие)",345
3,"(Кабачки, Огурцы Луховицкие)",326
4,"(Кинза, Укроп)",303


<blockquote>Мы получили паттерны товаров, которые чаще всего покупаются вместе. Полезно будет проанализировать не только 
первые 5 паттернов, но и последующие с целью оптимизации размещения товаров на полках продуктовых магазинов. Данный анализ также
будет полезен для оптимизации поставок товаров.</blockquote>