<center>
<img src="logo.png" height="900"> 
</center>


#  Анализируем чеки

В этом задании мы будем работать с покупками и чеками. Смотреть за корреляциями в покупках довольно полезно.

> В 1992 году группа по консалтингу в области ритейла компании Teradata под руководством Томаса Блишока провела исследование 1.2 миллиона транзакций в 25 магазинах для ритейлера Osco Drug (Drug Store — формат разнокалиберных магазинов у дома). После анализа всех этих транзакций самым сильным правилом получилось «Между 17:00 и 19:00 чаще всего пиво и подгузники покупают вместе». К сожалению, такое правило показалось руководству Osco Drug настолько контринтуитивным, что ставить подгузники на полках рядом с пивом они не стали. Хотя объяснение паре пиво-подгузники вполне себе нашлось: когда оба члена молодой семьи возвращались с работы домой (как раз часам к 5 вечера), жены обычно отправляли мужей за подгузниками в ближайший магазин. И мужья, не долго думая, совмещали приятное с полезным — покупали подгузники по заданию жены и пиво для собственного вечернего времяпрепровождения.

Для работы будем использовать датасет о продуктовых корзинах: https://www.kaggle.com/heeraldedhia/groceries-dataset

In [1]:
import numpy as np
import pandas as pd

import scipy.stats as sts
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('ggplot')  # стиль для графиков
%matplotlib inline

Подружаем данные и смотрим как они выглядят.

In [2]:
df = pd.read_csv('data/groceries.csv', sep=',')
df.columns = ['id', 'fielddate', 'product']
print(df.shape)
df.head()

(38765, 3)


Unnamed: 0,id,fielddate,product
0,1808,21-07-2015,tropical fruit
1,2552,05-01-2015,whole milk
2,2300,19-09-2015,pip fruit
3,1187,12-12-2015,other vegetables
4,3037,01-02-2015,whole milk


## 1. Корреляции

Для начала поработаем с корреляциями в данных. 

__а)__ Какой товар покупался чаще всего? Сохраните название этого товара в переменную `product_name`.

In [3]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

product_name = df["product"].value_counts().index[0]

# your code here


In [4]:
# проверка, что задание решено корректно
assert len(product_name) == 10

# Аналогичные тесты скрыты от вас

__б)__ Сколько всего уникальных заказов было сделано? Сохраните число заказов в переменную `n_cnt`.

In [5]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

n_cnt = df["id"].unique().shape[0]

# your code here


In [6]:
# проверка, что задание решено корректно
assert n_cnt > 3800
assert n_cnt < 4000

# Аналогичные тесты скрыты от вас

В таблице выше в каждой строке записана информация о покупке конкретного товара. Давайте сделаем табличку размера "число товаров" на "число покупок", чтобы понимать какие товары покупались вместе, а какие нет. 

> Обратите внимание, то здесь задание немного упрощено. Вообще говоря, нам нужно делать агрегацию по паре `fielddate, id`, если мы хотим изучать чеки по-честному. Но мы делаем её только по `id` для того, чтобы не усложнять задание. В качестве необязательного дополнения вы можете после сдачи задания переделать код так, чтобы дата тоже учитывалась при расчётах. 

In [7]:
sparse_sales = pd.pivot_table(df, 
               values='fielddate', 
               index='id', 
               columns='product', 
               fill_value=0, aggfunc='count')

sparse_sales.head()

product,Instant food products,UHT-milk,abrasive cleaner,artif. sweetener,baby cosmetics,bags,baking powder,bathroom cleaner,beef,berries,...,turkey,vinegar,waffles,whipped/sour cream,whisky,white bread,white wine,whole milk,yogurt,zwieback
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1000,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,2,1,0
1001,0,0,0,0,0,0,0,0,1,0,...,0,0,0,1,0,1,0,2,0,0
1002,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1003,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1004,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,3,0,0


В нашей матрице огромное число нулей. Обычно такие матрицы называют разряжеными. Мы занимаем нулями кучу свободной памяти, которую мы могли бы не занимать, если бы хранили данные [в ином виде.](https://cmdlinetips.com/2018/03/sparse-matrices-in-python-with-scipy/)

__в)__ Постройте матрицу корреляций Пирсона. Для этого используйте метод таблицы `.corr`.

In [8]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

sales_correlation = sparse_sales.corr()

# your code here


Какие продукты сильнее всего коррелируют с яйцами, `domestic eggs` (их чаще всего покупают вместе)?  Сохраните название самого скоррелированного продукта в переменную `top_1`.

In [9]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

top_1 = sales_correlation["domestic eggs"].sort_values(ascending = False).index[1]

# your code here


Какие продукты "мешают" купить яйца, то есть отрицательно коррелируют с их покупкой? Сохраните название продукта с самой большой отрицательной корреляцией в переменную `bottom_1`.

In [10]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

bottom_1 = sales_correlation["domestic eggs"].sort_values().index[0]
# your code here


In [11]:
# проверка, что задание решено корректно
assert len(bottom_1) == 8
assert len(top_1) == 12

# Аналогичные тесты скрыты от вас

Напишите код, который выводит самые коррелируемые товары для случайного продукта из списка `unique_products`.

In [12]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

unique_products = df['product'].unique()
value = np.random.choice(unique_products)
sales_correlation[value].sort_values(ascending = False)
# your code here


product
chocolate                1.000000
whole milk               0.078214
beef                     0.070675
rolls/buns               0.066439
yogurt                   0.058244
                           ...   
cookware                -0.019828
organic sausage         -0.022570
cereals                 -0.023138
photo/film              -0.024594
chocolate marshmallow   -0.030641
Name: chocolate, Length: 167, dtype: float64

__г)__ Какие два продукта коррелируют сильнее всего? Положите их название в лист `answer`

In [13]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

answer = []
val = sales_correlation.replace(1, 0).max().sort_values(ascending = False).index[0]
val1 = sales_correlation[val].replace(1, 0).sort_values(ascending = False).index[0]
answer.extend([val, val1])
answer = sorted(answer)
answer

# your code here


['preservation products', 'soups']

In [14]:
# проверка, что задание решено корректно
assert 'soups' in answer

# Аналогичные тесты скрыты от вас

Конечно же, корреляция — это [не единственный способ искать](https://habr.com/ru/company/ods/blog/353502/) между покупками ассоциативные правила.

## 2. Зависимость. 

В лекции мы с вами сказали, что события $A$ и $B$ называются независимыми, если $P(AB) = P(A)\cdot P(B)$. Отталкиваясь от этого определения, можно ввести другую характеристику, которая показывает, насколько продукты зависят друг от друга, а именно __поддержку (lift).__ 

$$
lift = \frac{P(AB)}{P(A)\cdot P(B)}
$$

Эта метрика описывает отношение зависимости товаров к их независимости. Если оказалось, что `lift = 1`, это означает, что покупка товара $A$ не зависит от покупки товара $B$. Если `lift > 1`, то это означает, что вероятность встретить оба товара в чеке, $P(AB)$ высокая, то есть товары покупают вместе. Если `lift < 1`, это означает, что товары, наоборот, очень часто покупают по-отдельности. 

__д)__ Посчитайте значение нашей метрики для яиц и молока (`'whole milk', 'domestic eggs'`). Запишите получившиеся значение метрики в переменную `answer`.

In [15]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

var1, var2 = "whole milk", "domestic eggs"
N = sparse_sales.shape[0]
pa = (sparse_sales ['whole milk'] >= 1).mean()
pb = (sparse_sales ['domestic eggs'] >= 1).mean()
pab = (sparse_sales[[var1, var2]] >= 1).all(axis = 1).mean()

answer = pab / (pa * pb)
answer

# your code here


1.152241691425711

In [16]:
# проверка, что задание решено корректно
assert answer < 3
assert answer > 1

# Аналогичные тесты скрыты от вас

__е)__ Посчитайте значение метрики для всех пар продуктов из датасета. Сохраните значения в словарик `dict`. В качестве ключа используете кортеж из пары продуктов. Чтобы удобнее было перебрать все сочетания, используйте `combinations` из модуля `itertools`.

Чтобы при подсчётах не возникало деления на ноль, добавьте к знаменателю маленькое число, например `1e-10`.

In [17]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

# your code here
import itertools as it
comb = list(it.combinations(unique_products, 2))

food_dict = {}

In [18]:
N = sparse_sales.shape[0]
for i in range(len(comb)):
    var, var1 = comb[i][0], comb[i][1]
    pab = (sparse_sales[[var, var1]] >= 1).all(axis = 1).mean()
    pa = (sparse_sales [var] >= 1).mean() + 1e-10
    pb = (sparse_sales [var1] >= 1).mean() + 1e-10

    food_dict[comb[i]] = pab / (pa * pb)

In [19]:
food_dict[('whole milk', 'cream')]

0.5456326809251428

In [20]:
(sparse_sales [['whole milk', 'cream']] >= 1).all(axis=1).sum()

3

In [21]:
ab = (sparse_sales [['whole milk', 'cream']] >= 1).all(axis=1).mean()
a = (sparse_sales ['whole milk'] >= 1).mean()
b = (sparse_sales ['cream'] >= 1).mean()
answer = ab/(a*b)
answer

0.5456326987681971

Сколько пар продуктов покупали вместе хотя бы раз? Запишите ответ в переменную `answer`.

In [23]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

answer = np.array(list(food_dict.values())).astype(bool).astype(int).sum()

# your code here


Для какой пары продуктов метрика $lift$ оказалась самой большой? 

In [24]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

# your code here
lst_val = list(food_dict.values())
index = lst_val.index(max(lst_val))

lst_key = list(food_dict.keys())
ans = lst_key[index]

In [25]:
ans

('soups', 'preservation products')

Сколько раз эти продукты встретились в выборке? Как думаете адеватно ли делать выводы по такому объёму данных? 

In [26]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

# your code here
val1, val2 = ans[0], ans[1]
sparse_sales[val1].sum()
sparse_sales[val2].sum()
# preservation products встретились в выборке только один раз, поэтому адекватных выводов на этот счёт сделать нельзя

1

Для какой пары продуктов метрика оказывается самой маленькой? 

In [27]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

# your code here
lst_val = list(food_dict.values())
index = lst_val.index(min(lst_val))

lst_key = list(food_dict.keys())
ans = lst_key[index]
ans

('tropical fruit', 'hair spray')

In [28]:
# проверка, что задание решено корректно

assert answer < 10000
assert answer > 9000

# Аналогичные тесты скрыты от вас

In [37]:
sparse_sales['UHT-milk']

id
1000    0
1001    0
1002    0
1003    0
1004    0
       ..
4996    0
4997    0
4998    0
4999    0
5000    0
Name: UHT-milk, Length: 3898, dtype: int64

## 3. Неоцениваемые задания

Выше мы увидели, что некоторые продукты встречаются в выборке очень редко. Понятное дело, что по ним у нас не получится построить хорошее ассоциативное правило. Попробуйте повторить расчёт той же метрики, но с условием что продукт покупали больше 10 раз. Изучите самые покупаемые вместе продукты и самые непокупаемые вместе продукты. Насколько сильно список отличается от полученного в предыдущем задании? 

In [42]:
### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
# will the code be with you

comb = list(it.combinations(unique_products, 2))
food_dict = {}
N = sparse_sales.shape[0]
for i in range(len(comb)):
    var, var1 = comb[i][0], comb[i][1]
    if (sparse_sales[var1].sum() < 10):
        food_dict[comb[i]] = 0
    elif (sparse_sales[var2].sum() < 10):
        food_dict[comb[i]] = 0
    else:
        pab = (sparse_sales[[var, var1]] >= 1).all(axis = 1).mean()
        pa = (sparse_sales [var] >= 1).mean() + 1e-10
        pb = (sparse_sales [var1] >= 1).mean() + 1e-10

        food_dict[comb[i]] = pab / (pa * pb)

In [43]:
lst_val = list(food_dict.values())
index = lst_val.index(max(lst_val))

lst_key = list(food_dict.keys())
ans = lst_key[index]
ans

('frozen chicken', 'specialty vegetables')

In [47]:
# Результаты изменились, жаль только не понятно, что значит "specialty vegetables"

Иногда в чеках пытаются искать __продукты-якоря.__ То есть продукты, которые являются основными. Например: айфон - основной продукт, наушники и чехол - дополнения к нему. Подумайте как можно попытаться найти такие продукты на основе простых метрик, основанных на подсчёте условных вероятностей.

In [48]:
# Можно посчитать для каждой пары покупок, какую долю от общих продаж продукта составляют покупки именно пар продуктов
# Для пары айфон-наушники, например, у наушников доля покупка вместе с Айфоном будет близка к 1
# У Айфона же этот показатель будет не таким большим
# Из этого можно сделать вывод, что Айфон - продукт-якорь

<center>
<img src="https://pp.userapi.com/c638028/v638028181/52e5e/1X-dkzNN1hk.jpg" width="400"> 
</center>