## Чеки 
Изучить данные файла чеки.txt. Выполнить анализ потребительской корзины, выявить необходимые ассоциативные правила, построить необходимые визуализации для демонстрации работы алгоритма и итогов анализа.

In [2]:
# импортируем библиотеки

import pandas as pd
import numpy as np

In [3]:
# загружаем данные из файла csv
# проверяем результат, выводим первые пять строчек кода

checks = pd.read_csv('checks.csv', header=0, sep =';', decimal=',', encoding=('cp1251'))
checks.head()

Unnamed: 0,ID,ITEM
0,SO51184,Гель для туалетов
1,SO51184,Сода кальцинированная
2,SO51184,Чистящий порошок универсальный
3,SO51184,Микроспрей
4,SO51188,Средство для чистки плит


In [4]:
# смотрим описание

checks.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 2 columns):
ID      5000 non-null object
ITEM    5000 non-null object
dtypes: object(2)
memory usage: 78.2+ KB


In [5]:
# перечисляем уникальные продуктыт и как часто они встречаются в транзакциях

checks['ITEM'].value_counts()

Микроспрей                                   549
Мыло кусковое                                392
Чистящий порошок универсальный               292
Зубная паста                                 288
Гель для туалетов                            221
Освежитель воздуха                           208
Мыло жидкое                                  200
Отбеливатель                                 199
Стиральный порошок ручной                    195
Средство для ухода за мебелью                154
Средство для мытья посуды                    152
Пятновыводитель                              146
Стиральный порошок-автомат                   144
Сода кальцинированная                        133
Средство для чистки плит                     129
Средство для мытья пола                      119
Средство от накипи                           109
Салфетки бумажные                            106
Антистатик спрей                             101
Перчатки резиновые                           100
Кондиционер для бель

In [6]:
# проверяем данные на наличие пропусков

for col in checks.columns:
    print(col, checks[checks[col].isnull()].shape[0])

ID 0
ITEM 0


In [7]:
# добавляем столбец количество со значением 1 единица товара

checks['QUANTITY']=1
checks.head()

Unnamed: 0,ID,ITEM,QUANTITY
0,SO51184,Гель для туалетов,1
1,SO51184,Сода кальцинированная,1
2,SO51184,Чистящий порошок универсальный,1
3,SO51184,Микроспрей,1
4,SO51188,Средство для чистки плит,1


Единообразие данных, которые используются для кластерного анализа, позволяет улучшить его результаты. Проведем стандартизацию данных (среднее значение равно нулю, стандартное отклонение 1) 

In [8]:
# преобразуем таблицу таким образом, чтобы столбцы содержали наименования ассортимента, 
# строки чеки, а на пересечении количество купленного товара

products=checks.pivot_table(values='QUANTITY', columns=['ITEM'], index='ID', aggfunc=np.sum)

# вместо NaN проставим в данные 0
products[np.isnan(products)]= 0

# выводим пять первых строк новой таблицы
products.head()

ITEM,Антистатик спрей,Бумажное полотенце,Гель для туалетов,Дозатор,Запасной баллон для освежителя,Зубная паста,Картридж с жидким мылом,Кондиционер для белья,Микроспрей,Мыло жидкое,...,Средство для ухода за мебелью,Средство для чистки кафеля,Средство для чистки металлических изделий,Средство для чистки плит,Средство от накипи,Средство по уходу за зеркалами и стеклами,Стиральный порошок ручной,Стиральный порошок универсальный,Стиральный порошок-автомат,Чистящий порошок универсальный
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
SO51184,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
SO51188,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
SO51200,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
SO51205,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
SO51206,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [9]:
# создаю список транзакций, где каждый элемент списка - список того, что купил клиент

# создаю функцию для создания списка транзакций
def transaction_list(df):
    list_external=[]
    for i in range(df.shape[0]):
        list_internal=[]
        data=df.iloc[i]
        index=data[data>0]
        for element in index.index:
            list_internal.append(element)
        list_external.append(list_internal)
    return list_external

# используем функцию, чтобы преобразовать массив в список транзакций
transactions=transaction_list(products)

# это список товаров, которые содержаться в чеке клиента 1
transactions[0]

['Гель для туалетов',
 'Микроспрей',
 'Сода кальцинированная',
 'Чистящий порошок универсальный']

In [10]:
# импортируем дополнительные библиотеки 

from pymining import itemmining, assocrules 
#perftesting

In [11]:
# подготавливаем список стандартными функциями

relim_input = itemmining.get_relim_input(transactions)
item_sets = itemmining.relim(relim_input, min_support=30)

In [13]:
# запускаю расчет ассоциативных правил
# min_support=30, минимум 30 реализаций правила, min_confidence=0.9 - минимальный порог вероятности

rules = assocrules.mine_assoc_rules(item_sets, min_support=30, min_confidence=0.9)
rules

[(frozenset({'Микроспрей', 'Средство от накипи'}),
  frozenset({'Чистящий порошок универсальный'}),
  36,
  1.0),
 (frozenset({'Мыло кусковое', 'Средство для чистки плит'}),
  frozenset({'Средство для мытья посуды'}),
  37,
  1.0),
 (frozenset({'Гель для туалетов', 'Чистящий порошок универсальный'}),
  frozenset({'Сода кальцинированная'}),
  34,
  1.0),
 (frozenset({'Микроспрей', 'Сода кальцинированная'}),
  frozenset({'Чистящий порошок универсальный'}),
  43,
  0.9555555555555556),
 (frozenset({'Микроспрей', 'Средство для мытья посуды'}),
  frozenset({'Мыло кусковое'}),
  33,
  1.0),
 (frozenset({'Гель для туалетов', 'Мыло кусковое'}),
  frozenset({'Мыло жидкое'}),
  56,
  1.0)]

# По результатам, полученным с помощью анализа, мы видим:
При покупке Геля для туалета и Мыла кускового, с вероятностью 100% покупатель приобретет так же Мыло жидкое. Так сделали в 56 случаях.

Соответственно зная эту закономерность разместим на витрине Мыло жидкое рядом с Гелем для туалета и Мылом кусковым, чем спровоцируем покупателя на их совместное приобретение.

Так же результат анализа позволяет нам оптимизировать ассортимент товаров и запасы, увеличивать объемы за счет предложения клиентам сопутствующих товаров.