In [164]:
import itertools
import os

from datetime import datetime
from collections import Counter

import pandas as pd
import numpy as np

from efficient_apriori import apriori

# Продажи магазина

In [52]:
data_folder = './baskets'
info_file_path = os.path.join(data_folder, 'baskets-info.txt')
data_file_path = os.path.join(data_folder, 'baskets.csv')

In [53]:
with open(info_file_path, 'r', encoding='cp1251') as f:
    info = f.read()

> {{info}}

In [54]:
with open(data_file_path, 'r', encoding='cp1251') as f:
    lines = f.readlines()

In [55]:
norm_line = list(filter(lambda line: bool(line), map(lambda line: line.strip(), lines)))

In [56]:
baskets = list(map(lambda line: list(map(int, line.strip().split(','))), norm_line))

In [57]:
total_baskets = len(baskets)

In [58]:
elements = [element for basket in baskets for element in basket]
element_counter = Counter(elements)
elements_values = [k for k, v in element_counter.items()]
elements_counts = [v for k, v in element_counter.items()]

In [67]:
l_num = 100000
def stat_sum(elements, part=1.):
    edge = int((l_num * part * len(elements)) / l_num)
    return np.sum(sorted(elements)[:edge])
def stat_count(elements, part=1.):
    edge = int((l_num * part * len(elements)) / l_num)
    return sorted(elements)[edge]
def stat_supp(elements, part=1.):
    return stat_count(elements, part) / total_baskets

**Статистика**

Количество транзакций: `{{total_baskets}}`  
По количеству вхождений:
- **count**: `{{np.sum(elements_counts)}}`
- **unique**: `{{np.unique(elements_values).shape[0]}}`
- **min**: `{{np.min(elements_counts)}}`, элемент `{{elements_values[np.argmin(elements_counts)]}}`
- **max**: `{{np.max(elements_counts)}}`, элемент `{{elements_values[np.argmax(elements_counts)]}}`
- **std**: `{{np.std(elements_counts)}}`  
- **mean**: `{{np.mean(elements_counts)}}`
- **top10**:  sum `{{stat_sum(elements_counts, 0.1)}}`, count `{{stat_count(elements_counts, 0.1)}}`, supp `{{stat_supp(elements_counts, 0.1)}}`
- **top25**: sum `{{stat_sum(elements_counts, 0.25)}}`, count `{{stat_count(elements_counts, 0.25)}}`, supp `{{stat_supp(elements_counts, 0.25)}}`
- **top50**: sum `{{stat_sum(elements_counts, 0.5)}}`, count `{{stat_count(elements_counts, 0.5)}}`, supp `{{stat_supp(elements_counts, 0.5)}}`
- **top75**: sum `{{stat_sum(elements_counts, 0.75)}}`, count `{{stat_count(elements_counts, 0.75)}}`, supp `{{stat_supp(elements_counts, 0.75)}}`
- **top90**: sum `{{stat_sum(elements_counts, 0.9)}}`, count `{{stat_count(elements_counts, 0.9)}}`, supp `{{stat_supp(elements_counts, 0.9)}}`
- **top95**: sum `{{stat_sum(elements_counts, 0.95)}}`, count `{{stat_count(elements_counts, 0.95)}}`, supp `{{stat_supp(elements_counts, 0.95)}}`
- **top98**: sum `{{stat_sum(elements_counts, 0.98)}}`, count `{{stat_count(elements_counts, 0.98)}}`, supp `{{stat_supp(elements_counts, 0.98)}}`

In [121]:
def show_top_itemset(itemset, top=5):
    for size, values in itemset.items():
        print(f'# Size {size}')
        values = sorted([(k, v) for k, v in values.items()], key=lambda x: x[1], reverse=True)[:top]
        for (k, v) in values:
            print(f'Basket({",".join(map(str, k))}): {v}') 

### Sample 1
Min support `0.01`  
Min confidence `0.5`

In [122]:
itemsets_1_50, rules_1_50 = apriori(baskets, min_support=0.01,  min_confidence=0.5, verbosity=1)

Generating itemsets.
 Counting itemsets of length 1.
  Found 16470 candidate itemsets of length 1.
  Found 70 large itemsets of length 1.
 Counting itemsets of length 2.
  Found 2415 candidate itemsets of length 2.
  Found 58 large itemsets of length 2.
 Counting itemsets of length 3.
  Found 37 candidate itemsets of length 3.
  Found 25 large itemsets of length 3.
 Counting itemsets of length 4.
  Found 6 candidate itemsets of length 4.
  Found 6 large itemsets of length 4.
 Counting itemsets of length 5.
  Found 0 candidate itemsets of length 5.
Itemset generation terminated.

Generating rules from itemsets.
 Generating rules of size 2.
 Generating rules of size 3.
 Generating rules of size 4.
Rule generation terminated.



In [123]:
show_top_itemset(itemsets_1_50)

# Size 1
Basket(39): 50675
Basket(48): 42135
Basket(38): 15596
Basket(32): 15167
Basket(41): 14945
# Size 2
Basket(39,48): 29142
Basket(39,41): 11414
Basket(38,39): 10345
Basket(41,48): 9018
Basket(32,39): 8455
# Size 3
Basket(39,41,48): 7366
Basket(38,39,48): 6102
Basket(32,39,48): 5402
Basket(38,39,41): 3051
Basket(38,41,48): 2374
# Size 4
Basket(38,39,41,48): 1991
Basket(32,39,41,48): 1646
Basket(32,38,39,48): 1236
Basket(38,39,48,170): 1193
Basket(36,38,39,48): 1080


In [124]:
itemsets_1_50

{1: {(9,): 1372,
  (19,): 1005,
  (31,): 920,
  (32,): 15167,
  (36,): 2936,
  (37,): 1074,
  (38,): 15596,
  (39,): 50675,
  (41,): 14945,
  (45,): 911,
  (48,): 42135,
  (49,): 1120,
  (60,): 1489,
  (65,): 4472,
  (78,): 1060,
  (79,): 1600,
  (89,): 3837,
  (101,): 2237,
  (110,): 2794,
  (117,): 1026,
  (123,): 1302,
  (147,): 1779,
  (161,): 1010,
  (170,): 3099,
  (175,): 970,
  (179,): 998,
  (185,): 1376,
  (201,): 1133,
  (225,): 3257,
  (237,): 3032,
  (242,): 911,
  (249,): 1160,
  (255,): 1474,
  (258,): 987,
  (264,): 895,
  (270,): 1734,
  (271,): 2094,
  (286,): 1183,
  (301,): 1204,
  (310,): 2594,
  (338,): 1274,
  (413,): 1880,
  (438,): 1863,
  (475,): 2167,
  (479,): 926,
  (522,): 974,
  (533,): 1487,
  (548,): 1137,
  (589,): 1119,
  (592,): 1227,
  (604,): 1209,
  (677,): 1110,
  (740,): 1181,
  (783,): 965,
  (824,): 1210,
  (956,): 911,
  (1004,): 1102,
  (1146,): 1426,
  (1327,): 1786,
  (1393,): 1161,
  (2238,): 1715,
  (2958,): 904,
  (3270,): 950,
  (10515

### Sample 2
Min support `0.01`  
Min confidence `0.8`

In [91]:
itemsets_1_80, rules_1_80 = apriori(baskets, min_support=0.01,  min_confidence=0.8, verbosity=1)

Generating itemsets.
 Counting itemsets of length 1.
  Found 16470 candidate itemsets of length 1.
  Found 70 large itemsets of length 1.
 Counting itemsets of length 2.
  Found 2415 candidate itemsets of length 2.
  Found 58 large itemsets of length 2.
 Counting itemsets of length 3.
  Found 37 candidate itemsets of length 3.
  Found 25 large itemsets of length 3.
 Counting itemsets of length 4.
  Found 6 candidate itemsets of length 4.
  Found 6 large itemsets of length 4.
 Counting itemsets of length 5.
  Found 0 candidate itemsets of length 5.
Itemset generation terminated.

Generating rules from itemsets.
 Generating rules of size 2.
 Generating rules of size 3.
 Generating rules of size 4.
Rule generation terminated.



In [127]:
show_top_itemset(itemsets_1_80)

# Size 1
Basket(39): 50675
Basket(48): 42135
Basket(38): 15596
Basket(32): 15167
Basket(41): 14945
# Size 2
Basket(39,48): 29142
Basket(39,41): 11414
Basket(38,39): 10345
Basket(41,48): 9018
Basket(32,39): 8455
# Size 3
Basket(39,41,48): 7366
Basket(38,39,48): 6102
Basket(32,39,48): 5402
Basket(38,39,41): 3051
Basket(38,41,48): 2374
# Size 4
Basket(38,39,41,48): 1991
Basket(32,39,41,48): 1646
Basket(32,38,39,48): 1236
Basket(38,39,48,170): 1193
Basket(36,38,39,48): 1080


In [126]:
rules_1_80

[{36} -> {38},
 {37} -> {38},
 {110} -> {38},
 {170} -> {38},
 {286} -> {38},
 {36, 39} -> {38},
 {36, 48} -> {38},
 {39, 110} -> {38},
 {39, 170} -> {38},
 {48, 110} -> {38},
 {48, 170} -> {38},
 {41, 48} -> {39},
 {48, 225} -> {39},
 {36, 39, 48} -> {38},
 {38, 41, 48} -> {39},
 {39, 48, 110} -> {38},
 {39, 48, 170} -> {38}]

### Sample 3
Min support `0.3`  
Min confidence `0.5`

In [153]:
itemsets_20_80, rules_20_80 = apriori(baskets, min_support=0.3,  min_confidence=0.5)

In [154]:
show_top_itemset(itemsets_20_80)

# Size 1
Basket(39): 50675
Basket(48): 42135
# Size 2
Basket(39,48): 29142


In [155]:
rules_20_80

[{48} -> {39}, {39} -> {48}]

# Детали

In [160]:
DATA_DIR = 'data'
FILE_NAMES = {
    'providers':'s', 
    'details': 'p', 
    'supplies': 'sp',
}
files = {k:os.path.join(DATA_DIR, f'{v}.csv') for k, v in FILE_NAMES.items()}

In [171]:
providers = pd.read_csv(files['providers'])
details = pd.read_csv(files['details'])
supplies = pd.read_csv(files['supplies'])

In [179]:
providers.head()

Unnamed: 0,SID,SName,SCity,Address,Risk
0,0,﻿Синапсис,﻿Москва,,2.0
1,1,Янус,Санкт-Петербург,Авиационная 35,1.0
2,2,"ООО ""ВиК-инжиниринг""",Новосибирск,Автомобильная 34,2.0
3,3,"ООО ""ИРБИС-ВЕНТ""",Екатеринбург,Авторемонтная 4,3.0
4,4,Мотэк-99,Новгород,Агалакова 42,1.0


In [174]:
supplies['ShipDate'] = supplies['ShipDate'].apply(lambda x: datetime.strptime(x, '%Y-%m-%d'))

In [183]:
all_together = supplies.join(details.set_index('PID'), on='PID').join(providers.set_index('SID'), on='SID')
all_together.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,11793,11794,11795,11796,11797,11798,11799,11800,11801,11802
SPID,1,2,3,4,5,6,7,8,9,10,...,11990,11991,11992,11993,11994,11995,11996,11997,11998,11999
SID,714,812,1,1036,226,58,779,1087,730,418,...,1014,634,680,269,961,892,573,671,417,299
PID,603,648,265,114,1005,862,748,509,999,644,...,778,645,358,622,243,769,415,642,989,569
Quantity,35,23,22,250,37,8,33,45,31,45,...,331,531,34,67,437,209,48,347,1,33
Price,259.824,420.85,313.93,256.28,441.47,28.65,416.86,383.36,245.89,98.65,...,157.57,89.52,119.04,247.69,392,308.42,103.88,163.18,152.98,86.93
ShipDate,2014-04-23 00:00:00,2013-08-29 00:00:00,2015-01-21 00:00:00,2013-03-07 00:00:00,2013-03-17 00:00:00,2013-10-09 00:00:00,2014-09-29 00:00:00,2013-01-07 00:00:00,2012-06-14 00:00:00,2013-03-29 00:00:00,...,2012-10-28 00:00:00,2014-01-18 00:00:00,2014-06-09 00:00:00,2014-09-19 00:00:00,2014-03-03 00:00:00,2013-03-30 00:00:00,2012-11-28 00:00:00,2013-05-14 00:00:00,2013-05-26 00:00:00,2013-03-09 00:00:00
PName,Стальной лист,Кожух,Шуруп,Ремень,Поручень,Колесо,Ручка,Поручень,Радиатор,Отвёртка,...,Гвоздь,Верёвка,Труба,Колесо,Леска,Болт,Шина,Ремень,Поручень,Шуруп
PCity,Екатеринбург,Владивосток,Саратов,Воронеж,Самара,Пермь,Владивосток,Ростов-на-Дону,Ярославль,Барнаул,...,Екатеринбург,Ульяновск,Челябинск,Иркутск,Ижевск,Барнаул,Саратов,Тольятти,Воронеж,Барнаул
Color,Красный,Жёлтый,Серый,Зелёный,Жёлтый,Красный,Серый,Синий,Синий,Чёрный,...,Красный,Красный,Красный,Серый,Синий,Серый,Зелёный,Синий,Зелёный,Зелёный
Weight,11.226,19.232,1.586,0.945,19.466,14.291,0.809,19.415,12.911,0.801,...,1.853,1.768,19.636,11.777,0.875,1.106,14.959,1.681,14.789,0.54


In [202]:
all_together['day_of_week'] = all_together['ShipDate'].apply(lambda x: x.weekday())

In [218]:
supplies_by_weekday = [all_together[all_together['day_of_week'] == day] for day in range(7)]
supplies_by_weekday[0]

Unnamed: 0,SPID,SID,PID,Quantity,Price,ShipDate,PName,PCity,Color,Weight,SName,SCity,Address,Risk,day_of_week
6,7.0,779,748,33,416.86,2014-09-29,Ручка,Владивосток,Серый,0.809,ИП Лебедева И.С.,Новгород,Радистов 8,2.0,0
7,8.0,1087,509,45,383.36,2013-01-07,Поручень,Ростов-на-Дону,Синий,19.415,ИП Лебедева И.С.,Пермь,Румянцева 15,2.0,0
26,29.0,780,914,345,446.58,2012-10-15,Ремень,Воронеж,Жёлтый,1.029,"ООО ""Эльтадор-М""",Ярославль,Родькина 47,1.0,0
37,40.0,30,126,69,204.02,2012-06-04,Колесо,Санкт-Петербург,Чёрный,12.875,"ООО ""ВиК-инжиниринг""",Самара,Винницкая 17,1.0,0
47,50.0,324,662,52,49.91,2012-12-24,Труба,Пермь,Жёлтый,16.840,"ООО ""МТА""",Ярославль,Бугурусланская 36,2.0,0
52,55.0,217,545,536,115.48,2013-08-05,Болт,Ульяновск,Серый,1.984,ИП Кахраманов Э.Б.,Тольятти,Толстого 36,3.0,0
71,74.0,382,98,612,413.35,2012-09-24,Ремень,Владивосток,Чёрный,1.593,ИП Карачаров В.В.,Омск,Каменогорская 39,1.0,0
74,77.0,125,142,54,37.26,2014-08-18,Колесо,Тольятти,Зелёный,16.889,"ООО ""Абсолют""",﻿Москва,Марченко 12,1.0,0
75,78.0,136,318,45,359.18,2012-08-20,Колесо,Ижевск,Белый,13.553,"ООО ""Эльтадор-М""",Волгоград,Новосельская 19,3.0,0
79,82.0,998,118,6,429.10,2015-01-05,Труба,Ижевск,Серый,17.272,ИП Карачаров В.В.,Владивосток,Копейское 28,2.0,0


In [231]:
supplies_by_weekday[0][['ShipDate', 'PName']].groupby('ShipDate').aggregate(lambda x: ','.join(x.values))['PName'].values

array(['Поручень,Болт,Отвёртка,Гвоздь,Шуруп,Ручка,Колесо,Труба,Верёвка',
       'Болт,Труба,Колесо,Шуруп,Верёвка,Колесо,Ручка,Поручень,Леска,Труба,Отвёртка',
       'Ручка,Леска,Ручка,Болт,Отвёртка,Леска,Труба,Отвёртка,Кожух,Гвоздь',
       'Отвёртка,Ручка,Радиатор,Шуруп,Колесо,Труба,Ручка,Шуруп',
       'Ремень,Стальной лист,Отвёртка,Отвёртка,Леска,Ремень,Ручка,Болт,Радиатор',
       'Отвёртка,Колесо,Колесо,Радиатор,Леска,\ufeffГайка,Поручень,Отвёртка,Отвёртка,Ремень',
       'Поручень,Кожух,Болт,Радиатор,Болт,Колесо,Ремень,Гвоздь,Гвоздь,\ufeffГайка,Шуруп,Кожух,Болт,Гвоздь',
       'Труба,Леска,Шуруп,Верёвка',
       'Шуруп,Отвёртка,Радиатор,Верёвка,Гвоздь,Ремень,Гвоздь,Болт,Труба',
       'Труба,Гвоздь,Кожух,Леска,Гвоздь,Колесо,Поручень',
       'Кожух,Болт,Поручень,Болт,Болт,\ufeffГайка,Гвоздь,Леска',
       'Ручка,Леска,Леска,Шина,Отвёртка,Кожух,Стальной лист,Гвоздь,Поручень,Радиатор',
       'Отвёртка,Отвёртка,Труба,Стальной лист,Труба,Верёвка,Ремень,Шина,Гвоздь,Поручень,Ремень,Гв

In [293]:
details_by_weekday = [[v.split(',') for v in supplies_by_weekday[day][['ShipDate', 'PName']].groupby('ShipDate').aggregate(lambda x: ','.join(x.values))['PName'].values] for day in range(7)]
                              

In [259]:
for day in range(7):
    print(f'## Day of week {day + 1}')
    sets, rules = apriori(details_by_weekday[day], min_support=0.25,  min_confidence=0.57)
    show_top_itemset(sets)
    print(rules)

## Day of week 1
# Size 1
Basket(Поручень): 89
Basket(Отвёртка): 86
Basket(Труба): 86
Basket(Гвоздь): 83
Basket(Ремень): 80
# Size 2
Basket(Отвёртка,Ремень): 50
Basket(Отвёртка,Труба): 50
Basket(Отвёртка,Шина): 48
Basket(Поручень,Труба): 47
Basket(Поручень,Стальной лист): 46
[{Леска} -> {Гвоздь}, {Ремень} -> {Отвёртка}, {Отвёртка} -> {Ремень}, {Труба} -> {Отвёртка}, {Отвёртка} -> {Труба}, {Шина} -> {Отвёртка}, {Стальной лист} -> {Поручень}, {﻿Гайка} -> {Поручень}, {Шина} -> {Ремень}, {Ремень} -> {Шина}, {﻿Гайка} -> {Ручка}, {Ручка} -> {﻿Гайка}]
## Day of week 2
# Size 1
Basket(Ремень): 86
Basket(Леска): 82
Basket(Верёвка): 80
Basket(Колесо): 80
Basket(Отвёртка): 80
# Size 2
Basket(Отвёртка,Стальной лист): 47
Basket(Леска,Ремень): 46
Basket(Ремень,Стальной лист): 46
Basket(Отвёртка,Ремень): 44
Basket(Болт,Колесо): 43
[{Поручень} -> {Леска}, {Стальной лист} -> {Отвёртка}, {Отвёртка} -> {Стальной лист}, {Поручень} -> {Шуруп}, {Стальной лист} -> {Ремень}, {﻿Гайка} -> {Стальной лист}]
## Da

In [261]:
all_together['day'] = all_together['ShipDate'].apply(lambda x: x.day)

In [289]:
days = list(range(0, 32))

In [290]:
supplies_by_day = [all_together[all_together['day'] == day] for day in days]

In [294]:
details_by_day = [[
    v.split(',') 
    for v in supplies_by_day[day][['ShipDate', 'PName']].groupby('ShipDate').aggregate(lambda x: ','.join(x.values))['PName'].values] 
    for day in days]

In [298]:
for day in days[1:]:
    print(f'## Day {day}')
    sets, rules = apriori(details_by_day[day], min_support=0.3,  min_confidence=0.7)
    show_top_itemset(sets)
    print(rules)

## Day 1
# Size 1
Basket(Труба): 24
Basket(Болт): 23
Basket(Отвёртка): 21
Basket(﻿Гайка): 21
Basket(Гвоздь): 20
# Size 2
Basket(Отвёртка,Труба): 15
Basket(Болт,Кожух): 14
Basket(Поручень,Труба): 14
Basket(Ремень,Шина): 14
Basket(Ручка,Труба): 14
[{Кожух} -> {Болт}, {Радиатор} -> {Болт}, {Колесо} -> {Поручень}, {Отвёртка} -> {Труба}, {Поручень} -> {Труба}, {Шина} -> {Ремень}, {Ремень} -> {Шина}, {Ручка} -> {Труба}, {Шуруп} -> {﻿Гайка}]
## Day 2
# Size 1
Basket(Гвоздь): 23
Basket(Радиатор): 23
Basket(Болт): 20
Basket(Верёвка): 20
Basket(Кожух): 20
# Size 2
Basket(Гвоздь,Радиатор): 17
Basket(Болт,Гвоздь): 14
Basket(Болт,Радиатор): 13
Basket(Верёвка,Радиатор): 13
Basket(Гвоздь,Труба): 13
[{Болт} -> {Гвоздь}, {Радиатор} -> {Гвоздь}, {Гвоздь} -> {Радиатор}]
## Day 3
# Size 1
Basket(Гвоздь): 23
Basket(Ручка): 22
Basket(Отвёртка): 21
Basket(Стальной лист): 20
Basket(﻿Гайка): 20
# Size 2
Basket(Гвоздь,Отвёртка): 16
Basket(Верёвка,Гвоздь): 14
Basket(Гвоздь,Поручень): 13
Basket(Отвёртка,Ручка): 1