## Лабораторная работа №3. Частотный анализ

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori

### Загрузка данных

In [2]:
all_data = pd.read_csv('dataset_group.csv', header=None, names=['date', 'id', 'product'])

In [3]:
all_data

Unnamed: 0,date,id,product
0,2000-01-01,1,yogurt
1,2000-01-01,1,pork
2,2000-01-01,1,sandwich bags
3,2000-01-01,1,lunch meat
4,2000-01-01,1,all- purpose
...,...,...,...
22338,2002-02-26,1139,soda
22339,2002-02-26,1139,laundry detergent
22340,2002-02-26,1139,vegetables
22341,2002-02-26,1139,shampoo


Список id всех покупателей

In [4]:
unique_id = list(set(all_data['id']))
print(len(unique_id)) # Выведем количество id

1139


Список всех товаров

In [5]:
items = list(set(all_data['product']))
print(len(items)) # Выведем количество товаров

38


Подготовка датасета для частотного анализа. Слияние товаров одного покупателя в один список

In [6]:
dataset = [[i for i in all_data[all_data['id'] == j]['product'] if i in items] for j in unique_id]

### Подготовка данных

Кодирование с использованием TransactionEncoder

In [7]:
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)

In [8]:
df

Unnamed: 0,all- purpose,aluminum foil,bagels,beef,butter,cereals,cheeses,coffee/tea,dinner rolls,dishwashing liquid/detergent,...,shampoo,soap,soda,spaghetti sauce,sugar,toilet paper,tortillas,vegetables,waffles,yogurt
0,True,True,False,True,True,False,False,False,True,False,...,True,True,True,False,False,False,False,True,False,True
1,False,True,False,False,False,True,True,False,False,True,...,True,False,False,False,False,True,True,True,True,True
2,False,False,True,False,False,True,True,False,True,False,...,True,True,True,True,False,True,False,True,False,False
3,True,False,False,False,False,True,False,False,False,False,...,False,False,True,False,False,True,False,False,False,False
4,True,False,False,False,False,False,False,False,True,False,...,False,False,True,True,False,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1134,True,False,False,True,False,True,True,True,True,True,...,True,True,False,False,True,False,False,False,False,False
1135,False,False,False,False,False,True,True,True,True,True,...,False,True,False,True,False,False,False,True,False,False
1136,False,False,True,True,False,False,False,False,True,True,...,True,True,False,False,True,False,True,True,False,True
1137,True,False,False,True,False,False,True,False,False,False,...,False,True,True,True,True,True,False,True,True,True


### Ассоциативный анализ с использованием алгоритма Apriori

Алгоритм apriori с минимальным уровнем поддержки 0.3

In [9]:
results = apriori(df, min_support=0.3, use_colnames=True)
results['length'] = results['itemsets'].apply(lambda x: len(x)) # Добавление размера набора print(results)
results

Unnamed: 0,support,itemsets,length
0,0.37489,(all- purpose),1
1,0.384548,(aluminum foil),1
2,0.385426,(bagels),1
3,0.37489,(beef),1
4,0.367867,(butter),1
5,0.395961,(cereals),1
6,0.390694,(cheeses),1
7,0.37928,(coffee/tea),1
8,0.388938,(dinner rolls),1
9,0.38806,(dishwashing liquid/detergent),1


Алгоритм apriori с тем же уровнем поддержки, но с ограниченным максимальным размером набора единиц

In [10]:
results = apriori(df, min_support=0.3, use_colnames=True, max_len=1)
results

Unnamed: 0,support,itemsets
0,0.37489,(all- purpose)
1,0.384548,(aluminum foil)
2,0.385426,(bagels)
3,0.37489,(beef)
4,0.367867,(butter)
5,0.395961,(cereals)
6,0.390694,(cheeses)
7,0.37928,(coffee/tea)
8,0.388938,(dinner rolls)
9,0.38806,(dishwashing liquid/detergent)


Алгоритм apriori с выводом наборов, которые имеют размер 2, а также количество таких наборов

In [11]:
results = apriori(df, min_support=0.3, use_colnames=True)
results['length'] = results['itemsets'].apply(lambda x: len(x))
results = results[results['length'] == 2]
print(results)
print('\nCount of result itemstes = ', len(results))

     support                                    itemsets  length
38  0.310799                 (vegetables, aluminum foil)       2
39  0.300263                        (bagels, vegetables)       2
40  0.310799                       (vegetables, cereals)       2
41  0.309043                       (vegetables, cheeses)       2
42  0.308165                  (dinner rolls, vegetables)       2
43  0.306409  (dishwashing liquid/detergent, vegetables)       2
44  0.326602                          (eggs, vegetables)       2
45  0.302897                     (vegetables, ice cream)       2
46  0.309043             (laundry detergent, vegetables)       2
47  0.311677                    (vegetables, lunch meat)       2
48  0.331870                       (vegetables, poultry)       2
49  0.305531                          (vegetables, soda)       2
50  0.315189                       (waffles, vegetables)       2
51  0.319579                        (yogurt, vegetables)       2

Count of result itemstes

Количество наборов при различных уровнях поддержки. Начальное значение поддержки 0.05, шаг 0.01

In [20]:
border = []

for min_support in np.arange(0.05, 1, 0.01):
    apriori_results = apriori(df, min_support=min_support, use_colnames=True)
    apriori_results['length'] = apriori_results['itemsets'].apply(lambda x: len(x))

    if max_len is None:
        max_len = np.max(apriori_results['length'])
    else:
        while max_len > 0 and len(apriori_results[apriori_results['length'] == max_len]) == 0:
            border[min_support] = len(apriori_results)
            max_len -= 1

apriori_results

Unnamed: 0,support,itemsets,length


График зависимости количества наборов от уровня поддержки

In [None]:
plt.plot(df_.min_sup, df_.count_of_itemeset, linewidth=2)
for i in end_of_generating_n_length_itemsets:
    plt.axvline(df_.min_sup[i], color='red')
plt.xlabel('Уровень поддержки')
plt.ylabel('Количество наборов')
plt.yscale('log')
plt.show()

Значение уровня поддержки, при котором перестают генерироваться наборы размера 1,2,3, и т. д.

Отметьте полученные уровне поддержки на графике, построенном в пункте 4

Датасет только из тех элементов, которые попадают в наборы размером 1 при уровне поддержки 0.38

In [None]:
results = apriori(df, min_support=0.38, use_colnames=True, max_len=1)
new_items = [list(elem)[0] for elem in results['itemsets']]
new_dataset = [[i for i in all_data[all_data['id'] == j]['product'] if i in new_items] for j in unique_id]

Приведение полученного датасета к формату, который можно обработать

In [None]:
te = TransactionEncoder()
te_ary = te.fit_transform(new_dataset)
new_df = pd.DataFrame(te_ary, columns=te.columns_)

Ассоциативный анализ при уровне поддержки 0.3 для нового датасета

In [None]:
new_results = apriori(new_df, min_support=0.3, use_colnames=True)
new_results['length'] = new_results['itemsets'].apply(lambda x: len(x))
new_results

In [None]:
new_results = apriori(new_df, min_support=0.15, use_colnames=True)
new_results['length'] = new_results['itemsets'].apply(lambda x: len(x))
cond = new_results.apply(
        lambda d: d['length'] > 1 and ('yougurt' in d['itemsets'] or 'waffles' in d['itemsets']), axis=1
    )
new_results[cond]

Датасет из тех элементов, которые не попали в датасет в п.6

In [None]:
diff = set(list(df)) - set(list(new_df))
diff_items = [ list(elem)[0] for elem in results['itemsets']]
diff_dataset = [[elem for elem in all_data[all_data['id'] == id]['product'] if elem not in diff_items] for id in unique_id]
te = TransactionEncoder()
te_ary = te.fit_transform(diff_dataset)
new_df = pd.DataFrame(te_ary, columns=te.columns_)
new_df

In [None]:
new_results = apriori(df, min_support=0.3, use_colnames=True)
new_results

Правило для вывода всех наборов, в которых хотя бы два элемента начинаются на 's'

In [None]:
def two_elems_starts_with_s(df, threshold=2):
    return df[
        df['itemsets'].apply(
            lambda x: np.fromiter(
                map(lambda y: y[0]=='s', x), dtype=bool
            ).sum()>=threshold
        )
    ]


print(two_elems_starts_with_s(apriori_results[0]))

Правило, для вывода всех наборов, для которых уровень поддержки изменяется от 0.1 до 0.25

In [None]:
def subset_10_25(df):
    return df[np.logical_and(df.support>=0.1, df.support <= 0.25)]


print(subset_10_25(apriori_results[0]))