## Хiд виконання роботи:

1. Взяти файл з даними у вiдповiдностi з варiантом.

2. Побудувати частi набори та асоцiативнi правила (АП), використовуючи алгоритм Apriori. Дослiдити множини АП залежно вiд параметрiв

    побудови АП:
        • мiнiмальної пiдтримки,
        • мiнiмальної достовiрностi,
        • максимальної потужностi частих наборiв.
    Пiдiбрати значення параметрiв алгоритму Apriori, якi призводять до
    значущих АП. АП Rk вважати значущим, якщо покращення (improvement
    або лiфт (lift)): Improv(Rk) > 1.

3. Побудувати частi набори та множину АП, використовуючи алгоритм FP - росту. Дослiдити множини АП залежно вiд параметрiв побудови АП, якi було наведено вище для Apriori. Пiдiбрати значення параметрiв алгоритму FP-росту, якi призводять до значущих АП.

4. Зробити висновки щодо впливу параметрiв алгоритмiв Apriori та FP-росту на знайденi множини АП.

5. Знайти значення прогнозу на основi побудованої множини правил.

6. Порiвняти результати, отриманi алгоритмами Apriori та FP-росту.

## Завдання (варіант № 19):

### Var_3_groceries

## Теория 

**Навчання асоціативним правилам або пошук асоціативних правил** - це метод навчання машин на базі правил виявлення зв'язків між змінними у великій базі даних. Метод пропонується для встановлення сильних правил, виявлених в базі даних за допомогою деяких вимірів зацікавленості. Цей заснований на правилах підхід генерує також нові правила в міру аналізу додаткових даних.

Для відбору цікавих правил з множини усіх можливих правил, накладають обмеження на різні способи вимірювання значущості та інтересу. Найбільш відомими обмеженнями є мінімальні пороги підтримки та довіри. 

    Підтримка (англ. Support) вказує наскільки часто набір предметів з'являється у наборі даних. 
    Впевненість (англ. Confidence) вказує на те, як часто виконується правило. 
    Ліфт - співвідношення спостережуваної підтримки до очікуваного

Якщо правило має ліфт 1, це означає, що ймовірності появи попередника та наступника є незалежними одна від одної. Коли дві події є незалежними одна від одної, то й не можна вивести правила за участю цих двох подій.

Якщо ліфт > 1, це вказує на те, наскільки ці дві ситуації залежать одна від одної, і робить ці правила потенційно корисними для прогнозування таких послідовностей у майбутніх наборах даних.

Якщо ліфт < 1, це вказує на те, що предмети замінюють один одного. Це означає, що наявність одного товару негативно впливає на наявність іншого товару, і навпаки.

Значення ліфта полягає в тому, що він враховує як впевненість, так і весь набір даних.

Асоціативні правила повинні відповідати мінімальній підтримці та мінімальній впевненості, які визначаються користувачем одночасно. Утворення асоціативних правил, зазвичай, поділяється на два окремих кроки:

    Порогове значення мінімальної затребуваності використовується для знаходження всіх частот предметів у базі даних.
    Обмеження на мінімальну впевненість застосовується до частот наборів предметів для утворення правил.
    
**Алгоритм Apriori**

Алгоритм Apriori шукає асоціативні правила і використовується для великих баз даних. Алгоритм складається з 3-х кроків: 
    1.	Об’єднання – перегляд бази даних та визначення частоти появи окремих товарів.
    2.	Відсічення – ті набори, що задовольняють параметр підтримки та достовірності , переходять на наступну ітерацію з двокомпонентними наборами.
    3.	Повтор – попередні 2 кроки повторюються для усіх наступних потужностей наборів, доки не отримаємо набори з вказаною потужністю.

Дефолтні значення apriori(df, min_support=0.5, use_colnames=False, max_len=None, verbose=0, low_memory=False)

**Параметри:**

    min_support – число в проміжку [0,1] зі значенням мінімальної підходящої підтримки.
    max_len – максимальна кількість елементів в наборі.

Функція association_rules - створює правила DataFrame асоціацій, включаючи показники "оцінка", "впевненість" та "підйом" ('score', 'confidence', and 'lift').

Дефолтні значення association_rules(df, metric='confidence', min_threshold=0.8, support_only=False)

**Параметри:**

    min_threshold – мінімальна достовірність, яка визначає чи є кандидат підходящим.

**Алгоритм FP-growth** 

Алгоритм FP-growth використовується для знаходження повторюваних шаблонів. При першому проході алгоритм підраховує кількість зустрічі кожного елементу в об’єктах дата сету і відсортовує усі елементи в об’єктах у порядку спадання частоти появи. При другому проході будується FP-дерево шляхом вставки екземплярів. Далі проводиться процедура, що виявляє часто повторювані набори.


In [21]:
import pandas as pd
import numpy as np
import csv

from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import fpgrowth
from mlxtend.frequent_patterns import association_rules

### Взяти файл з даними у вiдповiдностi з варiантом.

In [28]:
data = []
with open('Var_3_groceries.csv') as csvDataFile:
    csvReader = csv.reader(csvDataFile)
    for row in csvReader:
        data.append(row)
te = TransactionEncoder()
te_ary = te.fit(data).transform(data)
df = pd.DataFrame(te_ary, columns=te.columns_)

In [29]:
df

Unnamed: 0,Instant food products,UHT-milk,abrasive cleaner,artif. sweetener,baby cosmetics,baby food,bags,baking powder,bathroom cleaner,beef,...,turkey,vinegar,waffles,whipped/sour cream,whisky,white bread,white wine,whole milk,yogurt,zwieback
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,True,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9830,False,False,False,False,False,False,False,False,False,True,...,False,False,False,True,False,False,False,True,False,False
9831,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
9832,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,True,False
9833,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


### Побудувати частi набори та асоцiативнi правила (АП), використовуючи алгоритм Apriori. Дослiдити множини АП залежно вiд параметрiв побудови АП
**Для виконання даного пункту будемо використовувати наступні параметри:**

In [30]:
min_support = [0.01, 0.025, 0.03]
max_len = [2, 4]
min_threshold = [0.4, 0.3, 0.2]

Перевіримо вплив зміни параметру min_support 

In [53]:
print("min_support = 0.01;  max_len = 2;  min_threshold = 0.4\n")
frequent_itemsets = apriori(df, min_support = 0.01, use_colnames = True, max_len = 2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.4)
print("min_lift =", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.01;  max_len = 2;  min_threshold = 0.4

min_lift = 1.5717351405345266


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(beef),(whole milk),0.021251,0.405039,1.58518
1,(butter),(whole milk),0.027555,0.497248,1.946053
2,(butter milk),(whole milk),0.011591,0.414545,1.622385
3,(chicken),(other vegetables),0.017895,0.417062,2.155439
4,(chicken),(whole milk),0.01759,0.409953,1.604411
5,(cream cheese),(whole milk),0.016472,0.415385,1.62567
6,(curd),(whole milk),0.026131,0.490458,1.919481
7,(domestic eggs),(whole milk),0.029995,0.472756,1.850203
8,(frozen vegetables),(whole milk),0.020437,0.424947,1.663094
9,(ham),(whole milk),0.01149,0.441406,1.727509


In [45]:
print("min_support = 0.025;  max_len = 2;  min_threshold = 0.4\n")
frequent_itemsets = apriori(df, min_support = 0.025, use_colnames = True, max_len = 2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.4)
print("min_lift =", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.025;  max_len = 2;  min_threshold = 0.4

min_lift = 1.5717351405345266


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(butter),(whole milk),0.027555,0.497248,1.946053
1,(curd),(whole milk),0.026131,0.490458,1.919481
2,(domestic eggs),(whole milk),0.029995,0.472756,1.850203
3,(root vegetables),(other vegetables),0.047382,0.434701,2.246605
4,(whipped/sour cream),(other vegetables),0.028876,0.402837,2.081924
5,(root vegetables),(whole milk),0.048907,0.448694,1.756031
6,(tropical fruit),(whole milk),0.042298,0.403101,1.577595
7,(whipped/sour cream),(whole milk),0.032232,0.449645,1.759754
8,(yogurt),(whole milk),0.056024,0.401603,1.571735


In [46]:
print("min_support = 0.03;  max_len = 2;  min_threshold = 0.4\n")
frequent_itemsets = apriori(df, min_support = 0.03, use_colnames = True, max_len = 2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.4)
print("min_lift =", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.03;  max_len = 2;  min_threshold = 0.4

min_lift = 1.5717351405345266


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(root vegetables),(other vegetables),0.047382,0.434701,2.246605
1,(root vegetables),(whole milk),0.048907,0.448694,1.756031
2,(tropical fruit),(whole milk),0.042298,0.403101,1.577595
3,(whipped/sour cream),(whole milk),0.032232,0.449645,1.759754
4,(yogurt),(whole milk),0.056024,0.401603,1.571735


При збільшенні min_support кількість знайдених наборів значно зменшується, але значення min_lift залишаеється однаковим 

Перевіримо вплив зміни параметру max_len

In [49]:
print("min_support = 0.01;  max_len = 4;  min_threshold = 0.4\n")
frequent_itemsets = apriori(df, min_support = 0.01, use_colnames = True, max_len = 4)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.4)
print("min_lift =", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.01;  max_len = 4;  min_threshold = 0.4

min_lift = 1.5717351405345266


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(beef),(whole milk),0.021251,0.405039,1.585180
1,(butter),(whole milk),0.027555,0.497248,1.946053
2,(butter milk),(whole milk),0.011591,0.414545,1.622385
3,(chicken),(other vegetables),0.017895,0.417062,2.155439
4,(chicken),(whole milk),0.017590,0.409953,1.604411
...,...,...,...,...,...
57,"(rolls/buns, yogurt)",(whole milk),0.015557,0.452663,1.771563
58,"(root vegetables, tropical fruit)",(whole milk),0.011998,0.570048,2.230969
59,"(root vegetables, yogurt)",(whole milk),0.014540,0.562992,2.203354
60,"(yogurt, tropical fruit)",(whole milk),0.015150,0.517361,2.024770


In [54]:
print("min_support = 0.025;  max_len = 4;  min_threshold = 0.4\n")
frequent_itemsets = apriori(df, min_support = 0.025, use_colnames = True, max_len = 4)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.4)
print("min_lift =", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.025;  max_len = 4;  min_threshold = 0.4

min_lift = 1.5717351405345266


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(butter),(whole milk),0.027555,0.497248,1.946053
1,(curd),(whole milk),0.026131,0.490458,1.919481
2,(domestic eggs),(whole milk),0.029995,0.472756,1.850203
3,(root vegetables),(other vegetables),0.047382,0.434701,2.246605
4,(whipped/sour cream),(other vegetables),0.028876,0.402837,2.081924
5,(root vegetables),(whole milk),0.048907,0.448694,1.756031
6,(tropical fruit),(whole milk),0.042298,0.403101,1.577595
7,(whipped/sour cream),(whole milk),0.032232,0.449645,1.759754
8,(yogurt),(whole milk),0.056024,0.401603,1.571735


Зміна значення max_len призвела до того, що при значенні max_len = 4 було знайдено більше наборів у порівнянні зі значенням max_len = 2 (при min_support = 0.01). І знову ж таки при збільшенні min_support кількість знайдених наборів значно зменшується, але значення min_lift залишаеється однаковим.

Перевіримо вплив зміни параметру min_threshold

In [56]:
print("min_support = 0.01;  max_len = 2;  min_threshold = 0.3\n")
frequent_itemsets = apriori(df, min_support = 0.01, use_colnames = True, max_len = 2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3)
print("min_lift =", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.01;  max_len = 2;  min_threshold = 0.3

min_lift = 1.2050317893663836


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(beef),(other vegetables),0.019725,0.375969,1.943066
1,(beef),(root vegetables),0.017387,0.331395,3.040367
2,(beef),(whole milk),0.021251,0.405039,1.585180
3,(berries),(other vegetables),0.010269,0.308869,1.596280
4,(berries),(whole milk),0.011795,0.354740,1.388328
...,...,...,...,...,...
64,(tropical fruit),(whole milk),0.042298,0.403101,1.577595
65,(waffles),(whole milk),0.012710,0.330688,1.294196
66,(whipped/sour cream),(whole milk),0.032232,0.449645,1.759754
67,(white bread),(whole milk),0.017082,0.405797,1.588147


In [57]:
print("min_support = 0.01;  max_len = 2;  min_threshold = 0.2\n")
frequent_itemsets = apriori(df, min_support = 0.01, use_colnames = True, max_len = 2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.2)
print("min_lift =", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.01;  max_len = 2;  min_threshold = 0.2

min_lift = 0.8991123707740158


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(beef),(other vegetables),0.019725,0.375969,1.943066
1,(beef),(rolls/buns),0.013625,0.259690,1.411858
2,(beef),(root vegetables),0.017387,0.331395,3.040367
3,(beef),(whole milk),0.021251,0.405039,1.585180
4,(beef),(yogurt),0.011693,0.222868,1.597601
...,...,...,...,...,...
146,(whipped/sour cream),(whole milk),0.032232,0.449645,1.759754
147,(whipped/sour cream),(yogurt),0.020742,0.289362,2.074251
148,(white bread),(whole milk),0.017082,0.405797,1.588147
149,(whole milk),(yogurt),0.056024,0.219260,1.571735


In [67]:
print("min_support = 0.01;  max_len = 4;  min_threshold = 0.2\n")
frequent_itemsets = apriori(df, min_support = 0.01, use_colnames = True, max_len = 4)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3)
print("min_lift =", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.01;  max_len = 4;  min_threshold = 0.2

min_lift = 1.2050317893663836


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(beef),(other vegetables),0.019725,0.375969,1.943066
1,(beef),(root vegetables),0.017387,0.331395,3.040367
2,(beef),(whole milk),0.021251,0.405039,1.585180
3,(berries),(other vegetables),0.010269,0.308869,1.596280
4,(berries),(whole milk),0.011795,0.354740,1.388328
...,...,...,...,...,...
120,"(yogurt, soda)",(whole milk),0.010473,0.382900,1.498535
121,"(whole milk, tropical fruit)",(yogurt),0.015150,0.358173,2.567516
122,"(yogurt, tropical fruit)",(whole milk),0.015150,0.517361,2.024770
123,"(whipped/sour cream, whole milk)",(yogurt),0.010880,0.337539,2.419607


У випадку, коли min_support = 0.01;  max_len = 2;  min_threshold = 0.2, min_lift < 1 це означає, що об'єкти замінюють один одного. Таку комбінацію параметрів розглядати не потрібно. 

При зменшенні значення min_threshold суттево зменшуеться оцінка покращення min_lift. Також збільшивши параметр max_len на тій же самій комбінації параметрів отримали більше частих наборів 

### Висновок

Проаналізувавши отримані результати, найбільший вплив має параметр min_support, а найменший – max_len. При збільшенні min_support кількість знайдених наборів значно зменшується. Такий самий вплив, але дещо меншої сили, має і параметр min_threshild. Параметр max_len має незначний вплив, тобто алгоритм переважно отримує набори потужністю не більше 2. Набори що складаються з 2-ох елементів дійсно частіше зустрічаються чим з 3+, тому бути впевненим в зв’язку покупки 2-ох продуктів одночасно легше ніж 3-х. Оцінка покращення lift збільшилась при збільшенні параметру min_threshild, тому можна сказати, що найкращими серед перелічених є моделі, в яких параметр min_threshild = 0.4.

### Побудувати частi набори та множину АП, використовуючи алгоритм FP - росту. Дослiдити множини АП залежно вiд параметрiв побудови АП, якi було наведено вище для Apriori. Пiдiбрати значення параметрiв алгоритму FP-росту, якi призводять до значущих АП.

Перевіримо вплив зміни параметру min_support 

In [58]:
print("min_support = 0.01;  max_len = 2;  min_threshold = 0.4\n")
frequent_itemsets = fpgrowth(df, min_support=0.01, use_colnames=True, max_len=2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.4)
print("min_lift = ", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.01;  max_len = 2;  min_threshold = 0.4

min_lift =  1.5717351405345266


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(margarine),(whole milk),0.024199,0.413194,1.617098
1,(yogurt),(whole milk),0.056024,0.401603,1.571735
2,(tropical fruit),(whole milk),0.042298,0.403101,1.577595
3,(cream cheese),(whole milk),0.016472,0.415385,1.62567
4,(butter),(whole milk),0.027555,0.497248,1.946053
5,(white bread),(whole milk),0.017082,0.405797,1.588147
6,(curd),(whole milk),0.026131,0.490458,1.919481
7,(beef),(whole milk),0.021251,0.405039,1.58518
8,(chicken),(other vegetables),0.017895,0.417062,2.155439
9,(chicken),(whole milk),0.01759,0.409953,1.604411


In [59]:
print("min_support = 0.025;  max_len = 2;  min_threshold = 0.4\n")
frequent_itemsets = fpgrowth(df, min_support=0.025, use_colnames=True, max_len=2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.4)
print("min_lift = ", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.025;  max_len = 2;  min_threshold = 0.4

min_lift =  1.5717351405345266


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(yogurt),(whole milk),0.056024,0.401603,1.571735
1,(tropical fruit),(whole milk),0.042298,0.403101,1.577595
2,(butter),(whole milk),0.027555,0.497248,1.946053
3,(curd),(whole milk),0.026131,0.490458,1.919481
4,(root vegetables),(other vegetables),0.047382,0.434701,2.246605
5,(root vegetables),(whole milk),0.048907,0.448694,1.756031
6,(whipped/sour cream),(whole milk),0.032232,0.449645,1.759754
7,(whipped/sour cream),(other vegetables),0.028876,0.402837,2.081924
8,(domestic eggs),(whole milk),0.029995,0.472756,1.850203


In [60]:
print("min_support = 0.03;  max_len = 2;  min_threshold = 0.4\n")
frequent_itemsets = fpgrowth(df, min_support=0.03, use_colnames=True, max_len=2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.4)
print("min_lift = ", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.03;  max_len = 2;  min_threshold = 0.4

min_lift =  1.5717351405345266


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(yogurt),(whole milk),0.056024,0.401603,1.571735
1,(tropical fruit),(whole milk),0.042298,0.403101,1.577595
2,(root vegetables),(other vegetables),0.047382,0.434701,2.246605
3,(root vegetables),(whole milk),0.048907,0.448694,1.756031
4,(whipped/sour cream),(whole milk),0.032232,0.449645,1.759754


Аналогічно до результатів алгоритму Apriori, зміна параметру min_support призводить до зменшення кількості наборів, але значення мінімальної оцінки покращення залишається однааковим. 

Перевіримо вплив зміни параметру max_len 

In [61]:
print("min_support = 0.01;  max_len = 4;  min_threshold = 0.4\n")
frequent_itemsets = fpgrowth(df, min_support=0.01, use_colnames=True, max_len=4)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.4)
print("min_lift = ", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.01;  max_len = 4;  min_threshold = 0.4

min_lift =  1.5717351405345266


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,"(citrus fruit, yogurt)",(whole milk),0.010269,0.474178,1.855768
1,"(citrus fruit, whole milk)",(other vegetables),0.013015,0.426667,2.205080
2,"(citrus fruit, other vegetables)",(whole milk),0.013015,0.450704,1.763898
3,"(citrus fruit, root vegetables)",(other vegetables),0.010371,0.586207,3.029608
4,(margarine),(whole milk),0.024199,0.413194,1.617098
...,...,...,...,...,...
57,(ham),(whole milk),0.011490,0.441406,1.727509
58,(oil),(whole milk),0.011286,0.402174,1.573968
59,(frozen vegetables),(whole milk),0.020437,0.424947,1.663094
60,(onions),(other vegetables),0.014235,0.459016,2.372268


В результаті збільшення параметру max_len кількість наборів збільшилася

Перевіримо вплив зміни параметру min_threshold

In [62]:
print("min_support = 0.01;  max_len = 2;  min_threshold = 0.3\n")
frequent_itemsets = fpgrowth(df, min_support=0.01, use_colnames=True, max_len=2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3)
print("min_lift = ", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.01;  max_len = 2;  min_threshold = 0.3

min_lift =  1.2050317893663836


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(citrus fruit),(whole milk),0.030503,0.368550,1.442377
1,(citrus fruit),(other vegetables),0.028876,0.348894,1.803140
2,(margarine),(other vegetables),0.019725,0.336806,1.740663
3,(margarine),(whole milk),0.024199,0.413194,1.617098
4,(yogurt),(whole milk),0.056024,0.401603,1.571735
...,...,...,...,...,...
64,(frozen vegetables),(whole milk),0.020437,0.424947,1.663094
65,(frozen vegetables),(other vegetables),0.017794,0.369979,1.912108
66,(onions),(other vegetables),0.014235,0.459016,2.372268
67,(onions),(whole milk),0.012100,0.390164,1.526965


In [64]:
print("min_support = 0.025;  max_len = 2;  min_threshold = 0.3\n")
frequent_itemsets = fpgrowth(df, min_support=0.02, use_colnames=True, max_len=2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3)
print("min_lift = ", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.025;  max_len = 2;  min_threshold = 0.3

min_lift =  1.2050317893663836


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(citrus fruit),(whole milk),0.030503,0.36855,1.442377
1,(citrus fruit),(other vegetables),0.028876,0.348894,1.80314
2,(margarine),(whole milk),0.024199,0.413194,1.617098
3,(yogurt),(whole milk),0.056024,0.401603,1.571735
4,(yogurt),(other vegetables),0.043416,0.311224,1.608457
5,(tropical fruit),(other vegetables),0.035892,0.342054,1.76779
6,(tropical fruit),(whole milk),0.042298,0.403101,1.577595
7,(pip fruit),(whole milk),0.030097,0.397849,1.557043
8,(pip fruit),(other vegetables),0.026131,0.34543,1.785237
9,(other vegetables),(whole milk),0.074835,0.386758,1.513634


In [65]:
print("min_support = 0.03;  max_len = 2;  min_threshold = 0.3\n")
frequent_itemsets = fpgrowth(df, min_support=0.03, use_colnames=True, max_len=2)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3)
print("min_lift = ", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.03;  max_len = 2;  min_threshold = 0.3

min_lift =  1.2050317893663836


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(citrus fruit),(whole milk),0.030503,0.36855,1.442377
1,(yogurt),(whole milk),0.056024,0.401603,1.571735
2,(yogurt),(other vegetables),0.043416,0.311224,1.608457
3,(tropical fruit),(other vegetables),0.035892,0.342054,1.76779
4,(tropical fruit),(whole milk),0.042298,0.403101,1.577595
5,(pip fruit),(whole milk),0.030097,0.397849,1.557043
6,(other vegetables),(whole milk),0.074835,0.386758,1.513634
7,(rolls/buns),(whole milk),0.056634,0.307905,1.205032
8,(bottled water),(whole milk),0.034367,0.310948,1.21694
9,(pastry),(whole milk),0.033249,0.373714,1.462587


In [66]:
print("min_support = 0.03;  max_len = 4;  min_threshold = 0.3\n")
frequent_itemsets = fpgrowth(df, min_support=0.03, use_colnames=True, max_len=4)
res = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3)
print("min_lift = ", min(res.lift))
res[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

min_support = 0.03;  max_len = 4;  min_threshold = 0.3

min_lift =  1.2050317893663836


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(citrus fruit),(whole milk),0.030503,0.36855,1.442377
1,(yogurt),(whole milk),0.056024,0.401603,1.571735
2,(yogurt),(other vegetables),0.043416,0.311224,1.608457
3,(tropical fruit),(other vegetables),0.035892,0.342054,1.76779
4,(tropical fruit),(whole milk),0.042298,0.403101,1.577595
5,(pip fruit),(whole milk),0.030097,0.397849,1.557043
6,(other vegetables),(whole milk),0.074835,0.386758,1.513634
7,(rolls/buns),(whole milk),0.056634,0.307905,1.205032
8,(bottled water),(whole milk),0.034367,0.310948,1.21694
9,(pastry),(whole milk),0.033249,0.373714,1.462587


Як бачимо, зменшення параметру min_threshold призвело до погіршення оцінки покращення min_lift. Змінивши параметр max_len при стаих інших параметрах разультат не зазнав змін.  

### Висновок

Результати алгоритму FP-growth в точності повторюють результати алгоритму Aprioi.

## Загальні висновки 

Найбільший вплив має параметр min_support, а найменший – max_len. При збільшенні min_support кількість знайдених наборів значно зменшується. Такий самий вплив, але дещо меншої сили, має і параметр min_threshild. При збільшенні цих параметрів, відсів знайдених наборів стає більш жорстким, бо набори мають частіше зустрічатися в дата сеті. Параметр max_len має незначний вплив, тобто алгоритм переважно отримує набори потужністю не більше 2. Набори що складаються з 2-ох елементів дійсно частіше зустрічаються чим з 3+, тому бути впевненим в зв’язку 2-ох елементів одночасно легше ніж 3-х і більше.

Результати обох алгоритмів однаковий, тому можна зробити висновок, що і параметри, які використовуються, мають однаковий вплив на результат. 

Різниця алгоритмів лиш у швидкості роботи кожного. FP-growth працює швидше. Це значення різне, оскільки алгоритми по різному будують дерево.