# Виявлення асоціативних патернів

Виявлення асоціативних патернів є однією з фундаментальних технік у data mining, яка зосереджується на відкритті цікавих зв'язків та патернів серед елементів у великих наборах даних. Ця техніка особливо цінна для аналізу кошика покупок, систем рекомендацій та розуміння патернів поведінки клієнтів.

## Що таке виявлення асоціативних патернів?

Виявлення асоціативних патернів - це процес знаходження частих патернів, асоціацій, кореляцій або причинно-наслідкових структур серед наборів елементів у базах даних транзакцій або інших сховищах даних. Мета полягає в ідентифікації правил, які виражають зв'язки між різними елементами на основі їх спільної появи в транзакціях.

## Проблема

Дано набір транзакцій, де кожна транзакція містить набір елементів, ми хочемо:
1. Знайти всі набори елементів, які часто з'являються разом
2. Згенерувати асоціативні правила, які виражають зв'язки між елементами
3. Ідентифікувати патерни, які можна використовувати для прийняття рішень та прогнозування

## Іграшковий приклад

Давайте розглянемо невеликий приклад для ілюстрації цих концепцій:

| tid | Набір елементів | Двійкове представлення |
|-----|-----------------|----------------------|
| 1   | {Хліб, Масло, Молоко} | 110010 |
| 2   | {Яйця, Молоко, Йогурт} | 000111 |
| 3   | {Хліб, Сир, Яйця, Молоко} | 101110 |
| 4   | {Яйця, Молоко, Йогурт} | 000111 |
| 5   | {Сир, Молоко, Йогурт} | 001011 |

**Елементи в нашому наборі даних**: Хліб, Масло, Сир, Яйця, Молоко, Йогурт

**Пояснення двійкового представлення**: Кожна позиція представляє елемент (Хліб, Масло, Сир, Яйця, Молоко, Йогурт), де 1 означає наявність елемента, а 0 - відсутність.

## Де використовувати виявлення асоціативних патернів?

- **Аналіз кошика покупок**: Розуміння того, які продукти часто купуються разом
- **Системи рекомендацій**: Пропонування елементів на основі патернів покупок
- **Стратегії перехресних продажів**: Ідентифікація можливостей для просування пов'язаних продуктів
- **Управління запасами**: Розуміння зв'язків між продуктами для кращого планування запасів
- **Аналіз поведінки клієнтів**: Відкриття патернів у перевагах та звичках клієнтів

## Коли використовувати виявлення асоціативних патернів?

- Коли у вас є транзакційні дані з кількома елементами на транзакцію
- Коли ви хочете відкрити приховані зв'язки між елементами
- Коли ви будуєте рекомендаційні системи
- Коли ви аналізуєте патерни поведінки клієнтів

## Ключові концепції

### Набори елементів (Itemsets)

**Набір елементів** - це колекція одного або більше елементів. Наприклад, {Хліб, Молоко} - це набір елементів, що містить два елементи.

- **k-набір елементів (k-itemset)**: Набір елементів, що містить точно k елементів
- **Порожній набір елементів**: Набір елементів без елементів, позначається як ∅
- **Одиничний набір елементів**: Набір елементів, що містить точно один елемент

### Підтримка (Support)

**Підтримка** набору елементів X, позначається як supp(X), - це частка транзакцій, що містять набір елементів X.

$$\text{supp}(X) = \frac{|\{t \in T : X \subseteq t\}|}{|T|}$$

Де:
- T - множина всіх транзакцій
- |T| - загальна кількість транзакцій
- |{t ∈ T : X ⊆ t}| - кількість транзакцій, що містять X

### Поріг підтримки та часті набори елементів (frequent itemsets)

**Мінімальний поріг підтримки** (min_sup) - це параметр, визначений користувачем, який визначає, які набори елементів вважаються "частими" або цікавими. Набір елементів X називається **частим**, якщо його підтримка більша або дорівнює мінімальному порогу підтримки:

$$\text{supp}(X) \geq \text{min\_sup}$$

**Ключові аспекти порогу підтримки:**

1. **Мета**: Поріг діє як фільтр для усунення наборів елементів, які зустрічаються занадто рідко, щоб бути значущими або дієвими.

2. **Типові значення**: 
   - Для великих наборів даних: 0.01 до 0.1 (1% до 10%)
   - Для малих наборів даних: 0.1 до 0.5 (10% до 50%)
   - Залежно від предметної області: Медичні дані можуть використовувати 0.001 (0.1%), тоді як роздрібні дані можуть використовувати 0.05 (5%)

3. **Компроміси**:
   - **Занадто високий**: Може пропустити цікаві, але менш поширені патерни
   - **Занадто низький**: Може згенерувати занадто багато патернів, включаючи шум та хибні асоціації

4. **Обчислювальний вплив**: Нижчі пороги вимагають більше обчислювальних ресурсів, оскільки потрібно розглядати більше наборів елементів.

5. **Бізнес-релевантність**: Поріг повинен бути встановлений на основі бізнес-вимог - який рівень частоти робить патерн дієвим для конкретного випадку використання.

**Приклад з нашим іграшковим набором даних:**
Якщо ми встановимо min_sup = 0.4 (40%), тоді:
- {Молоко} з supp = 1.0 є частим ✓
- {Хліб, Молоко} з supp = 0.4 є частим ✓  
- {Яйця, Молоко, Йогурт} з supp = 0.4 є частим ✓
- {Хліб} з supp = 0.4 є частим ✓
- {Масло} з supp = 0.2 є нечастим ✗

### Властивість монотонності підтримки (support monotonicity)

Підтримка набору елементів є монотонно не зростаючою відносно розміру набору елементів. Це означає:

Якщо X ⊆ Y, тоді supp(X) ≥ supp(Y)

Ця властивість є критичною для ефективних алгоритмів пошуку асоціативних патернів, оскільки дозволяє нам зменшувати простір пошуку.

### Властивість спадного замикання (downward closure)

Якщо набір елементів є частим, тоді всі його підмножини також є частими. Навпаки, якщо набір елементів є нечастим, тоді всі його надмножини також є нечастими.

### Максимально часті набори елементів

**Максимальний частий набір елементів** - це частий набір елементів, який не є підмножиною жодного іншого частого набору елементів. Ці набори елементів представляють найбільші патерни, які відповідають мінімальному порогу підтримки.

### Асоціативні правила

**Асоціативне правило** - це відношення виду X ⇒ Y, де X та Y - непересічні набори елементів. Правило виражає, що якщо набір елементів X з'являється в транзакції, тоді набір елементів Y, ймовірно, з'явиться в тій самій транзакції.

### Впевненість (Confidence)

**Впевненість** асоціативного правила X ⇒ Y, позначається як conf(X ⇒ Y), - це умовна ймовірність того, що Y з'являється в транзакції за умови, що X з'являється в тій транзакції.

$$\text{conf}(X \Rightarrow Y) = \frac{\text{supp}(X \cup Y)}{\text{supp}(X)} = P(Y|X)$$

### Передумова та наслідок (Antecedent and consequent)

- **Передумова (Антецедент, X)**: Ліва частина правила (частина "якщо")
- **Наслідок (Консеквент, Y)**: Права частина правила (частина "тоді")

### Монотонність впевненості

Асоціативні правила задовольняють **властивість монотонності впевненості**, яка має важливі наслідки для генерації правил та усунення надлишковості.

**Монотонність впевненості**: Нехай X₁, X₂ та I - набори елементів такі, що X₁ ⊂ X₂ ⊂ I. Тоді впевненість X₂ ⇒ I−X₂ принаймні така ж, як впевненість X₁ ⇒ I−X₁.

$$\text{conf}(X_2 \Rightarrow I-X_2) \geq \text{conf}(X_1 \Rightarrow I-X_1)$$

**Ключові наслідки:**

1. **Генерація правил**: При генерації правил з частого набору елементів I ми можемо розділити I на всі можливі комбінації множин X та Y = I−X, такі що I = X ∪ Y.

2. **Виявлення надлишковості**: Якщо X₁ ⊂ X₂, тоді правило X₂ ⇒ I−X₂ є надлишковим відносно X₁ ⇒ I−X₁, оскільки:
   - Обидва правила мають однакову підтримку (supp(I))
   - Друге правило має впевненість ≥ першого правила
   - Друге правило є більш специфічним, але не більш інформативним

3. **Ефективний видобуток**: Ця властивість дозволяє нам повідомляти лише про не надлишкові правила, зосереджуючись на найбільш загальних правилах, які відповідають мінімальній вимозі впевненості.

**Приклад**: Розглянемо правила з набору елементів {Хліб, Масло, Молоко}:
- Правило 1: {Хліб} ⇒ {Масло, Молоко} 
- Правило 2: {Хліб, Масло} ⇒ {Молоко}

Оскільки {Хліб} ⊂ {Хліб, Масло}, Правило 2 є надлишковим відносно Правила 1, оскільки воно має ту саму підтримку, але впевненість ≥ Правила 1.

### Приклади обчислень

**Підтримка {Молоко}**:
- {Молоко} з'являється в транзакціях 1, 2, 3, 4, 5
- supp({Молоко}) = 5/5 = 1.0 (100%)

**Підтримка {Хліб, Молоко}**:
- {Хліб, Молоко} з'являється в транзакціях 1, 3
- supp({Хліб, Молоко}) = 2/5 = 0.4 (40%)

**Підтримка {Яйця, Молоко, Йогурт}**:
- {Яйця, Молоко, Йогурт} з'являється в транзакціях 2, 4
- supp({Яйця, Молоко, Йогурт}) = 2/5 = 0.4 (40%)

**Асоціативне правило: {Молоко} → {Йогурт}**
- supp({Молоко, Йогурт}) = 3/5 = 0.6 (транзакції 2, 4, 5)
- supp({Молоко}) = 5/5 = 1.0
- conf({Молоко} ⇒ {Йогурт}) = 0.6/1.0 = 0.6 (60%)

Це означає, що 60% транзакцій, що містять Молоко, також містять Йогурт.

## Обчислювальні виклики при знаходженні асоціативних правил

Знаходження асоціативних правил стикається зі значними обчислювальними викликами через експоненційну природу простору пошуку.

### Обчислювальна проблема

**Експоненційний простір пошуку**: Дано набір даних з n унікальними елементами, загальна кількість можливих наборів елементів становить 2^n - 1 (виключаючи порожню множину). Наприклад:
- 10 елементів → 1,023 можливих наборів елементів
- 20 елементів → 1,048,575 можливих наборів елементів  
- 100 елементів → 2^100 - 1 ≈ 1.27 × 10^30 можливих наборів елементів

**Двофазний процес**: Пошук асоціативних правил вимагає:
1. **Фаза 1**: Знайти всі часті набори елементів (обчислювально дорого)
2. **Фаза 2**: Згенерувати асоціативні правила з частих наборів елементів (відносно швидко)

Обчислювальне вузьке місце знаходиться у Фазі 1, де нам потрібно:
- Підрахувати підтримку для кожного кандидатського набору елементів
- Порівняти з мінімальним порогом підтримки
- Обробляти експоненційно зростаючу кількість кандидатів

### Чому наївні підходи не працюють

**Brute Force**: 
- Згенерувати всі можливі набори елементів
- Підрахувати підтримку для кожного набору елементів
- Відфільтрувати за мінімальним порогом підтримки

**Проблеми**:
- **Пам'ять**: Неможливо зберегти всі 2^n наборів елементів для великих n
- **Час**: Експоненційна часова складність O(2^n)
- **Неефективність**: Більшість наборів елементів будуть нечастими

### Як властивості допомагають зменшити простір пошуку

Математичні властивості, які ми обговорювали раніше, надають потужні інструменти для різкого зменшення обчислювальної складності:

#### 1. Властивість спадного замикання
**Ключова ідея**: Якщо набір елементів є нечастим, всі його надмножини також є нечастими.

**Обчислювальна перевага**: 
- Ми можемо **обрізати** простір пошуку, усуваючи нечасті набори елементів
- Немає потреби генерувати або тестувати надмножини нечастих наборів елементів
- Зменшує кандидатів з 2^n до набагато меншої множини

**Приклад**: Якщо {Хліб} є нечастим, нам ніколи не потрібно розглядати {Хліб, Молоко}, {Хліб, Сир} тощо.

#### 2. Монотонність підтримки
**Ключова ідея**: Підтримка зменшується зі збільшенням розміру набору елементів.

**Обчислювальна перевага**:
- Надає теоретичну основу для зменшення набору даних
- Дозволяє покрокову генерацію кандидатів
- Дозволяє раннє завершення неперспективних гілок

#### 3. Монотонність впевненості
**Ключова ідея**: Більш специфічні правила мають впевненість ≥ менш специфічних правил.

**Обчислювальна перевага**:
- Зменшує кількість правил для генерації та зберігання
- Зосереджується на не надлишкових правилах
- Спрощує фазу генерації правил

### Алгоритм Apriori: Рішення

**Алгоритм Apriori** використовує ці властивості для ефективного видобутку частих наборів елементів:

**Основний принцип**: "Якщо набір елементів є частим, тоді всі його підмножини також є частими" (властивість спадного замикання).

**Стратегія алгоритму**:
1. **Покрокова генерація**: Генерувати k-набори елементів з (k-1)-наборів елементів
2. **Обрізання (pruning)**: Видалити кандидатів, чиї підмножини не є частими
3. **Підрахунок підтримки**: Підрахувати підтримку лише для решти кандидатів
4. **Ітерація**: Повторювати до тих пір, поки не знайдено більше частих наборів елементів

**Ключові переваги**:
- **Усуває експоненційність**: Усуває більшість простору пошуку 2^n
- **Ефективність пам'яті**: Зберігає лише часті набори елементів
- **Масштабованість**: Працює для наборів даних з тисячами елементів
- **Теоретично обґрунтований**: Заснований на доведених математичних властивостях

**Кроки алгоритму**:
1. Знайти часті 1-набори елементів (L₁)
2. Згенерувати кандидатські 2-набори елементів (C₂) з L₁
3. Обрізати C₂, використовуючи спадне замикання
4. Підрахувати підтримку для решти кандидатів
5. Знайти часті 2-набори елементів (L₂)
6. Повторювати для k = 3, 4, ... до тих пір, поки Lₖ не порожній

Цей підхід перетворює експоненційну проблему в керований алгоритм поліноміального часу, роблячи видобуток асоціативних правил практичним для реальних застосувань.

## Алгоритм Apriori: Ручний приклад

Давайте пройдемо алгоритм Apriori покроково, використовуючи наш іграшковий набір даних з min_sup = 0.4 (40%).

**Набір даних:**
| tid | Елементи |
|-----|----------|
| 1   | {Хліб, Масло, Молоко} |
| 2   | {Яйця, Молоко, Йогурт} |
| 3   | {Хліб, Сир, Яйця, Молоко} |
| 4   | {Яйця, Молоко, Йогурт} |
| 5   | {Сир, Молоко, Йогурт} |

### Крок 1: Знайти часті 1-набори елементів (L₁)

Підрахувати підтримку для кожного окремого елемента:

| Елемент | Транзакції | Підтримка | Частий? |
|---------|------------|-----------|---------|
| Хліб | {1, 3} | 2/5 = 0.4 | ✓ (≥ 0.4) |
| Масло | {1} | 1/5 = 0.2 | ✗ (< 0.4) |
| Сир | {3, 5} | 2/5 = 0.4 | ✓ (≥ 0.4) |
| Яйця | {2, 3, 4} | 3/5 = 0.6 | ✓ (≥ 0.4) |
| Молоко | {1, 2, 3, 4, 5} | 5/5 = 1.0 | ✓ (≥ 0.4) |
| Йогурт | {2, 4, 5} | 3/5 = 0.6 | ✓ (≥ 0.4) |

**L₁ = {Хліб, Сир, Яйця, Молоко, Йогурт}**

### Крок 2: Згенерувати кандидатські 2-набори елементів (C₂)

Згенерувати всі можливі пари з L₁:
C₂ = {Хліб, Сир}, {Хліб, Яйця}, {Хліб, Молоко}, {Хліб, Йогурт}, 
      {Сир, Яйця}, {Сир, Молоко}, {Сир, Йогурт}, 
      {Яйця, Молоко}, {Яйця, Йогурт}, {Молоко, Йогурт}

### Крок 3: Обрізати C₂, використовуючи спадне замикання

Перевірити, чи всі підмножини кожного кандидата є в L₁:
- {Хліб, Сир}: Обидва Хліб та Сир є в L₁ ✓
- {Хліб, Яйця}: Обидва Хліб та Яйця є в L₁ ✓
- {Хліб, Молоко}: Обидва Хліб та Молоко є в L₁ ✓
- {Хліб, Йогурт}: Обидва Хліб та Йогурт є в L₁ ✓
- {Сир, Яйця}: Обидва Сир та Яйця є в L₁ ✓
- {Сир, Молоко}: Обидва Сир та Молоко є в L₁ ✓
- {Сир, Йогурт}: Обидва Сир та Йогурт є в L₁ ✓
- {Яйця, Молоко}: Обидва Яйця та Молоко є в L₁ ✓
- {Яйця, Йогурт}: Обидва Яйця та Йогурт є в L₁ ✓
- {Молоко, Йогурт}: Обидва Молоко та Йогурт є в L₁ ✓

Всі кандидати проходять крок обрізання.

### Крок 4: Підрахувати підтримку для C₂

| Набір елементів | Транзакції | Підтримка | Частий? |
|----------------|------------|-----------|---------|
| {Хліб, Сир} | {3} | 1/5 = 0.2 | ✗ (< 0.4) |
| {Хліб, Яйця} | {3} | 1/5 = 0.2 | ✗ (< 0.4) |
| {Хліб, Молоко} | {1, 3} | 2/5 = 0.4 | ✓ (≥ 0.4) |
| {Хліб, Йогурт} | {} | 0/5 = 0.0 | ✗ (< 0.4) |
| {Сир, Яйця} | {3} | 1/5 = 0.2 | ✗ (< 0.4) |
| {Сир, Молоко} | {3, 5} | 2/5 = 0.4 | ✓ (≥ 0.4) |
| {Сир, Йогурт} | {5} | 1/5 = 0.2 | ✗ (< 0.4) |
| {Яйця, Молоко} | {2, 3, 4} | 3/5 = 0.6 | ✓ (≥ 0.4) |
| {Яйця, Йогурт} | {2, 4} | 2/5 = 0.4 | ✓ (≥ 0.4) |
| {Молоко, Йогурт} | {2, 4, 5} | 3/5 = 0.6 | ✓ (≥ 0.4) |

**L₂ = {{Хліб, Молоко}, {Сир, Молоко}, {Яйця, Молоко}, {Яйця, Йогурт}, {Молоко, Йогурт}}**

### Крок 5: Згенерувати кандидатські 3-набори елементів (C₃)

Згенерувати кандидатів, об'єднуючи набори елементів L₂, які мають (k-1) спільних елементів:
- {Хліб, Молоко} + {Сир, Молоко} → {Хліб, Сир, Молоко}
- {Хліб, Молоко} + {Яйця, Молоко} → {Хліб, Яйця, Молоко}
- {Сир, Молоко} + {Яйця, Молоко} → {Сир, Яйця, Молоко}
- {Яйця, Молоко} + {Яйця, Йогурт} → {Яйця, Молоко, Йогурт}
- {Яйця, Молоко} + {Молоко, Йогурт} → {Яйця, Молоко, Йогурт} (дублікат)
- {Яйця, Йогурт} + {Молоко, Йогурт} → {Яйця, Молоко, Йогурт} (дублікат)

**C₃ = {{Хліб, Сир, Молоко}, {Хліб, Яйця, Молоко}, {Сир, Яйця, Молоко}, {Яйця, Молоко, Йогурт}}**

### Крок 6: Обрізати C₃, використовуючи закриття вниз

Перевірити, чи всі 2-елементні підмножини є в L₂:
- {Хліб, Сир, Молоко}: {Хліб, Сир} ✗, {Хліб, Молоко} ✓, {Сир, Молоко} ✓ → **Обрізати**
- {Хліб, Яйця, Молоко}: {Хліб, Яйця} ✗, {Хліб, Молоко} ✓, {Яйця, Молоко} ✓ → **Обрізати**
- {Сир, Яйця, Молоко}: {Сир, Яйця} ✗, {Сир, Молоко} ✓, {Яйця, Молоко} ✓ → **Обрізати**
- {Яйця, Молоко, Йогурт}: {Яйця, Молоко} ✓, {Яйця, Йогурт} ✓, {Молоко, Йогурт} ✓ → **Залишити**

Після обрізання: **C₃ = {{Яйця, Молоко, Йогурт}}**

### Крок 7: Підрахувати підтримку для C₃

| Набір елементів | Транзакції | Підтримка | Частий? |
|----------------|------------|-----------|---------|
| {Яйця, Молоко, Йогурт} | {2, 4} | 2/5 = 0.4 | ✓ (≥ 0.4) |

**L₃ = {{Яйця, Молоко, Йогурт}}**

### Крок 8: Згенерувати кандидатські 4-набори елементів (C₄)

Жодні набори елементів в L₃ не можуть бути об'єднані для формування 4-наборів елементів.

**Фінальний результат**: Всі часті набори елементів є L₁ ∪ L₂ ∪ L₃

## Обмеження алгоритму Apriori

Незважаючи на свою ефективність, алгоритм Apriori має кілька значних обмежень:

### 1. Множинні сканування бази даних
**Проблема**: Алгоритм вимагає багатьох проходів через всю базу даних - один для кожного рівня k.
- Для k рівнів нам потрібно k+1 сканувань бази даних
- Кожне сканування обробляє весь набір даних
- Накладні витрати I/O стають значними для великих баз даних

**Вплив**: 
- Повільна продуктивність на великих наборах даних
- Високі вимоги до дискового I/O
- Не підходить для потокових даних

### 2. Велика кількість кандидатів
**Проблема**: Навіть з обрізанням, кількість кандидатів все ще може бути дуже великою.
- Cₖ може бути експоненційно великим навіть після обрізання
- Вимоги до пам'яті швидко зростають
- Підрахунок підтримки стає дорогим

**Приклад**: З 1000 частих 2-наборів елементів ми могли б згенерувати до C(1000,2) = 499,500 кандидатських 3-наборів елементів.

### 3. Накладні витрати підрахунку підтримки
**Проблема**: Кожен кандидатський набір елементів вимагає сканування всієї бази даних для підрахунку підтримки.
- Складність O(|Cₖ| × |D|) для рівня k
- Більшість кандидатів виявляються нечастими
- Витрачені обчислення на невдалих кандидатів

### 4. Вимоги до пам'яті
**Проблема**: Потрібно зберігати всі часті набори елементів та кандидатів у пам'яті.
- Lₖ зростає з кількістю частих патернів
- Великі набори даних можуть перевищити доступну пам'ять
- Важко ефективно паралелізувати

### 5. Чутливість до порогу підтримки
**Проблема**: Невеликі зміни в min_sup можуть значно вплинути на продуктивність.
- Нижчий поріг → експоненційно більше кандидатів
- Вищий поріг → може пропустити цікаві патерни
- Важко вибрати оптимальний поріг апріорі

### 6. Не підходить для щільних наборів даних
**Проблема**: Коли більшість елементів з'являються в більшості транзакцій, майже всі набори елементів стають частими.
- Обрізання стає неефективним
- Алгоритм вироджується до грубої сили
- Продуктивність гірша, ніж наївні підходи

### 7. Послідовна природа
**Проблема**: Покроковий підхід є по суті послідовним.
- Неможливо обробити рівень k+1 до завершення рівня k
- Важко паралелізувати між рівнями
- Немає раннього завершення для конкретних патернів

### 8. Фаза генерації правил
**Проблема**: Після знаходження частих наборів елементів, генерація правил також може бути дорогою.
- Потрібно згенерувати всі можливі правила з кожного частого набору елементів
- Обчислення впевненості вимагає додаткових сканувань бази даних
- Може бути згенеровано велику кількість правил

Ці обмеження призвели до розробки альтернативних алгоритмів, таких як FP-Growth, Eclat та інші, які вирішують деякі з цих проблем через різні структури даних та підходи.

## Оптимізація алгоритму Apriori: FP-Growth

Обмеження алгоритму Apriori призвели до розробки більш ефективних альтернатив. Один з найуспішніших підходів - це алгоритм **FP-Growth (Frequent Pattern Growth)**, який вирішує багато обчислювально-вузьких місць Apriori.

### Рішення FP-Growth

**FP-Growth** (Frequent Pattern Growth) - це алгоритм, який усуває потребу в генерації кандидатів та зайвих скануваннях бази даних. Замість цього він використовує компактну структуру даних, звану **FP-Tree** (Frequent Pattern Tree), для представлення бази даних у стислому форматі.

### Основні принципи FP-Growth

#### 1. **Стисле представлення бази даних**
Замість зберігання оригінальної бази даних, FP-Growth створює компактну деревоподібну структуру, яка:
- Усуває нечасті елементи
- Поєднує спільні префікси
- Різко зменшує вимоги до пам'яті

#### 2. **Стратегія росту патернів**
Замість генерації кандидатів та підрахунку підтримки, FP-Growth:
- Росте патерни безпосередньо з FP-Tree
- Використовує підхід "розділяй і володарюй"
- Уникає множинних сканувань бази даних

#### 3. **Рекурсивний видобуток**
Алгоритм рекурсивно видобуває патерни, виконуючи:
- Побудову умовних FP-Tree
- Поступовий ріст патернів
- Усунення надлишкового доступу до бази даних

### Побудова FP-Tree

FP-Tree будується в двох фазах:

#### Фаза 1: Аналіз частоти елементів
1. **Сканувати базу даних**: Підрахувати частоту кожного елемента
2. **Відфільтрувати елементи**: Видалити елементи нижче мінімального порогу підтримки
3. **Відсортувати елементи**: Впорядкувати елементи за частотою (спадання)

#### Фаза 2: Побудова дерева
1. **Створити корінь**: Ініціалізувати порожній кореневий вузол
2. **Обробити транзакції**: Для кожної транзакції:
   - Відсортувати елементи за порядком частоти
   - Вставити шлях у дерево (спільні префікси)
   - Оновити підрахунки вузлів

### Властивості FP-Tree

FP-Tree має кілька важливих властивостей:

1. **Повнота**: Містить всі часті патерни
2. **Компактність**: Набагато менший, ніж оригінальна база даних
3. **Спільні префікси**: Спільні префікси діляться між транзакціями
4. **Впорядкування за частотою**: Елементи впорядковані за частотою

### Детальний приклад: FP-Growth

Давайте пройдемо FP-Growth, використовуючи наш іграшковий набір даних з min_sup = 0.4 (40%).

**Оригінальний набір даних:**
| tid | Елементи |
|-----|----------|
| 1   | {Хліб, Масло, Молоко} |
| 2   | {Яйця, Молоко, Йогурт} |
| 3   | {Хліб, Сир, Яйця, Молоко} |
| 4   | {Яйця, Молоко, Йогурт} |
| 5   | {Сир, Молоко, Йогурт} |

#### Крок 1: Аналіз частоти елементів

Підрахувати частоту кожного елемента:
| Елемент | Частота | Підтримка | Частий? |
|---------|---------|-----------|---------|
| Молоко | 5 | 1.0 | ✓ |
| Яйця | 3 | 0.6 | ✓ |
| Йогурт | 3 | 0.6 | ✓ |
| Хліб | 2 | 0.4 | ✓ |
| Сир | 2 | 0.4 | ✓ |
| Масло | 1 | 0.2 | ✗ |

**Часті елементи (min_sup = 0.4)**: Молоко, Яйця, Йогурт, Хліб, Сир

**Елементи, впорядковані за частотою**: Молоко, Яйця, Йогурт, Хліб, Сир

#### Крок 2: Відсортувати транзакції

Відсортувати елементи в кожній транзакції за порядком частоти:

| tid | Оригінальні елементи | Відсортовані елементи |
|-----|---------------------|----------------------|
| 1   | {Хліб, Масло, Молоко} | {Молоко, Хліб} (Масло видалено) |
| 2   | {Яйця, Молоко, Йогурт} | {Молоко, Яйця, Йогурт} |
| 3   | {Хліб, Сир, Яйця, Молоко} | {Молоко, Яйця, Йогурт, Хліб, Сир} |
| 4   | {Яйця, Молоко, Йогурт} | {Молоко, Яйця, Йогурт} |
| 5   | {Сир, Молоко, Йогурт} | {Молоко, Йогурт, Сир} |

#### Крок 3: Побудувати FP-Tree

Побудувати FP-Tree, вставляючи кожну відсортовану транзакцію:

**Транзакція 1: {Молоко, Хліб}**
```
Root
 └── Молоко:1
     └── Хліб:1
```

**Транзакція 2: {Молоко, Яйця, Йогурт}**
```
Root
 └── Молоко:2
     ├── Хліб:1
     └── Яйця:1
         └── Йогурт:1
```

**Транзакція 3: {Молоко, Яйця, Йогурт, Хліб, Сир}**
```
Root
 └── Молоко:3
     ├── Хліб:1
     └── Яйця:2
         └── Йогурт:2
             └── Хліб:1
                 └── Сир:1
```

**Транзакція 4: {Молоко, Яйця, Йогурт}**
```
Root
 └── Молоко:4
     ├── Хліб:1
     └── Яйця:3
         └── Йогурт:3
             └── Хліб:1
                 └── Сир:1
```

**Транзакція 5: {Молоко, Йогурт, Сир}**
```
Root
 └── Молоко:5
     ├── Хліб:1
     ├── Яйця:3
     │   └── Йогурт:3
     │       └── Хліб:1
     │           └── Сир:1
     └── Йогурт:1
         └── Сир:1
```

#### Крок 4: Знайти патерни з FP-Tree

Алгоритм FP-Growth знаходить патерни, виконуючи наступні кроки:

1. **Почати з найменш частих елементів** (справа в порядку частоти)
2. **Побудувати умовні FP-Tree** для кожного елемента
3. **Рекурсивно видобути патерни** з умовних дерев

**Процес видобутку патернів:**

**Фінальна структура FP-Tree:**
```
Root
 └── Молоко:5
     ├── Хліб:1
     ├── Яйця:3
     │   └── Йогурт:3
     │       └── Хліб:1
     │           └── Сир:1
     └── Йогурт:1
         └── Сир:1
```

**Для елемента 'Сир' (найменш частий, підтримка = 2):**
- Шляхи, що містять 'Сир': 
  - {Молоко, Яйця, Йогурт, Хліб, Сир} (з транзакції 3)
  - {Молоко, Йогурт, Сир} (з транзакції 5)
- Умовний FP-Tree для 'Сир': {Молоко, Яйця, Йогурт, Хліб}, {Молоко, Йогурт}
- **Процес видобутку патернів:**
  1. Почати з {Сир} (базовий елемент)
  2. З умовного дерева знайти всі часті підмножини:
     - {Молоко} з'являється в обох шляхах → {Молоко, Сир} (підтримка = 2)
     - {Йогурт} з'являється в обох шляхах → {Йогурт, Сир} (підтримка = 2)  
     - {Молоко, Йогурт} з'являється в обох шляхах → {Молоко, Йогурт, Сир} (підтримка = 2)
  3. Всі патерни мають підтримку ≥ 2, тому всі є частими
- **Результат**: {Сир}, {Молоко, Сир}, {Йогурт, Сир}, {Молоко, Йогурт, Сир}

**Для елемента 'Хліб' (підтримка = 2):**
- Шляхи, що містять 'Хліб':
  - {Молоко, Хліб} (з транзакції 1)
  - {Молоко, Яйця, Йогурт, Хліб, Сир} (з транзакції 3)
- Умовний FP-Tree для 'Хліб': {Молоко}, {Молоко, Яйця, Йогурт, Сир}
- **Процес видобутку патернів:**
  1. Почати з {Хліб} (базовий елемент)
  2. З умовного дерева знайти часті підмножини:
     - {Молоко} з'являється в обох шляхах → {Молоко, Хліб} (підтримка = 2)
     - {Яйця, Йогурт, Сир} з'являється лише в одному шляху → підтримка = 1 < 2 (нечастий)
  3. Лише {Молоко, Хліб} є частим
- **Результат**: {Хліб}, {Молоко, Хліб}

**Для елемента 'Йогурт' (підтримка = 3):**
- Шляхи, що містять 'Йогурт':
  - {Молоко, Яйця, Йогурт} (з транзакцій 2, 4)
  - {Молоко, Яйця, Йогурт, Хліб, Сир} (з транзакції 3)
  - {Молоко, Йогурт, Сир} (з транзакції 5)
- Умовний FP-Tree для 'Йогурт': {Молоко, Яйця}, {Молоко, Яйця, Хліб, Сир}, {Молоко, Сир}
- **Процес видобутку патернів:**
  1. Почати з {Йогурт} (базовий елемент)
  2. З умовного дерева знайти часті підмножини:
     - {Молоко} з'являється у всіх 3 шляхах → {Молоко, Йогурт} (підтримка = 3)
     - {Яйця} з'являється в 2 шляхах → {Яйця, Йогурт} (підтримка = 2)
     - {Молоко, Яйця} з'являється в 2 шляхах → {Молоко, Яйця, Йогурт} (підтримка = 2)
  3. Всі патерни мають підтримку ≥ 2, тому всі є частими
- **Результат**: {Йогурт}, {Молоко, Йогурт}, {Яйця, Йогурт}, {Молоко, Яйця, Йогурт}

**Для елемента 'Яйця' (підтримка = 3):**
- Шляхи, що містять 'Яйця':
  - {Молоко, Яйця, Йогурт} (з транзакцій 2, 4)
  - {Молоко, Яйця, Йогурт, Хліб, Сир} (з транзакції 3)
- Умовний FP-Tree для 'Яйця': {Молоко, Йогурт}, {Молоко, Йогурт, Хліб, Сир}
- **Процес видобутку патернів:**
  1. Почати з {Яйця} (базовий елемент)
  2. З умовного дерева знайти часті підмножини:
     - {Молоко} з'являється в обох шляхах → {Молоко, Яйця} (підтримка = 2)
     - {Йогурт} з'являється в обох шляхах → {Йогурт, Яйця} (підтримка = 2)
     - {Молоко, Йогурт} з'являється в обох шляхах → {Молоко, Йогурт, Яйця} (підтримка = 2)
  3. Всі патерни мають підтримку ≥ 2, тому всі є частими
- **Результат**: {Яйця}, {Молоко, Яйця}, {Йогурт, Яйця}, {Молоко, Йогурт, Яйця}

**Для елемента 'Молоко' (підтримка = 5):**
- Всі шляхи містять 'Молоко'
- Видобути патерни: {Молоко}

**Повний набір частих патернів (min_sup = 0.4):**
- 1-набори елементів: {Молоко}, {Яйця}, {Йогурт}, {Хліб}, {Сир}
- 2-набори елементів: {Молоко, Яйця}, {Молоко, Йогурт}, {Молоко, Хліб}, {Яйця, Йогурт}
- 3-набори елементів: {Молоко, Яйця, Йогурт}

### Складність FP-Growth

**Часова складність:**
- **Apriori**: O(2^n × |D|), де n - кількість елементів, |D| - розмір бази даних
- **FP-Growth**: O(|D| × L_max), де L_max - максимальна довжина транзакції

**Просторова складність:**
- **Apriori**: O(|C| + |L|), де |C| - кількість кандидатів, |L| - загальна кількість елементів
- **FP-Growth**: O(|D| × L_max) для зберігання FP-Tree

## Практична реалізація: FP-Growth з mlxtend

Тепер давайте реалізуємо FP-Growth, використовуючи бібліотеку `mlxtend`, щоб побачити, як він працює на практиці. Ми створимо іграшковий набір даних, подібний до нашого теоретичного прикладу, та порівняємо FP-Growth з Apriori.

### Крок 1: Створити іграшковий набір даних

Давайте створимо набір даних транзакцій продуктового магазину:

In [1]:
import pandas as pd
import numpy as np
from mlxtend.frequent_patterns import apriori, fpgrowth
from mlxtend.frequent_patterns import association_rules
from mlxtend.preprocessing import TransactionEncoder

pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

# Create our toy grocery dataset
transactions = [
    ['Bread', 'Butter', 'Milk'],
    ['Eggs', 'Milk', 'Yogurt'],
    ['Bread', 'Cheese', 'Eggs', 'Milk'],
    ['Eggs', 'Milk', 'Yogurt'],
    ['Cheese', 'Milk', 'Yogurt'],
    ['Bread', 'Milk'],
    ['Eggs', 'Yogurt'],
    ['Bread', 'Cheese', 'Milk'],
    ['Milk', 'Yogurt'],
    ['Bread', 'Eggs', 'Milk', 'Yogurt']
]

print("Original Transaction Dataset:")
for i, transaction in enumerate(transactions, 1):
    print(f"Transaction {i}: {transaction}")

print(f"\nTotal transactions: {len(transactions)}")
print(f"Unique items: {len(set(item for transaction in transactions for item in transaction))}")


Original Transaction Dataset:
Transaction 1: ['Bread', 'Butter', 'Milk']
Transaction 2: ['Eggs', 'Milk', 'Yogurt']
Transaction 3: ['Bread', 'Cheese', 'Eggs', 'Milk']
Transaction 4: ['Eggs', 'Milk', 'Yogurt']
Transaction 5: ['Cheese', 'Milk', 'Yogurt']
Transaction 6: ['Bread', 'Milk']
Transaction 7: ['Eggs', 'Yogurt']
Transaction 8: ['Bread', 'Cheese', 'Milk']
Transaction 9: ['Milk', 'Yogurt']
Transaction 10: ['Bread', 'Eggs', 'Milk', 'Yogurt']

Total transactions: 10
Unique items: 6


### Крок 2: Перетворити у двійковий формат

Бібліотека mlxtend вимагає даних у двійковому (one-hot encoded) форматі, де кожен рядок представляє транзакцію, а кожен стовпець представляє елемент:

In [2]:
# Convert transactions to binary format
te = TransactionEncoder()
te_ary = te.fit(transactions).transform(transactions)
df = pd.DataFrame(te_ary, columns=te.columns_)

print("Binary Transaction Matrix:")
print(df)
print(f"\nMatrix shape: {df.shape}")
print(f"Items: {list(df.columns)}")


Binary Transaction Matrix:
   Bread  Butter  Cheese   Eggs   Milk  Yogurt
0   True    True   False  False   True   False
1  False   False   False   True   True    True
2   True   False    True   True   True   False
3  False   False   False   True   True    True
4  False   False    True  False   True    True
5   True   False   False  False   True   False
6  False   False   False   True  False    True
7   True   False    True  False   True   False
8  False   False   False  False   True    True
9   True   False   False   True   True    True

Matrix shape: (10, 6)
Items: ['Bread', 'Butter', 'Cheese', 'Eggs', 'Milk', 'Yogurt']


### Крок 3: Видобути часті набори елементів з FP-Growth

Тепер давайте використаємо FP-Growth для знаходження частих наборів елементів з мінімальним порогом підтримки 0.3 (30%):

In [3]:
# Set minimum support threshold
min_support = 0.3

# Mine frequent itemsets using FP-Growth
frequent_itemsets_fp = fpgrowth(df, min_support=min_support, use_colnames=True)

print("Frequent Itemsets (FP-Growth):")
print(f"Minimum support: {min_support}")
print(f"Number of frequent itemsets: {len(frequent_itemsets_fp)}")
print("\nFrequent itemsets:")
frequent_itemsets_fp['itemset_length'] = frequent_itemsets_fp['itemsets'].apply(len)
print(frequent_itemsets_fp.sort_values(['itemset_length', 'support'], ascending=[True, False]))


Frequent Itemsets (FP-Growth):
Minimum support: 0.3
Number of frequent itemsets: 11

Frequent itemsets:
    support              itemsets  itemset_length
0       0.9                (Milk)               1
2       0.6              (Yogurt)               1
1       0.5               (Bread)               1
3       0.5                (Eggs)               1
4       0.3              (Cheese)               1
5       0.5         (Bread, Milk)               2
6       0.5        (Yogurt, Milk)               2
7       0.4        (Yogurt, Eggs)               2
8       0.4          (Eggs, Milk)               2
10      0.3        (Milk, Cheese)               2
9       0.3  (Yogurt, Eggs, Milk)               3


### Крок 4: Порівняти з алгоритмом Apriori

Давайте також запустимо Apriori на тому ж наборі даних для порівняння результатів: 

In [4]:
frequent_itemsets_apriori = apriori(df, min_support=min_support, use_colnames=True)

frequent_itemsets_fp_timed = fpgrowth(df, min_support=min_support, use_colnames=True)

apriori_sets = set(frozenset(itemset) for itemset in frequent_itemsets_apriori['itemsets'])
fp_sets = set(frozenset(itemset) for itemset in frequent_itemsets_fp['itemsets'])

print(f"\nResults verification:")
print(f"Same itemsets found: {apriori_sets == fp_sets}")
print(f"Apriori found: {len(apriori_sets)} itemsets")
print(f"FP-Growth found: {len(fp_sets)} itemsets")



Results verification:
Same itemsets found: True
Apriori found: 11 itemsets
FP-Growth found: 11 itemsets


### Крок 5: Згенерувати асоціативні правила

Тепер давайте згенеруємо асоціативні правила з частих наборів елементів та проаналізуємо їх якість:

In [5]:
# Generate association rules with minimum confidence
min_confidence = 0.6
rules = association_rules(frequent_itemsets_fp, metric="confidence", min_threshold=min_confidence)

print("Association Rules:")
print(f"Minimum confidence: {min_confidence}")
print(f"Number of rules: {len(rules)}")

if len(rules) > 0:
    # Display rules with key metrics
    rules_display = rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']].copy()
    rules_display['rule'] = rules_display['antecedents'].astype(str) + ' → ' + rules_display['consequents'].astype(str)
    
    # Analyze rule quality
    print(f"\nRule Quality Analysis:")
    print(f"Average confidence: {rules['confidence'].mean():.3f}")
    print(f"Average lift: {rules['lift'].mean():.3f}")
    print(f"Rules with lift > 1: {len(rules[rules['lift'] > 1])}")
else:
    print("No rules found with the given confidence threshold.")


Association Rules:
Minimum confidence: 0.6
Number of rules: 10

Rule Quality Analysis:
Average confidence: 0.780
Average lift: 1.119
Rules with lift > 1: 7


In [6]:
print("\nTop rules by confidence:")
rules_display.sort_values('confidence', ascending=False)


Top rules by confidence:


Unnamed: 0,antecedents,consequents,support,confidence,lift,rule
0,(Bread),(Milk),0.5,1.0,1.111111,frozenset({'Bread'}) → frozenset({'Milk'})
9,(Cheese),(Milk),0.3,1.0,1.111111,frozenset({'Cheese'}) → frozenset({'Milk'})
1,(Yogurt),(Milk),0.5,0.833333,0.925926,frozenset({'Yogurt'}) → frozenset({'Milk'})
3,(Eggs),(Yogurt),0.4,0.8,1.333333,frozenset({'Eggs'}) → frozenset({'Yogurt'})
4,(Eggs),(Milk),0.4,0.8,0.888889,frozenset({'Eggs'}) → frozenset({'Milk'})
5,"(Yogurt, Eggs)",(Milk),0.3,0.75,0.833333,"frozenset({'Yogurt', 'Eggs'}) → frozenset({'Mi..."
7,"(Eggs, Milk)",(Yogurt),0.3,0.75,1.25,"frozenset({'Eggs', 'Milk'}) → frozenset({'Yogu..."
2,(Yogurt),(Eggs),0.4,0.666667,1.333333,frozenset({'Yogurt'}) → frozenset({'Eggs'})
6,"(Yogurt, Milk)",(Eggs),0.3,0.6,1.2,"frozenset({'Yogurt', 'Milk'}) → frozenset({'Eg..."
8,(Eggs),"(Yogurt, Milk)",0.3,0.6,1.2,"frozenset({'Eggs'}) → frozenset({'Yogurt', 'Mi..."
