# Теоретичний матеріал: Логістична регресія

## Зміст
1. [Вступ до логістичної регресії](#1)
2. [Математичні основи](#2)
3. [Функція втрат](#3)
4. [Методи оптимізації](#4)
5. [Регуляризація](#5)
6. [Метрики оцінки якості](#6)
7. [Практичні рекомендації](#7)

## 1. Вступ до логістичної регресії <a id="1"></a>

### Що таке логістична регресія?

**Логістична регресія** — це статистичний метод для розв'язання задач **бінарної класифікації**. На відміну від лінійної регресії, яка передбачає безперервні значення, логістична регресія передбачає ймовірність належності до одного з двох класів.

### Основні характеристики:
- **Вихідні значення**: від 0 до 1 (ймовірності)
- **Функція активації**: сигмоїдна функція
- **Тип задачі**: класифікація
- **Припущення**: лінійна залежність між ознаками та логарифмом відношення шансів

### Переваги:
✅ Простота інтерпретації  
✅ Не потребує налаштування гіперпараметрів  
✅ Не схильна до перенавчання при малій кількості ознак  
✅ Швидке навчання  
✅ Не потребує масштабування ознак (але краще робити)  

### Недоліки:
❌ Припускає лінійну залежність між ознаками та логітом  
❌ Може бути чутливою до викидів  
❌ Потребує великих обсягів даних для стабільних результатів  

## 2. Математичні основи <a id="2"></a>

### 2.1 Лінійна комбінація

Спочатку обчислюється лінійна комбінація ознак:

$$z = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n = \sum_{i=0}^{n} w_i x_i$$

де:
- $w_i$ — ваги (параметри моделі)
- $x_i$ — значення ознак
- $w_0$ — bias term (зсув)

### 2.2 Сигмоїдна функція

Сигмоїдна функція перетворює будь-яке дійсне число в інтервал (0, 1):

$$\sigma(z) = \frac{1}{1 + e^{-z}}$$

**Властивості сигмоїда:**
- При $z \to +\infty$: $\sigma(z) \to 1$
- При $z \to -\infty$: $\sigma(z) \to 0$
- При $z = 0$: $\sigma(z) = 0.5$
- Похідна: $\sigma'(z) = \sigma(z)(1 - \sigma(z))$

### 2.3 Ймовірнісна інтерпретація

Результат сигмоїда інтерпретується як ймовірність:

$$P(y=1|x) = \sigma(w^T x) = \frac{1}{1 + e^{-w^T x}}$$

$$P(y=0|x) = 1 - P(y=1|x) = \frac{e^{-w^T x}}{1 + e^{-w^T x}}$$

### 2.4 Логіт (Log-odds)

Логістична регресія моделює логарифм відношення шансів:

$$\ln\left(\frac{P(y=1|x)}{P(y=0|x)}\right) = \ln\left(\frac{P(y=1|x)}{1-P(y=1|x)}\right) = w^T x$$

Це пояснює, чому метод називається "логістична регресія" — він лінійно моделює логіт.

## 3. Функція втрат (Loss Function) <a id="3"></a>

### 3.1 Binary Cross-Entropy (Log-Loss)

Для бінарної класифікації використовується **логарифмічна функція втрат**:

$$L(w) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \ln(\hat{y}^{(i)}) + (1 - y^{(i)}) \ln(1 - \hat{y}^{(i)}) \right]$$

де:
- $m$ — кількість зразків
- $y^{(i)}$ — справжнє значення класу (0 або 1)
- $\hat{y}^{(i)} = \sigma(w^T x^{(i)})$ — передбачена ймовірність

### 3.2 Інтуїція функції втрат

**Для $y = 1$ (позитивний клас):**
- Втрата = $-\ln(\hat{y})$
- Якщо $\hat{y} \to 1$: втрата $\to 0$ (добре)
- Якщо $\hat{y} \to 0$: втрата $\to +\infty$ (погано)

**Для $y = 0$ (негативний клас):**
- Втрата = $-\ln(1 - \hat{y})$
- Якщо $\hat{y} \to 0$: втрата $\to 0$ (добре)
- Якщо $\hat{y} \to 1$: втрата $\to +\infty$ (погано)

### 3.3 Чому не середньоквадратична похибка?

MSE для логістичної регресії:
$$L_{MSE} = \frac{1}{m} \sum_{i=1}^{m} (y^{(i)} - \sigma(w^T x^{(i)}))^2$$

**Проблеми MSE:**
- ❌ Неопукла функція (локальні мінімуми)
- ❌ Повільна збіжність
- ❌ Проблеми з градієнтами при насиченні сигмоїда

**Переваги Cross-Entropy:**
- ✅ Опукла функція
- ✅ Швидка збіжність
- ✅ Максимізує правдоподібність

## 4. Методи оптимізації <a id="4"></a>

### 4.1 Градієнтний спуск

Для мінімізації функції втрат використовується градієнтний спуск:

$$w := w - \alpha \nabla_w L(w)$$

де $\alpha$ — швидкість навчання (learning rate).

### 4.2 Обчислення градієнтів

Градієнт функції втрат відносно ваг:

$$\frac{\partial L}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)}) x_j^{(i)}$$

У векторній формі:
$$\nabla_w L = \frac{1}{m} X^T (\hat{y} - y)$$

### 4.3 Варіанти градієнтного спуску

#### 4.3.1 Batch Gradient Descent (BGD)
Використовує весь датасет для обчислення градієнта:
```
для кожної епохи:
    обчислити градієнт на всьому датасеті
    оновити ваги
```

**Переваги:** Стабільна збіжність, гладкі криві втрат  
**Недоліки:** Повільний на великих датасетах, може застрягти в локальних мінімумах

#### 4.3.2 Stochastic Gradient Descent (SGD)
Використовує один зразок для обчислення градієнта:
```
для кожної епохи:
    перемішати датасет
    для кожного зразка:
        обчислити градієнт на одному зразку
        оновити ваги
```

**Переваги:** Швидкий, може виходити з локальних мінімумів, онлайн-навчання  
**Недоліки:** Шумні градієнти, нестабільна збіжність

#### 4.3.3 Mini-batch Gradient Descent
Компроміс між BGD та SGD — використовує невеликі групи зразків:
```
для кожної епохи:
    перемішати датасет
    розділити на batch'і розміру batch_size
    для кожного batch'а:
        обчислити градієнт на batch'і
        оновити ваги
```

**Переваги:** Збалансований, ефективне використання векторизації, стабільніший за SGD  
**Недоліки:** Потребує налаштування розміру batch'а

### 4.4 Вибір розміру batch'а

- **Малий batch (8-32):** Більше шуму, швидше навчання, менше пам'яті
- **Середній batch (64-256):** Золотий стандарт для більшості задач
- **Великий batch (512+):** Стабільніше, але може призвести до поганої генералізації

## 5. Регуляризація <a id="5"></a>

### 5.1 Проблема перенавчання

**Перенавчання (Overfitting)** — коли модель занадто добре "запам'ятовує" тренувальні дані і погано узагальнює на нові дані.

**Ознаки перенавчання:**
- Низька втрата на тренуванні, висока на валідації
- Великі значення ваг
- Складна модель відносно кількості даних

### 5.2 L2 регуляризація (Ridge)

Додає штраф за великі ваги до функції втрат:

$$L_{Ridge}(w) = L_{original}(w) + \frac{\alpha}{2m} \sum_{j=1}^{n} w_j^2$$

**Ефект:** Зменшує всі ваги рівномірно, робить їх більш "розумними"

**Градієнт з L2:**
$$\frac{\partial L_{Ridge}}{\partial w_j} = \frac{\partial L_{original}}{\partial w_j} + \frac{\alpha}{m} w_j$$

### 5.3 L1 регуляризація (Lasso)

Додає штраф за абсолютні значення ваг:

$$L_{Lasso}(w) = L_{original}(w) + \frac{\alpha}{m} \sum_{j=1}^{n} |w_j|$$

**Ефект:** Може робити деякі ваги рівними нулю (автоматичний відбір ознак)

**Градієнт з L1:**
$$\frac{\partial L_{Lasso}}{\partial w_j} = \frac{\partial L_{original}}{\partial w_j} + \frac{\alpha}{m} \text{sign}(w_j)$$

### 5.4 Порівняння L1 vs L2

| Аспект | L1 (Lasso) | L2 (Ridge) |
|--------|------------|------------|
| **Форма штрафу** | $\|w\|_1 = \sum |w_i|$ | $\|w\|_2^2 = \sum w_i^2$ |
| **Геометрія** | Ромб | Коло |
| **Розрідженість** | Створює розріджені рішення | Зменшує всі ваги |
| **Відбір ознак** | Автоматичний | Ні |
| **Стійкість** | Менш стійкий | Більш стійкий |
| **Використання** | Коли багато шумних ознак | Коли всі ознаки корисні |

### 5.5 Elastic Net

Комбінує L1 та L2:
$$L_{ElasticNet}(w) = L_{original}(w) + \alpha \left[ \rho \|w\|_1 + \frac{1-\rho}{2} \|w\|_2^2 \right]$$

де $\rho \in [0, 1]$ контролює баланс між L1 та L2.

## 6. Метрики оцінки якості <a id="6"></a>

### 6.1 Confusion Matrix (Матриця плутанини)

```
                  Передбачене
                Neg    Pos
Справжнє  Neg   TN     FP
          Pos   FN     TP
```

де:
- **TP (True Positive)** — правильно передбачені позитивні
- **TN (True Negative)** — правильно передбачені негативні
- **FP (False Positive)** — помилково передбачені як позитивні (Type I error)
- **FN (False Negative)** — пропущені позитивні (Type II error)

### 6.2 Основні метрики

#### 6.2.1 Accuracy (Точність)
$$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$

**Інтерпретація:** Частка правильних передбачень  
**Проблема:** Може вводити в оману при незбалансованих класах

#### 6.2.2 Precision (Точність позитивного класу)
$$Precision = \frac{TP}{TP + FP}$$

**Інтерпретація:** З усіх передбачених позитивних, скільки справді позитивні?  
**Коли важливо:** Коли False Positive дорого коштують

#### 6.2.3 Recall (Sensitivity, True Positive Rate)
$$Recall = \frac{TP}{TP + FN}$$

**Інтерпретація:** З усіх справжніх позитивних, скільки ми знайшли?  
**Коли важливо:** Коли False Negative дорого коштують

#### 6.2.4 Specificity (True Negative Rate)
$$Specificity = \frac{TN}{TN + FP}$$

**Інтерпретація:** З усіх справжніх негативних, скільки ми правильно класифікували?

#### 6.2.5 F1-Score
$$F1 = \frac{2 \times Precision \times Recall}{Precision + Recall} = \frac{2TP}{2TP + FP + FN}$$

**Інтерпретація:** Гармонічне середнє Precision та Recall  
**Переваги:** Збалансована метрика, особливо для незбалансованих класів

### 6.3 ROC та AUC

#### ROC Curve (Receiver Operating Characteristic)
Графік залежності True Positive Rate від False Positive Rate при різних порогах:
- **TPR** = Recall = $\frac{TP}{TP + FN}$
- **FPR** = $\frac{FP}{FP + TN}$

#### AUC (Area Under Curve)
Площа під ROC кривою:
- **AUC = 1.0:** Ідеальна модель
- **AUC = 0.5:** Випадкове вгадування
- **AUC < 0.5:** Гірше за випадковість (можна інвертувати)

### 6.4 Вибір порогу класифікації

За замовчуванням поріг = 0.5, але можна оптимізувати:

1. **Максимізація F1-score**
2. **Рівні Precision та Recall**
3. **Максимізація Youden's Index** (TPR - FPR)
4. **Бізнес-метрики** (мінімізація втрат)

## 7. Практичні рекомендації <a id="7"></a>

### 7.1 Підготовка даних

#### 7.1.1 Масштабування ознак
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
```
**Чому важливо:** Різні масштаби ознак можуть призвести до домінування одних ознак над іншими

#### 7.1.2 Обробка категоріальних змінних
```python
X_encoded = pd.get_dummies(X_categorical, drop_first=True)
```

#### 7.1.3 Розділення даних
```python
# Типове розділення
Train: 60-80%
Validation: 10-20%
Test: 10-20%
```

### 7.2 Налаштування гіперпараметрів

#### 7.2.1 Learning Rate (α)
- **Занадто великий:** Модель не збігається, "стрибає" навколо мінімуму
- **Занадто малий:** Повільна збіжність
- **Рекомендація:** Починати з 0.01, адаптивно зменшувати

#### 7.2.2 Розмір batch'а
- **Малий (8-32):** Більше шуму, краща генералізація
- **Середній (64-256):** Баланс між стабільністю та швидкістю
- **Великий (512+):** Стабільна збіжність, але може призвести до перенавчання

#### 7.2.3 Регуляризаційний параметр (λ)
- **λ = 0:** Без регуляризації
- **Малий λ (0.001-0.01):** Легка регуляризація
- **Середній λ (0.1-1):** Помірна регуляризація
- **Великий λ (10+):** Сильна регуляризація

### 7.3 Діагностика моделі

#### 7.3.1 Підгонка vs Перенавчання vs Недонавчання

| Стан | Train Loss | Val Loss | Дії |
|------|------------|----------|----- |
| **Недонавчання** | Високий | Високий | ↑ складність, ↓ регуляризація |
| **Добра підгонка** | Низький | Низький | Готово! |
| **Перенавчання** | Низький | Високий | ↑ регуляризація, ↑ дані |

#### 7.3.2 Криві навчання
```python
plt.plot(train_losses, label='Train Loss')
plt.plot(val_losses, label='Validation Loss')
plt.legend()
```

**Хорошні ознаки:**
- ✅ Обидві криві спадають
- ✅ Невеликий розрив між ними
- ✅ Стабілізація в кінці

**Погані ознаки:**
- ❌ Validation loss зростає
- ❌ Великий розрив між кривими
- ❌ Коливання без стабілізації

### 7.4 Покращення якості моделі

#### 7.4.1 Feature Engineering
1. **Створення нових ознак:** поліноміальні, взаємодії
2. **Трансформації:** log, sqrt, Box-Cox
3. **Біннінг:** дискретизація безперервних змінних
4. **Domain knowledge:** спеціалізовані ознаки для задачі

#### 7.4.2 Обробка дисбалансу класів
1. **Oversampling:** SMOTE, ADASYN
2. **Undersampling:** випадкове, Tomek links
3. **Class weights:** штрафувати за помилки в меншому класі
4. **Threshold tuning:** оптимізація порогу класифікації

#### 7.4.3 Ensemble методи
1. **Voting:** комбінування кількох моделей
2. **Bagging:** тренування на різних підвибірках
3. **Stacking:** мета-модель над базовими моделями

### 7.5 Коли НЕ використовувати логістичну регресію

❌ **Нелінійні залежності:** Використовуйте SVM з RBF, Random Forest, Neural Networks  
❌ **Малі дані (<100 зразків):** Ризик перенавчання  
❌ **Багато шумних ознак:** Краще використати методи з автоматичним відбором ознак  
❌ **Мультикласова класифікація:** Хоча можна (One-vs-Rest), спеціалізовані методи часто кращі  
❌ **Вимоги до інтерпретації складних взаємодій:** Decision Trees може бути кращим вибором  

### 7.6 Чек-лист для успішної імплементації

**Перед навчанням:**
- [ ] Дані очищені та підготовані
- [ ] Ознаки масштабовані
- [ ] Категоріальні змінні закодовані
- [ ] Дані розділені на train/val/test
- [ ] Дисбаланс класів врахований

**Під час навчання:**
- [ ] Моніторинг кривих навчання
- [ ] Early stopping для запобігання перенавчанню
- [ ] Валідація на відкладеній вибірці
- [ ] Логування експериментів

**Після навчання:**
- [ ] Оцінка на тестовій вибірці
- [ ] Аналіз помилок
- [ ] Перевірка стабільності результатів
- [ ] Документування результатів