# Теоретичний матеріал для підготовки до тесту з аналізу даних з використанням машинного навчання

Цей матеріал охоплює основні концепції та методи машинного навчання, які допоможуть вам підготуватися до тесту, включаючи регресію, класифікацію, попередню обробку даних, оцінку моделей та інші важливі аспекти.

---

## Зміст

1. **Вступ до машинного навчання**
   - Що таке машинне навчання
   - Типи машинного навчання
2. **Регресія**
   - Лінійна регресія
   - Метрики оцінки моделей регресії
3. **Класифікація**
   - Логістична регресія
   - Дерева рішень
   - Метод найближчих сусідів (KNN)
   - Random Forest
   - Support Vector Machine (SVM)
   - Метрики оцінки моделей класифікації
4. **Перенавчання та недонавчання**
   - Причини та способи запобігання
5. **Попередня обробка даних**
   - Очищення даних
   - Обробка пропущених значень
   - Перетворення змінних
   - Масштабування даних
   - Розділення даних на тренувальні та тестові набори
6. **Гіперпараметри та їх підбір**
   - Що таке гіперпараметри
   - GridSearchCV та RandomizedSearchCV
7. **Крос-валідація**
   - Принципи та переваги
8. **Регуляризація**
   - Метод L1 та L2 регуляризації
9. **Зниження розмірності**
   - Principal Component Analysis (PCA)
10. **Ансамблеві методи**
    - Random Forest
    - Gradient Boosting
11. **Вибір та оцінка моделей**
    - Критерії вибору моделей
    - Метрики оцінки
12. **Практичні аспекти**
    - Робота з великими наборами даних
    - Бібліотеки Python для машинного навчання
    - Виявлення та обробка мультиколінеарності
13. **Додаткові концепції**
    - Confusion Matrix
    - ROC та AUC
    - Learning Curves

---

## 1. Вступ до машинного навчання

### Що таке машинне навчання

**Машинне навчання** — це підгалузь штучного інтелекту, яка займається розробкою алгоритмів та моделей, що дозволяють комп'ютерам навчатися на основі даних без явного програмування.

### Типи машинного навчання

- **Навчання з учителем (Supervised Learning)**: Моделі навчаються на мічених даних, де кожен приклад має вхідні дані та відповідний цільовий вихід.

  - **Регресія**: Передбачення неперервних числових значень (наприклад, передбачення ціни будинку).
  - **Класифікація**: Присвоєння вхідним даним однієї з дискретних категорій (наприклад, спам/не спам).

- **Навчання без учителя (Unsupervised Learning)**: Моделі працюють з неміченими даними та шукають схеми або структури в даних.

  - **Кластеризація**: Групування схожих даних (наприклад, сегментація клієнтів).
  - **Зниження розмірності**: Спрощення складних даних (наприклад, PCA).

- **Навчання з підкріпленням (Reinforcement Learning)**: Агент навчається шляхом взаємодії з середовищем та отримання винагород або штрафів.

---

## 2. Регресія

### Лінійна регресія

**Лінійна регресія** — це метод для моделювання залежності між однією або кількома незалежними змінними та залежною змінною шляхом підбору лінійного рівняння до спостережуваних даних.

**Модель лінійної регресії**:

\[
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon
\]

- \( y \) — цільова змінна.
- \( x_i \) — незалежні змінні.
- \( \beta_i \) — коефіцієнти моделі.
- \( \epsilon \) — похибка.

### Метрики оцінки моделей регресії

- **Mean Squared Error (MSE)**: Середнє значення квадратів різниць між реальними та передбаченими значеннями.

  \[
  MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
  \]

- **Root Mean Squared Error (RMSE)**: Квадратний корінь з MSE.

  \[
  RMSE = \sqrt{MSE}
  \]

- **Mean Absolute Error (MAE)**: Середнє значення абсолютних різниць між реальними та передбаченими значеннями.

  \[
  MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
  \]

- **Коефіцієнт детермінації (R²)**: Відображає, яка частка варіації залежної змінної пояснюється моделлю.

  \[
  R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}
  \]

---

## 3. Класифікація

### Логістична регресія

**Логістична регресія** використовується для задач бінарної класифікації. Модель передбачає ймовірність належності до певного класу.

**Сигмоїдна функція**:

\[
P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \dots + \beta_n x_n)}}
\]

### Дерева рішень

**Дерева рішень** використовують структуру дерева для прийняття рішень, розбиваючи дані на підмножини на основі значень ознак.

### Метод найближчих сусідів (KNN)

**KNN** класифікує нові точки даних на основі найближчих \( k \) сусідів у навчальному наборі.

### Random Forest

**Random Forest** — ансамблевий метод, що використовує велику кількість дерев рішень та об'єднує їх результати для покращення точності та зниження перенавчання.

### Support Vector Machine (SVM)

**SVM** шукає гіперплощину, яка максимально розділяє класи, використовуючи точки, найближчі до межі (підтримуючі вектори).

### Метрики оцінки моделей класифікації

- **Accuracy (Точність)**: Частка правильних передбачень.

  \[
  Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
  \]

- **Precision (Прецизійність)**: Частка правильних позитивних передбачень серед всіх передбачених позитивних.

  \[
  Precision = \frac{TP}{TP + FP}
  \]

- **Recall (Повнота)**: Частка правильно передбачених позитивних випадків серед всіх реальних позитивних.

  \[
  Recall = \frac{TP}{TP + FN}
  \]

- **F1-Score**: Гармонійне середнє між Precision та Recall.

  \[
  F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}
  \]

- **ROC-AUC**: Площа під кривою ROC, що відображає співвідношення між TPR (True Positive Rate) та FPR (False Positive Rate).

---

## 4. Перенавчання та недонавчання

### Перенавчання (Overfitting)

Модель добре працює на тренувальних даних, але погано на нових, через те, що вона "вивчила" шум та випадкові коливання.

**Способи запобігання**:

- **Крос-валідація**
- **Регуляризація** (L1, L2)
- **Зменшення складності моделі**
- **Збільшення розміру тренувального набору**

### Недонавчання (Underfitting)

Модель не здатна вловити основні закономірності в даних, погано працює як на тренувальних, так і на тестових даних.

---

## 5. Попередня обробка даних

### Очищення даних

- Видалення або корекція некоректних значень.
- Видалення дублікатів.

### Обробка пропущених значень

- **Видалення рядків** з пропущеними значеннями.
- **Заповнення середнім** (для числових змінних).
- **Заповнення медіаною** або **модою**.
- **Передбачення пропущених значень** за допомогою моделей.

### Перетворення змінних

- **Label Encoding**: Перетворення категоріальних змінних на числові шляхом присвоєння унікальних чисел.
- **One-Hot Encoding**: Створення нових бінарних стовпців для кожного унікального значення категоріальної змінної.

### Масштабування даних

- **Min-Max Scaling**: Приведення даних до діапазону [0,1].

  \[
  X_{scaled} = \frac{X - X_{min}}{X_{max} - X_{min}}
  \]

- **Standardization**: Приведення даних до середнього 0 та стандартного відхилення 1.

  \[
  X_{scaled} = \frac{X - \mu}{\sigma}
  \]

### Розділення даних на тренувальні та тестові набори

- Використовується функція `train_test_split` з бібліотеки sklearn.
- **test_size**: Відсоток даних, що виділяється на тестовий набір (наприклад, 0.2 для 20%).

---

## 6. Гіперпараметри та їх підбір

### Що таке гіперпараметри

- Параметри, які задаються перед навчанням моделі та не оновлюються під час навчання.
- Впливають на продуктивність моделі (наприклад, глибина дерева рішень, кількість сусідів у KNN).

### GridSearchCV та RandomizedSearchCV

- **GridSearchCV**: Перебирає всі комбінації заданих гіперпараметрів для пошуку найкращих.
- **RandomizedSearchCV**: Випадково вибирає комбінації гіперпараметрів, що зменшує час пошуку.

---

## 7. Крос-валідація

- **Крос-валідація**: Метод оцінки моделі шляхом розбиття даних на кілька частин (фолдів) та тренування/тестування на різних підмножинах.
- **K-Fold Cross-Validation**: Дані діляться на K частин; модель тренується на K-1 частинах та тестується на одній, процес повторюється K разів.

**Переваги**:

- Зменшує варіативність оцінки моделі.
- Використовує всі дані як для тренування, так і для тестування.

---

## 8. Регуляризація

- **Регуляризація**: Метод запобігання перенавчанню шляхом додавання штрафу за складність моделі.

### Типи регуляризації

- **L1 Регуляризація (Lasso Regression)**:

  Додає до функції втрат суму абсолютних значень коефіцієнтів.

- **L2 Регуляризація (Ridge Regression)**:

  Додає до функції втрат суму квадратів коефіцієнтів.

---

## 9. Зниження розмірності

### Principal Component Analysis (PCA)

- **PCA**: Метод для зниження розмірності даних шляхом перетворення до нового набору змінних (головних компонент), які є ортогональними та пояснюють максимальну варіацію в даних.

**Переваги**:

- Зменшує розмірність, що спрощує модель.
- Видаляє корельовані змінні.

---

## 10. Ансамблеві методи

### Random Forest

- Використовує велику кількість дерев рішень та об'єднує їх результати.
- Знижує варіативність та покращує точність.

### Gradient Boosting

- Послідовно тренує моделі, кожна з яких намагається виправити помилки попередньої.
- Ефективний для складних задач, але може бути схильний до перенавчання.

---

## 11. Вибір та оцінка моделей

### Критерії вибору моделей

- **Продуктивність** на тренувальних та тестових даних.
- **Складність** моделі.
- **Інтерпретованість** результатів.
- **Час та ресурси**, необхідні для тренування.

### Метрики оцінки

- Залежить від задачі (регресія чи класифікація).
- Враховуйте особливості даних (наприклад, незбалансованість класів).

---

## 12. Практичні аспекти

### Робота з великими наборами даних

**Проблеми**:

- **Довгий час навчання**.
- **Велике споживання пам'яті**.
- **Труднощі з візуалізацією**.

**Рішення**:

- Використання більш ефективних алгоритмів.
- Застосування методів вибірки або агрегації.
- Розподілені обчислення.

### Бібліотеки Python для машинного навчання

- **scikit-learn**: Основна бібліотека для класичних алгоритмів машинного навчання.
- **NumPy**: Робота з багатовимірними масивами.
- **Pandas**: Маніпуляція з табличними даними.
- **Matplotlib** та **Seaborn**: Візуалізація даних.

### Виявлення та обробка мультиколінеарності

- **Мультиколінеарність**: Кореляція між незалежними змінними.
- **Виявлення**: Використання **кореляційної матриці**.
- **Обробка**: Видалення або об'єднання корельованих змінних, використання PCA.

---

## 13. Додаткові концепції

### Confusion Matrix (Матриця неточностей)

- **Структура**:

  |           | Передбачено позитив | Передбачено негатив |
  |-----------|---------------------|---------------------|
  | **Реально позитив** | True Positive (TP)    | False Negative (FN)  |
  | **Реально негатив** | False Positive (FP)   | True Negative (TN)   |

- Дозволяє детально оцінити якість класифікації.

### ROC та AUC

- **ROC-крива**: Графік залежності TPR від FPR при різних порогах класифікації.
- **AUC (Area Under Curve)**: Площа під ROC-кривою; чим ближче до 1, тим краща модель.

### Learning Curves (Криві навчання)

- Графік залежності продуктивності моделі від розміру тренувального набору.
- Дозволяє виявити перенавчання або недонавчання.

---

## Підсумки

- **Регресія** використовується для передбачення неперервних значень, **класифікація** — для категорій.
- Важливо правильно **попередньо обробити дані**, включаючи очищення, масштабування та кодування.
- **Перенавчання** можна запобігти за допомогою регуляризації, крос-валідації та інших методів.
- **Оцінка моделей** повинна проводитися з використанням відповідних метрик.
- **Гіперпараметри** впливають на продуктивність моделі та можуть бути оптимізовані.
- Використання **бібліотек Python** спрощує процес моделювання та аналізу даних.

---

**Рекомендації для подальшого вивчення**:

- Практикуйтеся з реальними наборами даних.
- Ознайомтеся з документацією бібліотек, таких як scikit-learn.
- Вивчайте додаткові алгоритми та методи, такі як нейронні мережі.