### План створення контенту для заняття

#### **Тема 4. Заняття 4. Оцінка точності та налаштування гіперпараметрів моделі**

---

### **1. Методи оцінки точності моделі**

#### **Теоретичний матеріал**
1. Основні поняття:
   - Тренувальна, валідаційна, та тестова вибірки.
   - Метричні показники оцінки точності: 
     - `Accuracy`, `Precision`, `Recall`, `F1-score`.
     - Для регресійних моделей: `Mean Absolute Error (MAE)`, `Mean Squared Error (MSE)`, `R²`.
   - Перехресна перевірка (Cross-validation).
   


### **Основні поняття: Оцінка точності моделі**

#### **1. Тренувальна, валідаційна та тестова вибірки**
- **Тренувальна вибірка** — це частина даних, яка використовується для навчання моделі. Модель аналізує ці дані, щоб знайти закономірності між вхідними значеннями (факторами) та вихідними (результатами). Зазвичай ця вибірка складає 60–80% від загального набору даних.
  
- **Валідаційна вибірка** використовується для перевірки продуктивності моделі під час її налаштування. Наприклад, якщо ви змінюєте параметри моделі, валідаційна вибірка допоможе оцінити, чи покращується її робота. Вона допомагає уникнути перенавчання, коли модель запам’ятовує лише тренувальні дані, але не може працювати з новими.

- **Тестова вибірка** використовується на завершальному етапі для оцінки того, наскільки добре модель може передбачати результати на нових даних, які вона не бачила під час навчання. Це своєрідний фінальний іспит для моделі.

---

#### **2. Метричні показники оцінки точності**

##### **Для класифікаційних моделей:**
- **Точність (Accuracy):**  
  Показує, яку частку передбачень модель зробила правильно, порівнюючи їх із реальними значеннями. Це базова метрика, яка добре працює, якщо всі класи мають однакову важливість.

- **Прецизійність (Precision):**  
  Показує, наскільки передбачення моделі позитивного класу є правильними. Ця метрика корисна, коли важливо мінімізувати хибнопозитивні передбачення, наприклад, у випадках діагностики хвороб.

- **Повнота (Recall):**  
  Відображає, наскільки модель добре знаходить всі реальні позитивні випадки. Це важливо, коли критичніше зменшити кількість хибнонегативних передбачень, наприклад, при виявленні шахрайства.

- **F1-міра:**  
  Є балансом між прецизійністю та повнотою. Використовується, коли важливо враховувати обидві метрики, особливо якщо дані є незбалансованими (наприклад, один клас зустрічається значно частіше за інший).

##### **Для регресійних моделей:**
- **Середня абсолютна помилка (MAE):**  
  Це середній розмір відхилення передбачень від реальних значень. Ця метрика легко інтерпретується, оскільки вимірюється в тих самих одиницях, що й дані.

- **Середня квадратична помилка (MSE):**  
  Показує середній розмір відхилення, але більше "штрафує" великі помилки. Це робить її корисною, якщо великі відхилення мають важливе значення.

- **Коефіцієнт детермінації (R²):**  
  Оцінює, наскільки добре модель пояснює зміни в даних. Значення, близьке до 1, означає, що модель дуже добре відображає дані.

---

#### **3. Перехресна перевірка (Cross-validation)**
Це метод, який дозволяє оцінити якість моделі, використовуючи весь набір даних більш ефективно. Замість того, щоб фіксувати одну частину для навчання, а іншу для тестування, дані розділяються на кілька груп (підмножин). Модель навчається на частині цих підмножин, а перевіряється на решті. Цей процес повторюється кілька разів, що дає середній показник точності.

---

#### **Практична користь цих понять**
Ці методи та метрики дозволяють визначити:
- Наскільки добре модель працює на різних етапах.
- Як уникнути проблеми перенавчання.
- Як підібрати параметри для досягнення найкращих результатів.

2. Приклади використання:
   - Розділення даних на навчальні та тестові за допомогою `train_test_split`.
   - Використання функцій з бібліотеки `sklearn` для оцінки точності.

#### **Код для прикладу**
**Приклад на основі датасету з Kaggle: "Iris Dataset"**

```python
# Імпорт бібліотек
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Завантаження даних
url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
data = pd.read_csv(url)

# Підготовка даних
X = data.drop('species', axis=1)
y = data['species']

# Розділення на тренувальні та тестові вибірки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Побудова моделі
model = RandomForestClassifier(random_state=42, n_estimators = 50)
model.fit(X_train, y_train)

# Оцінка точності
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

# Перехресна перевірка
cv_scores = cross_val_score(model, X, y, cv=5)
print("Cross-Validation Accuracy:", cv_scores.mean())
```



---

### **2. Методи налаштування гіперпараметрів моделі**

#### **Теоретичний матеріал**
1. **Методи налаштування:**
   - Ручний підбір (Manual Search).
   - Сітковий пошук (Grid Search).
   - Випадковий пошук (Random Search).
   - Адаптивні методи (Bayesian Optimization, Hyperopt, Optuna).

2. Приклади гіперпараметрів:
   - `n_estimators`, `max_depth`, `learning_rate` для `RandomForest` або `XGBoost`.

3. Бібліотеки для автоматизації пошуку:
   - `GridSearchCV`, `RandomizedSearchCV` з `sklearn`.

#### **Код для прикладу**
**Налаштування гіперпараметрів для `RandomForest`**

```python
from sklearn.model_selection import GridSearchCV

# Задаємо сітку параметрів
param_grid = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}

# Налаштування гіперпараметрів
grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42),
                           param_grid=param_grid, cv=5, scoring='accuracy')

grid_search.fit(X_train, y_train)

# Виведення найкращих параметрів
print("Best Parameters:", grid_search.best_params_)

# Оцінка точності з оптимальними параметрами
best_model = grid_search.best_estimator_
y_pred_optimized = best_model.predict(X_test)
print("Optimized Accuracy:", accuracy_score(y_test, y_pred_optimized))
```

---

### **Практичне завдання**
1. **Обрати простий набір даних з Kaggle (наприклад, "Iris Dataset").**
2. **Виконати наступні кроки:**
   - Розділити дані на тренувальну та тестову вибірки.
   - Побудувати базову модель та оцінити її точність за допомогою метрик (`accuracy`, `F1-score`).
   - Провести перехресну перевірку (Cross-validation).
   - Використати `GridSearchCV` або `RandomizedSearchCV` для налаштування гіперпараметрів моделі.
   - Порівняти результати до та після налаштування гіперпараметрів.

3. **Оформити результати у вигляді звіту (включити графіки точності та таблиці параметрів).**

---

### **Вихідний файл**
Готовий `.ipynb` файл створено для завантаження та використання під час заняття.


Результати аналізу:

1. **Точність базової моделі:**
   - Точність на тестовій вибірці: **1.0 (100%)**.
   - Перехресна перевірка: **1.0 (100%)**.
   - Звіт по метриках: точність, повнота і F1-міра також становлять 1.0.

2. **Налаштовані параметри:**
   - `max_depth`: `None` (без обмежень).
   - `min_samples_split`: `2` (мінімум 2 зразки для поділу вузла).
   - `n_estimators`: `10` (кількість дерев у моделі).

3. **Точність моделі після налаштування гіперпараметрів:**
   - Оптимізована точність: **1.0 (100%)**.

Ці результати були досягнуті на невеликій локальній вибірці для демонстрації. В реальних умовах рекомендується використовувати більший набір даних для точнішої оцінки. Готовий `.ipynb` файл з усіма кроками буде збережений для подальшого використання.

