# Лабораторная работа №3 - Оптимизация гиперпараметров.

> **Исполнил:** Гимазетдинов Дмитрий, М8О-109СВ-24;

> **Тип:** Хвост 1 семестр.

# Задание:

- [X] С помощью optuna взять пример, аналогичный третьему туториалу документации, используя sklearn и с другим датасетом, выбрать другие алгоритмы классификации и клстеризации не из туториала и визуализировать графики для полученного процесса.
    - [X] В качестве других моделей подойдут любые алгоритмы классификации и регрессии из sklearn которые не использовались в туториале.
- [X] Использовать 2 разных семплера и прунера.
- [X] При процессе оптимизации гиперпараметров использовать общую память через postgreSQL.
- [X] В качестве отчёта выступают: исходный код, инструкция запуска реляционной БД.

# Выводы

### **1. Оптимизация гиперпараметров для классификации**
- **Целевая функция**: `classification_objective` оптимизирует гиперпараметры модели случайного леса (`RandomForestClassifier`) для классификации набора данных `wine`.
- **Гиперпараметры**:
  - `n_estimators`: количество деревьев в случайном лесе (диапазон от 10 до 100).
  - `max_depth`: максимальная глубина деревьев (диапазон от 2 до 20).
- **Метрика**: Точность (`accuracy`) на валидационной выборке.
- **Оптимизация**:
  - Используется `TPESampler` для интеллектуального подбора гиперпараметров.
  - Применяется `SuccessiveHalvingPruner` для ранней остановки неудачных испытаний.
  - Результаты сохраняются в `STORAGE_URL` для последующего анализа.

### **2. Оптимизация гиперпараметров для кластеризации**
- **Целевая функция**: `clustering_objective` оптимизирует гиперпараметры модели кластеризации (`KMeans`) для набора данных `iris`.
- **Гиперпараметр**:
  - `n_clusters`: количество кластеров (диапазон от 2 до 10).
- **Метрика**: Силуэтный коэффициент (`silhouette_score`), который оценивает качество кластеризации.
- **Оптимизация**:
  - Используется `RandomSampler` для случайного подбора гиперпараметров.
  - Применяется `HyperbandPruner` для ранней остановки неудачных испытаний.
  - Результаты также сохраняются в `STORAGE_URL`.

### **3. Анализ графиков**

![4.png](results/4.png)
![3.png](results/3.png)
![2.png](results/2.png)
![1.png](results/1.png)


#### **График истории оптимизации (Optimization History Plot)**
- На графике показано, как изменялось значение целевой функции (точность или силуэтный коэффициент) в зависимости от количества испытаний (`trials`).
- **Выводы**:
  - Для классификации точность достигает значений около 0.99, что указывает на высокое качество модели.
  - Для кластеризации значение силуэтного коэффициента ниже, что может указывать на более сложную задачу или необходимость дальнейшей оптимизации.

#### **График важности гиперпараметров (Hyperparameter Importances)**
- На графике показана важность каждого гиперпараметра для достижения лучшего результата.
- **Выводы**:
  - Для классификации важность `n_estimators` выше, чем `max_depth`, что указывает на большее влияние количества деревьев на точность модели.
  - Для кластеризации важность `n_clusters` может варьироваться, но, скорее всего, это ключевой параметр для качества кластеризации.

### **4. Общие выводы**
- **Классификация**:
  - Модель случайного леса показывает высокую точность на валидационной выборке.
  - Оптимизация гиперпараметров с использованием Optuna эффективна для этой задачи.
- **Кластеризация**:
  - Качество кластеризации зависит от выбора количества кластеров.
  - Оптимизация помогает найти лучшее значение `n_clusters`, но силуэтный коэффициент может быть ниже, чем точность в задаче классификации.


# Импорт библиотек

In [17]:
import optuna
from optuna.samplers import RandomSampler, TPESampler
from optuna.pruners import SuccessiveHalvingPruner, HyperbandPruner
import sklearn.datasets
import sklearn.model_selection
from sklearn.ensemble import RandomForestClassifier
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score, silhouette_score
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Подключаемся к БД

In [18]:
STORAGE_URL='postgresql://optuna:assword@localhost:5445/optuna_db'

# Классификация

Принцип работы Optuna

### **1. Загрузка данных**
```python
dataset = sklearn.datasets.load_wine()
X, y = dataset.data, dataset.target
```
- Загружается встроенный датасет `wine` из библиотеки `sklearn.datasets`. Этот датасет содержит информацию о винах и их классификацию на три класса.
- `X` — это матрица признаков (features), где каждая строка представляет собой одно наблюдение, а каждый столбец — признак.
- `y` — это вектор целевых значений (labels), содержащий классы для каждого наблюдения.

---

### **2. Разделение данных на обучающую и валидационную выборки**
```python
train_x, valid_x, train_y, valid_y = sklearn.model_selection.train_test_split(
    X, y, test_size=0.25, random_state=42
)
```
- Данные разделяются на обучающую (`train_x`, `train_y`) и валидационную (`valid_x`, `valid_y`) выборки.
- `test_size=0.25` означает, что 25% данных будут использоваться для валидации, а 75% — для обучения.
- `random_state=42` фиксирует случайное разбиение для воспроизводимости результатов.

---

### **3. Подбор гиперпараметров с помощью Optuna**
```python
n_estimators = trial.suggest_int("n_estimators", 10, 100)
max_depth = trial.suggest_int("max_depth", 2, 20)
```
- Optuna использует объект `trial` для подбора гиперпараметров.
- `n_estimators` — количество деревьев в случайном лесе. Optuna будет подбирать значение в диапазоне от 10 до 100.
- `max_depth` — максимальная глубина каждого дерева. Optuna будет подбирать значение в диапазоне от 2 до 20.

---

### **4. Создание и обучение модели**
```python
clf = RandomForestClassifier(n_estimators=n_estimators, max_depth=max_depth, random_state=69420)
clf.fit(train_x, train_y)
```
- Создается модель `RandomForestClassifier` (случайный лес) с подобранными гиперпараметрами.
- Модель обучается на обучающей выборке (`train_x`, `train_y`).

---

### **5. Предсказание и оценка точности**
```python
pred = clf.predict(valid_x)
accuracy = accuracy_score(valid_y, pred)
```
- Модель делает предсказания для валидационной выборки (`valid_x`).
- Вычисляется точность (`accuracy`) — доля правильных предсказаний на валидационной выборке.

---

### **6. Возврат точности**
```python
return accuracy
```
- Функция возвращает значение точности, которое Optuna будет использовать для оптимизации гиперпараметров.

---

### **Как это работает в Optuna?**
Optuna будет многократно вызывать функцию `classification_objective`, подбирая разные значения гиперпараметров (`n_estimators` и `max_depth`), чтобы максимизировать точность (`accuracy`). Это пример **гиперпараметрической оптимизации**.

In [19]:
def classification_objective(trial):
    dataset = sklearn.datasets.load_wine()
    X, y = dataset.data, dataset.target
    train_x, valid_x, train_y, valid_y = sklearn.model_selection.train_test_split(
        X, y, test_size=0.25, random_state=42
    )

    n_estimators = trial.suggest_int("n_estimators", 10, 100)
    max_depth = trial.suggest_int("max_depth", 2, 20)

    clf = RandomForestClassifier(n_estimators=n_estimators, max_depth=max_depth, random_state=69420)

    clf.fit(train_x, train_y)
    pred = clf.predict(valid_x)
    accuracy = accuracy_score(valid_y, pred)
    return accuracy

In [20]:
def clustering_objective(trial):
    dataset = sklearn.datasets.load_iris()
    X = dataset.data
    X = StandardScaler().fit_transform(X)

    n_clusters = trial.suggest_int("n_clusters", 2, 10)
    kmeans = KMeans(n_clusters=n_clusters, random_state=42)

    kmeans.fit(X)
    score = silhouette_score(X, kmeans.labels_)
    return score

In [21]:
study_clf = optuna.create_study(
    direction="maximize",
    sampler=TPESampler(),
    pruner=SuccessiveHalvingPruner(),
    storage=STORAGE_URL,
    study_name="classification_study",
    load_if_exists=True,
)
study_clf.optimize(classification_objective, n_trials=100)

[I 2025-02-28 11:11:10,573] Using an existing study with name 'classification_study' instead of creating a new one.
[I 2025-02-28 11:11:10,811] Trial 50 finished with value: 1.0 and parameters: {'n_estimators': 69, 'max_depth': 13}. Best is trial 0 with value: 1.0.
[I 2025-02-28 11:11:10,975] Trial 51 finished with value: 1.0 and parameters: {'n_estimators': 49, 'max_depth': 8}. Best is trial 0 with value: 1.0.
[I 2025-02-28 11:11:11,149] Trial 52 finished with value: 1.0 and parameters: {'n_estimators': 62, 'max_depth': 9}. Best is trial 0 with value: 1.0.
[I 2025-02-28 11:11:11,330] Trial 53 finished with value: 1.0 and parameters: {'n_estimators': 57, 'max_depth': 14}. Best is trial 0 with value: 1.0.
[I 2025-02-28 11:11:11,484] Trial 54 finished with value: 1.0 and parameters: {'n_estimators': 46, 'max_depth': 4}. Best is trial 0 with value: 1.0.
[I 2025-02-28 11:11:11,675] Trial 55 finished with value: 1.0 and parameters: {'n_estimators': 64, 'max_depth': 6}. Best is trial 0 with 

In [22]:
study_clustering = optuna.create_study(
    direction="maximize",
    sampler=RandomSampler(),
    pruner=HyperbandPruner(),
    storage=STORAGE_URL,
    study_name="clustering_study",
    load_if_exists=True,
)
study_clustering.optimize(clustering_objective, n_trials=100)

[I 2025-02-28 11:11:28,872] Using an existing study with name 'clustering_study' instead of creating a new one.
[I 2025-02-28 11:11:29,006] Trial 50 finished with value: 0.3339432304006177 and parameters: {'n_clusters': 6}. Best is trial 4 with value: 0.5817500491982808.
[I 2025-02-28 11:11:29,096] Trial 51 finished with value: 0.4798814508199817 and parameters: {'n_clusters': 3}. Best is trial 4 with value: 0.5817500491982808.
[I 2025-02-28 11:11:29,184] Trial 52 finished with value: 0.2664290993719981 and parameters: {'n_clusters': 7}. Best is trial 4 with value: 0.5817500491982808.
[I 2025-02-28 11:11:29,279] Trial 53 finished with value: 0.33540615043919825 and parameters: {'n_clusters': 10}. Best is trial 4 with value: 0.5817500491982808.
[I 2025-02-28 11:11:29,377] Trial 54 finished with value: 0.32439914389835445 and parameters: {'n_clusters': 9}. Best is trial 4 with value: 0.5817500491982808.
[I 2025-02-28 11:11:29,461] Trial 55 finished with value: 0.34503345350274617 and par

In [23]:
optuna.visualization.plot_optimization_history(study_clf).show()

In [24]:
optuna.visualization.plot_param_importances(study_clf).show()

In [25]:
optuna.visualization.plot_optimization_history(study_clustering).show()

In [26]:
optuna.visualization.plot_param_importances(study_clustering).show()