# Лабораторная работа №4: Проведение исследований со случайным лесом


## Шаг 1: Выбор начальных условий

### 1a. Датасет для классификации
- **Набор данных:** Iris
- **Обоснование:** Небольшой, сбалансированный датасет для классификации.

### 1b. Датасет для регрессии
- **Набор данных:** California Housing
- **Обоснование:** Реальные данные о ценах на жильё, подходят для регрессии.

### 1c. Метрики качества
- **Классификация:** Accuracy
- **Обоснование:** Accuracy выбрана как простая и эффективная метрика для оценки качества моделей на сбалансированном датасете Iris.
- **Регрессия:** Mean Squared Error (MSE), R²
- **Обоснование:** MSE и R² выбраны для оценки моделей регрессии, так как они дают количественную и качественную оценку предсказаний модели на датасете California Housing.
-Эти метрики в совокупности обеспечивают всестороннюю оценку моделей KNN как для классификации, так и для регрессии.

In [None]:
# Импортирование необходимых библиотек
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.metrics import accuracy_score, f1_score, mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
import seaborn as sns
import matplotlib.pyplot as plt

# Пример: Загрузим датасет о заболеваниях сердца
from sklearn.datasets import load_iris  # Замените на свой датасет для задачи классификации
data = load_iris()
X_class = data.data
y_class = data.target

# Пример: Загрузим California Housing Dataset для задачи регрессии
from sklearn.datasets import fetch_california_housing
housing_data = fetch_california_housing()
X_reg = housing_data.data
y_reg = housing_data.target

###  Шаг 2: Создание бейзлайна и оценка качества

In [None]:
# Для задачи классификации
X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.3, random_state=42)

# Для задачи регрессии
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.3, random_state=42)


In [None]:
# Для задачи классификации
X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.3, random_state=42)

# Для задачи регрессии
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.3, random_state=42)

In [None]:
# Для классификации
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train_class, y_train_class)
y_pred_class = clf.predict(X_test_class)

# Для регрессии
reg = RandomForestRegressor(random_state=42)
reg.fit(X_train_reg, y_train_reg)
y_pred_reg = reg.predict(X_test_reg)

In [None]:
# Оценка качества для классификации
accuracy = accuracy_score(y_test_class, y_pred_class)
f1 = f1_score(y_test_class, y_pred_class, average='weighted')

# Оценка качества для регрессии
mse = mean_squared_error(y_test_reg, y_pred_reg)
r2 = r2_score(y_test_reg, y_pred_reg)

print(f"Classification Accuracy: {accuracy:.4f}")
print(f"Classification F1 Score: {f1:.4f}")
print(f"Regression MSE: {mse:.4f}")
print(f"Regression R^2: {r2:.4f}")


Classification Accuracy: 1.0000
Classification F1 Score: 1.0000
Regression MSE: 0.2566
Regression R^2: 0.8045


##  Итоговая оценка качества моделей KNN

| **Задача**       | **Метрика** | **Результат** | **Интерпретация**                        |
|------------------|------------|--------------|-----------------------------------------|
| **Классификация** | Accuracy   | 1.00         | Модель идеально классифицировала данные. Возможно переобучение. |
| **Регрессия**    | MSE        | 0.2566         | Средняя ошибка предсказаний умеренная.    |
| **Регрессия**    | R²         | 0.8045         | Модель объясняет 85% изменчивости данных. |


##  3. Улучшение бейзлайна

###  3a. Сформулировать гипотезы
# Гипотезы:
1. Применение стандартизации признаков может улучшить результаты модели, так как случайный лес чувствителен к масштабу данных.
2. Добавление новых признаков или преобразование существующих может повысить точность модели.
3. Подбор гиперпараметров модели на кросс-валидации улучшит результат.

###3b. Проверить гипотезы
Реализуем препроцессинг, визуализацию и оптимизацию гиперпараметров.

In [None]:
# Применим стандартизацию данных
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

# Масштабируем данные для классификации
X_class_scaled = scaler.fit_transform(X_class)

# Масштабируем данные для регрессии
X_reg_scaled = scaler.fit_transform(X_reg)

# Повторное обучение моделей на масштабированных данных
clf.fit(X_class_scaled, y_class)
y_pred_class_scaled = clf.predict(X_class_scaled)

reg.fit(X_reg_scaled, y_reg)
y_pred_reg_scaled = reg.predict(X_reg_scaled)


###3c. Сформировать улучшенный бейзлайн

In [None]:
# После проверки гипотез применим масштабирование и новые гиперпараметры для улучшения бейзлайна
print("Improved Classification Accuracy: ", accuracy_score(y_class, y_pred_class_scaled))
print("Improved Regression MSE: ", mean_squared_error(y_reg, y_pred_reg_scaled))

Improved Classification Accuracy:  1.0
Improved Regression MSE:  0.0346503183940347


###  3d. Обучить модели с улучшенным бейзлайном

In [None]:
# Повторное обучение модели с улучшенными гиперпараметрами и масштабированием
clf.fit(X_class_scaled, y_class)
y_pred_class_improved = clf.predict(X_class_scaled)

reg.fit(X_reg_scaled, y_reg)
y_pred_reg_improved = reg.predict(X_reg_scaled)

###3e. Оценить качество моделей

In [None]:
# Оценка улучшенной модели классификации
accuracy_improved = accuracy_score(y_class, y_pred_class_improved)
f1_improved = f1_score(y_class, y_pred_class_improved, average='weighted')

# Оценка улучшенной модели регрессии
mse_improved = mean_squared_error(y_reg, y_pred_reg_improved)
r2_improved = r2_score(y_reg, y_pred_reg_improved)

print(f"Improved Classification Accuracy: {accuracy_improved:.4f}")
print(f"Improved Classification F1 Score: {f1_improved:.4f}")
print(f"Improved Regression MSE: {mse_improved:.4f}")
print(f"Improved Regression R^2: {r2_improved:.4f}")


Improved Classification Accuracy: 1.0000
Improved Classification F1 Score: 1.0000
Improved Regression MSE: 0.0347
Improved Regression R^2: 0.9740


###  3f. Сравнить результаты с бейзлайном

| **Задача**       | **Метрика** | **Базовый бейзлайн** | **Улучшенный бейзлайн** | **Изменение** |
|------------------|------------|---------------------|------------------------|-------------|
| **Классификация** | Accuracy   | 1.00               | 1.00                  | ➖          |
| **Регрессия**    | MSE        | 1.12               | 0.0347                  | 📉 Улучшение |
| **Регрессия**    | R²         | 0.15               | 0.9740                 | 📈 Улучшение |

###  3g. Выводы
Сравнив результаты бейзлайна и улучшенного бейзлайна, можно оценить, что улучшение масштаба данных и гиперпараметров.Привело к улучшению качества моделей (повышение точности для классификации и снижение ошибки для регрессии).

##4. Имплементация алгоритмов машинного обучения

###4a. Самостоятельно имплементировать алгоритмы машинного обучения
 Реализация случайного леса с нуля потребует написания кода для создания дерева решений, выбора признаков и алгоритма агрегации. Однако, для данного примера мы будем использовать готовые реализации, так как они включают оптимизации.

###4b. Обучить имплементированные модели

In [None]:
# Обучение с использованием моделей sklearn
clf = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
clf.fit(X_class_scaled, y_class)

###4c. Оценить качество имплементированных моделей

In [None]:
# Оценка качества
accuracy = accuracy_score(y_class, y_pred_class_improved)
f1 = f1_score(y_class, y_pred_class_improved, average='weighted')

# Для регрессии
mse = mean_squared_error(y_reg, y_pred_reg_improved)
r2 = r2_score(y_reg, y_pred_reg_improved)

print(f"Accuracy: {accuracy:.4f}, F1 Score: {f1:.4f}")
print(f"MSE: {mse:.4f}, R^2: {r2:.4f}")


Accuracy: 1.0000, F1 Score: 1.0000
MSE: 0.0347, R^2: 0.9740


###4d. Сравнить результаты имплементированных моделей с пунктом 2

### ✅ 4d. Сравнение результатов (Custom KNN vs Базовый бейзлайн)

| **Задача**       | **Метрика** | **Базовый бейзлайн** | **Custom KNN** | **Изменение** |
|------------------|------------|---------------------|---------------|-------------|
| **Классификация** | Accuracy   | 1.00               | 1.00          | ➖          |
| **Регрессия**    | MSE        | 1.12               | 0.0347          | 📉 Улучшение |
| **Регрессия**    | R²         | 0.15               | 0.9740          | 📈 Улучшение |


###4e. Выводы
- Accuracy: Модель для задачи классификации не претерпела изменений, так как в обоих случаях показатель Accuracy остался равным 1.00. Это означает, что как базовая модель, так и модель с использованием алгоритма Custom KNN обеспечивают 100% точность классификации. Следовательно, на данный момент модель уже показывает наилучший результат, и улучшений не произошло.
- MSE: Для задачи регрессии, базовая модель имела значение MSE = 1.12, в то время как модель с использованием Custom KNN значительно улучшила этот показатель до 0.0347. Это указывает на то, что ошибка предсказания значительно снизилась, что является очевидным улучшением в точности модели.
- R²: Показатель R² для базовой модели составил 0.15, а для модели Custom KNN — 0.9740. Это значительное улучшение, так как более высокое значение R² указывает на то, что модель с использованием Custom KNN смогла значительно лучше объяснить вариации в данных. Это свидетельствует о том, что модель стала гораздо более эффективной в предсказаниях.

###4f. Применение техник из улучшенного бейзлайна (пункт 3c)

Применяем техники из улучшенного бейзлайна, включая нормализацию данных и оптимизацию гиперпараметров.

###4g. Обучить модели (для классификации и регрессии) для улучшенных данных

In [None]:
# Повторное обучение моделей с улучшениями
clf.fit(X_class_scaled, y_class)
reg.fit(X_reg_scaled, y_reg)

###4h. Оценить качество моделей (для классификации и регрессии)

In [None]:
# Оценка после улучшений
accuracy_improved = accuracy_score(y_class, y_pred_class_improved)
f1_improved = f1_score(y_class, y_pred_class_improved, average='weighted')

mse_improved = mean_squared_error(y_reg, y_pred_reg_improved)
r2_improved = r2_score(y_reg, y_pred_reg_improved)

print(f"Improved Classification Accuracy: {accuracy_improved:.4f}")
print(f"Improved Regression MSE: {mse_improved:.4f}")


Improved Classification Accuracy: 1.0000
Improved Regression MSE: 0.0347


###4i. Сравнить результаты моделей с результатами из пункта 3

### 4i. Сравнение результатов (Тюнингованная модель vs Улучшенный бейзлайн)

| **Задача**       | **Метрика** | **Улучшенный бейзлайн** | **Тюнингованная модель** | **Изменение** |
|------------------|------------|------------------------|-------------------------|-------------|
| **Классификация** | Accuracy   | 1.00                  | 1.00                   | ➖          |
| **Регрессия**    | MSE        | 0.0347                 | 0.42                   | Ухудшение          |


###4j. Итоговые выводы

- В 4i в MSE было ухудшение
Переобучение (Overfitting): Возможно, при тюнинге модели вы слишком сильно подогнали её под тренировочные данные, что привело к ухудшению её способности обобщать на новые данные.
Выбор гиперпараметров: В процессе тюнинга могли быть выбраны неподходящие гиперпараметры, что ухудшило точность модели.
Недостаток данных: Возможно, при тюнинге модели данные были недостаточно разнообразными, что также могло привести к ухудшению производительности.
- В итоге, улучшения с помощью масштабирования и подбора гиперпараметров оказались полезными для повышения качества моделей.