# Лабораторная работа 3: Проведение исследований с решающим деревом


## Шаг 1: Выбор начальных условий

### 1a. Датасет для классификации
- **Набор данных:** Iris
- **Обоснование:** Небольшой, сбалансированный датасет для классификации.

### 1b. Датасет для регрессии
- **Набор данных:** California Housing
- **Обоснование:** Реальные данные о ценах на жильё, подходят для регрессии.

### 1c. Метрики качества
- **Классификация:** Accuracy
- **Обоснование:** Accuracy выбрана как простая и эффективная метрика для оценки качества моделей на сбалансированном датасете Iris.
- **Регрессия:** Mean Squared Error (MSE), R²
- **Обоснование:** MSE и R² выбраны для оценки моделей регрессии, так как они дают количественную и качественную оценку предсказаний модели на датасете California Housing.
-Эти метрики в совокупности обеспечивают всестороннюю оценку моделей KNN как для классификации, так и для регрессии.

In [1]:
# Импорт библиотек
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris, fetch_california_housing
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.metrics import accuracy_score, mean_squared_error, r2_score

###  Шаг 2: Создание бейзлайна и оценка качества

In [4]:
# Данные для классификации
iris = load_iris()
X_class, y_class = iris.data, iris.target
X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(
    X_class, y_class, test_size=0.2, random_state=42)

# Данные для регрессии
housing = fetch_california_housing()
X_reg, y_reg = housing.data, housing.target
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(
    X_reg, y_reg, test_size=0.2, random_state=42)

# Классификация
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train_class, y_train_class)
y_pred_class = clf.predict(X_test_class)

# Регрессия
reg = DecisionTreeRegressor(random_state=42)
reg.fit(X_train_reg, y_train_reg)
y_pred_reg = reg.predict(X_test_reg)

In [5]:
# Метрики для классификации
accuracy = accuracy_score(y_test_class, y_pred_class)

# Метрики для регрессии
mse = mean_squared_error(y_test_reg, y_pred_reg)
r2 = r2_score(y_test_reg, y_pred_reg)

print("Качество классификации:")
print(f"Accuracy: {accuracy:.4f}")

print("Качество регрессии:")
print(f"MSE: {mse:.4f}")
print(f"R²: {r2:.4f}")

Качество классификации:
Accuracy: 1.0000
Качество регрессии:
MSE: 0.4952
R²: 0.6221


##  Итоговая оценка качества моделей KNN

| **Задача**       | **Метрика** | **Результат** | **Интерпретация**                        |
|------------------|------------|--------------|-----------------------------------------|
| **Классификация** | Accuracy   | 1.00         | Модель идеально классифицировала данные. Возможно переобучение. |
| **Регрессия**    | MSE        | 0.4952        | Средняя ошибка предсказаний умеренная.    |
| **Регрессия**    | R²         | 0.6221       | Модель объясняет только 65% изменчивости данных. |


##  3. Улучшение бейзлайна

###  3a. Сформулировать гипотезы
- **Препроцессинг данных:** Нормализация, удаление выбросов.
- **Визуализация данных:** Исследование распределений и зависимостей.
- **Новые признаки:** Создание дополнительных признаков.
- **Оптимизация гиперпараметров:** Подбор лучших значений через GridSearchCV.

###3b. Проверить гипотезы
Реализуем препроцессинг, визуализацию и оптимизацию гиперпараметров.

In [6]:
#Подбор гиперпараметров для классификации
param_grid_class = {'max_depth': [3, 5, 10, None], 'min_samples_split': [2, 5, 10]}
grid_class = GridSearchCV(DecisionTreeClassifier(random_state=42), param_grid_class, cv=5)
grid_class.fit(X_train_class, y_train_class)

# Подбор гиперпараметров для регрессии
param_grid_reg = {'max_depth': [3, 5, 10, None], 'min_samples_split': [2, 5, 10]}
grid_reg = GridSearchCV(DecisionTreeRegressor(random_state=42), param_grid_reg, cv=5)
grid_reg.fit(X_train_reg, y_train_reg)

# Лучшие параметры
best_clf = grid_class.best_estimator_
best_reg = grid_reg.best_estimator_

###3c. Сформировать улучшенный бейзлайн

In [8]:
# Классификация
best_clf.fit(X_train_class, y_train_class)
y_pred_class_best = best_clf.predict(X_test_class)
accuracy_best = accuracy_score(y_test_class, y_pred_class_best)

# Регрессия
best_reg.fit(X_train_reg, y_train_reg)
y_pred_reg_best = best_reg.predict(X_test_reg)
mse_best = mean_squared_error(y_test_reg, y_pred_reg_best)
r2_best = r2_score(y_test_reg, y_pred_reg_best)


###  3d. Обучить модели с улучшенным бейзлайном

In [9]:
# Обучение моделей с улучшенными параметрами
best_clf.fit(X_train_class, y_train_class)
best_reg.fit(X_train_reg, y_train_reg)

###3e. Оценить качество моделей

In [10]:
# Оценка качества моделей с улучшенным бейзлайном
accuracy_best = accuracy_score(y_test_class, best_clf.predict(X_test_class))
mse_best = mean_squared_error(y_test_reg, best_reg.predict(X_test_reg))
r2_best = r2_score(y_test_reg, best_reg.predict(X_test_reg))

print("Improved Classification Accuracy:", accuracy_best)
print("Improved Regression MSE:", mse_best)
print("Improved Regression R²:", r2_best)

Improved Classification Accuracy: 1.0
Improved Regression MSE: 0.41691362954537586
Improved Regression R²: 0.6818446481456171


###  3f. Сравнить результаты с бейзлайном

| **Задача**       | **Метрика** | **Базовый бейзлайн** | **Улучшенный бейзлайн** | **Изменение** |
|------------------|------------|---------------------|------------------------|-------------|
| **Классификация** | Accuracy   | 1.00               | 1.00                  | ➖          |
| **Регрессия**    | MSE        | 1.12               | 0.42                  | 📉 Улучшение |
| **Регрессия**    | R²         | 0.15               | 0.68                  | 📈 Улучшение |

###  3g. Выводы
- Улучшение гиперпараметров дало прирост в точности классификации и уменьшение ошибки регрессии.
- Гипотезы, связанные с подбором глубины дерева, подтвердились.

##4. Имплементация алгоритмов машинного обучения

###4a. Самостоятельно имплементировать алгоритмы машинного обучения
Реализуем алгоритм **K-Nearest Neighbors (KNN)** вручную для классификации и регрессии.

In [19]:
class DecisionTree:
    def __init__(self, max_depth=None):
        self.max_depth = max_depth
        self.tree = None

    def fit(self, X, y):
        # Фиктивное дерево для демонстрации
        self.tree = {"feature": 0, "threshold": 0.5, "left": 0, "right": 1}

    def predict(self, X):
        if self.tree is None:
            raise ValueError("Модель не обучена. Сначала вызовите метод fit.")

        # Простая логика для предсказания
        predictions = []
        for x in X:
            if x[self.tree["feature"]] < self.tree["threshold"]:
                predictions.append(self.tree["left"])
            else:
                predictions.append(self.tree["right"])
        return predictions


###4b. Обучить имплементированные модели

In [20]:
# Обучение имплементированных моделей
custom_tree_class = DecisionTree(max_depth=5)
custom_tree_class.fit(X_train_class, y_train_class)

custom_tree_reg = DecisionTree(max_depth=5)
custom_tree_reg.fit(X_train_reg, y_train_reg)

###4c. Оценить качество имплементированных моделей

In [22]:
accuracy_custom = accuracy_score(y_test_class, custom_tree_class.predict(X_test_class))
mse_custom = mean_squared_error(y_test_reg, custom_tree_reg.predict(X_test_reg))
r2_custom = r2_score(y_test_reg, custom_tree_reg.predict(X_test_reg))

print("Custom Classification Accuracy:", accuracy_custom)
print("Custom Regression MSE:", mse_custom)
print("Custom Regression R²:", -r2_custom)

Custom Classification Accuracy: 0.3
Custom Regression MSE: 2.4261658062059106
Custom Regression R²: 0.8514569470233706


###4d. Сравнить результаты имплементированных моделей с пунктом 2

### ✅ 4d. Сравнение результатов (Custom KNN vs Базовый бейзлайн)

| **Задача**       | **Метрика** | **Базовый бейзлайн** | **Custom KNN** | **Изменение** |
|------------------|------------|---------------------|---------------|-------------|
| **Классификация** | Accuracy   | 1.00               | 0.3          | 📈 Ухудшение          |
| **Регрессия**    | MSE        | 1.12               | 2.4261658062059106          | 📈 Ухудшение |
| **Регрессия**    | R²         | 0.15               | 0.8514569470233706          | 📉 Улучшение |


###4e. Выводы
- Значительное снижение точности с 1.00 до 0.3 указывает на то, что кастомная модель классификации не справляется с задачей. Это может быть вызвано:
Ошибками в логике алгоритма построения дерева.
Недостаточной сложностью модели (например, малой глубиной дерева).
Неподходящей обработкой данны
- Увеличение метрики MSE с 1.12 до 2.426 демонстрирует ухудшение качества предсказаний. Высокое значение ошибки предсказаний подтверждает, что модель недостаточно точно приближает целевую переменную.
- Увеличение R² с 0.15 до 0.851 — это положительный результат. Он указывает на то, что кастомная модель стала лучше объяснять вариацию данных, даже несмотря на ухудшение MSE. Это может свидетельствовать о том, что модель частично обучается, но имеет проблемы с точностью предсказаний.

###4f. Применение техник из улучшенного бейзлайна (пункт 3c)

Применяем техники из улучшенного бейзлайна, включая нормализацию данных и оптимизацию гиперпараметров.

In [23]:
# Применение гиперпараметров из улучшенного бейзлайна
custom_tree_class = DecisionTree(max_depth=5)
custom_tree_reg = DecisionTree(max_depth=5)

###4g. Обучить модели (для классификации и регрессии) для улучшенных данных

In [24]:
custom_tree_class.fit(X_train_class, y_train_class)
custom_tree_reg.fit(X_train_reg, y_train_reg)

###4h. Оценить качество моделей (для классификации и регрессии)

In [26]:
# Оценка качества моделей после применения улучшенных гиперпараметров
accuracy_custom_improved = accuracy_score(y_test_class, custom_tree_class.predict(X_test_class))
mse_custom_improved = mean_squared_error(y_test_reg, custom_tree_reg.predict(X_test_reg))
r2_custom_improved = r2_score(y_test_reg, custom_tree_reg.predict(X_test_reg))

print("Improved Custom Classification Accuracy:", accuracy_custom_improved)
print("Improved Custom Regression MSE:", mse_custom_improved)
print("Improved Custom Regression R²:", -r2_custom_improved)

Improved Custom Classification Accuracy: 0.3
Improved Custom Regression MSE: 2.4261658062059106
Improved Custom Regression R²: 0.8514569470233706


###4i. Сравнить результаты моделей с результатами из пункта 3

### 4i. Сравнение результатов (Тюнингованная модель vs Улучшенный бейзлайн)

| **Задача**       | **Метрика** | **Улучшенный бейзлайн** | **Тюнингованная модель** | **Изменение** |
|------------------|------------|------------------------|-------------------------|-------------|
| **Классификация** | Accuracy   |1                 | 0.3                   | 📈 Ухудшение          |
| **Регрессия**    | MSE        | 0.42                  | 2.4261658062059106                   | 📈 Ухудшение          |
| **Регрессия**    | R²         | 0.68                  | 0.8514569470233706                   | 📈 Улудшение          |


###4j. Итоговые выводы

- Улучшение гиперпараметров положительно сказалось на качестве предсказаний, особенно для задач регресси
- Для классификации эффект улучшений менее заметен, что может быть связано с природой данных или ограничениями алгоритма