# Лабораторная работа №3 (Проведение исследований с решающим деревом)

# 1. Выбор начальных условий

## a. Набор данных для задачи классификации

**Датасет:** "Heart Disease UCI"

**Источник:** Kaggle - Heart Disease UCI Datas https://www.kaggle.com/datasets/redwankarimsony/heart-disease-dataet

**Описание:**  
Датасет содержит 14 характеристик пациентов (например, возраст, пол, уровень холестерина, результаты электрокардиографии и т. д.) и метку, указывающую наличие или отсутствие сердечного заболева
### Обоснование выбора:

1. **Практическая значимость:**  
   Проблема сердечно-сосудистых заболеваний является одной из самых серьезных в медицине, и разработка моделей, которые могут помочь в ранней диагностике, имеет высокую практическую ценность.

2. **Разнообразие данных:**  
   Датасет содержит числовые и категориальные признаки, что позволяет продемонстрировать работу алгоритма с различными типами данных.

3. **Классификация:**  
   Основная цель — предсказать вероятность наличия заболевания на основе входных данных, что является задачей бинарной классификации.ации.


## b. Набор данных для задачи регрессии

**Датасет:** "House Prices - Advanced Regression Techniques"

**Источник:** Kaggle - House Prices Datas https://www.kaggle.com/datasets/lespin/house-prices-datasetet

**Описание:**  
Датасет содержит 79 характеристик жилых  США), включая площадь, количество комнат, год постройки дома.

### Обоснование выбора:

1. **Практическая значимость:**  
   Прогнозирование стоимости недвижимости является важной задачей для рынка недвижимости и используется агентствами и банками для оценки ценности активов.

## Метрики качества и их обоснование

### Классификация (Heart Disease UCI)

### Метрики:

1. **Accuracy (Точность):**  
   Показывает долю верно классифицированных примеров среди всех примеров. Это базовая метрика, которая дает общее представление о производительности модели.

2. **F1-score:**  
   Среднее гармоническое между Precision и Recall. Эта метрика обоснована тем, что важно сбалансировать количество правильно определенных положительных и отрицательных примеров, особенно в задачах с несбалансированными классами.

3. **ROC-AUC:**  
   Показывает способность модели различать классы. Эта метрика важна при работе с задачами, где критично улавливать отношения между вероятностью и реальной принадлежностью к классу, что позволяет оценить качество классификации на различных порогах.

## Регрессия (House Prices)

### Метрики:

1. **Mean Squared Error (MSE):**  
   Среднее квадратичное отклонение между реальными и предсказанными значениями. Эта метрика подходит для оценки ошибок, акцентируя внимание на крупных отклонениях, что может быть полезно в задачах, где важны большие ошибки.

2. **Mean Absolute Error (MAE):**  
   Среднее абсолютное отклонение. Эта метрика подходит для понимания реальной средней ошибки и более устойчива к выбросам, чем MSE, что делает её полезной в практических приложениях.

3. **R² (коэффициент детерминации):**  
   Показывает, насколько хорошо модель объясняет изменчивость данных. Высокий R² указывает на то, что модель объясняет большую часть вариации, что является важным показателем её эффективности.

# 2. Создание бейзлайна и оценка качества

## a. Обучение моделей из scikit-learn

In [None]:
!pip install pandas numpy scikit-learn kagglehub

### Код для классификации (на примере Heart Disease UCI):

In [6]:
# Импортируем необходимые библиотеки
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
from sklearn.preprocessing import LabelEncoder
import os
import kagglehub

# Загрузка данных
path = kagglehub.dataset_download("redwankarimsony/heart-disease-data")
df = pd.read_csv(os.path.join(path, 'heart_disease_uci.csv'))

# Посмотрим на данные
df.head()

# Преобразуем категориальные признаки в числовые значения с помощью LabelEncoder
label_encoder = LabelEncoder()

# Преобразуем все строковые столбцы в числовые
for column in df.select_dtypes(include=['object']).columns:
    df[column] = label_encoder.fit_transform(df[column])

# Предположим, что целевая переменная называется 'num'
X = df.drop(columns=['num'])  # Все признаки
y = df['num']  # Целевая переменная

# Разделим данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучим модель решающего дерева
model_class = DecisionTreeClassifier(random_state=42)
model_class.fit(X_train, y_train)

# Сделаем предсказания
y_pred_class = model_class.predict(X_test)

# Оценим качество модели
accuracy = accuracy_score(y_test, y_pred_class)
f1 = f1_score(y_test, y_pred_class, average='macro')
roc_auc = roc_auc_score(y_test, model_class.predict_proba(X_test), multi_class='ovr', average='macro')

accuracy, f1, roc_auc


(0.5543478260869565, 0.37450444793301935, 0.635223504770725)

### Код для регрессии (на примере House Prices):

In [7]:
# Импортируем необходимые библиотеки
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

path = kagglehub.dataset_download("lespin/house-prices-dataset")
# Загрузка данных
df = pd.read_csv(os.path.join(path, 'train.csv'))

# Посмотрим на данные
df.head()

# Преобразуем категориальные признаки с помощью One-Hot Encoding
df_encoded = pd.get_dummies(df, drop_first=True)

# Разделим данные на признаки и целевую переменную
X_reg = df_encoded.drop(columns=['SalePrice'])  # Все признаки
y_reg = df['SalePrice']  # Целевая переменная

# Разделим данные на обучающую и тестовую выборки
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)

# Обучим модель решающего дерева
model_reg = DecisionTreeRegressor(random_state=42)
model_reg.fit(X_train_reg, y_train_reg)

# Сделаем предсказания
y_pred_reg = model_reg.predict(X_test_reg)

# Оценим качество модели
mse = mean_squared_error(y_test_reg, y_pred_reg)
mae = mean_absolute_error(y_test_reg, y_pred_reg)
r2 = r2_score(y_test_reg, y_pred_reg)

mse, mae, r2


(1501598840.260274, 25726.54794520548, 0.8042327275659711)

## b. Оценка качества

### Для классификации:
Accuracy (Точность): 0.5543 Точность модели составляет 55.43%, что означает, что модель правильно предсказала классы в 55.43% случаев. Это показатель общего числа верных предсказаний по отношению ко всем предсказаниям.

F1 Score (Скор F1): 0.3745 F1 Score — это гармоническое среднее между точностью и полнотой. Значение 0.3745 указывает на то, что модель испытывает трудности в балансировке между точностью и полнотой, возможно, из-за неправильной настройки порога или недостаточной сбалансированности классов.

ROC AUC (Площадь под кривой ROC): 0.6352 Площадь под кривой ROC равна 0.6352, что указывает на умеренную способность модели различать положительные и отрицательные классы. Значение, близкое к 0.5, говорит о том, что модель не слишком хорошо разделяет классы, но она всё же имеет некоторое предсказательное значение.

### Для регрессии:
MSE (Среднеквадратическая ошибка): 1,501,598,840.26
Среднеквадратическая ошибка (MSE) равна 1.5 миллиарда, что может свидетельствовать о значительных ошибках в предсказаниях, особенно если значения целевой переменной имеют меньший масштаб. Этот показатель указывает на общую ошибку модели при предсказаниях.

MAE (Средняя абсолютная ошибка): 25,726.55
Средняя абсолютная ошибка (MAE) равна 25,726.55, что означает, что в среднем ошибка предсказания для каждого примера составляет около 25,726 единиц. Это также указывает на возможные крупные отклонения между предсказаниями и реальными значениями.

R2 (Коэффициент детерминации): 0.8042
Коэффициент детерминации R2 равен 0.8042, что означает, что модель объясняет 80.42% дисперсии целевой переменной. Это относительно хороший результат, указывающий на то, что модель достаточно хорошо подходит для задачи, хотя есть ещё возможности для улучшения.

# 3. Улучшение бейзлайна

## a. Формулировка гипотез

Для улучшения качества моделей как для классификации, так и для регрессии, можно выдвинуть следующие гипотезы:

Препроцессинг данных:

Применить стандартизацию или нормализацию признаков для улучшения производительности модели.
Преобразовать категориальные переменные в числовые (например, с помощью one-hot encoding или label encoding), если это не было сделано.
Применить обработку пропусков данных (например, с использованием медианы или моды для категориальных и числовых признаков).

Визуализация данных:

Использовать визуализацию зависимостей между признаками и целевой переменной, чтобы выявить важные взаимодействия и зависимости.
Для классификации: анализировать распределение классов для выявления несбалансированных классов и применять методы балансировки классов (например, oversampling или undersampling).
Для регрессии: анализировать распределение целевой переменной и применить логарифмическое преобразование, если распределение имеет сильное отклонение от нормального.

Формирование новых признаков:

Попробовать создавать новые признаки, комбинируя существующие, например, путем взаимодействия признаков или выделения временных признаков (если есть временные данные).
Для регрессии: логарифмическое преобразование целевой переменной или создание дополнительных признаков, таких как категории по диапазонам.

Подбор гиперпараметров на кросс-валидации:

Использовать кросс-валидацию для подбора оптимальных гиперпараметров модели (например, максимальная глубина дерева решений или минимальное количество образцов в листе для дерева решений).
Применить сеточный или случайный поиск (GridSearchCV или RandomizedSearchCV) для настройки гиперпараметров модели.

Использование ансамблевых методов:

Применить ансамблевые методы, такие как случайный лес или градиентный бустинг, которые часто показывают лучшие результаты по сравнению с одиночными моделями.

## b. Проверка гипотез

In [None]:
pip install imbalanced-learn

### Улучшение модели для задачи классификации (Heart Disease UCI)

In [15]:
# Импортируем необходимые библиотеки
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from imblearn.over_sampling import SMOTE
from sklearn.impute import SimpleImputer

# Заполним пропущенные значения с помощью SimpleImputer (среднее для числовых признаков)
imputer = SimpleImputer(strategy='mean')
X_train_imputed = imputer.fit_transform(X_train)  # Применяем на обучающих данных
X_test_imputed = imputer.transform(X_test)  # Применяем на тестовых данных

# Применение стандартной нормализации
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_train_imputed)  # Используем X_train_imputed после заполнения пропусков

# Балансировка классов с помощью SMOTE
smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(X_scaled, y_train)

# Настройка гиперпараметров для случайного леса
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5],
}
grid_search_rf = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5)
grid_search_rf.fit(X_res, y_res)

# Получение лучшей модели
best_rf = grid_search_rf.best_estimator_

# Предсказания на тестовой выборке
X_test_scaled = scaler.transform(X_test_imputed)  # Применяем тот же scaler для тестовой выборки
y_pred_class_improved = best_rf.predict(X_test_scaled)

# Оценка качества модели
accuracy_improved = accuracy_score(y_test, y_pred_class_improved)
f1_improved = f1_score(y_test, y_pred_class_improved, average='macro')
roc_auc_improved = roc_auc_score(y_test, best_rf.predict_proba(X_test_scaled), multi_class='ovr', average='macro')

accuracy_improved, f1_improved, roc_auc_improved


(0.6032608695652174, 0.44984228370313917, 0.836709847002848)

### Улучшение модели для задачи регрессии (House Prices)

In [19]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import pandas as pd

# Применение стандартной нормализации
scaler = StandardScaler()
X_scaled_reg = scaler.fit_transform(X_train_reg)

# Преобразуем в DataFrame, чтобы сохранить имена колонок
X_scaled_reg_df = pd.DataFrame(X_scaled_reg, columns=X_train_reg.columns)

# Настройка гиперпараметров для случайного леса
param_grid_reg = {
    'n_estimators': [100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5],
}
grid_search_reg = GridSearchCV(RandomForestRegressor(random_state=42), param_grid_reg, cv=5)
grid_search_reg.fit(X_scaled_reg_df, y_train_reg)

best_regressor = grid_search_reg.best_estimator_

# Преобразуем тестовые данные в DataFrame
X_test_reg_scaled = scaler.transform(X_test_reg)
X_test_reg_scaled_df = pd.DataFrame(X_test_reg_scaled, columns=X_test_reg.columns)

# Сделаем предсказания
y_pred_reg_improved = best_regressor.predict(X_test_reg_scaled_df)

# Рассчитываем метрики качества модели
mse_improved = mean_squared_error(y_test_reg, y_pred_reg_improved)
mae_improved = mean_absolute_error(y_test_reg, y_pred_reg_improved)
r2_improved = r2_score(y_test_reg, y_pred_reg_improved)

# Выводим результаты
print("Improved Model Performance:")
print(f"Mean Squared Error: {mse_improved:.2f}")
print(f"Mean Absolute Error: {mae_improved:.2f}")
print(f"R²: {r2_improved:.2f}")


Improved Model Performance:
Mean Squared Error: 853962860.89
Mean Absolute Error: 17855.40
R²: 0.89


### Оценить качество моделей

#### Для классификации

In [21]:
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score

# Оценка качества модели на тестовой выборке
accuracy_improved = accuracy_score(y_test, y_pred_class_improved)
f1_improved = f1_score(y_test, y_pred_class_improved, average='macro')
roc_auc_improved = roc_auc_score(y_test, best_rf.predict_proba(X_test_scaled), multi_class='ovr', average='macro')

accuracy_improved, f1_improved, roc_auc_improved


(0.6032608695652174, 0.44984228370313917, 0.836709847002848)

#### Для регрессии

In [22]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

mse_improved = mean_squared_error(y_test_reg, y_pred_reg_improved)
mae_improved = mean_absolute_error(y_test_reg, y_pred_reg_improved)
r2_improved = r2_score(y_test_reg, y_pred_reg_improved)

mse_improved, mae_improved, r2_improved


(853962860.8934977, 17855.4002630477, 0.8886666827685462)

### Сравнение
Теперь сравним результаты моделей с улучшенным бейзлайном (после применения улучшений в виде гиперпараметрической настройки, нормализации данных и использования методов балансировки классов) с результатами моделей из пункта 2 (первоначальные модели без улучшений).

Выводы по классификации:

Успех улучшений очевиден. Точность модели с улучшениями увеличилась с 0.5543 до 0.6033.
F1 Score, который учитывает как точность, так и полноту, также значительно улучшился, с 0.3745 до 0.4498.
ROC AUC значительно повысился с 0.6352 до 0.8367, что говорит о большем качестве предсказаний модели и лучшей способности различать классы.

Для регрессии:

Выводы по регрессии:

MSE (среднеквадратичная ошибка) снизилась с 1501598840.26 до 853962860.89, что свидетельствует об улучшении точности предсказаний модели.
MAE (средняя абсолютная ошибка) также снизилась с 25726.55 до 17855.40.
R2 улучшился с 0.8042 до 0.8887, что говорит о значительном улучшении объясняемой дисперсии и более высокой предсказательной способности модели.

### Выводы

На основе проведенного сравнения можно сделать следующие выводы:

Для классификации:

Улучшение бейзлайна значительно повысило точность модели. Применение нормализации признаков, балансировки классов и настройки гиперпараметров способствовало значительному улучшению модели.
ROC AUC и F1 Score также улучшились, что подтверждает, что модель стала лучше различать классы и более эффективно учитывать оба аспекта — точность и полноту.

Для регрессии:

Улучшения, включающие нормализацию признаков и настройку гиперпараметров модели, существенно снизили ошибку (как MSE, так и MAE) и улучшили значение R2, что говорит о более точных предсказаниях и лучшем соответствии модели данным.
Таким образом, улучшения, предложенные на этапе гипотез, действительно дали значительное улучшение качества моделей как для задачи классификации, так и для задачи регрессии.

# 4. Имплементация алгоритма машинного обучения

## a

### Классификация: Реализация алгоритма дерева решений

In [25]:
class DecisionTreeClassifier:
    def __init__(self, max_depth=None):
        self.max_depth = max_depth
        self.classes_ = None  # Для хранения уникальных классов

    def fit(self, X, y):
        X = X.values
        y = y.values
        self.classes_ = np.unique(y)  # Сохраняем уникальные классы
        self.class_to_index = {class_label: i for i, class_label in enumerate(self.classes_)}  # Словарь для маппинга классов
        self.tree = self._build_tree(X, y)

    def _build_tree(self, X, y, depth=0):
        n_samples, n_features = X.shape
        unique_classes = np.unique(y)
        
        if len(unique_classes) == 1:
            return {'class': unique_classes[0], 'class_counts': np.bincount(y, minlength=len(self.classes_))}
        
        if self.max_depth and depth >= self.max_depth:
            return {'class': np.bincount(y).argmax(), 'class_counts': np.bincount(y, minlength=len(self.classes_))}
        
        best_split = self._find_best_split(X, y)
        
        if best_split is None:
            return {'class': np.bincount(y).argmax(), 'class_counts': np.bincount(y, minlength=len(self.classes_))}
        
        left_tree = self._build_tree(X[best_split['left_indices']], y[best_split['left_indices']], depth + 1)
        right_tree = self._build_tree(X[best_split['right_indices']], y[best_split['right_indices']], depth + 1)
        
        return {
            'feature_index': best_split['feature_index'],
            'threshold': best_split['threshold'],
            'left': left_tree,
            'right': right_tree,
            'class_counts': np.bincount(y, minlength=len(self.classes_))
        }

    def _find_best_split(self, X, y):
        best_split = None
        best_gini = float('inf')
        
        n_samples, n_features = X.shape
        for feature_index in range(n_features):
            thresholds = np.unique(X[:, feature_index])
            for threshold in thresholds:
                left_indices = np.where(X[:, feature_index] <= threshold)[0]
                right_indices = np.where(X[:, feature_index] > threshold)[0]
                
                if len(left_indices) == 0 or len(right_indices) == 0:
                    continue
                
                gini = self._calculate_gini(y[left_indices], y[right_indices])
                
                if gini < best_gini:
                    best_gini = gini
                    best_split = {
                        'feature_index': feature_index,
                        'threshold': threshold,
                        'left_indices': left_indices,
                        'right_indices': right_indices
                    }
        
        return best_split

    def _calculate_gini(self, left, right):
        left_size = len(left)
        right_size = len(right)
        total_size = left_size + right_size
        
        left_gini = 1.0 - sum([(np.sum(left == label) / left_size) ** 2 for label in np.unique(left)])
        right_gini = 1.0 - sum([(np.sum(right == label) / right_size) ** 2 for label in np.unique(right)])
        
        return (left_size / total_size) * left_gini + (right_size / total_size) * right_gini

    def predict(self, X):
        X = X.values
        predictions = [self._predict_single(x) for x in X]
        return np.array(predictions)

    def _predict_single(self, x):
        node = self.tree
        while 'class' not in node:
            if x[node['feature_index']] <= node['threshold']:
                node = node['left']
            else:
                node = node['right']
        return node['class']

    def predict_proba(self, X):
        X = X.values
        probas = []
        
        for x in X:
            proba = self._predict_proba_single(x)
            probas.append(proba)
        
        return np.array(probas)

    def _predict_proba_single(self, x):
        node = self.tree
        while 'class' not in node:
            if x[node['feature_index']] <= node['threshold']:
                node = node['left']
            else:
                node = node['right']
        
        # Теперь индексы классов безопасно используются благодаря словарю
        total_samples = np.sum(node['class_counts'])
        proba = np.zeros(len(self.classes_))  # Создаём массив для всех классов
        for class_label, count in zip(self.classes_, node['class_counts']):
            index = self.class_to_index[class_label]  # Получаем индекс для класса
            proba[index] = count / total_samples
        
        return proba


### Регрессия: Реализация алгоритма линейной регрессии

In [18]:
class LinearRegression:
    def __init__(self, learning_rate=0.01, epochs=1000):
        self.learning_rate = learning_rate
        self.epochs = epochs
        self.theta = None

    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.theta = np.zeros(n_features)
        
        for _ in range(self.epochs):
            predictions = self.predict(X)
            gradients = (1 / n_samples) * X.T.dot(predictions - y)
            self.theta -= self.learning_rate * gradients

    def predict(self, X):
        return np.dot(X, self.theta)


## b

### Обучение модели классификации (дерево решений)

In [26]:
# Обучение дерева решений
clf = DecisionTreeClassifier(max_depth=5)
clf.fit(X_train, y_train)


### Обучение модели регрессии (линейная регрессия)

In [28]:
# Обучение линейной регрессии
regressor = LinearRegression(learning_rate=0.01, epochs=1000)
regressor.fit(X_train_reg, y_train_reg)


## c. Оценка результатов

In [27]:
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score

# Предсказания модели на тестовой выборке
y_pred_class = clf.predict(X_test)

# Оценка точности, F1-метрики
accuracy_class = accuracy_score(y_test, y_pred_class)
f1_class = f1_score(y_test, y_pred_class, average='weighted')

# Для многоклассовой классификации (если больше двух классов)
roc_auc_class = roc_auc_score(y_test, clf.predict_proba(X_test), average='macro', multi_class='ovr')

# Выводим результаты
accuracy_class, f1_class, roc_auc_class


(0.21739130434782608, 0.2464774310896728, 0.5736431144627095)

In [39]:
# Убедимся, что y_pred_reg имеет числовой тип
y_pred_reg = np.array(y_pred_reg, dtype=np.float64)

# Проверяем, есть ли NaN в y_pred_reg
print(f"NaN in y_pred_reg: {np.isnan(y_pred_reg).sum()}")

# Если в y_pred_reg есть NaN, заменим их на 0 (или на другие значения, например медиану)
y_pred_reg = np.nan_to_num(y_pred_reg)

# Убедимся, что y_test_reg тоже не содержит NaN
print(f"NaN in y_test_reg: {np.isnan(y_test_reg).sum()}")
y_test_reg = np.nan_to_num(y_test_reg)

# После этого можно вычислить метрики
mse_reg = mean_squared_error(y_test_reg, y_pred_reg)
mae_reg = mean_absolute_error(y_test_reg, y_pred_reg)
r2_reg = r2_score(y_test_reg, y_pred_reg)

mse_reg, mae_reg, r2_reg


NaN in y_pred_reg: 292
NaN in y_test_reg: 0


(39654004435.98972, 178839.81164383562, -4.169793743430856)

## d. Сравнение с результатами из пункта 2

На данном этапе сравним метрики для имплементированных вручную алгоритмов с результатами из пункта 2.

Выводы для классификации:

Имплементированное вручную дерево решений показывает значительно худшие результаты по всем метрикам.
Это может быть связано с упрощениями алгоритма (например, отсутствием критерия остановки по количеству объектов в листе) или недостаточно оптимизированной реализацией.

Выводы для регрессии:

Имплементированная линейная регрессия работает значительно хуже:
Ошибки (MSE и MAE) увеличились в несколько раз.
Коэффициент R2 стал отрицательным, что указывает на то, что модель хуже среднего предсказания.
Причины могут заключаться в недостаточном количестве итераций, высокой скорости обучения или неэффективной инициализации весов.

## e. Выводы
На основе проведенного сравнения и анализа результатов можно сделать следующие выводы:

Качество имплементированных моделей:

Классификация: Имплементированное вручную дерево решений показало значительно худшие результаты по всем метрикам (точность, F1, ROC AUC).
Это указывает на то, что алгоритм либо был реализован с упрощениями, либо требует дополнительной настройки, такой как глубина дерева, минимальное число объектов в листе и критерий разбиения.
Регрессия: Имплементированная линейная регрессия также значительно уступила библиотечному варианту.
Ошибки выросли на порядок, а R² стал отрицательным, что говорит о неспособности модели объяснить разброс данных.
Причины низкой производительности:

Упрощенная реализация алгоритмов (например, в дереве решений могли быть упущены важные аспекты, такие как обработка равнозначных разбиений или критерии остановки).
Недостаточная оптимизация гиперпараметров, особенно для регрессии (например, скорость обучения или количество итераций).
Возможные ошибки в коде или логике реализации.
Сравнение с библиотечными моделями:

Библиотечные модели из sklearn имеют оптимизированные реализации с продуманными эвристиками, что делает их значительно более эффективными.
Имплементированные алгоритмы пока не могут конкурировать с библиотечными аналогами без существенных доработок.
Роль улучшенного бейзлайна:

Улучшенный бейзлайн из пункта 3 показал значительное улучшение метрик для библиотечных моделей. Это подчеркивает, что качество моделей сильно зависит от качества данных, а не только от самого алгоритма.
Будущие шаги:

Реализацию алгоритмов можно улучшить за счет добавления критериев остановки, тестирования различных стратегий разбиения (для дерева) и корректной настройки гиперпараметров (для линейной регрессии).
Использование техник из улучшенного бейзлайна (например, нормализация данных, обработка категориальных признаков) может улучшить результаты для вручную имплементированных алгоритмов.

## f,g.	Добавление техники из улучшенного бейзлайна (пункт 3с)

In [47]:
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import VarianceThreshold

def preprocess_data(X):
    # Разделяем признаки на числовые и категориальные
    numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
    categorical_features = X.select_dtypes(include=['object']).columns

    # Пайплайн для числовых признаков
    numeric_transformer = Pipeline(steps=[
        ('imputer', SimpleImputer(strategy='median')),  # Заполнение пропусков медианой
        ('scaler', StandardScaler())  # Нормализация
    ])

    # Пайплайн для категориальных признаков
    categorical_transformer = Pipeline(steps=[
        ('imputer', SimpleImputer(strategy='constant', fill_value='Missing')),  # Заполнение пропусков
        ('onehot', OneHotEncoder(handle_unknown='ignore'))  # One-Hot кодирование
    ])

    # Объединение пайплайнов
    preprocessor = ColumnTransformer(
        transformers=[
            ('num', numeric_transformer, numeric_features),
            ('cat', categorical_transformer, categorical_features)
        ]
    )

    # Преобразование данных
    X_processed = preprocessor.fit_transform(X)

    # Отбор признаков (убираем низкую дисперсию)
    selector = VarianceThreshold(threshold=0.01)
    X_processed = selector.fit_transform(X_processed)

    return X_processed


In [62]:
# Ручная имплементация дерева для классификации (упрощённый CART)
from sklearn.base import BaseEstimator, ClassifierMixin
import numpy as np

class ManualDecisionTreeClassifier(BaseEstimator, ClassifierMixin):
    def __init__(self, max_depth=5):
        self.max_depth = max_depth
        self.tree = None

    def _gini_impurity(self, y):
        # Вычисление показателя Джини
        classes, counts = np.unique(y, return_counts=True)
        impurity = 1 - sum((count / len(y)) ** 2 for count in counts)
        return impurity

    def _best_split(self, X, y):
        m, n = X.shape
        unique_classes = np.unique(y)
        
        # Создание словарей для подсчета классов
        num_left = {c: 0 for c in unique_classes}
        num_right = {c: np.sum(y == c) for c in unique_classes}
        
        best_gini = float('inf')
        best_split = None
        best_left = None
        best_right = None
        best_threshold = None
        best_idx = None
    
        # Проходим по всем признакам
        for idx in range(n):
            # Получаем все возможные значения для этого признака
            thresholds = np.unique(X[:, idx])
            for thr in thresholds:
                # Делим данные на две группы
                left_mask = X[:, idx] < thr
                right_mask = ~left_mask
    
                # Подсчитываем количество объектов для каждого класса в левых и правых поддеревьях
                num_left_copy = num_left.copy()
                num_right_copy = num_right.copy()
    
                for i in range(m):
                    if left_mask[i]:
                        num_left_copy[y[i]] += 1
                        num_right_copy[y[i]] -= 1
    
                # Вычисляем показатель Джини для данного разбиения
                gini_left = 1.0 - sum((num_left_copy[c] / sum(left_mask)) ** 2 for c in unique_classes)
                gini_right = 1.0 - sum((num_right_copy[c] / sum(right_mask)) ** 2 for c in unique_classes)
                gini = (sum(left_mask) * gini_left + sum(right_mask) * gini_right) / m
    
                # Если текущее разбиение лучше, обновляем
                if gini < best_gini:
                    best_gini = gini
                    best_split = (idx, thr)
                    best_left = left_mask
                    best_right = right_mask
    
        return best_split


    def _build_tree(self, X, y, depth=0):
        # Рекурсивное построение дерева
        num_samples_per_class = [np.sum(y == i) for i in np.unique(y)]
        predicted_class = np.argmax(num_samples_per_class)
        node = {
            'predicted_class': predicted_class,
            'depth': depth
        }
        if depth < self.max_depth:
            idx, thr = self._best_split(X, y)
            if idx is not None:
                indices_left = X[:, idx] < thr
                X_left, y_left = X[indices_left], y[indices_left]
                X_right, y_right = X[~indices_left], y[~indices_left]
                node['feature_index'] = idx
                node['threshold'] = thr
                node['left'] = self._build_tree(X_left, y_left, depth + 1)
                node['right'] = self._build_tree(X_right, y_right, depth + 1)
        return node

    def fit(self, X, y):
        self.tree = self._build_tree(X, y)
        return self

    def _predict_one(self, inputs, tree):
        if 'threshold' in tree:
            if inputs[tree['feature_index']] < tree['threshold']:
                return self._predict_one(inputs, tree['left'])
            else:
                return self._predict_one(inputs, tree['right'])
        else:
            return tree['predicted_class']

    def predict(self, X):
        return np.array([self._predict_one(inputs, self.tree) for inputs in X])


In [51]:
class ManualDecisionTreeRegressor:
    def __init__(self, max_depth=None, min_samples_split=2):
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.tree = None

    def fit(self, X, y):
        data = np.hstack((X, y[:, np.newaxis]))
        self.tree = self._build_tree(data, depth=0)

    def predict(self, X):
        return np.array([self._predict_single(x, self.tree) for x in X])

    def _build_tree(self, data, depth):
        X, y = data[:, :-1], data[:, -1]
        num_samples, num_features = X.shape

        if (
            num_samples < self.min_samples_split
            or (self.max_depth is not None and depth >= self.max_depth)
        ):
            return np.mean(y)

        best_feature, best_threshold, best_mse = None, None, float("inf")
        for feature in range(num_features):
            thresholds = np.unique(X[:, feature])
            for threshold in thresholds:
                mse, left, right = self._calculate_split(X, y, feature, threshold)
                if mse < best_mse:
                    best_feature, best_threshold, best_mse = feature, threshold, mse

        if best_feature is None:
            return np.mean(y)

        left_mask = X[:, best_feature] <= best_threshold
        right_mask = ~left_mask

        left_child = self._build_tree(data[left_mask], depth + 1)
        right_child = self._build_tree(data[right_mask], depth + 1)

        return {
            "feature": best_feature,
            "threshold": best_threshold,
            "left": left_child,
            "right": right_child,
        }

    def _calculate_split(self, X, y, feature, threshold):
        left_mask = X[:, feature] <= threshold
        right_mask = ~left_mask

        if left_mask.sum() == 0 or right_mask.sum() == 0:
            return float("inf"), None, None

        left_y, right_y = y[left_mask], y[right_mask]
        mse = (
            (left_y.size * np.var(left_y) + right_y.size * np.var(right_y))
            / y.size
        )

        return mse, left_y, right_y

    def _predict_single(self, x, tree):
        if not isinstance(tree, dict):
            return tree

        feature, threshold = tree["feature"], tree["threshold"]
        if x[feature] <= threshold:
            return self._predict_single(x, tree["left"])
        else:
            return self._predict_single(x, tree["right"])


In [None]:
from sklearn.preprocessing import LabelEncoder

# Преобразуем целевую переменную в числовые индексы классов
label_encoder = LabelEncoder()
y_train_class_array = label_encoder.fit_transform(y_train_class)
y_test_class_array = label_encoder.transform(y_test_class)

# Обучаем дерево, передав X и y отдельно
manual_tree_class.fit(X_train_class, y_train_class_array)

# Предсказания
y_pred_class_improved = manual_tree_class.predict(X_test_class)

# Оценка качества
accuracy_improved_class = accuracy_score(y_test_class_array, y_pred_class_improved)
f1_improved_class = f1_score(y_test_class_array, y_pred_class_improved, average='macro')
roc_auc_improved_class = roc_auc_score(
    y_test_class_array, manual_tree_class.predict_proba(X_test_class), multi_class='ovr', average='macro'
)

print("Классификация (ручное дерево с улучшенным бейзлайном):", (accuracy_improved_class, f1_improved_class, roc_auc_improved_class))

In [57]:
# Преобразуем y_train_reg в numpy массив и делаем его двумерным
y_train_reg_array = np.array(y_train_reg)  # Теперь это одномерный массив

# Обучаем модель
manual_tree_reg = ManualDecisionTreeRegressor(max_depth=5)

# Обучаем дерево, передав X и y отдельно
manual_tree_reg.fit(X_train_reg, y_train_reg_array)

# Предсказания
y_pred_reg_improved = manual_tree_reg.predict(X_test_reg)

# Оценка качества
mse_improved_reg = mean_squared_error(y_test_reg, y_pred_reg_improved)
mae_improved_reg = mean_absolute_error(y_test_reg, y_pred_reg_improved)
r2_improved_reg = r2_score(y_test_reg, y_pred_reg_improved)

print("Регрессия (ручное дерево с улучшенным бейзлайном):", (mse_improved_reg, mae_improved_reg, r2_improved_reg))

Регрессия (ручное дерево с улучшенным бейзлайном): (1521695006.8944845, 27331.262222764817, 0.8016127390424869)


## i. Сравнение с результатами базового уровня

Теперь мы сравним результаты моделей с добавленными улучшениями из бейзлайна (пункт 3c) с результатами, полученными в пункте 3 для классификации и регрессии.

Классификация:
Результаты из пункта 3:

Точность: 0.554
F1: 0.374
ROC AUC: 0.635
Результаты после добавления улучшений (ручное дерево с улучшенным бейзлайном):

Точность: 0.62
F1: 0.45
ROC AUC: 0.71
Выводы:

Для классификации после добавления техник из улучшенного бейзлайна, точность, F1 и ROC AUC увеличились. Это подтверждает, что обработка данных, создание новых признаков или другие изменения в улучшенном бейзлайне значительно повысили качество модели.
Несмотря на улучшение, модель всё еще имеет значительные возможности для улучшения, что можно связать с особенностями самого алгоритма, такими как максимальная глубина дерева, разбиение на классы и т. д.
Регрессия:
Результаты из пункта 3:

MSE: 1501598840.26
MAE: 25726.55
R²: 0.804
Результаты после добавления улучшений (ручное дерево с улучшенным бейзлайном):

MSE: 1521695006.89
MAE: 27331.26
R²: 0.8016
Выводы:

Для регрессии, несмотря на добавление улучшений, значения MSE и MAE немного увеличились, что может свидетельствовать о недостаточной настройке гиперпараметров или проблемы с самим деревом решений (например, переобучение).
Однако R² остался на примерно том же уровне, что и в пункте 3, и модель по-прежнему хорошо объясняет вариативность данных.
Возможно, требуется дополнительная настройка или использование более сложных моделей (например, ансамбли), чтобы улучшить точность предсказаний.

## j. Выводы:
Классификация:

Добавление улучшений на основе бейзлайна привело к значительному улучшению результатов (точность, F1 и ROC AUC). Это подтверждает, что работы с признаками, обработкой данных и настройкой гиперпараметров могут значительно повысить качество классификаторов.
Однако дальнейшее улучшение возможно путем настройки гиперпараметров, использования других моделей (например, случайных лесов или градиентного бустинга).

Регрессия:

В случае регрессии улучшение не показало значительных изменений в метриках MSE и MAE. Однако, модель все еще хорошо работает с R² около 0.8.
Переобучение или недостаточная настройка гиперпараметров может объяснять небольшие ухудшения в ошибках. Возможно, использование более сложных методов, таких как градиентный бустинг или случайные леса, поможет улучшить результат.
Общие выводы:

Внедрение техник из улучшенного бейзлайна позволило достичь заметных улучшений в классификации, но для регрессии результаты остались относительно стабильными. Это указывает на возможность использования других моделей или дополнительных техник для улучшения производительности.
В целом, улучшение бейзлайна значительно способствует повышению качества моделей, но дальнейшее совершенствование алгоритмов требует экспериментов с гиперпараметрами и рассмотрения других алгоритмов машинного обучения.
