# Лабораторная работа №4 (Проведение исследований со случайным лесом)

# 1. Выбор начальных условий

## a. Набор данных для задачи классификации

**Датасет:** "Heart Disease UCI"

**Источник:** Kaggle - Heart Disease UCI Datas https://www.kaggle.com/datasets/redwankarimsony/heart-disease-dataet

**Описание:**  
Датасет содержит 14 характеристик пациентов (например, возраст, пол, уровень холестерина, результаты электрокардиографии и т. д.) и метку, указывающую наличие или отсутствие сердечного заболева
### Обоснование выбора:

1. **Практическая значимость:**  
   Проблема сердечно-сосудистых заболеваний является одной из самых серьезных в медицине, и разработка моделей, которые могут помочь в ранней диагностике, имеет высокую практическую ценность.

2. **Разнообразие данных:**  
   Датасет содержит числовые и категориальные признаки, что позволяет продемонстрировать работу алгоритма с различными типами данных.

3. **Классификация:**  
   Основная цель — предсказать вероятность наличия заболевания на основе входных данных, что является задачей бинарной классификации.ации.


## b. Набор данных для задачи регрессии

**Датасет:** "House Prices - Advanced Regression Techniques"

**Источник:** Kaggle - House Prices Datas https://www.kaggle.com/datasets/lespin/house-prices-datasetet

**Описание:**  
Датасет содержит 79 характеристик жилых  США), включая площадь, количество комнат, год постройки дома.

### Обоснование выбора:

1. **Практическая значимость:**  
   Прогнозирование стоимости недвижимости является важной задачей для рынка недвижимости и используется агентствами и банками для оценки ценности активов.

## Метрики качества и их обоснование

### Классификация (Heart Disease UCI)

### Метрики:

1. **Accuracy (Точность):**  
   Показывает долю верно классифицированных примеров среди всех примеров. Это базовая метрика, которая дает общее представление о производительности модели.

2. **F1-score:**  
   Среднее гармоническое между Precision и Recall. Эта метрика обоснована тем, что важно сбалансировать количество правильно определенных положительных и отрицательных примеров, особенно в задачах с несбалансированными классами.

3. **ROC-AUC:**  
   Показывает способность модели различать классы. Эта метрика важна при работе с задачами, где критично улавливать отношения между вероятностью и реальной принадлежностью к классу, что позволяет оценить качество классификации на различных порогах.

## Регрессия (House Prices)

### Метрики:

1. **Mean Squared Error (MSE):**  
   Среднее квадратичное отклонение между реальными и предсказанными значениями. Эта метрика подходит для оценки ошибок, акцентируя внимание на крупных отклонениях, что может быть полезно в задачах, где важны большие ошибки.

2. **Mean Absolute Error (MAE):**  
   Среднее абсолютное отклонение. Эта метрика подходит для понимания реальной средней ошибки и более устойчива к выбросам, чем MSE, что делает её полезной в практических приложениях.

3. **R² (коэффициент детерминации):**  
   Показывает, насколько хорошо модель объясняет изменчивость данных. Высокий R² указывает на то, что модель объясняет большую часть вариации, что является важным показателем её эффективности.

# 2. Создание бейзлайна и оценка качества

## a. Обучение моделей из scikit-learn

In [None]:
!pip install pandas numpy scikit-learn kagglehub

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler
import os
import kagglehub

# Загрузка данных
path = kagglehub.dataset_download("redwankarimsony/heart-disease-data")
df_classification = pd.read_csv(os.path.join(path, 'heart_disease_uci.csv'))
# Посмотрим на данные
df_classification.head()

path = kagglehub.dataset_download("lespin/house-prices-dataset")
# Загрузка данных
df_regression = pd.read_csv(os.path.join(path, 'train.csv'))
# Посмотрим на данные
df_regression.head()

# Обработка данных классификации
X_classification = df_classification.drop("num", axis=1)
y_classification = df_classification["num"]

# Преобразование категориальных признаков в числовые с использованием One-Hot Encoding
X_classification = pd.get_dummies(X_classification, drop_first=True)

# Обработка данных регрессии
X_regression = df_regression.drop(["SalePrice", "Id"], axis=1)
y_regression = df_regression["SalePrice"]

# Преобразование категориальных признаков в числовые с использованием One-Hot Encoding
X_regression = pd.get_dummies(X_regression, drop_first=True)

# Разделение на обучающие и тестовые выборки
X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_classification, y_classification, test_size=0.2, random_state=42)
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_regression, y_regression, test_size=0.2, random_state=42)

# Масштабирование данных
scaler = StandardScaler()
X_train_class = scaler.fit_transform(X_train_class)
X_test_class = scaler.transform(X_test_class)

X_train_reg = scaler.fit_transform(X_train_reg)
X_test_reg = scaler.transform(X_test_reg)


In [10]:
# Обучение модели для классификации
rf_classifier = RandomForestClassifier(random_state=42)
rf_classifier.fit(X_train_class, y_train_class)

# Обучение модели для регрессии
rf_regressor = RandomForestRegressor(random_state=42)
rf_regressor.fit(X_train_reg, y_train_reg)


In [11]:
# Прогнозирование и оценка для классификации
y_pred_class = rf_classifier.predict(X_test_class)

# Получаем вероятности для всех классов
y_pred_prob_class = rf_classifier.predict_proba(X_test_class)

# Оценка качества
accuracy_class = accuracy_score(y_test_class, y_pred_class)
f1_class = f1_score(y_test_class, y_pred_class, average='weighted')  # Используем weighted для многоклассовой задачи
roc_auc_class = roc_auc_score(y_test_class, y_pred_prob_class, multi_class='ovr', average='weighted')  # Оценка для многоклассовой задачи

print("Оценка для классификации:")
print(f"Accuracy: {accuracy_class:.4f}")
print(f"F1-Score: {f1_class:.4f}")
print(f"ROC-AUC: {roc_auc_class:.4f}")

# Прогнозирование и оценка для регрессии
y_pred_reg = rf_regressor.predict(X_test_reg)

mse_reg = mean_squared_error(y_test_reg, y_pred_reg)
mae_reg = mean_absolute_error(y_test_reg, y_pred_reg)
r2_reg = r2_score(y_test_reg, y_pred_reg)

print("\nОценка для регрессии:")
print(f"Mean Squared Error (MSE): {mse_reg:.4f}")
print(f"Mean Absolute Error (MAE): {mae_reg:.4f}")
print(f"R²: {r2_reg:.4f}")


Оценка для классификации:
Accuracy: 0.6196
F1-Score: 0.5848
ROC-AUC: 0.8657

Оценка для регрессии:
Mean Squared Error (MSE): 818140865.4223
Mean Absolute Error (MAE): 17513.2027
R²: 0.8933


## b. Оценка качества

### Для классификации:
Accuracy: 0.6196

Это означает, что модель правильно классифицировала примерно 62% примеров. Для задач с несколькими классами это может быть хорошим результатом, но стоит учитывать, что высокая точность не всегда означает хорошее качество модели, особенно если классы несбалансированы.
F1-Score: 0.5848

F1-Score — это среднее гармоническое между точностью и полнотой. Для многоклассовых задач используется взвешенное значение F1. Ваш результат показывает, что модель не идеально сбалансирована, но всё равно достигает достаточно хороших результатов.
ROC-AUC: 0.8657

Это хороший результат для многоклассовой задачи, указывающий, что модель способна эффективно различать классы. Значение 0.8657 говорит о том, что модель хорошо различает положительные и отрицательные классы на разных порогах.

### Для регрессии:
Mean Squared Error (MSE): 818140865.4223

MSE показывает, насколько сильно модель ошибается в предсказаниях, особенно для крупных ошибок. Высокое значение MSE может указывать на то, что есть несколько значительных ошибок в предсказаниях (выбросы или большая разница между предсказанными и реальными значениями).
Mean Absolute Error (MAE): 17513.2027

MAE показывает среднюю ошибку в предсказаниях и является более устойчивым к выбросам по сравнению с MSE. Это может быть полезным показателем, чтобы понять, насколько точно модель делает прогнозы в среднем.
R²: 0.8933

Коэффициент детерминации R² показывает, что модель объясняет 89.33% изменчивости целевой переменной. Это отличный результат, так как высокое значение R² означает, что модель хорошо объясняет данные и подходит для предсказания целевой переменной.

# 3. Улучшение бейзлайна

## a. Формулировка гипотез

Предобработка данных:

Нормализация/масштабирование признаков: Преобразование числовых признаков в один масштаб может улучшить результаты, особенно для моделей, чувствительных к масштабу данных (например, случайный лес).
Обработка пропусков: Пропуски в данных могут негативно повлиять на обучение. Мы можем использовать стратегии заполнения пропусков, такие как медиана для числовых признаков и мода для категориальных.
Категориальные признаки: Преобразование категориальных признаков с использованием one-hot encoding для улучшения качества моделей.

Формирование новых признаков:

Можно создать новые признаки на основе существующих данных (например, объединение возраста и холестерина для создания нового признака, связанного с возрастом в контексте здоровья).

Визуализация данных:

Визуализация данных с помощью корреляции и парных графиков (для регрессии) или анализа важности признаков (для классификации) может помочь определить наиболее важные признаки и оптимизировать модель.

Подбор гиперпараметров:

Использование GridSearchCV или RandomizedSearchCV для поиска оптимальных гиперпараметров случайного леса, таких как количество деревьев, максимальная глубина дерева, минимальное количество образцов для разбиения и т. д.

Использование кросс-валидации:

Включение кросс-валидации для более надежной оценки модели и предотвращения переобучения.

## b. Проверка гипотез

In [None]:
!pip install seaborn

In [12]:
from sklearn.impute import SimpleImputer
from sklearn.model_selection import GridSearchCV
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Заполнение пропусков (для числовых признаков используем медиану)
imputer = SimpleImputer(strategy='median')
X_classification_imputed = imputer.fit_transform(X_classification)
X_regression_imputed = imputer.fit_transform(X_regression)

# Масштабирование данных
scaler = StandardScaler()
X_classification_scaled = scaler.fit_transform(X_classification_imputed)
X_regression_scaled = scaler.fit_transform(X_regression_imputed)

# Формирование нового признака: "Ratio of Cholesterol to Age" для классификации
X_classification_scaled = np.hstack([X_classification_scaled, (X_classification['chol'] / X_classification['age']).values.reshape(-1, 1)])

# Формирование нового признака: "Ratio of Living Area to Lot Area" для регрессии
X_regression_scaled = np.hstack([X_regression_scaled, (X_regression['GrLivArea'] / X_regression['LotArea']).values.reshape(-1, 1)])

# Обучение с GridSearchCV для классификации
param_grid_classification = {
    'n_estimators': [100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2],
}
grid_search_classification = GridSearchCV(estimator=RandomForestClassifier(random_state=42), param_grid=param_grid_classification, cv=5)
grid_search_classification.fit(X_classification_scaled, y_classification)

# Обучение с GridSearchCV для регрессии
param_grid_regression = {
    'n_estimators': [100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2],
}
grid_search_regression = GridSearchCV(estimator=RandomForestRegressor(random_state=42), param_grid=param_grid_regression, cv=5)
grid_search_regression.fit(X_regression_scaled, y_regression)


In [15]:
import numpy as np

# Проверим форму массива X_test_class
print(X_test_class.shape)

rf_classifier_optimized = grid_search_classification.best_estimator_

# Индексы для 'chol' и 'age' в X_test_class
chol_index = 0  # Проверьте правильность индекса
age_index = 1   # Проверьте правильность индекса

# Вычисление нового признака (отношение холестерина к возрасту)
chol_age_ratio = X_test_class[:, chol_index] / X_test_class[:, age_index]

# Добавление нового признака в массив
X_test_class_optimized = np.hstack([X_test_class, chol_age_ratio.reshape(-1, 1)])

# Прогнозирование с улучшенной моделью для классификации
y_pred_class_optimized = rf_classifier_optimized.predict(X_test_class_optimized)
y_pred_prob_class_optimized = rf_classifier_optimized.predict_proba(X_test_class_optimized)[:, 1]

# Вывод результатов
print(y_pred_class_optimized[:10])
print(y_pred_prob_class_optimized[:10])


(184, 22)
[0 0 1 3 1 0 1 2 2 0]
[0.0538631  0.06122222 0.80622853 0.17839333 0.73099026 0.1165528
 0.57526612 0.22402993 0.16383783 0.11479089]


In [16]:
# Добавление нового признака в тестовые данные
X_test_class = np.hstack([X_test_class, (X_test_class[:, 0] / X_test_class[:, 1]).reshape(-1, 1)])

# Прогнозирование вероятностей для всех классов
y_pred_prob_class_optimized = rf_classifier_optimized.predict_proba(X_test_class)

# Оценка для классификации с улучшениями
accuracy_class_optimized = accuracy_score(y_test_class, y_pred_class_optimized)
f1_class_optimized = f1_score(y_test_class, y_pred_class_optimized, average='weighted')

# Для многоклассового ROC-AUC
roc_auc_class_optimized = roc_auc_score(y_test_class, y_pred_prob_class_optimized, multi_class='ovr')

print("Оценка для классификации с улучшениями:")
print(f"Accuracy: {accuracy_class_optimized:.4f}")
print(f"F1-Score (weighted): {f1_class_optimized:.4f}")
print(f"ROC-AUC: {roc_auc_class_optimized:.4f}")


Оценка для классификации с улучшениями:
Accuracy: 0.8913
F1-Score (weighted): 0.8891
ROC-AUC: 0.9849


In [19]:
# Добавление нового признака для регрессии (аналогично тому, как это было для классификации)
X_test_reg_optimized = np.hstack([X_test_reg, (X_test_reg[:, chol_index] / X_test_reg[:, age_index]).reshape(-1, 1)])

# Обучение модели для регрессии с улучшением
rf_regressor_optimized = grid_search_regression.best_estimator_

# Прогнозирование с улучшенной моделью для регрессии
y_pred_reg_optimized = rf_regressor_optimized.predict(X_test_reg_optimized)

# Оценка для регрессии с улучшениями
mse_reg_optimized = mean_squared_error(y_test_reg, y_pred_reg_optimized)
mae_reg_optimized = mean_absolute_error(y_test_reg, y_pred_reg_optimized)
r2_reg_optimized = r2_score(y_test_reg, y_pred_reg_optimized)

print("Оценка для регрессии с улучшениями:")
print(f"Mean Squared Error (MSE): {mse_reg_optimized:.4f}")
print(f"Mean Absolute Error (MAE): {mae_reg_optimized:.4f}")
print(f"R²: {r2_reg_optimized:.4f}")


Оценка для регрессии с улучшениями:
Mean Squared Error (MSE): 190425202.7083
Mean Absolute Error (MAE): 8614.6543
R²: 0.9752


In [20]:
# Сравнение результатов классификации
print("\nСравнение результатов классификации:")
print(f"Improved Accuracy: {accuracy_class_optimized:.4f} vs. {accuracy_class:.4f}")
print(f"Improved F1-Score: {f1_class_optimized:.4f} vs. {f1_class:.4f}")
print(f"Improved ROC-AUC: {roc_auc_class_optimized:.4f} vs. {roc_auc_class:.4f}")

# Сравнение результатов регрессии
print("\nСравнение результатов регрессии:")
print(f"Improved MSE: {mse_reg_optimized:.4f} vs. {mse_reg:.4f}")
print(f"Improved MAE: {mae_reg_optimized:.4f} vs. {mae_reg:.4f}")
print(f"Improved R²: {r2_reg_optimized:.4f} vs. {r2_reg:.4f}")



Сравнение результатов классификации:
Improved Accuracy: 0.8913 vs. 0.6196
Improved F1-Score: 0.8891 vs. 0.5848
Improved ROC-AUC: 0.9849 vs. 0.8657

Сравнение результатов регрессии:
Improved MSE: 190425202.7083 vs. 818140865.4223
Improved MAE: 8614.6543 vs. 17513.2027
Improved R²: 0.9752 vs. 0.8933


### Анализ улучшений
Классификация:

Accuracy: После улучшений точность классификации увеличилась с 61.96% до 89.13%. Это значительное улучшение, которое свидетельствует о том, что обработка данных (нормализация, создание новых признаков, заполнение пропусков) и подбор гиперпараметров существенно улучшили способность модели правильно классифицировать данные.

F1-Score: F1-Score улучшился с 58.48% до 88.91%. Это особенно важно, так как F1-Score учитывает как точность (Precision), так и полноту (Recall). Это улучшение говорит о том, что модель стала более сбалансированной, правильно классифицируя как положительные, так и отрицательные примеры, что особенно важно при несбалансированных классах.

ROC-AUC: ROC-AUC увеличился с 0.8657 до 0.9849, что означает, что модель значительно лучше различает классы, особенно на различных порогах. Это улучшение подтверждает, что модель стала более надежной в идентификации вероятности принадлежности к каждому классу.

Регрессия:

MSE (Среднеквадратичная ошибка): Улучшение MSE с 818,140,865 до 190,425,202 показывает, что модель значительно сократила ошибки предсказания, особенно крупные отклонения. Это является результатом улучшения качества данных и настройки модели.

MAE (Средняя абсолютная ошибка): MAE также уменьшилась с 17,513 до 8,615, что подтверждает, что средняя ошибка предсказания уменьшилась почти в два раза. Это улучшение важно, так как MAE более устойчива к выбросам, чем MSE.

R² (Коэффициент детерминации): R² увеличился с 0.8933 до 0.9752, что указывает на то, что улучшенная модель объясняет 97.52% вариации в данных, что является отличным результатом. Это говорит о том, что модель значительно улучшила свою способность объяснять изменения в данных.

### Выводы

Классификация: Улучшения, такие как предобработка данных, создание новых признаков, и настройка гиперпараметров, привели к значительному улучшению всех метрик классификации: точности, F1-Score и ROC-AUC. Эти изменения позволили модели существенно повысить свою эффективность в распознавании классов, что делает её гораздо более надежной в решении задачи классификации заболеваний.

Регрессия: Для задачи регрессии улучшения также оказали большое влияние. Уменьшение MSE и MAE, а также повышение R², показывают, что улучшенная модель теперь значительно точнее в прогнозировании цен на жилье. Эти улучшения подтверждают, что подход с нормализацией данных, созданием новых признаков и поиском оптимальных гиперпараметров был эффективным.

Таким образом, улучшения значительно повысили точность и надежность моделей как для классификации, так и для регрессии, что подтверждается улучшением всех выбранных метрик.

# 4. Имплементация алгоритма машинного обучения

## a,b

In [45]:
from collections import Counter
import numpy as np

class DecisionTree:
    def __init__(self, max_depth=None):
        self.max_depth = max_depth
        self.tree = None

    def fit(self, X, y):
        self.tree = self._build_tree(X, y)
        
    def _build_tree(self, X, y, depth=0):
        n_samples, n_features = X.shape
        unique_classes = np.unique(y)
        
        if len(unique_classes) == 1:
            return unique_classes[0]
        
        if self.max_depth is not None and depth >= self.max_depth:
            return Counter(y).most_common(1)[0][0]
        
        best_split = self._best_split(X, y)
        left_tree = self._build_tree(*best_split['left'], depth + 1)
        right_tree = self._build_tree(*best_split['right'], depth + 1)
        
        return {
            'split': best_split['split'],
            'left': left_tree,
            'right': right_tree
        }
    
    def _best_split(self, X, y):
        best_gini = float('inf')
        best_split = None
        n_samples, n_features = X.shape
        
        for feature_idx in range(n_features):
            thresholds = np.unique(X[:, feature_idx])
            for threshold in thresholds:
                left_mask = X[:, feature_idx] <= threshold
                right_mask = ~left_mask
                left_y, right_y = y[left_mask], y[right_mask]
                
                gini = self._gini_impurity(left_y, right_y)
                if gini < best_gini:
                    best_gini = gini
                    best_split = {
                        'split': (feature_idx, threshold),
                        'left': (X[left_mask], y[left_mask]),
                        'right': (X[right_mask], y[right_mask])
                    }
        return best_split
    
    def _gini_impurity(self, left_y, right_y):
        n_left = len(left_y)
        n_right = len(right_y)
        n_total = n_left + n_right
        
        def gini(y):
            class_counts = Counter(y)
            impurity = 1.0
            for count in class_counts.values():
                prob = count / len(y)
                impurity -= prob ** 2
            return impurity
        
        gini_left = gini(left_y)
        gini_right = gini(right_y)
        
        return (n_left / n_total) * gini_left + (n_right / n_total) * gini_right
    
    def predict(self, X):
        return np.array([self._predict_row(x, self.tree) for x in X])
    
    def _predict_row(self, x, tree):
        if isinstance(tree, dict):
            feature_idx, threshold = tree['split']
            if feature_idx >= len(x):
                return None  # Обработка ошибки
            if feature_idx < len(x):  # Добавлена проверка на допустимый индекс признака
                if x[feature_idx] <= threshold:
                    return self._predict_row(x, tree['left'])
                else:
                    return self._predict_row(x, tree['right'])
            else:
                # Обработка случая, когда feature_idx выходит за допустимые границы
                print(f"Warning: Index {feature_idx} out of bounds for row {x}")
                return None
        else:
            return tree

In [51]:
class RandomForestClassifier:
    def __init__(self, n_estimators=10, max_depth=None):
        self.n_estimators = n_estimators
        self.max_depth = max_depth
        self.trees = []
        self.classes_ = None

    def fit(self, X, y):
        self.classes_ = np.unique(y)  # Сохраняем список классов
        for _ in range(self.n_estimators):
            bootstrap_idx = np.random.choice(len(X), len(X), replace=True)
            X_bootstrap = X[bootstrap_idx]
            y_bootstrap = y[bootstrap_idx]
            tree = DecisionTree(max_depth=self.max_depth)
            tree.fit(X_bootstrap, y_bootstrap)
            self.trees.append(tree)
            
    def predict(self, X):
        tree_predictions = np.array([tree.predict(X) for tree in self.trees])
        # Мажоритарное голосование
        return np.apply_along_axis(lambda x: np.bincount(x, minlength=len(self.classes_)).argmax(), axis=0, arr=tree_predictions)
    
    def predict_proba(self, X):
        # Инициализируем массив для хранения вероятностей (n_samples, n_classes)
        probas = np.zeros((len(X), len(self.classes_)))
        for tree in self.trees:
            tree_predictions = tree.predict(X)
            # Считаем, сколько деревьев предсказали каждый класс
            for i, class_label in enumerate(self.classes_):
                probas[:, i] += (tree_predictions == class_label).astype(int)
        # Нормализуем вероятности
        probas /= len(self.trees)
        return probas

In [52]:
# print(X.shape)  # Размерность ваших данных
print(X_test_reg.shape)  # Размерность тестовых данных

print(f"Train shape (classification): {X_classification_scaled.shape}")
print(f"Test shape (classification): {X_test_class.shape}")

print(f"Train shape (regression): {X_regression_scaled.shape}")
print(f"Test shape (regression): {X_test_reg.shape}")


(292, 244)
Train shape (classification): (920, 23)
Test shape (classification): (184, 23)
Train shape (regression): (1460, 245)
Test shape (regression): (292, 244)


In [53]:
# Обучение модели для классификации
rf_classifier_custom = RandomForestClassifier(n_estimators=10, max_depth=5)
rf_classifier_custom.fit(X_classification_scaled, y_classification)

# Прогнозирование для классификации
y_pred_class_custom = rf_classifier_custom.predict(X_test_class)

In [54]:
# Обучение модели для регрессии
rf_regressor_custom = RandomForestRegressor(n_estimators=10, max_depth=5)
rf_regressor_custom.fit(X_regression_scaled, y_regression)

# Прогнозирование для регрессии
y_pred_reg_custom = rf_regressor_custom.predict(X_test_reg)


In [56]:
# Оценка для классификации
accuracy_class_custom = accuracy_score(y_test_class, y_pred_class_custom)
f1_class_custom = f1_score(y_test_class, y_pred_class_custom, average='weighted')
roc_auc_class_custom = roc_auc_score(
    y_test_class, 
    rf_classifier_custom.predict_proba(X_test_class), 
    multi_class='ovr', 
    average='weighted'
)

# Оценка для регрессии
mse_reg_custom = mean_squared_error(y_test_reg, y_pred_reg_custom)
mae_reg_custom = mean_absolute_error(y_test_reg, y_pred_reg_custom)
r2_reg_custom = r2_score(y_test_reg, y_pred_reg_custom)

print("\nОценка для классификации (имплементированная модель):")
print(f"Accuracy: {accuracy_class_custom:.4f}")
print(f"F1-Score: {f1_class_custom:.4f}")
print(f"ROC-AUC: {roc_auc_class_custom:.4f}")

print("\nОценка для регрессии (имплементированная модель):")
print(f"Mean Squared Error (MSE): {mse_reg_custom:.4f}")
print(f"Mean Absolute Error (MAE): {mae_reg_custom:.4f}")
print(f"R²: {r2_reg_custom:.4f}")



Оценка для классификации (имплементированная модель):
Accuracy: 0.3967
F1-Score: 0.4043
ROC-AUC: 0.7177

Оценка для регрессии (имплементированная модель):
Mean Squared Error (MSE): 6152406800.5316
Mean Absolute Error (MAE): 51242.5377
R²: 0.1979


In [57]:
# Сравнение результатов классификации
print("\nСравнение результатов классификации:")
print(f"Custom Accuracy: {accuracy_class_custom:.4f} vs. {accuracy_class:.4f}")
print(f"Custom F1-Score: {f1_class_custom:.4f} vs. {f1_class:.4f}")
print(f"Custom ROC-AUC: {roc_auc_class_custom:.4f} vs. {roc_auc_class:.4f}")

# Сравнение результатов регрессии
print("\nСравнение результатов регрессии:")
print(f"Custom MSE: {mse_reg_custom:.4f} vs. {mse_reg:.4f}")
print(f"Custom MAE: {mae_reg_custom:.4f} vs. {mae_reg:.4f}")
print(f"Custom R²: {r2_reg_custom:.4f} vs. {r2_reg:.4f}")



Сравнение результатов классификации:
Custom Accuracy: 0.3967 vs. 0.6196
Custom F1-Score: 0.4043 vs. 0.5848
Custom ROC-AUC: 0.7177 vs. 0.8657

Сравнение результатов регрессии:
Custom MSE: 6152406800.5316 vs. 818140865.4223
Custom MAE: 51242.5377 vs. 17513.2027
Custom R²: 0.1979 vs. 0.8933


## c. Оценка результатов

Классификация:

Accuracy на уровне 39.67% и F1-Score около 40.43% показывают, что модель работает с низким качеством. Вероятно, алгоритм недообучен или неправильно настроен для обработки данных.

ROC-AUC на уровне 0.7177 говорит о том, что модель демонстрирует среднее качество при различении классов. Хотя значение ниже, чем у модели из библиотеки sklearn, оно все же отражает некоторую способность различать классы. Однако эти результаты требуют значительного улучшения.

Регрессия:

MSE на уровне 6,152,406,800.5316 и MAE около 51,242.5377 указывают на наличие крупных ошибок в прогнозах. Это подтверждает, что модель не смогла хорошо подстроиться под данные.

Однако R² на уровне 0.1979 означает, что модель объясняет лишь 19.79% вариации в данных, что является крайне низким результатом для регрессии. Это подчеркивает необходимость улучшения алгоритма, так как текущая реализация практически не справляется с задачей прогнозирования.

## d. Сравнение с результатами из пункта 2

Для классификации:

Accuracy: 0.3967 (имплементированная) vs. 0.6196 (sklearn)
→ Модель sklearn показывает значительно лучший результат в точности.

F1-Score: 0.4043 (имплементированная) vs. 0.5848 (sklearn)
→ Показатель F1-Score у имплементированной модели ниже, что указывает на проблемы с балансом между точностью и полнотой.

ROC-AUC: 0.7177 (имплементированная) vs. 0.8657 (sklearn)
→ Имплементированная модель демонстрирует неплохой результат, но также уступает.

Для регрессии:

Mean Squared Error (MSE): 6,152,406,800.5316 (имплементированная) vs. 818,140,865.4223 (sklearn)
→ Ошибка у имплементированной модели на порядок выше.

Mean Absolute Error (MAE): 51,242.5377 (имплементированная) vs. 17,513.2027 (sklearn)
→ Имплементированная модель хуже справляется с прогнозами.

R²: 0.1979 (имплементированная) vs. 0.8933 (sklearn)
→ Имплементированная модель объясняет гораздо меньшую часть дисперсии данных.

## e. Выводы
Имплементированные модели уступают библиотечным решениям:
Результаты имплементированных моделей (как для классификации, так и для регрессии) значительно ниже, чем результаты из библиотеки sklearn. Это связано с упрощениями в алгоритмах и отсутствием оптимизаций, таких как обработка данных, использование эффективных методов вычисления и встроенных эвристик.

Требуются оптимизации:
Чтобы улучшить имплементированные модели, можно добавить:

Более сложные функции разделения.
Улучшенный метод выбора гиперпараметров.
Методы обработки данных, такие как нормализация и удаление выбросов.
Польза библиотечных решений:
Использование готовых библиотек, таких как sklearn, значительно упрощает задачу обучения и тестирования моделей, позволяя сосредоточиться на постановке задачи и анализе данных.

Значение имплементации:
Хотя результаты имплементированных моделей ниже, этот процесс позволяет лучше понять, как работают алгоритмы машинного обучения, и осознать, какие аспекты важны для улучшения производительности.

## f,g.	Добавление техники из улучшенного бейзлайна (пункт 3с)

In [68]:
import numpy as np

# Проверка на пропущенные значения в X_classification
if np.any(np.isnan(X_classification)):
    print("Есть пропущенные значения в X_classification")

# Замена пропущенных значений на среднее или медиану
X_classification = np.nan_to_num(X_classification, nan=np.nanmean(X_classification))

# Аналогично для тестовых данных
if np.any(np.isnan(X_test_class)):
    print("Есть пропущенные значения в X_test_class")
X_test_class = np.nan_to_num(X_test_class, nan=np.nanmean(X_test_class))


Есть пропущенные значения в X_classification
Есть пропущенные значения в X_test_class


In [69]:
import pandas as pd

# Масштабирование данных для классификации
scaler_class = StandardScaler()

# Преобразуем X_classification в DataFrame с корректными именами колонок
columns_class = [f"feature_{i}" for i in range(X_classification.shape[1])]
X_classification_df = pd.DataFrame(X_classification, columns=columns_class)

# Масштабируем данные для классификации
X_classification_scaled = scaler_class.fit_transform(X_classification_df)

# Масштабируем данные для теста
# Преобразуем X_test_class в DataFrame с корректными именами колонок
columns_test = [f"feature_{i}" for i in range(X_test_class.shape[1])]
X_test_class_df = pd.DataFrame(X_test_class, columns=columns_test)

# Определяем недостающие колонки в тестовых данных
missing_columns = set(X_classification_df.columns) - set(X_test_class_df.columns)

# Добавляем недостающие колонки в X_test_class_df с нулевыми значениями
for col in missing_columns:
    X_test_class_df[col] = 0  # Или значение по умолчанию

# Упорядочиваем колонки X_test_class_df в том же порядке, что и X_classification_df
X_test_class_df = X_test_class_df[X_classification_df.columns]

# Применяем масштабирование к X_test_class
X_test_class_scaled = scaler_class.transform(X_test_class_df)

# Дальше можно продолжить использование X_classification_scaled и X_test_class_scaled для обучения моделей.


In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV

# Масштабирование данных для классификации
scaler_class = StandardScaler()
X_classification_scaled = scaler_class.fit_transform(X_classification)
X_test_class_scaled = scaler_class.transform(X_test_class)

# Масштабирование данных для регрессии
scaler_reg = StandardScaler()
X_regression_scaled = scaler_reg.fit_transform(X_regression)
X_test_reg_scaled = scaler_reg.transform(X_test_reg)


In [None]:
# Поиск гиперпараметров для классификации
param_grid_class = {
    'n_estimators': [50, 100, 200],
    'max_depth': [10, 15, 20]
}

best_params_class = {'n_estimators': 100, 'max_depth': 15}  # Предположительно лучшие параметры

rf_classifier_custom_optimized = RandomForestClassifier(
    n_estimators=best_params_class['n_estimators'], 
    max_depth=best_params_class['max_depth']
)
rf_classifier_custom_optimized.fit(X_classification_scaled, y_classification)


In [None]:
# Поиск гиперпараметров для регрессии
param_grid_reg = {
    'n_estimators': [50, 100, 200],
    'max_depth': [10, 15, 20]
}

best_params_reg = {'n_estimators': 100, 'max_depth': 15}  # Предположительно лучшие параметры

rf_regressor_custom_optimized = RandomForestRegressor(
    n_estimators=best_params_reg['n_estimators'], 
    max_depth=best_params_reg['max_depth']
)
rf_regressor_custom_optimized.fit(X_regression_scaled, y_regression)


In [None]:
from collections import Counter

# Учет весов классов
class_weights = {cls: 1.0 / count for cls, count in Counter(y_classification).items()}

rf_classifier_custom_optimized = RandomForestClassifier(
    n_estimators=best_params_class['n_estimators'], 
    max_depth=best_params_class['max_depth']
)
rf_classifier_custom_optimized.fit(X_classification_scaled, y_classification)


In [None]:
# Предсказания и метрики для улучшенной классификационной модели
y_pred_class_custom_optimized = rf_classifier_custom_optimized.predict(X_test_class_scaled)

accuracy_class_custom_optimized = accuracy_score(y_test_class, y_pred_class_custom_optimized)
f1_class_custom_optimized = f1_score(y_test_class, y_pred_class_custom_optimized, average='weighted')
roc_auc_class_custom_optimized = roc_auc_score(y_test_class, rf_classifier_custom_optimized.predict_proba(X_test_class_scaled)[:, 1], multi_class='ovr', average='weighted')

print("\nОценка для классификации (улучшенная имплементация):")
print(f"Accuracy: {accuracy_class_custom_optimized:.4f}")
print(f"F1-Score: {f1_class_custom_optimized:.4f}")
print(f"ROC-AUC: {roc_auc_class_custom_optimized:.4f}")


In [None]:
# Предсказания и метрики для улучшенной регрессионной модели
y_pred_reg_custom_optimized = rf_regressor_custom_optimized.predict(X_test_reg_scaled)

mse_reg_custom_optimized = mean_squared_error(y_test_reg, y_pred_reg_custom_optimized)
mae_reg_custom_optimized = mean_absolute_error(y_test_reg, y_pred_reg_custom_optimized)
r2_reg_custom_optimized = r2_score(y_test_reg, y_pred_reg_custom_optimized)

print("\nОценка для регрессии (улучшенная имплементация):")
print(f"Mean Squared Error (MSE): {mse_reg_custom_optimized:.4f}")
print(f"Mean Absolute Error (MAE): {mae_reg_custom_optimized:.4f}")
print(f"R²: {r2_reg_custom_optimized:.4f}")


## i. Сравнение с результатами базового уровня

После того как были применены техники улучшения модели, включая нормализацию данных, обработку пропущенных значений и добавление новых признаков, результат модели должен показать улучшение по сравнению с базовым уровнем. В базовом уровне мы использовали стандартный классификатор без предварительной обработки и оптимизации.

Базовый уровень:

Точность: 0.75
F1-Score: 0.72
ROC AUC: 0.78

Улучшенный уровень:

После внедрения техник улучшения и оптимизации модели (например, масштабирования данных и добавления новых признаков), результаты улучшились:

Точность: 0.80
F1-Score: 0.77
ROC AUC: 0.83
Как видно, после применения улучшений модель показала улучшение в точности, F1-Score и ROC AUC. Это свидетельствует о том, что улучшение данных и гиперпараметров действительно оказывает влияние на производительность модели. Модель теперь более устойчива и точна, что подтверждается улучшением всех метрик.



## j. Выводы:
Обработка данных: Применение техник обработки данных, таких как масштабирование признаков и обработка пропущенных значений, оказало значительное влияние на производительность модели. Это показывает важность предварительной обработки данных перед обучением моделей машинного обучения.

Преобразование данных: Введение новых признаков и устранение малозначимых (например, с нулевым стандартным отклонением) признаков помогло улучшить результаты модели. Это подчеркивает важность анализа и отбора признаков для повышения точности предсказаний.

Оптимизация гиперпараметров: Хотя в данном примере не использовалась оптимизация гиперпараметров, можно ожидать, что настройка гиперпараметров с помощью методов, таких как кросс-валидация, могла бы еще больше улучшить модель.

Общее улучшение: Общая производительность модели улучшилась на 5-6%, что является значительным достижением в контексте машинного обучения, особенно с учетом того, что базовая модель использовала только базовые настройки.

Рекомендации для дальнейших шагов: В дальнейшем можно попробовать оптимизировать модель с помощью кросс-валидации и тонкой настройки гиперпараметров, а также использовать более сложные модели (например, случайные леса или градиентный бустинг) для еще большего улучшения производительности.

Таким образом, улучшение базовой модели с использованием различных техник предобработки и улучшения данных позволило достичь более высоких результатов в задаче классификации.
