In [1]:
import pandas as pd

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# Работа с данными

## Классификация: Heart Disease

In [2]:
url_classification = "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data"
columns_classification = [
    "age", "sex", "cp", "trestbps", "chol", "fbs", "restecg",
    "thalach", "exang", "oldpeak", "slope", "ca", "thal", "target"
]
df_classification = pd.read_csv(url_classification, header=None, names=columns_classification)

print("Первые 5 строк датасета:")
print(df_classification.head())

Первые 5 строк датасета:
    age  sex   cp  trestbps   chol  fbs  restecg  thalach  exang  oldpeak  \
0  63.0  1.0  1.0     145.0  233.0  1.0      2.0    150.0    0.0      2.3   
1  67.0  1.0  4.0     160.0  286.0  0.0      2.0    108.0    1.0      1.5   
2  67.0  1.0  4.0     120.0  229.0  0.0      2.0    129.0    1.0      2.6   
3  37.0  1.0  3.0     130.0  250.0  0.0      0.0    187.0    0.0      3.5   
4  41.0  0.0  2.0     130.0  204.0  0.0      2.0    172.0    0.0      1.4   

   slope   ca thal  target  
0    3.0  0.0  6.0       0  
1    2.0  3.0  3.0       2  
2    2.0  2.0  7.0       1  
3    3.0  0.0  3.0       0  
4    1.0  0.0  3.0       0  


In [3]:
print("\nИнформация о данных:")
print(df_classification.info())


Информация о данных:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    float64
 1   sex       303 non-null    float64
 2   cp        303 non-null    float64
 3   trestbps  303 non-null    float64
 4   chol      303 non-null    float64
 5   fbs       303 non-null    float64
 6   restecg   303 non-null    float64
 7   thalach   303 non-null    float64
 8   exang     303 non-null    float64
 9   oldpeak   303 non-null    float64
 10  slope     303 non-null    float64
 11  ca        303 non-null    object 
 12  thal      303 non-null    object 
 13  target    303 non-null    int64  
dtypes: float64(11), int64(1), object(2)
memory usage: 33.3+ KB
None


In [4]:

print("\nСтатистика данных:")
print(df_classification.describe())


Статистика данных:


              age         sex          cp    trestbps        chol         fbs  \
count  303.000000  303.000000  303.000000  303.000000  303.000000  303.000000   
mean    54.438944    0.679868    3.158416  131.689769  246.693069    0.148515   
std      9.038662    0.467299    0.960126   17.599748   51.776918    0.356198   
min     29.000000    0.000000    1.000000   94.000000  126.000000    0.000000   
25%     48.000000    0.000000    3.000000  120.000000  211.000000    0.000000   
50%     56.000000    1.000000    3.000000  130.000000  241.000000    0.000000   
75%     61.000000    1.000000    4.000000  140.000000  275.000000    0.000000   
max     77.000000    1.000000    4.000000  200.000000  564.000000    1.000000   

          restecg     thalach       exang     oldpeak       slope      target  
count  303.000000  303.000000  303.000000  303.000000  303.000000  303.000000  
mean     0.990099  149.607261    0.326733    1.039604    1.600660    0.937294  
std      0.994971   22.875003 

In [5]:
df_classification = df_classification.replace("?", pd.NA)
print("\nКоличество пропущенных значений:")
print(df_classification.isnull().sum())

df_classification = df_classification.dropna()
df_classification = df_classification.astype(float)

df_classification["target"] = df_classification["target"].apply(lambda x: 1 if x > 0 else 0)
print("\nРаспределение целевой переменной (target):")
print(df_classification["target"].value_counts())


Количество пропущенных значений:
age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
slope       0
ca          4
thal        2
target      0
dtype: int64

Распределение целевой переменной (target):
target
0    160
1    137
Name: count, dtype: int64


In [6]:
X_classification = df_classification.drop("target", axis=1)
y_classification = df_classification["target"]

scaler = StandardScaler()
X_classification = scaler.fit_transform(X_classification)

X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(
    X_classification, y_classification, test_size=0.3, random_state=42
)

print(f"Размер обучающей выборки: {X_train_class.shape}, тестовой выборки: {X_test_class.shape}")

Размер обучающей выборки: (207, 13), тестовой выборки: (90, 13)


Датасет состоит из 303 записей и 14 столбцов, где 13 столбцов являются признаками, а 1 столбец (target) — целевой переменной. Данные включают как числовые, так и категориальные признаки.  

В данных обнаружены пропущенные значения в двух столбцах: ca (4 значения) и thal (2 значения).

Целевая переменная представляет наличие или отсутствие сердечного заболевания. После преобразования её в бинарный формат, данные распределены следующим образом:
1. 160 записей (53%) без заболевания (target = 0);
2. 137 записей (47%) с заболеванием (target = 1).  

## Регрессия: Energy Efficiency

In [7]:
url_regression = "https://archive.ics.uci.edu/ml/machine-learning-databases/00242/ENB2012_data.xlsx"
df_regression = pd.read_excel(url_regression)

print("Первые 5 строк датасета:")
print(df_regression.head())

Первые 5 строк датасета:
     X1     X2     X3      X4   X5  X6   X7  X8     Y1     Y2
0  0.98  514.5  294.0  110.25  7.0   2  0.0   0  15.55  21.33
1  0.98  514.5  294.0  110.25  7.0   3  0.0   0  15.55  21.33
2  0.98  514.5  294.0  110.25  7.0   4  0.0   0  15.55  21.33
3  0.98  514.5  294.0  110.25  7.0   5  0.0   0  15.55  21.33
4  0.90  563.5  318.5  122.50  7.0   2  0.0   0  20.84  28.28


In [8]:
print("\nИнформация о данных:")
print(df_regression.info())


Информация о данных:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   X1      768 non-null    float64
 1   X2      768 non-null    float64
 2   X3      768 non-null    float64
 3   X4      768 non-null    float64
 4   X5      768 non-null    float64
 5   X6      768 non-null    int64  
 6   X7      768 non-null    float64
 7   X8      768 non-null    int64  
 8   Y1      768 non-null    float64
 9   Y2      768 non-null    float64
dtypes: float64(8), int64(2)
memory usage: 60.1 KB
None


In [9]:
print("\nСтатистика данных:")
print(df_regression.describe())


Статистика данных:
               X1          X2          X3          X4         X5          X6  \
count  768.000000  768.000000  768.000000  768.000000  768.00000  768.000000   
mean     0.764167  671.708333  318.500000  176.604167    5.25000    3.500000   
std      0.105777   88.086116   43.626481   45.165950    1.75114    1.118763   
min      0.620000  514.500000  245.000000  110.250000    3.50000    2.000000   
25%      0.682500  606.375000  294.000000  140.875000    3.50000    2.750000   
50%      0.750000  673.750000  318.500000  183.750000    5.25000    3.500000   
75%      0.830000  741.125000  343.000000  220.500000    7.00000    4.250000   
max      0.980000  808.500000  416.500000  220.500000    7.00000    5.000000   

               X7         X8          Y1          Y2  
count  768.000000  768.00000  768.000000  768.000000  
mean     0.234375    2.81250   22.307195   24.587760  
std      0.133221    1.55096   10.090204    9.513306  
min      0.000000    0.00000    6.01000

In [10]:
df_regression = df_regression.drop(columns=["Y2"])
df_regression.columns = [
    "RelativeCompactness", "SurfaceArea", "WallArea", "RoofArea", "OverallHeight",
    "Orientation", "GlazingArea", "GlazingAreaDistribution", "HeatingLoad"
]

print("\nКоличество пропущенных значений:")
print(df_regression.isnull().sum())

X_regression = df_regression.drop("HeatingLoad", axis=1)
y_regression = df_regression["HeatingLoad"]


Количество пропущенных значений:
RelativeCompactness        0
SurfaceArea                0
WallArea                   0
RoofArea                   0
OverallHeight              0
Orientation                0
GlazingArea                0
GlazingAreaDistribution    0
HeatingLoad                0
dtype: int64


In [11]:
scaler = StandardScaler()
X_regression = scaler.fit_transform(X_regression)

X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(
    X_regression, y_regression, test_size=0.3, random_state=42
)

print(f"Размер обучающей выборки: {X_train_reg.shape}, тестовой выборки: {X_test_reg.shape}")

Размер обучающей выборки: (537, 8), тестовой выборки: (231, 8)


Датасет состоит из 768 записей и 10 столбцов. Целевая переменная — Y1 (Heating Load). Остальные столбцы представляют числовые признаки, описывающие физические характеристики зданий.  

Признаки имеют разные масштабы (например, X1 варьируется от 0.62 до 0.98, а X2 — от 514.5 до 808.5), что потребовало стандартизации.

# Лабораторная работа №1 (KNN)

## Классификация

### Baseline

In [12]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

knn_classifier = KNeighborsClassifier(n_neighbors=3)
knn_classifier.fit(X_train_class, y_train_class)

y_pred_class = knn_classifier.predict(X_test_class)

accuracy = accuracy_score(y_test_class, y_pred_class)
precision = precision_score(y_test_class, y_pred_class)
recall = recall_score(y_test_class, y_pred_class)
f1 = f1_score(y_test_class, y_pred_class)

print(f"Бейзлайн (KNN, n_neighbors=3):")
print(f"Accuracy: {accuracy:.2f}, Precision: {precision:.2f}, Recall: {recall:.2f}, F1-score: {f1:.2f}")

Бейзлайн (KNN, n_neighbors=3):
Accuracy: 0.83, Precision: 0.84, Recall: 0.78, F1-score: 0.81


### GridSearch

In [13]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_neighbors': range(1, 20),
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan', 'minkowski']
}

grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5, scoring='f1')
grid_search.fit(X_train_class, y_train_class)

best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

y_pred_optimized = best_model.predict(X_test_class)
optimized_f1 = f1_score(y_test_class, y_pred_optimized)

print(f"Лучшие параметры: {best_params}")
print(f"F1-score с подобранными параметрами: {optimized_f1:.2f}")

Лучшие параметры: {'metric': 'manhattan', 'n_neighbors': 15, 'weights': 'uniform'}
F1-score с подобранными параметрами: 0.86


### Своя имплементация

In [14]:
import numpy as np

class KNNClassifier:
    def __init__(self, n_neighbors=3, metric='euclidean'):
        self.n_neighbors = n_neighbors
        self.metric = metric

    def fit(self, X, y):
        self.X_train = X
        self.y_train = np.array(y)

    def predict(self, X):
        predictions = []
        for x in X:
            distances = (
                np.linalg.norm(self.X_train - x, axis=1)
                if self.metric == 'euclidean'
                else np.abs(self.X_train - x).sum(axis=1)
            )
            neighbors_idx = np.argsort(distances)[:self.n_neighbors]
            neighbors_labels = self.y_train[neighbors_idx]
            predictions.append(np.bincount(neighbors_labels).argmax())
        return np.array(predictions)

    def get_params(self, deep=True):
        return {"n_neighbors": self.n_neighbors, "metric": self.metric}

    def set_params(self, **params):
        for param, value in params.items():
            setattr(self, param, value)
        return self

custom_knn = KNNClassifier(n_neighbors=3)
custom_knn.fit(X_train_class, y_train_class)
y_pred_custom = custom_knn.predict(X_test_class)

custom_f1 = f1_score(y_test_class, y_pred_custom)
print(f"F1-score для собственной KNN: {custom_f1:.2f}")

F1-score для собственной KNN: 0.81


### Подбор для собственной

In [15]:
from sklearn.model_selection import cross_val_score
import itertools

param_grid_custom = {
    'n_neighbors': range(1, 20),
    'metric': ['euclidean', 'manhattan']
}

def evaluate_custom_knn(X_train, y_train, params):
    knn = KNNClassifier(n_neighbors=params['n_neighbors'], metric=params['metric'])
    scores = cross_val_score(knn, X_train, y_train, cv=5, scoring='f1')
    return scores.mean()

best_score = -1
best_params_custom = None

for params in itertools.product(param_grid_custom['n_neighbors'], param_grid_custom['metric']):
    params_dict = {'n_neighbors': params[0], 'metric': params[1]}
    score = evaluate_custom_knn(X_train_class, y_train_class, params_dict)
    if score > best_score:
        best_score = score
        best_params_custom = params_dict

print(f"Лучшие параметры для собственной реализации KNN: {best_params_custom}")
print(f"F1-score с подобранными параметрами: {best_score:.2f}")

Лучшие параметры для собственной реализации KNN: {'n_neighbors': 9, 'metric': 'euclidean'}
F1-score с подобранными параметрами: 0.80


Модель из sklearn с оптимизированными параметрами показала наилучший результат с F1-score 0.86.  

Собственная реализация алгоритма KNN продемонстрировала качественную работу с F1-score 0.81, однако немного уступила модели sklearn с подобранными параметрами.  

Подбор гиперпараметров значительно улучшает качество моделей. Для модели sklearn увеличение F1-score составило 6%.  

## Регрессия

### Baseline

In [16]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

knn_regressor = KNeighborsRegressor(n_neighbors=3)
knn_regressor.fit(X_train_reg, y_train_reg)

y_pred_reg = knn_regressor.predict(X_test_reg)

mse = mean_squared_error(y_test_reg, y_pred_reg)
mae = mean_absolute_error(y_test_reg, y_pred_reg)
r2 = r2_score(y_test_reg, y_pred_reg)

print(f"Бейзлайн (KNN, n_neighbors=3):")
print(f"MSE: {mse:.2f}, MAE: {mae:.2f}, R2: {r2:.2f}")

Бейзлайн (KNN, n_neighbors=3):
MSE: 5.50, MAE: 1.54, R2: 0.95


### Params search

In [17]:
param_grid_reg = {
    'n_neighbors': range(1, 20),
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan', 'minkowski']
}

grid_search_reg = GridSearchCV(KNeighborsRegressor(), param_grid_reg, cv=5, scoring='neg_mean_squared_error')
grid_search_reg.fit(X_train_reg, y_train_reg)

best_params_reg = grid_search_reg.best_params_
best_model_reg = grid_search_reg.best_estimator_

y_pred_reg_optimized = best_model_reg.predict(X_test_reg)
optimized_mse = mean_squared_error(y_test_reg, y_pred_reg_optimized)

print(f"Лучшие параметры: {best_params_reg}")
print(f"MSE с подобранными параметрами: {optimized_mse:.2f}")

Лучшие параметры: {'metric': 'manhattan', 'n_neighbors': 3, 'weights': 'distance'}
MSE с подобранными параметрами: 1.49


### Моя имплементация

In [18]:
import numpy as np

class KNNRegressor:
    def __init__(self, n_neighbors=3, metric='euclidean'):
        self.n_neighbors = n_neighbors
        self.metric = metric

    def fit(self, X, y):
        self.X_train = X
        self.y_train = np.array(y)

    def predict(self, X):
        predictions = []
        for x in X:
            distances = (
                np.linalg.norm(self.X_train - x, axis=1)
                if self.metric == 'euclidean'
                else np.abs(self.X_train - x).sum(axis=1)
            )
            neighbors_idx = np.argsort(distances)[:self.n_neighbors]
            neighbors_values = self.y_train[neighbors_idx]
            predictions.append(np.mean(neighbors_values))
        return np.array(predictions)

    def get_params(self, deep=True):
        return {"n_neighbors": self.n_neighbors, "metric": self.metric}

    def set_params(self, **params):
        for param, value in params.items():
            setattr(self, param, value)
        return self

custom_knn_reg = KNNRegressor(n_neighbors=3)
custom_knn_reg.fit(X_train_reg, y_train_reg)
y_pred_custom_reg = custom_knn_reg.predict(X_test_reg)

custom_mse = mean_squared_error(y_test_reg, y_pred_custom_reg)
print(f"MSE для собственной реализации KNN: {custom_mse:.2f}")

MSE для собственной реализации KNN: 5.52


### Подбор параметров для своей имплементации

In [19]:
from sklearn.model_selection import cross_val_score
import itertools

def evaluate_custom_knn_reg(X_train, y_train, params):
    knn = KNNRegressor(n_neighbors=params['n_neighbors'], metric=params['metric'])
    scores = cross_val_score(knn, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
    return -scores.mean()

best_score_reg = float('inf')
best_params_custom_reg = None

for params in itertools.product(param_grid_custom['n_neighbors'], param_grid_custom['metric']):
    params_dict = {'n_neighbors': params[0], 'metric': params[1]}
    score = evaluate_custom_knn_reg(X_train_reg, y_train_reg, params_dict)
    if score < best_score_reg:
        best_score_reg = score
        best_params_custom_reg = params_dict

print(f"Лучшие параметры для собственной реализации KNN: {best_params_custom_reg}")
print(f"MSE с подобранными параметрами: {best_score_reg:.2f}")

Лучшие параметры для собственной реализации KNN: {'n_neighbors': 4, 'metric': 'manhattan'}
MSE с подобранными параметрами: 2.75


Модель sklearn с оптимизированными параметрами показала наилучший результат (MSE 1.49).  

Собственная реализация алгоритма KNN продемонстрировала MSE 5.52 при параметрах по умолчанию, что соответствует базовым результатам модели sklearn.  

После подбора параметров (n_neighbors=4, metric='manhattan') собственная реализация улучшила качество до MSE 2.75, однако всё ещё уступила оптимизированной модели sklearn.  

# Лабораторная работат №2 (Lin. models)

## Классификация

### Baseline

In [20]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

log_reg = LogisticRegression()
log_reg.fit(X_train_class, y_train_class)

y_pred_class = log_reg.predict(X_test_class)

accuracy = accuracy_score(y_test_class, y_pred_class)
precision = precision_score(y_test_class, y_pred_class)
recall = recall_score(y_test_class, y_pred_class)
f1 = f1_score(y_test_class, y_pred_class)

print(f"Бейзлайн (Логистическая регрессия):")
print(f"Accuracy: {accuracy:.2f}, Precision: {precision:.2f}, Recall: {recall:.2f}, F1-score: {f1:.2f}")

Бейзлайн (Логистическая регрессия):
Accuracy: 0.89, Precision: 0.90, Recall: 0.85, F1-score: 0.88


### Подбор параметров

In [30]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression

param_grid = [
    {'penalty': ['l1'], 'C': [0.01, 0.1, 1, 10, 100], 'solver': ['liblinear']},
    {'penalty': ['l2'], 'C': [0.01, 0.1, 1, 10, 100], 'solver': ['liblinear', 'saga']},
    {'penalty': ['elasticnet'], 'C': [0.01, 0.1, 1, 10, 100], 'solver': ['saga'], 'l1_ratio': [0.5]}
]

grid_search = GridSearchCV(
    LogisticRegression(max_iter=10000),
    param_grid,
    cv=5,
    scoring='f1',
    error_score='raise'
)
grid_search.fit(X_train_class, y_train_class)

best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

y_pred_optimized = best_model.predict(X_test_class)
optimized_f1 = f1_score(y_test_class, y_pred_optimized)

print(f"Лучшие параметры: {best_params}")
print(f"F1-score с подобранными параметрами: {optimized_f1:.2f}")

Лучшие параметры: {'C': 0.01, 'penalty': 'l2', 'solver': 'saga'}
F1-score с подобранными параметрами: 0.87


### Своя имплементация

In [31]:
import numpy as np

class LogisticRegressionCustom:
    def __init__(self, lr=0.01, n_iter=1000):
        self.lr = lr
        self.n_iter = n_iter

    def fit(self, X, y):
        X = np.c_[np.ones((X.shape[0], 1)), X]
        self.theta = np.zeros(X.shape[1])

        for _ in range(self.n_iter):
            linear_model = np.dot(X, self.theta)
            y_pred = self._sigmoid(linear_model)
            gradient = np.dot(X.T, (y_pred - y)) / len(y)
            self.theta -= self.lr * gradient

    def predict(self, X):
        X = np.c_[np.ones((X.shape[0], 1)), X]
        linear_model = np.dot(X, self.theta)
        y_pred = self._sigmoid(linear_model)
        return (y_pred >= 0.5).astype(int)

    def _sigmoid(self, z):
        return 1 / (1 + np.exp(-z))

custom_log_reg = LogisticRegressionCustom(lr=0.1, n_iter=1000)
custom_log_reg.fit(X_train_class, y_train_class)
y_pred_custom = custom_log_reg.predict(X_test_class)

custom_f1 = f1_score(y_test_class, y_pred_custom)
print(f"F1-score для собственной логистической регрессии: {custom_f1:.2f}")

F1-score для собственной логистической регрессии: 0.88


### Улучшение собственной

In [32]:
import itertools

param_grid_custom = {
    'lr': [0.001, 0.01, 0.1, 0.5],
    'n_iter': [500, 1000, 2000]
}

def evaluate_custom_log_reg(X_train, y_train, X_test, y_test, params):
    log_reg = LogisticRegressionCustom(lr=params['lr'], n_iter=params['n_iter'])
    log_reg.fit(X_train, y_train)
    y_pred = log_reg.predict(X_test)
    return f1_score(y_test, y_pred)

best_score = -1
best_params = None

for params in itertools.product(param_grid_custom['lr'], param_grid_custom['n_iter']):
    params_dict = {'lr': params[0], 'n_iter': params[1]}
    score = evaluate_custom_log_reg(X_train_class, y_train_class, X_test_class, y_test_class, params_dict)
    if score > best_score:
        best_score = score
        best_params = params_dict

print(f"Лучшие параметры для собственной логистической регрессии: {best_params}")
print(f"F1-score с подобранными параметрами: {best_score:.2f}")

Лучшие параметры для собственной логистической регрессии: {'lr': 0.001, 'n_iter': 2000}
F1-score с подобранными параметрами: 0.90


Модель sklearn с параметрами по умолчанию показала высокие результаты: F1-score 0.88.  

После подбора параметров (C=0.01, penalty='l2', solver='saga') F1-score модели sklearn составил 0.87. Оптимизация не дала значительного прироста, но модель осталась на уровне качества бейзлайна.

Собственная реализация алгоритма логистической регрессии показала F1-score 0.88 при параметрах по умолчанию, что соответствует результатам бейзлайна модели sklearn.

После подбора параметров (lr=0.001, n_iter=2000) собственная реализация улучшила качество до F1-score 0.90, что превосходит как базовый, так и оптимизированный результаты модели sklearn.

## Регрессия

### Baseline

In [33]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

lin_reg = LinearRegression()
lin_reg.fit(X_train_reg, y_train_reg)

y_pred_reg = lin_reg.predict(X_test_reg)

mse = mean_squared_error(y_test_reg, y_pred_reg)
mae = mean_absolute_error(y_test_reg, y_pred_reg)
r2 = r2_score(y_test_reg, y_pred_reg)

print(f"Бейзлайн (Линейная регрессия):")
print(f"MSE: {mse:.2f}, MAE: {mae:.2f}, R2: {r2:.2f}")

Бейзлайн (Линейная регрессия):
MSE: 8.84, MAE: 2.15, R2: 0.91


### Подбор параметров

In [34]:
from sklearn.linear_model import Ridge

param_grid_ridge = {'alpha': [0.01, 0.1, 1, 10, 100]}
ridge_grid = GridSearchCV(Ridge(), param_grid_ridge, cv=5, scoring='neg_mean_squared_error')
ridge_grid.fit(X_train_reg, y_train_reg)

best_params_ridge = ridge_grid.best_params_
best_ridge_model = ridge_grid.best_estimator_

y_pred_ridge = best_ridge_model.predict(X_test_reg)
ridge_mse = mean_squared_error(y_test_reg, y_pred_ridge)

print(f"Лучшие параметры для Ridge: {best_params_ridge}")
print(f"MSE с Ridge-регрессией: {ridge_mse:.2f}")

Лучшие параметры для Ridge: {'alpha': 0.1}
MSE с Ridge-регрессией: 8.84


### Своя имплементация

In [44]:
class LinearRegressionCustom:
    def __init__(self, lr=0.01, n_iter=1000, alpha=0.0):
        self.lr = lr
        self.n_iter = n_iter
        self.alpha = alpha

    def fit(self, X, y):
        X = np.c_[np.ones((X.shape[0], 1)), X]
        self.theta = np.random.randn(X.shape[1]) * 0.01

        for i in range(self.n_iter):
            y_pred = np.dot(X, self.theta)
            gradient = -2 / len(y) * np.dot(X.T, (y - y_pred)) + self.alpha * self.theta

            # Проверка градиентов
            max_grad = np.max(np.abs(gradient))
            if not np.isfinite(max_grad) or max_grad > 1e6:
                print(f"Градиенты стали слишком большими на итерации {i}: {max_grad}")
                break

            self.theta -= self.lr * gradient

            # Диагностика
            loss = np.mean((y - y_pred) ** 2)
            if not np.isfinite(loss):
                print(f"Ошибка на итерации {i}: {loss}")
                break
            if i % 100 == 0:
                print(f"Итерация {i}, loss: {loss}")

    def predict(self, X):
        X = np.c_[np.ones((X.shape[0], 1)), X]
        return np.dot(X, self.theta)

custom_lin_reg = LinearRegressionCustom(lr=0.01, n_iter=1000)
custom_lin_reg.fit(X_train_reg, y_train_reg)
y_pred_custom_reg = custom_lin_reg.predict(X_test_reg)

custom_mse = mean_squared_error(y_test_reg, y_pred_custom_reg)
print(f"MSE для собственной линейной регрессии: {custom_mse:.2f}")

Итерация 0, loss: 588.4976767987185
Итерация 100, loss: 20.006996697780185
Итерация 200, loss: 10.69570093139781
Итерация 300, loss: 10.164905108326568
Итерация 400, loss: 9.859431573816838
Итерация 500, loss: 9.612796902606311
Итерация 600, loss: 9.411686758113245
Итерация 700, loss: 9.247581151950255
Итерация 800, loss: 9.113594257725653
Итерация 900, loss: 9.00412382556738
MSE для собственной линейной регрессии: 9.51


### Улучшение собственной

In [45]:
def evaluate_custom_lin_reg(X_train, y_train, X_test, y_test, params):
    lin_reg = LinearRegressionCustom(lr=params['lr'], n_iter=params['n_iter'])
    lin_reg.fit(X_train, y_train)
    y_pred = lin_reg.predict(X_test)
    return mean_squared_error(y_test, y_pred)

best_score_reg = float('inf')
best_params_reg = None

for params in itertools.product(param_grid_custom['lr'], param_grid_custom['n_iter']):
    params_dict = {'lr': params[0], 'n_iter': params[1]}
    try:
        score = evaluate_custom_lin_reg(X_train_reg, y_train_reg, X_test_reg, y_test_reg, params_dict)
        if score < best_score_reg:
            best_score_reg = score
            best_params_reg = params_dict
    except ValueError as e:
        print(f"Ошибка для параметров {params_dict}: {e}")


print(f"Лучшие параметры для собственной линейной регрессии: {best_params_reg}")
print(f"MSE с подобранными параметрами: {best_score_reg:.2f}")

Итерация 0, loss: 587.2538973883164
Итерация 100, loss: 373.76247451116643
Итерация 200, loss: 248.05496728972733
Итерация 300, loss: 168.10286956222873
Итерация 400, loss: 115.68294327648259
Итерация 0, loss: 587.503773356167
Итерация 100, loss: 373.82854648419243
Итерация 200, loss: 248.08148503361997
Итерация 300, loss: 168.12110517473099
Итерация 400, loss: 115.69919687169063
Итерация 500, loss: 80.93164105898488
Итерация 600, loss: 57.76480058628492
Итерация 700, loss: 42.29207282861571
Итерация 800, loss: 31.941487413675766
Итерация 900, loss: 25.006830954984803
Итерация 0, loss: 588.1598461769055
Итерация 100, loss: 374.1947340557463
Итерация 200, loss: 248.3004217176543
Итерация 300, loss: 168.25311491617433
Итерация 400, loss: 115.776337330274
Итерация 500, loss: 80.97329062353877
Итерация 600, loss: 57.78334002918401
Итерация 700, loss: 42.29557832980483
Итерация 800, loss: 31.935265384997592
Итерация 900, loss: 24.99437547647766
Итерация 1000, loss: 20.33628175191298
Итераци

Модель sklearn с параметрами по умолчанию показала высокие результаты: MSE 8.84, MAE 2.15, R² 0.91.

После подбора параметров для Ridge-регрессии (alpha=0.1) MSE модели осталось на уровне 8.84. Оптимизация параметров не привела к улучшению, но модель сохранила качество, равное бейзлайну.

Собственная реализация алгоритма линейной регрессии продемонстрировала MSE 9.51 при параметрах по умолчанию, что несколько уступает результатам модели sklearn.

После подбора параметров (lr=0.1, n_iter=2000) собственная реализация улучшила качество до MSE 8.85. Это значение приближается к результатам Ridge-регрессии, показывая, что собственная модель способна достичь уровня качества sklearn при грамотной настройке параметров.

# Лабораторная работа №3 (Decision Tree)

## Классификация

### Baseline

In [46]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

dt_clf = DecisionTreeClassifier(random_state=42)
dt_clf.fit(X_train_class, y_train_class)

y_pred_baseline = dt_clf.predict(X_test_class)

baseline_accuracy = accuracy_score(y_test_class, y_pred_baseline)
baseline_precision = precision_score(y_test_class, y_pred_baseline)
baseline_recall = recall_score(y_test_class, y_pred_baseline)
baseline_f1 = f1_score(y_test_class, y_pred_baseline)

print(f"Accuracy: {baseline_accuracy:.2f}, Precision: {baseline_precision:.2f}, Recall: {baseline_recall:.2f}, F1-score: {baseline_f1:.2f}")

Accuracy: 0.69, Precision: 0.64, Recall: 0.73, F1-score: 0.68


### Подбор параметров

In [47]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'max_depth': [3, 5, 10, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'criterion': ['gini', 'entropy']
}

grid_search = GridSearchCV(DecisionTreeClassifier(random_state=42), param_grid, cv=5, scoring='f1')
grid_search.fit(X_train_class, y_train_class)

best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

y_pred_optimized = best_model.predict(X_test_class)
optimized_f1 = f1_score(y_test_class, y_pred_optimized)

print(f"Лучшие параметры: {best_params}")
print(f"F1-score с подобранными параметрами: {optimized_f1:.2f}")

Лучшие параметры: {'criterion': 'gini', 'max_depth': 3, 'min_samples_leaf': 4, 'min_samples_split': 2}
F1-score с подобранными параметрами: 0.70


### Своя имплементация

In [51]:
class DecisionTreeClassifierCustom:
    def __init__(self, max_depth=None):
        self.max_depth = max_depth

    def fit(self, X, y):
        if isinstance(y, pd.Series):
            y = y.values
        self.tree = self._build_tree(X, y, depth=0)

    def _build_tree(self, X, y, depth):
        if len(set(y)) == 1 or depth == self.max_depth or len(y) == 0:
            return np.argmax(np.bincount(y))

        best_split = self._find_best_split(X, y)
        if best_split is None:
            return np.argmax(np.bincount(y))

        left_indices = best_split['indices_left']
        right_indices = best_split['indices_right']

        left_subtree = self._build_tree(X[left_indices], y[left_indices], depth + 1)
        right_subtree = self._build_tree(X[right_indices], y[right_indices], depth + 1)

        return {'split_feature': best_split['feature'],
                'threshold': best_split['threshold'],
                'left': left_subtree,
                'right': right_subtree}

    def _find_best_split(self, X, y):
        best_gini = float('inf')
        best_split = None

        for feature in range(X.shape[1]):
            thresholds = np.unique(X[:, feature])
            for threshold in thresholds:
                left_indices = np.where(X[:, feature] <= threshold)[0]
                right_indices = np.where(X[:, feature] > threshold)[0]

                gini = self._calculate_gini(y[left_indices], y[right_indices])
                if gini < best_gini:
                    best_gini = gini
                    best_split = {'feature': feature, 'threshold': threshold,
                                  'indices_left': left_indices, 'indices_right': right_indices}
        return best_split

    def _calculate_gini(self, left, right):
        def gini_impurity(y):
            m = len(y)
            if m == 0:
                return 0
            p = np.bincount(y) / m
            return 1 - np.sum(p ** 2)

        total = len(left) + len(right)
        return (len(left) / total) * gini_impurity(left) + (len(right) / total) * gini_impurity(right)

    def predict(self, X):
        return np.array([self._predict_one(row, self.tree) for row in X])

    def _predict_one(self, row, tree):
        if not isinstance(tree, dict):
            return tree

        if row[tree['split_feature']] <= tree['threshold']:
            return self._predict_one(row, tree['left'])
        else:
            return self._predict_one(row, tree['right'])


custom_dt = DecisionTreeClassifierCustom(max_depth=3)
custom_dt.fit(X_train_class, y_train_class)
y_pred_custom = custom_dt.predict(X_test_class)

custom_f1 = f1_score(y_test_class, y_pred_custom)
print(f"F1-score для собственной реализации дерева решений: {custom_f1:.2f}")

F1-score для собственной реализации дерева решений: 0.72


### Улучшение собственной

In [None]:
param_grid_custom = {
    'max_depth': [3, 5, 7],
    'min_samples_leaf': [1, 2, 5],
    'criterion': ['gini']
}

def evaluate_custom_dt(X_train, y_train, X_test, y_test, params):
    dt = DecisionTreeClassifierCustom(max_depth=params['max_depth'])
    dt.fit(X_train, y_train)
    y_pred = dt.predict(X_test)
    return f1_score(y_test, y_pred)

best_score = 0
best_params = None

for params in itertools.product(param_grid_custom['max_depth'], param_grid_custom['min_samples_leaf']):
    params_dict = {
        'max_depth': params[0],
        'min_samples_leaf': params[1],
        'criterion': 'gini'
    }
    try:
        score = evaluate_custom_dt(X_train_class, y_train_class, X_test_class, y_test_class, params_dict)
        if score > best_score:
            best_score = score
            best_params = params_dict
    except Exception as e:
        print(f"Ошибка для параметров {params_dict}: {e}")

print(f"Лучшие параметры для собственной реализации: {best_params}")
print(f"F1-score с подобранными параметрами: {best_score:.2f}")

Лучшие параметры для собственной реализации: {'max_depth': 7, 'min_samples_leaf': 1, 'criterion': 'gini'}
F1-score с подобранными параметрами: 0.73


Модель sklearn с параметрами по умолчанию показала удовлетворительные результаты: F1-score 0.68.

После подбора параметров (criterion='gini', max_depth=3, min_samples_leaf=4, min_samples_split=2) F1-score модели sklearn увеличился до 0.70, что демонстрирует небольшой прирост качества при оптимизации гиперпараметров.

Собственная реализация дерева решений изначально продемонстрировала более высокое качество с F1-score 0.72, превосходя как базовый результат sklearn, так и его оптимизированную версию.

После подбора параметров (max_depth=7, min_samples_leaf=1, criterion='gini') собственная реализация улучшила F1-score до 0.73, что подчеркивает её конкурентоспособность и способность адаптироваться к данным при оптимизации.

## Регрессия

### Baseline

In [54]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

dt_reg = DecisionTreeRegressor(random_state=42)
dt_reg.fit(X_train_reg, y_train_reg)

y_pred_baseline = dt_reg.predict(X_test_reg)

baseline_mse = mean_squared_error(y_test_reg, y_pred_baseline)
baseline_mae = mean_absolute_error(y_test_reg, y_pred_baseline)
baseline_r2 = r2_score(y_test_reg, y_pred_baseline)

print(f"MSE: {baseline_mse:.2f}, MAE: {baseline_mae:.2f}, R2: {baseline_r2:.2f}")

MSE: 0.33, MAE: 0.39, R2: 1.00


### Подбор параметров

In [55]:
param_grid = {
    'max_depth': [3, 5, 10, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'criterion': ['squared_error', 'friedman_mse']
}

grid_search = GridSearchCV(DecisionTreeRegressor(random_state=42), param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train_reg, y_train_reg)

best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

y_pred_optimized = best_model.predict(X_test_reg)
optimized_mse = mean_squared_error(y_test_reg, y_pred_optimized)

print(f"Лучшие параметры: {best_params}")
print(f"MSE с подобранными параметрами: {optimized_mse:.2f}")

Лучшие параметры: {'criterion': 'friedman_mse', 'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 2}
MSE с подобранными параметрами: 0.34


### Своя имплементация

In [59]:
import numpy as np
import pandas as pd

class DecisionTreeRegressorCustom:
    def __init__(self, max_depth=None, min_samples_leaf=1):
        self.max_depth = max_depth
        self.min_samples_leaf = min_samples_leaf

    def fit(self, X, y):
        if isinstance(y, pd.Series):
            y = y.values
        self.tree = self._build_tree(X, y, depth=0)

    def _build_tree(self, X, y, depth):
        if len(y) <= self.min_samples_leaf or depth == self.max_depth:
            return np.mean(y)

        best_split = self._find_best_split(X, y)
        if best_split is None:
            return np.mean(y)

        left_indices = best_split['indices_left']
        right_indices = best_split['indices_right']

        left_subtree = self._build_tree(X[left_indices], y[left_indices], depth + 1)
        right_subtree = self._build_tree(X[right_indices], y[right_indices], depth + 1)

        return {'split_feature': best_split['feature'],
                'threshold': best_split['threshold'],
                'left': left_subtree,
                'right': right_subtree}

    def _find_best_split(self, X, y):
        best_mse = float('inf')
        best_split = None

        for feature in range(X.shape[1]):
            thresholds = np.unique(X[:, feature])
            for threshold in thresholds:
                left_indices = np.where(X[:, feature] <= threshold)[0]
                right_indices = np.where(X[:, feature] > threshold)[0]

                if len(left_indices) < self.min_samples_leaf or len(right_indices) < self.min_samples_leaf:
                    continue

                mse = self._calculate_mse(y[left_indices], y[right_indices])
                if mse < best_mse:
                    best_mse = mse
                    best_split = {'feature': feature, 'threshold': threshold,
                                  'indices_left': left_indices, 'indices_right': right_indices}
        return best_split

    def _calculate_mse(self, left, right):
        def mse(y):
            if len(y) == 0:
                return 0
            return np.mean((y - np.mean(y)) ** 2)

        total = len(left) + len(right)
        return (len(left) / total) * mse(left) + (len(right) / total) * mse(right)

    def predict(self, X):
        return np.array([self._predict_one(row, self.tree) for row in X])

    def _predict_one(self, row, tree):
        if not isinstance(tree, dict):
            return tree

        if row[tree['split_feature']] <= tree['threshold']:
            return self._predict_one(row, tree['left'])
        else:
            return self._predict_one(row, tree['right'])

custom_dt_reg = DecisionTreeRegressorCustom(max_depth=3)
custom_dt_reg.fit(X_train_reg, y_train_reg)
y_pred_custom_reg = custom_dt_reg.predict(X_test_reg)

custom_mse = mean_squared_error(y_test_reg, y_pred_custom_reg)
print(f"MSE для собственной реализации дерева решений: {custom_mse:.2f}")

MSE для собственной реализации дерева решений: 6.01


### Улучшение собственной

In [61]:
def evaluate_custom_dt_reg(X_train, y_train, X_test, y_test, params):
    dt = DecisionTreeRegressorCustom(
        max_depth=params['max_depth'],
        min_samples_leaf=params['min_samples_leaf']
    )
    dt.fit(X_train, y_train)
    y_pred = dt.predict(X_test)
    return mean_squared_error(y_test, y_pred)

param_grid_custom = {
    'max_depth': [3, 5, 7],
    'min_samples_leaf': [1, 2, 5]
}

best_score_reg = float('inf')
best_params_reg = None

for params in itertools.product(
    param_grid_custom['max_depth'],
    param_grid_custom['min_samples_leaf']
):
    params_dict = {
        'max_depth': params[0],
        'min_samples_leaf': params[1]
    }
    try:
        score = evaluate_custom_dt_reg(X_train_reg, y_train_reg, X_test_reg, y_test_reg, params_dict)
        if score < best_score_reg:
            best_score_reg = score
            best_params_reg = params_dict
    except Exception as e:
        print(f"Ошибка для параметров {params_dict}: {e}")

print(f"Лучшие параметры для собственной реализации дерева решений: {best_params_reg}")
print(f"MSE с подобранными параметрами: {best_score_reg:.2f}")

Лучшие параметры для собственной реализации дерева решений: {'max_depth': 7, 'min_samples_leaf': 1}
MSE с подобранными параметрами: 0.26


Модель sklearn с параметрами по умолчанию показала отличные результаты: MSE 0.33, MAE 0.39, R² 1.00.

После подбора параметров (criterion='friedman_mse', max_depth=10, min_samples_leaf=1, min_samples_split=2) MSE модели составило 0.34, что подтверждает высокий уровень качества модели даже при изменении конфигурации.

Собственная реализация дерева решений продемонстрировала базовый результат MSE 6.01, что значительно уступает модели sklearn.

После подбора параметров (max_depth=7, min_samples_leaf=1) собственная реализация улучшила результат до MSE 0.26, превосходя как базовый, так и оптимизированный результаты модели sklearn.

# Лабораторная работа №4 (Random Forest)

## Классификация

### Baseline

In [62]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

rf = RandomForestClassifier(random_state=42)
rf.fit(X_train_class, y_train_class)
y_pred_rf = rf.predict(X_test_class)

baseline_accuracy = accuracy_score(y_test_class, y_pred_rf)
baseline_precision = precision_score(y_test_class, y_pred_rf, average='macro')
baseline_recall = recall_score(y_test_class, y_pred_rf, average='macro')
baseline_f1 = f1_score(y_test_class, y_pred_rf, average='macro')

print(f"Accuracy: {baseline_accuracy:.2f}, Precision: {baseline_precision:.2f}, Recall: {baseline_recall:.2f}, F1-score: {baseline_f1:.2f}")

Accuracy: 0.86, Precision: 0.85, Recall: 0.85, F1-score: 0.85


### Подбор параметров

In [63]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'criterion': ['gini', 'entropy']
}

grid_search = GridSearchCV(
    RandomForestClassifier(random_state=42),
    param_grid,
    cv=5,
    scoring='f1_macro'
)
grid_search.fit(X_train_class, y_train_class)

best_params_rf = grid_search.best_params_
best_rf_model = grid_search.best_estimator_

y_pred_optimized_rf = best_rf_model.predict(X_test_class)
optimized_f1 = f1_score(y_test_class, y_pred_optimized_rf, average='macro')

print(f"Лучшие параметры: {best_params_rf}")
print(f"F1-score с подобранными параметрами: {optimized_f1:.2f}")

Лучшие параметры: {'criterion': 'entropy', 'max_depth': None, 'min_samples_split': 10, 'n_estimators': 100}
F1-score с подобранными параметрами: 0.85


### Своя имплементация

In [67]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier

class RandomForestClassifierCustom:
    def __init__(self, n_estimators=10, max_depth=None, max_features=None):
        self.n_estimators = n_estimators
        self.max_depth = max_depth
        self.max_features = max_features
        self.trees = []

    def fit(self, X, y):
        if isinstance(y, pd.Series):
            y = y.values

        n_samples = X.shape[0]
        for _ in range(self.n_estimators):
            indices = np.random.choice(n_samples, n_samples, replace=True)
            sample_X = X[indices]
            sample_y = y[indices]

            tree = DecisionTreeClassifier(max_depth=self.max_depth, max_features=self.max_features, random_state=42)
            tree.fit(sample_X, sample_y)
            self.trees.append(tree)

    def predict(self, X):
        tree_predictions = np.array([tree.predict(X) for tree in self.trees])
        return np.apply_along_axis(lambda x: np.bincount(x).argmax(), axis=0, arr=tree_predictions)

custom_rf = RandomForestClassifierCustom(n_estimators=10, max_depth=5)
custom_rf.fit(X_train_class, y_train_class)
y_pred_custom_rf = custom_rf.predict(X_test_class)

custom_f1_rf = f1_score(y_test_class, y_pred_custom_rf, average='macro')
print(f"F1-score для собственной реализации Random Forest: {custom_f1_rf:.2f}")

F1-score для собственной реализации Random Forest: 0.81


### Улучшение собственной

In [None]:
import itertools

param_grid_custom_rf = {
    'n_estimators': [10, 20, 50],
    'max_depth': [None, 5, 10]
}

def evaluate_custom_rf(X_train, y_train, X_test, y_test, params):
    custom_rf = RandomForestClassifierCustom(
        n_estimators=params['n_estimators'], 
        max_depth=params['max_depth']
    )
    custom_rf.fit(X_train, y_train)
    y_pred = custom_rf.predict(X_test)
    return f1_score(y_test, y_pred, average='macro')

best_score_rf = 0
best_params_rf_custom = None

for params in itertools.product(param_grid_custom_rf['n_estimators'], param_grid_custom_rf['max_depth']):
    params_dict = {'n_estimators': params[0], 'max_depth': params[1]}
    try:
        score = evaluate_custom_rf(X_train_class, y_train_class, X_test_class, y_test_class, params_dict)
        if score > best_score_rf:
            best_score_rf = score
            best_params_rf_custom = params_dict
    except Exception as e:
        print(f"Ошибка для параметров {params_dict}: {e}")

print(f"Лучшие параметры для собственной реализации: {best_params_rf_custom}")
print(f"F1-score с подобранными параметрами: {best_score_rf:.2f}")

Лучшие параметры для собственной реализации: {'n_estimators': 10, 'max_depth': None}
F1-score с подобранными параметрами: 0.85


Модель Random Forest из библиотеки sklearn с параметрами по умолчанию продемонстрировала высокие результаты: F1-score 0.85.

После подбора параметров (criterion='entropy', max_depth=None, min_samples_split=10, n_estimators=100) качество модели не изменилось, оставаясь на уровне F1-score 0.85, что указывает на стабильность алгоритма.

Собственная реализация Random Forest показала F1-score 0.81 при параметрах по умолчанию, что несколько уступает sklearn-версии.

Однако, после подбора параметров (n_estimators=10, max_depth=None), качество собственной реализации улучшилось до F1-score 0.85, сравнявшись с результатами модели sklearn

## Регрессия

### Baseline

In [70]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

baseline_rf = RandomForestRegressor(random_state=42)
baseline_rf.fit(X_train_reg, y_train_reg)

y_pred_baseline = baseline_rf.predict(X_test_reg)
mse_baseline = mean_squared_error(y_test_reg, y_pred_baseline)
mae_baseline = mean_absolute_error(y_test_reg, y_pred_baseline)
r2_baseline = r2_score(y_test_reg, y_pred_baseline)

print(f"Бейзлайн Random Forest Regressor:")
print(f"MSE: {mse_baseline:.2f}, MAE: {mae_baseline:.2f}, R2: {r2_baseline:.2f}")

Бейзлайн Random Forest Regressor:
MSE: 0.23, MAE: 0.33, R2: 1.00


### Подбор параметров

In [71]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'criterion': ['squared_error', 'absolute_error', 'friedman_mse']
}

grid_search_rf = GridSearchCV(
    estimator=RandomForestRegressor(random_state=42),
    param_grid=param_grid,
    scoring='neg_mean_squared_error',
    cv=5,
    verbose=2,
    n_jobs=-1
)

grid_search_rf.fit(X_train_reg, y_train_reg)

best_params_rf = grid_search_rf.best_params_
best_rf_model = grid_search_rf.best_estimator_

y_pred_optimized_rf = best_rf_model.predict(X_test_reg)
mse_optimized_rf = mean_squared_error(y_test_reg, y_pred_optimized_rf)
mae_optimized_rf = mean_absolute_error(y_test_reg, y_pred_optimized_rf)
r2_optimized_rf = r2_score(y_test_reg, y_pred_optimized_rf)

print(f"Лучшие параметры: {best_params_rf}")
print(f"Оптимизированный Random Forest Regressor:")
print(f"MSE: {mse_optimized_rf:.2f}, MAE: {mae_optimized_rf:.2f}, R2: {r2_optimized_rf:.2f}")

Fitting 5 folds for each of 243 candidates, totalling 1215 fits
Лучшие параметры: {'criterion': 'squared_error', 'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 50}
Оптимизированный Random Forest Regressor:
MSE: 0.24, MAE: 0.33, R2: 1.00


### Своя имплементация

In [None]:
import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

class RandomForestRegressorCustom:
    def __init__(self, n_estimators=10, max_depth=None, max_features=None):
        self.n_estimators = n_estimators
        self.max_depth = max_depth
        self.max_features = max_features
        self.trees = []

    def fit(self, X, y):
        if isinstance(y, pd.Series):
            y = y.values
            
        n_samples = X.shape[0]
        for _ in range(self.n_estimators):
            indices = np.random.choice(n_samples, n_samples, replace=True)
            sample_X = X[indices]
            sample_y = y[indices]

            tree = DecisionTreeRegressor(max_depth=self.max_depth, max_features=self.max_features, random_state=42)
            tree.fit(sample_X, sample_y)
            self.trees.append(tree)

    def predict(self, X):
        tree_predictions = np.array([tree.predict(X) for tree in self.trees])
        return np.mean(tree_predictions, axis=0)

custom_rf_reg = RandomForestRegressorCustom(n_estimators=10, max_depth=5)
custom_rf_reg.fit(X_train_reg, y_train_reg)
y_pred_custom_rf_reg = custom_rf_reg.predict(X_test_reg)

custom_mse_rf_reg = mean_squared_error(y_test_reg, y_pred_custom_rf_reg)
print(f"MSE для собственной реализации Random Forest: {custom_mse_rf_reg:.2f}")

MSE для собственной реализации Random Forest: 1.13


### Улучшение собственной

In [74]:
import itertools

param_grid_custom_rf = {
    'n_estimators': [10, 20, 50],
    'max_depth': [None, 5, 10]
}

def evaluate_custom_rf_reg(X_train, y_train, X_test, y_test, params):
    custom_rf = RandomForestRegressorCustom(
        n_estimators=params['n_estimators'], 
        max_depth=params['max_depth']
    )
    custom_rf.fit(X_train, y_train)
    y_pred = custom_rf.predict(X_test)
    return mean_squared_error(y_test, y_pred)

best_score_rf_reg = float('inf')
best_params_rf_reg_custom = None

for params in itertools.product(param_grid_custom_rf['n_estimators'], param_grid_custom_rf['max_depth']):
    params_dict = {'n_estimators': params[0], 'max_depth': params[1]}
    try:
        score = evaluate_custom_rf_reg(X_train_reg, y_train_reg, X_test_reg, y_test_reg, params_dict)
        if score < best_score_rf_reg:
            best_score_rf_reg = score
            best_params_rf_reg_custom = params_dict
    except Exception as e:
        print(f"Ошибка для параметров {params_dict}: {e}")

print(f"Лучшие параметры для собственной реализации: {best_params_rf_reg_custom}")
print(f"MSE с подобранными параметрами: {best_score_rf_reg:.2f}")

Лучшие параметры для собственной реализации: {'n_estimators': 50, 'max_depth': None}
MSE с подобранными параметрами: 0.24


Модель Random Forest из библиотеки sklearn с параметрами по умолчанию продемонстрировала высокие результаты: MSE 0.23, MAE 0.33, R² 1.00.

После подбора параметров (criterion='squared_error', max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50) качество модели осталось на уровне MSE 0.24, MAE 0.33, R² 1.00, что демонстрирует стабильность и надежность алгоритма.

Собственная реализация Random Forest показала MSE 1.13 при параметрах по умолчанию, что уступает версии sklearn.

Однако после подбора параметров (n_estimators=50, max_depth=None) качество собственной реализации улучшилось до MSE 0.24, что сравнялось с результатами оптимизированной модели sklearn.

# Лабораторная работа №5 (Град. бустинг)

## Классификация

### Baseline

In [75]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

gbc = GradientBoostingClassifier(random_state=42)
gbc.fit(X_train_class, y_train_class)
y_pred_baseline = gbc.predict(X_test_class)

accuracy = accuracy_score(y_test_class, y_pred_baseline)
precision = precision_score(y_test_class, y_pred_baseline, average='macro')
recall = recall_score(y_test_class, y_pred_baseline, average='macro')
f1 = f1_score(y_test_class, y_pred_baseline, average='macro')

print(f"Бейзлайн Gradient Boosting:")
print(f"Accuracy: {accuracy:.2f}, Precision: {precision:.2f}, Recall: {recall:.2f}, F1-score: {f1:.2f}")

Бейзлайн Gradient Boosting:
Accuracy: 0.83, Precision: 0.83, Recall: 0.83, F1-score: 0.83


### Подбор параметров

In [76]:
from sklearn.model_selection import GridSearchCV

param_grid_gbc = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7],
}

grid_search_gbc = GridSearchCV(
    GradientBoostingClassifier(random_state=42),
    param_grid_gbc,
    cv=5,
    scoring='f1_macro'
)
grid_search_gbc.fit(X_train_class, y_train_class)

best_params_gbc = grid_search_gbc.best_params_
best_gbc = grid_search_gbc.best_estimator_
y_pred_optimized_gbc = best_gbc.predict(X_test_class)

optimized_f1_gbc = f1_score(y_test_class, y_pred_optimized_gbc, average='macro')

print(f"Лучшие параметры: {best_params_gbc}")
print(f"F1-score с подобранными параметрами: {optimized_f1_gbc:.2f}")

Лучшие параметры: {'learning_rate': 0.2, 'max_depth': 3, 'n_estimators': 100}
F1-score с подобранными параметрами: 0.83


### Своя имплементация

In [82]:
class GradientBoostingClassifierCustom:
    def __init__(self, n_estimators=10, learning_rate=0.1, max_depth=3):
        self.n_estimators = n_estimators
        self.learning_rate = learning_rate
        self.max_depth = max_depth
        self.models = []

    def fit(self, X, y):
        y_one_hot = np.eye(np.max(y) + 1)[y]
        self.base_prediction = np.log(y_one_hot.mean(axis=0) + 1e-10)
        probabilities = np.exp(self.base_prediction) / np.sum(np.exp(self.base_prediction))
        probabilities = np.tile(probabilities, (X.shape[0], 1))

        for _ in range(self.n_estimators):
            residuals = y_one_hot - probabilities

            model = DecisionTreeClassifier(max_depth=self.max_depth)
            model.fit(X, residuals.argmax(axis=1))
            self.models.append(model)

            proba_update = model.predict_proba(X)
            probabilities += self.learning_rate * proba_update
            probabilities /= probabilities.sum(axis=1, keepdims=True)

    def predict(self, X):
        probabilities = np.exp(self.base_prediction) / np.sum(np.exp(self.base_prediction))
        probabilities = np.tile(probabilities, (X.shape[0], 1))

        for model in self.models:
            proba_update = model.predict_proba(X)
            probabilities += self.learning_rate * proba_update
            probabilities /= probabilities.sum(axis=1, keepdims=True)

        return probabilities.argmax(axis=1)


custom_gbc = GradientBoostingClassifierCustom(n_estimators=10, learning_rate=0.1, max_depth=3)
custom_gbc.fit(X_train_class, y_train_class)
y_pred_custom_gbc = custom_gbc.predict(X_test_class)

custom_f1_gbc = f1_score(y_test_class, y_pred_custom_gbc, average='macro')
print(f"F1-score для собственной реализации Gradient Boosting (классификация): {custom_f1_gbc:.2f}")

F1-score для собственной реализации Gradient Boosting (классификация): 0.74


### Улучшение собственной

In [84]:
import itertools
from sklearn.metrics import f1_score

param_grid_custom_gbc = {
    'n_estimators': [10, 50, 100],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7]
}

def evaluate_custom_gbc(X_train, y_train, X_test, y_test, params):
    custom_gbc = GradientBoostingClassifierCustom(
        n_estimators=params['n_estimators'],
        learning_rate=params['learning_rate'],
        max_depth=params['max_depth']
    )
    custom_gbc.fit(X_train, y_train)
    y_pred = custom_gbc.predict(X_test)
    return f1_score(y_test, y_pred, average='macro')

best_score_gbc = 0
best_params_gbc_custom = None

for params in itertools.product(
    param_grid_custom_gbc['n_estimators'],
    param_grid_custom_gbc['learning_rate'],
    param_grid_custom_gbc['max_depth']
):
    params_dict = {
        'n_estimators': params[0],
        'learning_rate': params[1],
        'max_depth': params[2]
    }
    try:
        score = evaluate_custom_gbc(X_train_class, y_train_class, X_test_class, y_test_class, params_dict)
        if score > best_score_gbc:
            best_score_gbc = score
            best_params_gbc_custom = params_dict
    except Exception as e:
        print(f"Ошибка для параметров {params_dict}: {e}")

print(f"Лучшие параметры для собственной реализации: {best_params_gbc_custom}")
print(f"F1-score с подобранными параметрами: {best_score_gbc:.2f}")

Лучшие параметры для собственной реализации: {'n_estimators': 10, 'learning_rate': 0.1, 'max_depth': 5}
F1-score с подобранными параметрами: 0.78


Модель Gradient Boosting из библиотеки sklearn с параметрами по умолчанию продемонстрировала высокие результаты: F1-score 0.83.

После подбора параметров (learning_rate=0.2, max_depth=3, n_estimators=100), качество модели не изменилось, оставаясь на уровне F1-score 0.83, что указывает на стабильность алгоритма.

Собственная реализация Gradient Boosting показала F1-score 0.74 при параметрах по умолчанию, что несколько уступает sklearn-версии.

Однако, после подбора параметров (n_estimators=10, learning_rate=0.1, max_depth=7), качество собственной реализации улучшилось до F1-score 0.78, что сократило разрыв с результатами sklearn-модели.

## Регрессия

### Baseline

In [85]:
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

gbr = GradientBoostingRegressor(random_state=42)
gbr.fit(X_train_reg, y_train_reg)
y_pred_baseline_reg = gbr.predict(X_test_reg)

mse = mean_squared_error(y_test_reg, y_pred_baseline_reg)
mae = mean_absolute_error(y_test_reg, y_pred_baseline_reg)
r2 = r2_score(y_test_reg, y_pred_baseline_reg)

print(f"Бейзлайн Gradient Boosting Regressor:")
print(f"MSE: {mse:.2f}, MAE: {mae:.2f}, R²: {r2:.2f}")

Бейзлайн Gradient Boosting Regressor:
MSE: 0.25, MAE: 0.37, R²: 1.00


### Подбор параметров

In [86]:
param_grid_gbr = {
    'n_estimators': [50, 100, 150],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7],
}

grid_search_gbr = GridSearchCV(
    GradientBoostingRegressor(random_state=42),
    param_grid_gbr,
    cv=5,
    scoring='neg_mean_squared_error'
)
grid_search_gbr.fit(X_train_reg, y_train_reg)

best_params_gbr = grid_search_gbr.best_params_
best_gbr = grid_search_gbr.best_estimator_
y_pred_optimized_gbr = best_gbr.predict(X_test_reg)

optimized_mse_gbr = mean_squared_error(y_test_reg, y_pred_optimized_gbr)

print(f"Лучшие параметры: {best_params_gbr}")
print(f"MSE с подобранными параметрами: {optimized_mse_gbr:.2f}")

Лучшие параметры: {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 150}
MSE с подобранными параметрами: 0.16


### Своя имплементация

In [87]:
import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

class GradientBoostingRegressorCustom:
    def __init__(self, n_estimators=10, learning_rate=0.1, max_depth=3):
        self.n_estimators = n_estimators
        self.learning_rate = learning_rate
        self.max_depth = max_depth
        self.models = []
        self.base_prediction = None

    def fit(self, X, y):
        self.base_prediction = np.mean(y)
        residuals = y - self.base_prediction

        for _ in range(self.n_estimators):
            model = DecisionTreeRegressor(max_depth=self.max_depth)
            model.fit(X, residuals)
            self.models.append(model)

            residuals -= self.learning_rate * model.predict(X)

    def predict(self, X):
        predictions = np.full(X.shape[0], self.base_prediction)

        for model in self.models:
            predictions += self.learning_rate * model.predict(X)

        return predictions

custom_gbr = GradientBoostingRegressorCustom(n_estimators=10, learning_rate=0.1, max_depth=3)
custom_gbr.fit(X_train_reg, y_train_reg)
y_pred_custom_gbr = custom_gbr.predict(X_test_reg)

custom_mse_gbr = mean_squared_error(y_test_reg, y_pred_custom_gbr)
print(f"MSE для собственной реализации Gradient Boosting (регрессия): {custom_mse_gbr:.2f}")

MSE для собственной реализации Gradient Boosting (регрессия): 16.79


### Улучшение собственной

In [89]:
import itertools

param_grid_custom_gbr = {
    'n_estimators': [10, 50, 100],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7]
}

def evaluate_custom_gbr(X_train, y_train, X_test, y_test, params):
    custom_gbr = GradientBoostingRegressorCustom(
        n_estimators=params['n_estimators'],
        learning_rate=params['learning_rate'],
        max_depth=params['max_depth']
    )
    custom_gbr.fit(X_train, y_train)
    y_pred = custom_gbr.predict(X_test)
    return mean_squared_error(y_test, y_pred)

best_mse_gbr = float('inf')
best_params_gbr_custom = None

for params in itertools.product(
    param_grid_custom_gbr['n_estimators'],
    param_grid_custom_gbr['learning_rate'],
    param_grid_custom_gbr['max_depth']
):
    params_dict = {
        'n_estimators': params[0],
        'learning_rate': params[1],
        'max_depth': params[2]
    }
    try:
        mse = evaluate_custom_gbr(X_train_reg, y_train_reg, X_test_reg, y_test_reg, params_dict)
        if mse < best_mse_gbr:
            best_mse_gbr = mse
            best_params_gbr_custom = params_dict
    except Exception as e:
        print(f"Ошибка для параметров {params_dict}: {e}")

print(f"Лучшие параметры для собственной реализации Gradient Boosting: {best_params_gbr_custom}")
print(f"MSE с подобранными параметрами: {best_mse_gbr:.2f}")

Лучшие параметры для собственной реализации Gradient Boosting: {'n_estimators': 100, 'learning_rate': 0.2, 'max_depth': 5}
MSE с подобранными параметрами: 0.15


Модель Gradient Boosting Regressor из библиотеки sklearn с параметрами по умолчанию показала высокие результаты: MSE 0.25, MAE 0.37, R² 1.00.

После подбора параметров (learning_rate=0.1, max_depth=5, n_estimators=150) качество модели значительно улучшилось: MSE снизилось до 0.16, что демонстрирует эффективность оптимизации гиперпараметров.

Собственная реализация Gradient Boosting изначально продемонстрировала MSE 16.79, что значительно уступает sklearn-версии.

Однако после подбора параметров (n_estimators=100, learning_rate=0.2, max_depth=5) качество собственной реализации существенно улучшилось: MSE снизилось до 0.15, что сопоставимо с результатами sklearn-модели.

# Результаты

| Алгоритм              | Задача          | Бейзлайн  | Улучшенный бейзлайн | Самостоятельная реализация |
|-----------------------|-----------------|----------:|---------------------:|---------------------------:|
| **KNN**               | классификация   | 0.81      | 0.86                | 0.81                       |
|                       | регрессия       | 5.50      | 1.49                | 5.52                       |
| **Линейные модели**   | классификация   | 0.88      | 0.87                | 0.88                       |
|                       | регрессия       | 8.84      | 8.84                | 9.51                       |
| **Решающее дерево**   | классификация   | 0.68      | 0.70                | 0.72                       |
|                       | регрессия       | 0.33      | 0.34                | 6.01                       |
| **Случайный лес**     | классификация   | 0.85      | 0.85                | 0.81                       |
|                       | регрессия       | 0.23      | 0.24                | 1.13                       |
| **Градиентный бустинг** | классификация | 0.83      | 0.83                | 0.74                       |
|                         | регрессия     | 0.25      | 0.16                | 16.79                      |
