<a href="https://colab.research.google.com/github/aivatwe-ai/team_task/blob/main/ML2_SL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [63]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [64]:
!ls -la '/content/drive/MyDrive/Colab Notebooks/data/'

total 51224
-rw------- 1 root root 31487242 Nov 13 07:03 test.json.zip
-rw------- 1 root root 20965425 Nov 16 13:26 train.json.zip


#### 1.1 Получить аналитическое решение задачи регресии используя векторную форму уравнения
- Пусть у нас есть набор данных $(x_i, y_i)$, где $x_i$ — входные данные, а $y_i$ — истинные значения. Мы хотим найти параметры модели $w_0$ и $w_1$, которые минимизируют сумму квадратов ошибок:
$$
E(w_0, w_1) = \sum_{i=1}^{n} \left( y_i - (w_0 + w_1 x_i) \right)^2.
$$
- Для удобства перейдём к векторной форме. Пусть $\mathbf{X}$ — матрица входных данных, $\mathbf{y}$ — вектор истинных значений, а $\mathbf{w}$ — вектор параметров модели.
Матрица $\mathbf{X}$ имеет вид:
$$
\mathbf{X} =
\begin{pmatrix}
1 & x_1 \\
1 & x_2 \\
\vdots & \vdots \\
1 & x_n
\end{pmatrix}.
$$
Вектор $\mathbf{y}$:
$$
\mathbf{y} =
\begin{pmatrix}
y_1 \\
y_2 \\
\vdots \\
y_n
\end{pmatrix}.
$$
- Вектор $\mathbf{w}$:
$$
\mathbf{w} =
\begin{pmatrix}
w_0 \\
w_1
\end{pmatrix}.
$$
- Тогда модель можно записать в векторной форме:
$$
\hat{\mathbf{y}} = \mathbf{X} \mathbf{w}.
$$

##### Функция ошибки в векторной форме:
$$
E(\mathbf{w}) = (\mathbf{y} - \mathbf{X}\mathbf{w})^\text{T} (\mathbf{y} - \mathbf{X}\mathbf{w}).
$$
- Для минимизации функции ошибки найдём градиент и приравняем его к нулю:
$$
\nabla_{\mathbf{w}} E(\mathbf{w}) = -2 \mathbf{X}^\text{T} (\mathbf{y} - \mathbf{X}\mathbf{w}) = \mathbf{0}.
$$
- Отсюда получаем уравнение:
$$
\mathbf{X}^\text{T} \mathbf{X} \mathbf{w} = \mathbf{X}^\text{T} \mathbf{y}.
$$
- Решим это уравнение относительно $\mathbf{w}$:
$$
\mathbf{w} = (\mathbf{X}^\text{T} \mathbf{X})^{-1} \mathbf{X}^\text{T} \mathbf{y}.
$$
- Это и есть аналитическое решение задачи линейной регрессии в векторной форме.


#### Добавление регуляризации к функции потерь изменяет аналитическое решение задачи линейной регрессии. Рассмотрим, как это происходит для L1 и L2 регуляризации.
- Функция потерь с L2‑регуляризацией:
$$
E(\mathbf{w}) = (\mathbf{y} - \mathbf{X}\mathbf{w})^\text{T} (\mathbf{y} - \mathbf{X}\mathbf{w}) + \lambda \|\mathbf{w}\|_2^2.
$$
Здесь $\lambda$ — коэффициент регуляризации.
- Градиент функции потерь:
$$
\nabla_{\mathbf{w}} E(\mathbf{w}) = -2 \mathbf{X}^\text{T} (\mathbf{y} - \mathbf{X}\mathbf{w}) + 2 \lambda \mathbf{w}.
$$
Приравняем градиент к нулю:
$$
-2 \mathbf{X}^\text{T} (\mathbf{y} - \mathbf{X}\mathbf{w}) + 2 \lambda \mathbf{w} = \mathbf{0}.
$$
Отсюда:
$$
\mathbf{X}^\text{T} \mathbf{X} \mathbf{w} + \lambda \mathbf{w} = \mathbf{X}^\text{T} \mathbf{y}.
$$
Решим уравнение относительно $\mathbf{w}$:
$$
(\mathbf{X}^\text{T} \mathbf{X} + \lambda \mathbf{I}) \mathbf{w} = \mathbf{X}^\text{T} \mathbf{y},
$$
$$
\mathbf{w} = (\mathbf{X}^\text{T} \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^\text{T} \mathbf{y}.
$$
Функция потерь с L1‑регуляризацией:
$$
E(\mathbf{w}) = (\mathbf{y} - \mathbf{X}\mathbf{w})^\text{T} (\mathbf{y} - \mathbf{X}\mathbf{w}) + \lambda \|\mathbf{w}\|_1.
$$
Здесь $\lambda$ — коэффициент регуляризации.
- Градиент функции потерь:
$$
\nabla_{\mathbf{w}} E(\mathbf{w}) = -2 \mathbf{X}^\text{T} (\mathbf{y} - \mathbf{X}\mathbf{w}) + \lambda \operatorname{sign}(\mathbf{w}).
$$
Здесь $\operatorname{sign}(\mathbf{w})$ — вектор, элементы которого равны знакам соответствующих элементов $\mathbf{w}$.
Приравняем градиент к нулю:
$$
-2 \mathbf{X}^\text{T} (\mathbf{y} - \mathbf{X}\mathbf{w}) + \lambda \operatorname{sign}(\mathbf{w}) = \mathbf{0}.
$$
Отсюда:
$$
\mathbf{X}^\text{T} \mathbf{X} \mathbf{w} + \lambda \operatorname{sign}(\mathbf{w}) = \mathbf{X}^\text{T} \mathbf{y}.
$$

Аналитическое решение для L1‑регуляризации не так просто, как для L2, и обычно требует использования численных методов.


#### 1.2 Что изменится в решении при добавлении к функции потерь регуляризации L1 и L2.
Добавление регуляризации добавляет штрафы при расчете весов (те есть регуляризации ограничивает слишком большие параметры).

#### 1.3 Объясните, почему регуляризация L1 обычно используется для выбора функций. Почему после установки модели много весов, равных 0?
- L₂ штрафует квадрат весов. Это «сжимает» веса, но не обнуляет их. Все признаки остаются в модели, пусть и с малыми коэффициентами.

- L₁ может полностью исключить признаки, что делает модель разреженной.

#### 1.4. Объясните, как можно использовать одни и те же модели (линейная регрессия, ридж и т. д.), но при этом обеспечить возможность соответствия нелинейным зависимостям?
Чтобы линейные модели (линейная регрессия, Ridge, Lasso и др.) могли описывать нелинейные зависимости, используют преобразование входных признаков.
Например:
- Полиномиальные признаки.К исходным признакам добавляют их степени и попарные произведения.
- Базисные функции. Вместо степеней используют другие нелинейные преобразования (тригонометрические функции, логарифмирование и т.д)
- Взаимодействие признаков. Добавляют произведения пар (или троек) признаков.

### 2. Введение — выполните всю предварительную обработку, как на предыдущем уроке
Импортируйте библиотеки.
Загрузите обучающие и тестовые части.

In [65]:
import pandas as pd
import numpy as np
from collections import Counter
import sklearn
import matplotlib.pyplot as plt
import json
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error, root_mean_squared_error
import lightgbm as lgb
import scipy
import statsmodels
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures

In [66]:
df = pd.read_json('/content/drive/MyDrive/Colab Notebooks/data/train.json.zip')

In [67]:
df_train = df[['bathrooms', 'bedrooms', 'features', 'price']].reset_index(drop=True)

In [68]:
low_quantile = df_train['price'].quantile(0.01)
hi_quantile = df_train['price'].quantile(0.99)
df_train = df_train[(df_train['price'] < hi_quantile) & (df_train['price'] > low_quantile)]

In [69]:
df_train['features'] = df_train['features'].astype(str)
df_train['features'] = df_train['features'].str.replace(r'[\[\]\'" ]', '', regex=True)
df_train.head()

Unnamed: 0,bathrooms,bedrooms,features,price
0,1.0,1,"DiningRoom,Pre-War,LaundryinBuilding,Dishwashe...",2400
1,1.0,2,"Doorman,Elevator,LaundryinBuilding,Dishwasher,...",3800
2,1.0,2,"Doorman,Elevator,LaundryinBuilding,LaundryinUn...",3495
3,1.5,3,,3000
4,1.0,0,"Doorman,Elevator,FitnessCenter,LaundryinBuilding",2795


In [70]:
df = pd.read_json('/content/drive/MyDrive/Colab Notebooks/data/test.json.zip')

In [71]:
df_test = df[['bathrooms', 'bedrooms', 'features', 'price']].reset_index(drop=True)

In [72]:
low_quantile = df_test['price'].quantile(0.01)
hi_quantile = df_test['price'].quantile(0.99)
df_test = df_test[(df_test['price'] < hi_quantile) & (df_test['price'] > low_quantile)]

In [73]:
df_test['features'] = df_test['features'].astype(str)
df_test['features'] = df_test['features'].str.replace(r'[\[\]\'" ]', '', regex=True)
df_test.head()

Unnamed: 0,bathrooms,bedrooms,features,price
0,1.0,1,"Elevator,LaundryinBuilding,LaundryinUnit,Dishw...",2950
1,1.0,2,"Pre-War,DogsAllowed,CatsAllowed",2850
2,1.0,0,"Pre-War,DogsAllowed,CatsAllowed",2295
3,1.0,2,"HardwoodFloors,DogsAllowed,CatsAllowed",2900
4,1.0,1,"RoofDeck,Doorman,Elevator,FitnessCenter,Pre-Wa...",3254


- Давайте создадим дополнительные элементы для улучшения качества модели. Рассмотрим столбец под названием "features". Он содержит список основных элементов текущей модели.
- Удалите из столбца неиспользуемые символы ([,], ', " и пробел).
- Получите все значения в каждом списке и сведите результат в один огромный список для всего набора данных. Вы можете использовать DataFrame.iterrows().
- Сколько уникальных значений содержит результирующий список?

In [74]:
all_features = []
for index, row in df_train.iterrows():
    features_str = row['features']
    if features_str and features_str != '':
        features_list = features_str.split(',')
        all_features.extend(features_list)
print(f"Всего значений в общем списке: {len(all_features)}")
print(f"Уникальных значений: {len(set(all_features))}")
print("\nПервые 20 значений:")
print(all_features[:20])

Всего значений в общем списке: 262377
Уникальных значений: 1529

Первые 20 значений:
['DiningRoom', 'Pre-War', 'LaundryinBuilding', 'Dishwasher', 'HardwoodFloors', 'DogsAllowed', 'CatsAllowed', 'Doorman', 'Elevator', 'LaundryinBuilding', 'Dishwasher', 'HardwoodFloors', 'NoFee', 'Doorman', 'Elevator', 'LaundryinBuilding', 'LaundryinUnit', 'Dishwasher', 'HardwoodFloors', 'Doorman']



- Давайте познакомимся с новыми библиотеками — Collections. С помощью этого пакета вы сможете эффективно получать статистику по количеству ваших данных.
- Подсчитайте самые популярные функции из нашего огромного списка и выберите 20 лучших на данный момент.
- Если все правильно, вы должны получить следующие значения: 'Elevator', 'CatsAllowed', 'HardwoodFloors', 'DogsAllowed', 'Doorman', 'Dishwasher', 'NoFee', 'LaundryinBuilding', 'FitnessCenter', 'Pre-War', 'LaundryinUnit', 'RoofDeck', 'OutdoorSpace', 'DiningRoom', 'HighSpeedInternet', 'Balcony', 'SwimmingPool', 'LaundryInBuilding', 'NewConstruction', 'Terrace'. **

In [75]:
feature_counter = Counter(all_features)
print("Топ-20 самых популярных признаков:")
features_20 = feature_counter.most_common(20)
features_20

Топ-20 самых популярных признаков:


[('Elevator', 25375),
 ('HardwoodFloors', 23146),
 ('CatsAllowed', 23135),
 ('DogsAllowed', 21652),
 ('Doorman', 20479),
 ('Dishwasher', 20081),
 ('NoFee', 17793),
 ('LaundryinBuilding', 16082),
 ('FitnessCenter', 12989),
 ('Pre-War', 8971),
 ('LaundryinUnit', 8437),
 ('RoofDeck', 6417),
 ('OutdoorSpace', 5132),
 ('DiningRoom', 4890),
 ('HighSpeedInternet', 4223),
 ('Balcony', 2898),
 ('SwimmingPool', 2643),
 ('LaundryInBuilding', 2564),
 ('NewConstruction', 2504),
 ('Terrace', 2177)]

- Теперь создайте 20 новых признаков на основе 20 лучших значений: 1, если значение находится в столбце "features", в противном случае 0.
- Расширьте наш набор функций за счет "bathrooms", "bedrooms" и создайте специальную переменную feature_list со всеми названиями функций. Теперь у нас есть 22 значения. Все модели должны быть обучены этим 22 функциям.

In [76]:
feature_list = [feature for feature, count in features_20]
feature_list = feature_list
print(feature_list)

['Elevator', 'HardwoodFloors', 'CatsAllowed', 'DogsAllowed', 'Doorman', 'Dishwasher', 'NoFee', 'LaundryinBuilding', 'FitnessCenter', 'Pre-War', 'LaundryinUnit', 'RoofDeck', 'OutdoorSpace', 'DiningRoom', 'HighSpeedInternet', 'Balcony', 'SwimmingPool', 'LaundryInBuilding', 'NewConstruction', 'Terrace']


In [77]:
for feature in feature_list:
    df_train[feature] = 0
df_train.head()

Unnamed: 0,bathrooms,bedrooms,features,price,Elevator,HardwoodFloors,CatsAllowed,DogsAllowed,Doorman,Dishwasher,...,LaundryinUnit,RoofDeck,OutdoorSpace,DiningRoom,HighSpeedInternet,Balcony,SwimmingPool,LaundryInBuilding,NewConstruction,Terrace
0,1.0,1,"DiningRoom,Pre-War,LaundryinBuilding,Dishwashe...",2400,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1.0,2,"Doorman,Elevator,LaundryinBuilding,Dishwasher,...",3800,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1.0,2,"Doorman,Elevator,LaundryinBuilding,LaundryinUn...",3495,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1.5,3,,3000,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1.0,0,"Doorman,Elevator,FitnessCenter,LaundryinBuilding",2795,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [78]:
for index, row in df_train.iterrows():
    for i in feature_list:
        if i in row['features']:
            df_train.at[index, i] = 1
df_train = df_train.drop(columns=['features'])
df_train.head()

Unnamed: 0,bathrooms,bedrooms,price,Elevator,HardwoodFloors,CatsAllowed,DogsAllowed,Doorman,Dishwasher,NoFee,...,LaundryinUnit,RoofDeck,OutdoorSpace,DiningRoom,HighSpeedInternet,Balcony,SwimmingPool,LaundryInBuilding,NewConstruction,Terrace
0,1.0,1,2400,0,1,1,1,0,1,0,...,0,0,0,1,0,0,0,0,0,0
1,1.0,2,3800,1,1,0,0,1,1,1,...,0,0,0,0,0,0,0,0,0,0
2,1.0,2,3495,1,1,0,0,1,1,0,...,1,0,0,0,0,0,0,0,0,0
3,1.5,3,3000,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1.0,0,2795,1,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0


In [79]:
for feature in feature_list:
    df_test[feature] = 0
df_test.head()

Unnamed: 0,bathrooms,bedrooms,features,price,Elevator,HardwoodFloors,CatsAllowed,DogsAllowed,Doorman,Dishwasher,...,LaundryinUnit,RoofDeck,OutdoorSpace,DiningRoom,HighSpeedInternet,Balcony,SwimmingPool,LaundryInBuilding,NewConstruction,Terrace
0,1.0,1,"Elevator,LaundryinBuilding,LaundryinUnit,Dishw...",2950,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1.0,2,"Pre-War,DogsAllowed,CatsAllowed",2850,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1.0,0,"Pre-War,DogsAllowed,CatsAllowed",2295,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1.0,2,"HardwoodFloors,DogsAllowed,CatsAllowed",2900,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1.0,1,"RoofDeck,Doorman,Elevator,FitnessCenter,Pre-Wa...",3254,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [80]:
for index, row in df_test.iterrows():
    for i in feature_list:
        if i in row['features']:
            df_test.at[index, i] = 1
df_test = df_test.drop(columns=['features'])
df_test.head()

Unnamed: 0,bathrooms,bedrooms,price,Elevator,HardwoodFloors,CatsAllowed,DogsAllowed,Doorman,Dishwasher,NoFee,...,LaundryinUnit,RoofDeck,OutdoorSpace,DiningRoom,HighSpeedInternet,Balcony,SwimmingPool,LaundryInBuilding,NewConstruction,Terrace
0,1.0,1,2950,1,1,0,0,0,1,0,...,1,0,1,0,0,0,0,0,0,0
1,1.0,2,2850,0,0,1,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1.0,0,2295,0,0,1,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,1.0,2,2900,0,1,1,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1.0,1,3254,1,0,1,1,1,0,0,...,0,1,0,0,1,0,0,0,0,0


In [81]:
X = df_train.drop(labels=['price'], axis=1)
y = df_train[['price']]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=21)

In [82]:
class LinearRegression_SGD:
    def __init__(self, learning_rate=0.01, tolerance=1e-6, epochs=10000, batch_size=1, random_state=21):
        self.learning_rate = learning_rate
        self.tolerance = tolerance
        self.epochs = epochs
        self.batch_size = batch_size
        self.random_state = random_state

        if random_state is not None:
            np.random.seed(random_state)

    def fit(self, X, y):
        X = np.array(X)
        y = np.array(y)
        n_samples, n_features = X.shape
        self.bias, self.weights = 0.0, np.zeros(n_features)

        prev_bias, prev_weights = self.bias, self.weights.copy()

        for epoch in range(self.epochs):
            i = np.random.choice(n_samples, self.batch_size, replace=False)
            X_batch = X[i]
            y_batch = y[i]

            y_pred = X_batch @ self.weights + self.bias

            db = np.sum(y_pred - y_batch) / self.batch_size
            dw = X_batch.T @ (y_pred - y_batch) / self.batch_size
            dw = dw.ravel()

            self.bias -= self.learning_rate * db
            self.weights -= self.learning_rate * dw

            bias_change = np.abs(self.bias - prev_bias)
            weights_change = np.max(np.abs(self.weights - prev_weights))

            if bias_change < self.tolerance and weights_change < self.tolerance:
                print(f"Сходимость достигнута на итерации {epoch}")
                break

            prev_bias, prev_weights = self.bias, self.weights.copy()

        return self

    def predict(self, X_test):
        X_test = np.array(X_test)
        return X_test @ self.weights + self.bias



In [83]:
class LinearRegression_Analytical:
    def __init__(self):
        self.weights = None

    def _add_bias(self, X):
        return np.c_[np.ones((len(X), 1)), X]

    def fit(self, X, Y):
        X_b = self._add_bias(X)
        self.weights = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(Y)

    def predict(self, X):
        if self.weights is None:
            raise ValueError("Надо обучить модель")
        X_b = self._add_bias(X)
        return X_b.dot(self.weights)

In [87]:
def m_a_e(y_true, y_pred):
    y_true_np = np.asarray(y_true)
    y_pred_np = np.asarray(y_pred)
    return np.mean(np.abs(y_true_np - y_pred_np), axis=None)

def r_m_s_e(y_true, y_pred):
    y_true_np = np.asarray(y_true)
    y_pred_np = np.asarray(y_pred)
    return np.sqrt(np.mean((y_true_np - y_pred_np) ** 2, axis=None))

def r_2(y_true, y_pred):
    y_true_np = np.asarray(y_true)
    y_pred_np = np.asarray(y_pred)
    ss_residual = np.sum((y_true_np - y_pred_np) ** 2, axis=None)
    ss_total = np.sum((y_true_np - np.mean(y_true_np, axis=None)) ** 2, axis=None)
    return 1 - (ss_residual / ss_total)

- Делайте прогнозы с помощью своего алгоритма и оценивайте модель с помощью - показателей MAE, RMSE и R2.
- Инициализируйте LinearRegression() из sklearn.linear_model, подгоняйте модель и Сравните показатели качества и убедитесь, что разница невелика. (Между вашими реализациями и sklearn).
- Сохраните показатели, как в предыдущем уроке, в таблице со столбцами model, train, test для таблицы MAE, таблицы RMSE и коэффициента R2.

In [88]:
metrics = pd.DataFrame(columns=['model', 'MAE_train', 'RMSE_train', 'R2_train', 'MAE_test', 'RMSE_test', 'R2_test'])

# Модель LinearRegression_Analytical
model_analytical = LinearRegression_Analytical()
model_analytical.fit(X_train, y_train)
y_pred_analytical_train = model_analytical.predict(X_train)
y_pred_analytical_test = model_analytical.predict(X_test)

mae_analytical_train = m_a_e(y_train, y_pred_analytical_train)
rmse_analytical_train = r_m_s_e(y_train, y_pred_analytical_train)
r2_analytical_train = r_2(y_train, y_pred_analytical_train)

mae_analytical_test = m_a_e(y_test, y_pred_analytical_test)
rmse_analytical_test = r_m_s_e(y_test, y_pred_analytical_test)
r2_analytical_test = r_2(y_test, y_pred_analytical_test)

metrics.loc[len(metrics)] = ['LinearRegression_Analytical', mae_analytical_train, rmse_analytical_train, r2_analytical_train, mae_analytical_test, rmse_analytical_test, r2_analytical_test]

# Модель LinearRegression из sklearn
model_sklearn = LinearRegression()
model_sklearn.fit(X_train, y_train)
y_pred_sklearn_train = model_sklearn.predict(X_train)
y_pred_sklearn_test = model_sklearn.predict(X_test)

mae_sklearn_train = m_a_e(y_train, y_pred_sklearn_train)
rmse_sklearn_train = r_m_s_e(y_train, y_pred_sklearn_train)
r2_sklearn_train = r_2(y_train, y_pred_sklearn_train)

mae_sklearn_test = m_a_e(y_test, y_pred_sklearn_test)
rmse_sklearn_test = r_m_s_e(y_test, y_pred_sklearn_test)
r2_sklearn_test = r_2(y_test, y_pred_sklearn_test)

metrics.loc[len(metrics)] = ['LinearRegression_Sklearn', mae_sklearn_train, rmse_sklearn_train, r2_sklearn_train, mae_sklearn_test, rmse_sklearn_test, r2_sklearn_test]

# Модель LinearRegression_SGD
model_SGD = LinearRegression_SGD()
model_SGD.fit(X_train, y_train)
y_pred_SGD_train = pd.DataFrame(model_SGD.predict(X_train), index=y_train.index, columns=['price'])
y_pred_SGD_test = pd.DataFrame(model_SGD.predict(X_test), index=y_test.index, columns=['price'])

mae_SGD_train = m_a_e(y_train, y_pred_SGD_train)
rmse_SGD_train = r_m_s_e(y_train, y_pred_SGD_train)
r2_SGD_train = r_2(y_train, y_pred_SGD_train)

mae_SGD_test = m_a_e(y_test, y_pred_SGD_test)
rmse_SGD_test = r_m_s_e(y_test, y_pred_SGD_test)
r2_SGD_test = r_2(y_test, y_pred_SGD_test)

metrics.loc[len(metrics)] = ['LinearRegression_SGD', mae_SGD_train, rmse_SGD_train, r2_SGD_train, mae_SGD_test, rmse_SGD_test, r2_SGD_test]

print("Метрики моделей:")
metrics

Метрики моделей:


Unnamed: 0,model,MAE_train,RMSE_train,R2_train,MAE_test,RMSE_test,R2_test
0,LinearRegression_Analytical,708.419581,1028.236443,0.576729,709.54237,1023.924425,0.593532
1,LinearRegression_Sklearn,708.419581,1028.236443,0.576729,709.54237,1023.924425,0.593532
2,LinearRegression_SGD,733.92247,1040.60832,0.566482,735.75323,1036.41019,0.583559
