## «Модель прогнозирования стоимости жилья для агентства недвижимости»

#### 3 Этап создания модели

В данном ноутбуке мы сделаем следующее:
* Обработаем и отнормируем признаки
* Построим "наивную" модель, предсказывающую цену по общей площади и городу (с ней будем сравнивать другие модели)
* Построим модель при помощи LinearRegression
* Обучим модель на основе случайного леса RandomForestRegressor
* Обучим модель с L1 и L2 регуляризаций ElasticNetCV
* Сделаем  модель градиентного бустинга CatBoostRegressor
* На основе предыдущих шагов выберем оптимальную модель

In [1]:
import random
import numpy as np 
import pandas as pd 
import sys
import optuna

from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import ElasticNetCV
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_validate
from sklearn.compose import TransformedTargetRegressor
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import SGDRegressor
from catboost import CatBoostRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.model_selection import KFold
from sklearn import metrics
from tqdm.notebook import tqdm
from category_encoders import TargetEncoder, CatBoostEncoder
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler, PolynomialFeatures


# plt
import matplotlib.pyplot as plt
#увеличим дефолтный размер графиков
from pylab import rcParams
rcParams['figure.figsize'] = 10, 5
#графики в svg выглядят более четкими
%config InlineBackend.figure_format = 'svg' 
%matplotlib inline
#отключим оповещения
import warnings
warnings.filterwarnings("ignore")


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# зафиксируем RANDOM_SEED, чтобы эксперименты были воспроизводимы
RANDOM_SEED = 42
TEST_SIZE = 0.2

In [3]:
df = pd.read_csv('data/data_model.csv')
display(df.head())
df.info()

Unnamed: 0,status,baths,city,sqft,zipcode,state,target,pool_encoded,Type,Year built,Heating_encoded,Cooling_encoded,Parking_encoded,fireplace_encoded,school_rating _mean,school_dist_min
0,Active,4.0,Southern Pines,2900,28387,NC,418000,False,single_family_home,2019,True,False,False,True,5.2,2.7
1,For Sale,3.0,Spokane Valley,1947,99216,WA,310000,False,single_family_home,2019,False,False,False,False,4.0,1.01
2,Active,2.0,Mason,3588,50401,IA,244900,False,single_family_home,1970,True,True,False,False,3.8,5.6
3,Other,3.0,Houston,1930,77080,TX,311995,False,single_family_home,2019,True,True,True,False,3.0,0.6
4,For Sale,2.0,Flushing,1300,11354,NY,669000,False,condo,1965,False,False,True,False,2.8,0.3


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 210669 entries, 0 to 210668
Data columns (total 16 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   status               210669 non-null  object 
 1   baths                210669 non-null  float64
 2   city                 210669 non-null  object 
 3   sqft                 210669 non-null  int64  
 4   zipcode              210669 non-null  int64  
 5   state                210669 non-null  object 
 6   target               210669 non-null  int64  
 7   pool_encoded         210669 non-null  bool   
 8   Type                 210669 non-null  object 
 9   Year built           210669 non-null  object 
 10  Heating_encoded      210669 non-null  bool   
 11  Cooling_encoded      210669 non-null  bool   
 12  Parking_encoded      210669 non-null  bool   
 13  fireplace_encoded    210669 non-null  bool   
 14  school_rating _mean  210669 non-null  float64
 15  school_dist_min  

In [4]:
# Составим список булевых признаков:
bin_features = ['pool_encoded','Heating_encoded','Cooling_encoded','Parking_encoded','fireplace_encoded']

# Составим список категориальных признаков:
cat_features = ['status','city','zipcode','state','Type','Year built']
 
# Составим список числовых признаков:
num_features = ['baths', 'sqft', 'target', 'school_rating _mean', 'school_dist_min']

In [5]:
# подсчет количества уникальных значений в каждой категориальной колонке
for col in cat_features:
   unique_values = df[col].nunique()
   print(f"Количество уникальных значений в категориальной колонке {col}: {unique_values}")

Количество уникальных значений в категориальной колонке status: 12
Количество уникальных значений в категориальной колонке city: 1522
Количество уникальных значений в категориальной колонке zipcode: 3962
Количество уникальных значений в категориальной колонке state: 34
Количество уникальных значений в категориальной колонке Type: 12
Количество уникальных значений в категориальной колонке Year built: 205


In [6]:
def preproc_data(df_input):
    '''includes several functions to pre-process the predictor data.'''
    
    df_output = df_input.copy()
    # переведем признак зип кода в категориальный
    df_output['zipcode'] = df_output['zipcode'].astype(str)
    # переведем признак год в категориальный
    df_output['Year built'] = df_output['Year built'].astype(str)
    # Нормализация и логорифмирование данных
    #scaler = MinMaxScaler()
    for column in ['baths', 'sqft', 'target', 'school_rating _mean', 'school_dist_min']:
        #df_output[column] = scaler.fit_transform(df_output[[column]])[:,0]
        # Логорифмирование
        df_output[column] = df_output[column].apply(lambda x: abs(x))
        constant = 1e-6
        df_output[column] = np.log(df_output[column] + constant)
        
    # ################### Categorical Features ############################################################## 
 
    ohe_status = OneHotEncoder(sparse_output=False)
    ohe_state = OneHotEncoder(sparse_output=False)
    ohe_Type = OneHotEncoder(sparse_output=False)

    status_ohe = ohe_status.fit_transform(df_output['status'].values.reshape(-1,1))
    state_ohe = ohe_state.fit_transform(df_output['state'].values.reshape(-1,1))
    Type_ohe = ohe_Type.fit_transform(df_output['Type'].values.reshape(-1,1))

    le = LabelEncoder()
    state_label = le.fit_transform(df_output['state'])

    year_le = LabelEncoder()
    year_ord = year_le.fit_transform(df_output['Year built'])

    city_le = LabelEncoder()
    city_label = city_le.fit_transform(df_output['city'])

    zip_le = LabelEncoder()
    zip_label = zip_le.fit_transform(df_output['zipcode'])

    # Adding encoded categorical features to the output dataframe
    df_output = df_output.join(pd.DataFrame(status_ohe, columns=['status_' + str(cat) for cat in ohe_status.categories_[0]]))
    df_output = df_output.join(pd.DataFrame(state_ohe, columns=['state_' + str(cat) for cat in ohe_state.categories_[0]]))
    df_output = df_output.join(pd.DataFrame(Type_ohe, columns=['Type_' + str(cat) for cat in ohe_Type.categories_[0]]))
    df_output['state_label'] = state_label
    df_output['year_ord'] = year_ord
    df_output['city_label'] = city_label
    df_output['zip_label'] = zip_label

    # Dropping original categorical columns
    df_output.drop(['status', 'state', 'Type', 'city', 'zipcode','Year built'], axis=1, inplace=True)
    
    return df_output

In [7]:
# Запускаем и проверяем, что получилось
df_encoded = preproc_data(df)
df_encoded.sample(10)

Unnamed: 0,baths,sqft,target,pool_encoded,Heating_encoded,Cooling_encoded,Parking_encoded,fireplace_encoded,school_rating _mean,school_dist_min,...,Type_modern,Type_multi_family_home,Type_other,Type_ranch,Type_single_family_home,Type_townhouse,state_label,year_ord,city_label,zip_label
115375,0.693148,7.012115,12.3454,False,True,True,True,False,1.386295,0.182322,...,0.0,0.0,0.0,0.0,0.0,0.0,5,156,459,1119
202647,0.693148,7.380256,12.736701,False,True,True,True,False,1.987874,-1.609433,...,0.0,0.0,0.0,0.0,1.0,0.0,28,132,608,2530
74687,0.693148,6.952729,13.049793,False,True,True,False,False,1.098613,-1.609433,...,0.0,0.0,0.0,0.0,0.0,0.0,5,199,833,1061
55581,1.098613,7.3473,13.013664,False,False,True,True,False,1.386295,-1.272962,...,0.0,0.0,0.0,0.0,0.0,1.0,5,160,833,1081
99252,0.693148,7.842279,12.834415,False,True,True,False,True,1.987874,0.530629,...,0.0,0.0,1.0,0.0,0.0,0.0,28,195,1182,2667
181690,0.693148,7.70391,13.226723,False,True,True,True,False,1.871802,0.182322,...,0.0,0.0,0.0,0.0,1.0,0.0,5,161,833,1098
196507,1.098613,7.589336,12.764259,False,True,True,True,True,1.609438,-0.430781,...,0.0,0.0,0.0,0.0,1.0,0.0,22,133,1465,1619
174988,0.693148,7.553811,13.258466,False,True,True,True,True,0.9162911,0.198852,...,0.0,0.0,0.0,0.0,1.0,0.0,27,162,786,1338
87177,0.693148,7.392648,11.225243,False,True,False,True,True,9.999995e-07,-0.867498,...,0.0,0.0,0.0,0.0,1.0,0.0,22,106,374,1586
196129,1.098613,7.221105,12.128111,False,True,True,True,True,1.386295,0.198852,...,0.0,0.0,0.0,0.0,0.0,1.0,28,165,608,2488


In [8]:
df_encoded.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 210669 entries, 0 to 210668
Data columns (total 72 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   baths                    210669 non-null  float64
 1   sqft                     210669 non-null  float64
 2   target                   210669 non-null  float64
 3   pool_encoded             210669 non-null  bool   
 4   Heating_encoded          210669 non-null  bool   
 5   Cooling_encoded          210669 non-null  bool   
 6   Parking_encoded          210669 non-null  bool   
 7   fireplace_encoded        210669 non-null  bool   
 8   school_rating _mean      210669 non-null  float64
 9   school_dist_min          210669 non-null  float64
 10  status_Active            210669 non-null  float64
 11  status_Auction           210669 non-null  float64
 12  status_Back on Market    210669 non-null  float64
 13  status_Coming Soon       210669 non-null  float64
 14  stat

Разделим датасет

In [9]:
y = df_encoded.target.values
X = df_encoded.drop(['target'], axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, shuffle=True, random_state=RANDOM_SEED)

### Обучение модели

### Model 1: Создадим "наивную" модель 

Эта модель будет предсказывать среднюю стоимость по общей площади и городу. 

Далее с ней будем сравнивать другие модели.

In [10]:
# Наивная модель
class NaiveModel:
    def __init__(self):
        self.means = None

    def fit(self, X, y):
        X_df = pd.DataFrame(X, columns=['city_label'])
        y_df = pd.DataFrame(y, columns=['target'])
        df = pd.concat([X_df, y_df], axis=1)
        self.means = df.groupby(['city_label'])['target'].mean().reset_index()

    def predict(self, X):
        X = pd.DataFrame(X, columns=['city_label']).copy()
        X['mean'] = np.nan
        for idx, row in self.means.iterrows():
            X.loc[(X['city_label'] == row['city_label']), 'mean'] = row['target']
        
        X['mean'].fillna(X['mean'].mean(), inplace=True)
        return X['mean'].to_numpy()

naive_model = NaiveModel()
naive_model.fit(X_train, y_train)
y_pred_train = naive_model.predict(X_train)
y_pred_test = naive_model.predict(X_test)

mse_train = mean_squared_error(y_train, y_pred_train)
mse_test = mean_squared_error(y_test, y_pred_test)
mae_train = mean_absolute_error(y_train, y_pred_train)
mae_test = mean_absolute_error(y_test, y_pred_test)
r2_train = r2_score(y_train, y_pred_train)
r2_test = r2_score(y_test, y_pred_test)

print(f"Train MSE: {mse_train:.2f}")
print(f"Test MSE: {mse_test:.2f}")
print(f"Train MAE: {mae_train:.2f}")
print(f"Test MAE: {mae_test:.2f}")
print(f"Train R2: {r2_train:.2f}")
print(f"Test R2: {r2_test:.2f}")


Train MSE: 0.43
Test MSE: 0.43
Train MAE: 0.48
Test MAE: 0.48
Train R2: -0.00
Test R2: -0.00


>MAE (Средняя абсолютная ошибка, Mean Absolute Error) - это мера ошибки, вычисленная как среднее значение абсолютных значений ошибок. Меньшие значения MAE указывают на лучшую точность модели. В нашем случае:

Train MAE: 0.48 - это средняя абсолютная ошибка на обучающей выборке.

Test MAE: 0.48 - это средняя абсолютная ошибка на тестовой выборке.

>R^2 (коэффициент детерминации) - статистическая мера, которая показывает, насколько хорошо вариации зависимой переменной объясняются моделью. Значения R^2 находятся в диапазоне от -∞ до 1. Чем ближе значение R^2 к 1, тем лучше модель объясняет зависимость между переменными. В нашем случае:

Train R2: -0.00 - это коэффициент детерминации на обучающей выборке.

Test R2: -0.00 - это коэффициент детерминации на тестовой выборке.

Исходя из результаты, можно сделать следующие выводы:

1) Значения MSE и MAE, как для обучающей, так и для тестовой выборок, практически одинаковы. Это говорит о том, что модель демонстрирует схожую производительность на обеих выборках и не страдает от явного переобучения или недообучения.

2) Значения R^2 близки к нулю, что говорит о том, что модель слабо объясняет зависимость между переменными. Это может свидетельствовать о низкой предсказательной способности модели.

### Model 2: LinearRegression

In [11]:
# создаём модель линейной регрессии
model = LinearRegression(fit_intercept=False)

# вычисляем коэффициенты регрессии
model.fit(X_train, y_train)

# делаем предсказания с помощью модели
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# вычисляем требуемые метрики
mse_train = metrics.mean_squared_error(y_train, y_train_pred)
mse_test = metrics.mean_squared_error(y_test, y_test_pred)
mae_train = metrics.mean_absolute_error(y_train, y_train_pred)
mae_test = metrics.mean_absolute_error(y_test, y_test_pred)
r2_train = metrics.r2_score(y_train, y_train_pred)
r2_test = metrics.r2_score(y_test, y_test_pred)

# выводим метрики
print(f"Train MSE: {mse_train:.2f}")
print(f"Test MSE: {mse_test:.2f}")
print(f"Train MAE: {mae_train:.2f}")
print(f"Test MAE: {mae_test:.2f}")
print(f"Train R2: {r2_train:.2f}")
print(f"Test R2: {r2_test:.2f}")

Train MSE: 0.23
Test MSE: 0.23
Train MAE: 0.35
Test MAE: 0.34
Train R2: 0.45
Test R2: 0.45


Среднеквадратическая ошибка (Mean Squared Error, MSE): В нашем случае, как для обучающей, так и для тестовой выборки MSE составляет 0.23. Низкие значения MSE указывают на более точные предсказания модели.

Средняя абсолютная ошибка (Mean Absolute Error, MAE): В нашем случае MAE составляет 0.35 для обучающей и 0.34 для тестовой выборки. Низкие значения MAE также говорят о хорошей точности предсказания.

Коэффициент детерминации (R2): В нашем случае R2 составляет 0.45 как для обучающей, так и для тестовой выборки, что означает, что модель объясняет 45% дисперсии зависимой переменной.

>>Результаты модели показывают, что она работает с одинаковой точностью на обучающем и тестовом наборе данных, что свидетельствует о том, что модель не переобучилась. Однако, коэффициент детерминации R2 указывает на то, что есть еще большой потенциал для улучшения модели, поскольку возможны другие альтернативы, такие как увеличение размера выборки, использование других переменных или алгоритмов для еще большей предсказательной точности.

### Model 3: RandomForestRegressor

In [12]:
# Создаем экземпляр модели RandomForestRegressor
rf_regressor = RandomForestRegressor(random_state=RANDOM_SEED)

# Обучаем модель на обучающих данных
rf_regressor.fit(X_train, y_train)

# Предсказания на обучающих и тестовых данных
y_train_pred = rf_regressor.predict(X_train)
y_test_pred = rf_regressor.predict(X_test)

# Вычисляем метрики
mse_train = mean_squared_error(y_train, y_train_pred)
mse_test = mean_squared_error(y_test, y_test_pred)
mae_train = mean_absolute_error(y_train, y_train_pred)
mae_test = mean_absolute_error(y_test, y_test_pred)
r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)

# Выводим метрики
print(f"Train MSE: {mse_train:.2f}")
print(f"Test MSE: {mse_test:.2f}")
print(f"Train MAE: {mae_train:.2f}")
print(f"Test MAE: {mae_test:.2f}")
print(f"Train R2: {r2_train:.2f}")
print(f"Test R2: {r2_test:.2f}")

Train MSE: 0.01
Test MSE: 0.07
Train MAE: 0.06
Test MAE: 0.16
Train R2: 0.98
Test R2: 0.84


Среднеквадратическая ошибка (MSE): В нашем случае, значение MSE для обучающей выборки составляет 0.01, тогда как для тестовой выборки - 0.07. Такое различие может указывать на небольшое переобучение модели.

Средняя абсолютная ошибка (MAE): В нашем случае, значения MAE составили 0.06 для обучающей выборки и 0.16 для тестовой выборки. Разница между этими значениями также может указывать на переобучение.

Коэффициент детерминации (R2): В нашем случае, R2 равен 0.98 для обучающей выборки и 0.84 для тестовой выборки. Эти значения указывают на то, что модель довольно хорошо работает на обучающей выборке и неплохо предсказывает на тестовой выборке, хотя значение R2 на тестовой выборке заметно ниже, что также может указывать на переобучение модели.

>В целом, результаты показывают, что модель имеет хорошую производительность на обучающей выборке, но на тестовой выборке результаты хуже, что может свидетельствовать о переобучении.

### Model 4: ElasticNetCV

In [13]:
# Создаем и тренируем модель ElasticNetCV с кросс-валидацией по 5 фолдам
model_el = ElasticNetCV(cv=5, random_state=RANDOM_SEED)
model_el.fit(X_train, y_train)

# Предсказания для обучающей и тестовой выборок
y_train_pred = model_el.predict(X_train)
y_test_pred = model_el.predict(X_test)

# MSE
mse_train = mean_squared_error(y_train, y_train_pred)
mse_test = mean_squared_error(y_test, y_test_pred)

# MAE
mae_train = mean_absolute_error(y_train, y_train_pred)
mae_test = mean_absolute_error(y_test, y_test_pred)

# R2
r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)

# Выводим метрики
print(f"Train MSE: {mse_train:.2f}")
print(f"Test MSE: {mse_test:.2f}")
print(f"Train MAE: {mae_train:.2f}")
print(f"Test MAE: {mae_test:.2f}")
print(f"Train R2: {r2_train:.2f}")
print(f"Test R2: {r2_test:.2f}")

Train MSE: 0.37
Test MSE: 0.38
Train MAE: 0.45
Test MAE: 0.45
Train R2: 0.12
Test R2: 0.11


MSE (Mean Squared Error): В нашем случае обучающая выборка имеет значение 0.37, а тестовая - 0.38. Эти числа близки, что означает, что модель не переобучилась, но в то же время обобщающая способность модели может быть не очень хорошей из-за высоких значений ошибок.

MAE (Mean Absolute Error): В нашем случае средняя абсолютная ошибка составляет 0.45 как для обучающей, так и для тестовой выборки. Это означает, что в среднем модель ошибается на 0.45 при предсказаниях.

R2 (коэффициент детерминации):  В нашем случае R2 равен 0.12 для обучающей выборки и 0.11 для тестовой выборки. Эти значения невысоки, что говорит о плохом качестве модели и низкой способности объяснить изменчивость данных.

>**Вывод:** по представленным результатам видно, что модель имеет среднюю ошибку и невысокий коэффициент детерминации. Это означает, что модель не является оптимальной.

### Model 5: CatBoostRegressor

CatBoostRegressor позволяет работать с необработанными категориальными данными, в отличие от некоторых других алгоритмов машинного обучения, которые требуют предварительной обработки данных, такой как кодирование категориальных переменных в числовые значения.

In [14]:
def log_data(df_input):
    '''includes several functions to pre-process the predictor data.'''
    
    df_output = df_input.copy()
    # переведем признак зип кода в категориальный
    df_output['zipcode'] = df_output['zipcode'].astype(str)
    # переведем признак год в категориальный
    df_output['Year built'] = df_output['Year built'].astype(str)
    # Нормализация данных и логорифмирование
    #scaler = MinMaxScaler()
    for column in num_features:
        #df_output[column] = scaler.fit_transform(df_output[[column]])[:,0]
        # Логорифмирование
        df_output[column] = df_output[column].apply(lambda x: abs(x))
        constant = 1e-6
        df_output[column] = np.log(df_output[column] + constant)
    return df_output

In [15]:
# Запускаем и проверяем, что получилось
df_log = log_data(df)
df_log.sample(5)

Unnamed: 0,status,baths,city,sqft,zipcode,state,target,pool_encoded,Type,Year built,Heating_encoded,Cooling_encoded,Parking_encoded,fireplace_encoded,school_rating _mean,school_dist_min
86342,For Sale,0.6931477,San Antonio,7.760893,78253,TX,12.388394,False,single_family_home,2011,True,True,True,True,2.04122,-0.235721
96231,For Sale,1.098613,Miami,7.425358,33194,FL,12.765688,False,townhouse,2003,True,True,False,False,1.386295,0.482427
109130,Other,9.999995e-07,Orlando,7.027315,32812,FL,12.237862,False,single_family_home,1959,True,True,True,False,1.547563,0.262365
118081,Other,0.6931477,Miami,6.766192,33130,FL,13.437174,False,condo,2016,True,True,True,False,9.999995e-07,0.530629
159740,Other,0.6931477,Dania Beach,7.150701,33314,FL,12.287132,False,single_family_home,1977,True,True,True,False,1.386295,-0.105359


In [16]:
y = df_log.target.values
X = df_log.drop(['target'], axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, shuffle=True, random_state=RANDOM_SEED)

In [20]:
param_grid = {
    'iterations': [100, 200, 500],
    'learning_rate': [0.01, 0.03, 0.1],
    'depth': [4, 6, 8],
    'l2_leaf_reg': [1, 3, 5],
}
cb_model = CatBoostRegressor(random_seed=RANDOM_SEED, silent=True)
grid_search = GridSearchCV(estimator=cb_model, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error', verbose=2, n_jobs=-1)
grid_search.fit(X_train, y_train, cat_features=cat_features)
best_params = grid_search.best_params_
best_cb_model = CatBoostRegressor(iterations=best_params['iterations'], learning_rate=best_params['learning_rate'], depth=best_params['depth'], l2_leaf_reg=best_params['l2_leaf_reg'], random_seed=RANDOM_SEED, silent=True)
best_cb_model.fit(X_train, y_train, cat_features=cat_features)

y_train_pred = best_cb_model.predict(X_train)
y_test_pred = best_cb_model.predict(X_test)

mse_train = mean_squared_error(y_train, y_train_pred)
mse_test = mean_squared_error(y_test, y_test_pred)
mae_train = mean_absolute_error(y_train, y_train_pred)
mae_test = mean_absolute_error(y_test, y_test_pred)
r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)

print(f"Train MSE: {mse_train:.2f}")
print(f"Test MSE: {mse_test:.2f}")
print(f"Train MAE: {mae_train:.2f}")
print(f"Test MAE: {mae_test:.2f}")
print(f"Train R2: {r2_train:.2f}")
print(f"Test R2: {r2_test:.2f}")

Fitting 5 folds for each of 81 candidates, totalling 405 fits
Train MSE: 0.06
Test MSE: 0.07
Train MAE: 0.17
Test MAE: 0.18
Train R2: 0.86
Test R2: 0.83


Среднеквадратическая ошибка (MSE):

*Train MSE:* 0.06 - это значение ошибки на тренировочных данных.

*Test MSE:* 0.07 - это значение ошибки на тестовых (валидационных) данных.

В нашем случае, значения ошибок для обоих наборов данных достаточно близки, что может указывать на отсутствие переобучения.

Средняя абсолютная ошибка (MAE):

*Train MAE:* 0.17 - это значение MAE на тренировочных данных.

*Test MAE:* 0.18 - это значение MAE на тестовых данных.

Подобно MSE, MAE для тренировочных и тестовых данных имеет близкие значения, что говорит о хорошей обобщающей способности модели.

Коэффициент детерминации (R2):

*Train R2:* 0.86 - это R2 на тренировочных данных.

*Test R2:* 0.83 - это R2 на тестовых данных.

Значения R2 для обеих выборок достаточно высоки, что указывает на неплохую точность модели.

>**Общий вывод:** В целом, модель демонстрирует хорошие показатели точности и обобщающей способности, без признаков переобучения.

In [21]:
data = {'Metric': ['Train MSE', 'Test MSE', 'Train MAE', 'Test MAE', 'Train R2', 'Test R2'],
        'NaiveModel': [0.43, 0.43, 0.48, 0.48, -0.00, -0.00],
        'LinearRegression': [0.23, 0.23, 0.35, 0.34, 0.45, 0.45],
        'RandomForestRegressor': [0.01, 0.07, 0.06, 0.16, 0.98, 0.84],
        'ElasticNetCV': [0.37, 0.38, 0.45, 0.45, 0.12, 0.11],
        'CatBoostRegressor':[0.06, 0.07, 0.17, 0.18, 0.86, 0.83]}

df_metric = pd.DataFrame(data)
df_metric.head(6)

Unnamed: 0,Metric,NaiveModel,LinearRegression,RandomForestRegressor,ElasticNetCV,CatBoostRegressor
0,Train MSE,0.43,0.23,0.01,0.37,0.06
1,Test MSE,0.43,0.23,0.07,0.38,0.07
2,Train MAE,0.48,0.35,0.06,0.45,0.17
3,Test MAE,0.48,0.34,0.16,0.45,0.18
4,Train R2,-0.0,0.45,0.98,0.12,0.86
5,Test R2,-0.0,0.45,0.84,0.11,0.83


>На основе результатов, RandomForestRegressor кажется наилучшей моделью, так как она имеет наименьший показатель ошибок MSE и MAE, вместе с высоким коэффициентом детерминации R2 (0.84) на тестовых данных. Однако, стоит учесть переобучение случайного леса, так как разрыв между показателями на тренировочных и тестовых наборах является существенным.

>CatBoostRegressor также показывает хорошие результаты и в большинстве случаев является наилучшим, если переобучение RandomForestRegressor считается серьезной проблемой. Ошибки MSE и MAE для CatBoostRegressor на тестовых данных (0.07 и 0.18) несколько хуже, чем у RandomForestRegressor, но разрыв между показателями на тренировочных и тестовых наборах куда меньше, и R2 для тестовых данных всего на 0.01 ниже (0.83 против 0.84).

In [22]:
import pickle

# Сохранение выбранной обученной модели в файл pickle
with open("web/apps/models/best_cbr_model.pkl", "wb") as f:
    pickle.dump(best_cb_model, f)