<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span><ul class="toc-item"><li><span><a href="#Предосмотр-данных" data-toc-modified-id="Предосмотр-данных-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Предосмотр данных</a></span></li><li><span><a href="#Обработка-исходных-данных" data-toc-modified-id="Обработка-исходных-данных-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Обработка исходных данных</a></span><ul class="toc-item"><li><span><a href="#Отбрасывание-ненужных-признаков" data-toc-modified-id="Отбрасывание-ненужных-признаков-1.2.1"><span class="toc-item-num">1.2.1&nbsp;&nbsp;</span>Отбрасывание ненужных признаков</a></span></li><li><span><a href="#Кодирование-категориальных-признаков" data-toc-modified-id="Кодирование-категориальных-признаков-1.2.2"><span class="toc-item-num">1.2.2&nbsp;&nbsp;</span>Кодирование категориальных признаков</a></span></li><li><span><a href="#Работа-с-пропущенными-значениями" data-toc-modified-id="Работа-с-пропущенными-значениями-1.2.3"><span class="toc-item-num">1.2.3&nbsp;&nbsp;</span>Работа с пропущенными значениями</a></span></li></ul></li></ul></li><li><span><a href="#Обучение-моделей" data-toc-modified-id="Обучение-моделей-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение моделей</a></span></li><li><span><a href="#Анализ-моделей" data-toc-modified-id="Анализ-моделей-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Анализ моделей</a></span></li></ul></div>

# Определение стоимости автомобилей

Сервис по продаже автомобилей разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные.

Заказчику важны:

- качество предсказания;
- скорость предсказания;
- время обучения.

**Ход работы**

Ориентировочно исследование пройдет в 3 основных этапа:

* Загрузка и подготовка данные.
* Обучение разные модели. Для каждой попробуем различные гиперпараметры.
* Анализ скорости работы и качества моделей.

## Подготовка данных

### Предосмотр данных

In [2]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
%matplotlib notebook
import plotly.express as px

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split, RandomizedSearchCV, cross_val_score, RepeatedKFold
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OrdinalEncoder, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA

from sklearn.linear_model import LinearRegression, ElasticNetCV
from lightgbm import LGBMRegressor
from catboost import CatBoostRegressor, cv, Pool
from skopt.searchcv import BayesSearchCV
from sklearn.dummy import DummyRegressor
from sklearn.svm import SVC

import time
from tqdm import tqdm

In [3]:
df = pd.read_csv('https://code.s3.yandex.net/datasets/autos.csv')

display(df.head(), df.info(), df.describe(), df.corr(), df.shape)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   DateCrawled        354369 non-null  object
 1   Price              354369 non-null  int64 
 2   VehicleType        316879 non-null  object
 3   RegistrationYear   354369 non-null  int64 
 4   Gearbox            334536 non-null  object
 5   Power              354369 non-null  int64 
 6   Model              334664 non-null  object
 7   Kilometer          354369 non-null  int64 
 8   RegistrationMonth  354369 non-null  int64 
 9   FuelType           321474 non-null  object
 10  Brand              354369 non-null  object
 11  NotRepaired        283215 non-null  object
 12  DateCreated        354369 non-null  object
 13  NumberOfPictures   354369 non-null  int64 
 14  PostalCode         354369 non-null  int64 
 15  LastSeen           354369 non-null  object
dtypes: int64(7), object(

Unnamed: 0,DateCrawled,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Kilometer,RegistrationMonth,FuelType,Brand,NotRepaired,DateCreated,NumberOfPictures,PostalCode,LastSeen
0,2016-03-24 11:52:17,480,,1993,manual,0,golf,150000,0,petrol,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,18300,coupe,2011,manual,190,,125000,5,gasoline,audi,yes,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21


None

Unnamed: 0,Price,RegistrationYear,Power,Kilometer,RegistrationMonth,NumberOfPictures,PostalCode
count,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0
mean,4416.656776,2004.234448,110.094337,128211.172535,5.714645,0.0,50508.689087
std,4514.158514,90.227958,189.850405,37905.34153,3.726421,0.0,25783.096248
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1050.0,1999.0,69.0,125000.0,3.0,0.0,30165.0
50%,2700.0,2003.0,105.0,150000.0,6.0,0.0,49413.0
75%,6400.0,2008.0,143.0,150000.0,9.0,0.0,71083.0
max,20000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


Unnamed: 0,Price,RegistrationYear,Power,Kilometer,RegistrationMonth,NumberOfPictures,PostalCode
Price,1.0,0.026916,0.158872,-0.333199,0.110581,,0.076055
RegistrationYear,0.026916,1.0,-0.000828,-0.053447,-0.011619,,-0.003459
Power,0.158872,-0.000828,1.0,0.024002,0.04338,,0.021665
Kilometer,-0.333199,-0.053447,0.024002,1.0,0.009571,,-0.007698
RegistrationMonth,0.110581,-0.011619,0.04338,0.009571,1.0,,0.013995
NumberOfPictures,,,,,,,
PostalCode,0.076055,-0.003459,0.021665,-0.007698,0.013995,,1.0


(354369, 16)

Итого : 16 признаков, 354369 объектов. Согласно документации к данным:

Целевой признак:
* `Price` — цена (евро)

В данных наблюдаются пропуски, взглянем подробнее:

In [4]:
df.isna().sum()

DateCrawled              0
Price                    0
VehicleType          37490
RegistrationYear         0
Gearbox              19833
Power                    0
Model                19705
Kilometer                0
RegistrationMonth        0
FuelType             32895
Brand                    0
NotRepaired          71154
DateCreated              0
NumberOfPictures         0
PostalCode               0
LastSeen                 0
dtype: int64

**Вывод:** исходных данных предварительно хватит для исследования, однако они имеют довольно сырой вид: при 354369 объектах, наибольшее количество пропущенных значений имеет признак ремонта машины (71154, это много) - можно предположить, что пользователи без особого желания заполняли этот пункт. Также не малое количество пропусков содержится в признаках типа кузова и типа топлива - по 30 с лишним тысяч. Предвариельно можно предположить, что эти данные можно восстановить из признаков модели и бренда, например. По 19000 пропусков содержится в признаках типа коробки передач и модели - если признак модели представляется возможным восстановить из-за специфики уникальных названий у каждого бренда, то алгоритм восстановления типа коробки передач будет чуть посложнее. Проведем необходимую преобработку. 

### Обработка исходных данных

#### Отбрасывание ненужных признаков

Для начала определим и уберем ненужные для нашего исследования признаки. В основном это признаки размещения объявления на платформе, такие как дата, они для определения цены за автомобиль не понадобятся.

Также, в признаке месяца регистрации `RegistrationMonth` довольно много нулевых значений. Моделировать значения вместо нулей в данном случае нет смысла, к тому же у нас есть признак года регистрации `RegistrationYear`, опираясь на который, мы можем позволить себе избавиться признака месяца. 

In [5]:
df = df.drop(['DateCrawled', 'DateCreated', 'LastSeen', 'PostalCode', 'NumberOfPictures', 'RegistrationMonth'], axis=1)
df.shape

(354369, 10)

Исследованию помешают аномальные значения. Избавимся от некорректных значений в признаке `RegistrationYear`, также нам не подойдут нулевые значения в признаке `Price`. Заменим нулевые значения в признаке `Power` на пропуски, чтобы в дальнейшем восстановить данные:

In [6]:
df = df.query("1950 <= RegistrationYear <= 2016 & Price > 0")
df.shape

(329639, 10)

In [7]:
df['Power'] = df['Power'].replace(0, np.nan)

#### Кодирование категориальных признаков

В данных большое количество категориальных переменных, чтобы работать с ними, необходимо их закодировать. Сделаем это с помощью `OriginalEncoder()`:

In [8]:
def encode(column_name):    
    encoder = OrdinalEncoder()
    df[column_name] = encoder.fit_transform(df[[column_name]])
    return df

In [9]:
[encode(x) for x in ['FuelType', 'Brand', 'NotRepaired', 'VehicleType', 'Gearbox', 'Model']]
df.head()

Unnamed: 0,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Kilometer,FuelType,Brand,NotRepaired
0,480,,1993,1.0,,116.0,150000,6.0,38.0,
1,18300,2.0,2011,1.0,190.0,,125000,2.0,1.0,1.0
2,9800,6.0,2004,0.0,163.0,117.0,125000,2.0,14.0,
3,1500,5.0,2001,1.0,75.0,116.0,150000,6.0,38.0,0.0
4,3600,5.0,2008,1.0,69.0,101.0,90000,2.0,31.0,0.0


#### Работа с пропущенными значениями

In [10]:
df.isna().sum()

Price                   0
VehicleType         19897
RegistrationYear        0
Gearbox             15545
Power               32787
Model               15582
Kilometer               0
FuelType            24123
Brand                   0
NotRepaired         59808
dtype: int64

Факт ремонта автомобиля логично будет смоделировать в зависимости от года регистрации и пробега. Оставшиеся единичные случаи пропусков отбросим:

In [11]:
df['NotRepaired'] = df['NotRepaired'].fillna(df.groupby(['RegistrationYear', 'Kilometer'])['NotRepaired'].transform("median"))
df = df.dropna(subset=['NotRepaired'])

Тип кузова смоделируем в зависимости от модели:

In [12]:
df['VehicleType'] = df['VehicleType'].fillna(df.groupby('Model')['VehicleType'].transform("median"))
df = df.dropna(subset=['VehicleType'])

Оставшиеся пропуски в признаке модели смоделируем, сгруппировав по бренду и типу кузова:

In [13]:
df['Model'] = df['Model'].fillna(df.groupby(['Brand', 'VehicleType'])['Model'].transform("median"))
df = df.dropna(subset=['Model'])

Тип топлива смоделируем в зависимости от показателя мощности автомобиля:

In [14]:
df['FuelType'] = df['FuelType'].fillna(df.groupby('Power')['FuelType'].transform("median"))
df = df.dropna(subset=['FuelType'])

Теперь `Gearbox` и `Power`. Пропусков относительно немного - заменим их медианой по модели, бренду и году регистрации:

In [15]:
df['Gearbox'] = df['Gearbox'].fillna(df.groupby(['RegistrationYear', 'Model', 'Brand'])['Gearbox'].transform("median"))
df = df.dropna(subset=['Gearbox'])

In [16]:
df['Power'] = df['Power'].fillna(df.groupby(['RegistrationYear', 'Model', 'Brand'])['Power'].transform("median"))
df = df.dropna(subset=['Power'])

Признак бренда нам больше не понадобится, в признаке модели и так содержатся уникальные для каждого бренда признаки:

In [17]:
df = df.drop(['Brand'], axis=1)

Теперь можно изменить для удобства типы данных на `int`:

In [18]:
def turn_int(df):
    for col in list(df.columns):
        df[col] = df[col].astype('int32')
    
    return df

In [19]:
df = turn_int(df)
display(df.isna().sum(), df.info(), df.head(), df.shape)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 316571 entries, 0 to 354368
Data columns (total 9 columns):
 #   Column            Non-Null Count   Dtype
---  ------            --------------   -----
 0   Price             316571 non-null  int32
 1   VehicleType       316571 non-null  int32
 2   RegistrationYear  316571 non-null  int32
 3   Gearbox           316571 non-null  int32
 4   Power             316571 non-null  int32
 5   Model             316571 non-null  int32
 6   Kilometer         316571 non-null  int32
 7   FuelType          316571 non-null  int32
 8   NotRepaired       316571 non-null  int32
dtypes: int32(9)
memory usage: 13.3 MB


Price               0
VehicleType         0
RegistrationYear    0
Gearbox             0
Power               0
Model               0
Kilometer           0
FuelType            0
NotRepaired         0
dtype: int64

None

Unnamed: 0,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Kilometer,FuelType,NotRepaired
0,480,4,1993,1,75,116,150000,6,0
1,18300,2,2011,1,190,166,125000,2,1
2,9800,6,2004,0,163,117,125000,2,0
3,1500,5,2001,1,75,116,150000,6,0
4,3600,5,2008,1,69,101,90000,2,0


(316571, 9)

**Вывод:** данные обработаны и готовы к обучению на них моделей. В процессе предобработки мы удалили ненужные для обучения признаки, решили проблему с пропущенными значениями. Напоследок убедимся, что в данных нет мультиколлинеарности и пойдем дальше:

In [20]:
df.corr()

Unnamed: 0,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Kilometer,FuelType,NotRepaired
Price,1.0,-0.08986,0.49719,-0.253465,0.156959,-0.022525,-0.378447,-0.29247,-0.191881
VehicleType,-0.08986,1.0,0.040897,-0.032813,-0.008581,-0.146014,0.04441,-0.035685,0.020623
RegistrationYear,0.49719,0.040897,1.0,-0.047641,0.042368,-0.012747,-0.29019,-0.267831,-0.092767
Gearbox,-0.253465,-0.032813,-0.047641,1.0,-0.134322,0.048571,-0.016077,0.145619,0.018998
Power,0.156959,-0.008581,0.042368,-0.134322,1.0,-0.045742,0.025246,-0.069063,-0.014172
Model,-0.022525,-0.146014,-0.012747,0.048571,-0.045742,1.0,-0.03587,-0.030258,0.01037
Kilometer,-0.378447,0.04441,-0.29019,-0.016077,0.025246,-0.03587,1.0,-0.145704,0.071975
FuelType,-0.29247,-0.035685,-0.267831,0.145619,-0.069063,-0.030258,-0.145704,1.0,0.035658
NotRepaired,-0.191881,0.020623,-0.092767,0.018998,-0.014172,0.01037,0.071975,0.035658,1.0


Итак, явно коррелирующих признаков с целевым не наблюдается, также обошлось без мультиколлинеарности. Корреляции на целевой признак получились более-менее ровными, экстремальных значений нет. Наибольшее влияние имеет год регистрации ~ 0.49, чуть меньше пробег ~ 0.38 по модулю. Наименьшее влияние на цену имеет признак модели - всего 2 процента.

## Обучение моделей

Будем тестировать 5 различных регрессий и выберем оптимальную. Для начала засплитим обучающую, валидационную и тестовую выборки:

In [21]:
state = np.random.RandomState(12345)
target = 'Price'

df_train, df_tmp = train_test_split(df, test_size=0.3, random_state=state)
df_valid, df_test = train_test_split(df_tmp, train_size=0.5, random_state=state)
X_train, X_valid, X_test = (df_train.drop(['Price'], axis=1), 
                            df_valid.drop(['Price'], axis=1),
                            df_test.drop(['Price'], axis=1),
                           )
y_train, y_valid, y_test = df_train['Price'], df_valid['Price'], df_test['Price']

[display(x.shape) for x in [X_train, y_train, X_valid, y_valid, X_test, y_test]]

(221599, 8)

(221599,)

(47486, 8)

(47486,)

(47486, 8)

(47486,)

[None, None, None, None, None, None]

In [22]:
model = []
RMSE = []
train_time = []
predict_time = []

def list_append(model_name, metric, time_1, time_2):
    model.append(model_name)
    RMSE.append(metric)
    train_time.append(time_1)
    predict_time.append(time_2)

Прежде всего напишем функцию, которая будет получать модель, внутри обучать и делать предсказания, а также считать время, затраченное на все это и добавлять в список. Применим `Pipeline` для того, чтобы заструктурировать применение метода масштабирования `StandardScaler`, метода главных компонет `PCA` и непостредственно модели. Проверим работаспособность функции, а также создадим модель `DummyRegression` для проверки моделей на адекватность:

In [23]:
def pipe_model(name, model):
    timer_begin = time.time()

    pipe = Pipeline([
                    ('scale', StandardScaler()),
                    ('reduce_dims', PCA()),
                    ('model', model)
    ])
    pipe.fit(X_train, y_train)

    timer_end = time.time()
    train_timer = timer_end - timer_begin

    timer_begin = time.time()

    pred = pipe.predict(X_valid)
    rmse = mean_squared_error(y_valid, pred)**0.5
    
    timer_end = time.time()
    predict_timer = timer_end - timer_begin
    
    list_append(name, rmse, train_timer, predict_timer)
    print('Затраченное время: %f ms' % train_timer)
    print('Затраченное время: %f ms' % predict_timer)
    print('RMSE: ', rmse)
    
    return pipe

In [24]:
pipe_model('DummyRegression', DummyRegressor(strategy="mean"))

Затраченное время: 0.135631 ms
Затраченное время: 0.000000 ms
RMSE:  4520.370820103114


Есть. Отныне, все модели, которые покажут результат метрики хуже, чем `DummyRegression` - можно считать неадекватными.

Теперь обучим несколько видов моделей, начиная с `LinearRegression` и в итоге сравним их на тестовой выборке:

In [25]:
pipe_model('LinearRegression', LinearRegression())

Затраченное время: 0.288336 ms
Затраченное время: 0.017611 ms
RMSE:  3360.57535501038


Взглянем на `RandomForest`, предварительно подберем параметры классом `BayesSearchCV`, который очень хорошо действует при работе с непрерывным целевым признаком:

In [26]:
%%time

params = {
    "n_estimators": [50, 75, 100],
    "max_depth": (1, 9)

}

search = BayesSearchCV(
    estimator=RandomForestRegressor(),
    search_spaces=params,
    n_jobs=-1,
    cv=3,
    n_iter=30,
    scoring='neg_root_mean_squared_error',
    verbose=4,
    random_state=state
)

search.fit(X_train, y_train)
rf = search.best_estimator_
print(search.best_score_)
print(search.best_params_)

Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits
Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits




Fitting 3 folds for each of 1 candidates, totalling 3 fits
-1964.386206525852
OrderedDict([('max_depth', 9), ('n_estimators', 100)])
CPU times: total: 56.8 s
Wall time: 13min 19s


Наилучшие параметры определены, применим их и расчитаем `RMSE`:

In [27]:
pipe_model('RandomForestRegression', rf)

Затраченное время: 141.435558 ms
Затраченное время: 0.639746 ms
RMSE:  2286.316180785552


Протестируем модель градиентного бустинга `CatBoostRegressor`:

In [28]:
cat = CatBoostRegressor(
   depth=9,
    loss_function='RMSE',
   iterations=500,
    verbose=10)
pipe_model('Cat', cat)

Learning rate set to 0.168856
0:	learn: 4113.8070695	total: 206ms	remaining: 1m 42s
10:	learn: 2502.2534439	total: 918ms	remaining: 40.8s
20:	learn: 2236.0008833	total: 1.55s	remaining: 35.4s
30:	learn: 2131.2828060	total: 2.15s	remaining: 32.5s
40:	learn: 2071.6735056	total: 2.72s	remaining: 30.5s
50:	learn: 2025.6629092	total: 3.29s	remaining: 28.9s
60:	learn: 1989.7684529	total: 3.86s	remaining: 27.8s
70:	learn: 1959.3464226	total: 4.42s	remaining: 26.7s
80:	learn: 1934.0150576	total: 5s	remaining: 25.8s
90:	learn: 1912.1055967	total: 5.56s	remaining: 25s
100:	learn: 1894.1855118	total: 6.14s	remaining: 24.2s
110:	learn: 1876.8780886	total: 6.68s	remaining: 23.4s
120:	learn: 1859.5741049	total: 7.24s	remaining: 22.7s
130:	learn: 1844.0678131	total: 7.76s	remaining: 21.9s
140:	learn: 1831.8797442	total: 8.29s	remaining: 21.1s
150:	learn: 1819.4898170	total: 8.83s	remaining: 20.4s
160:	learn: 1808.5929467	total: 9.37s	remaining: 19.7s
170:	learn: 1797.8300611	total: 9.91s	remaining: 1

Попробуем еще одну модель градиентного бустинга `LGBMRegressor`:

In [29]:
lgbm = LGBMRegressor(max_depth=-1, n_estimators=3000, random_state=state, n_jobs=-1)
pipe_model('LGBMRegressor', lgbm)

Затраченное время: 21.421430 ms
Затраченное время: 4.652390 ms
RMSE:  1722.0379868711495


Проверим последнюю модель `ElasticNetCV`, которая комбинирует L1 и L2 регуляризации из гребневой регресии и регрессии лассо:

In [30]:
pipe_model('ElasticNet', ElasticNetCV(n_jobs=-1, random_state=state))

Затраченное время: 1.075421 ms
Затраченное время: 0.015652 ms
RMSE:  3992.41506411141


**Вывод:** результаты посчитаны, можно приступать к анализу моделей.

## Анализ моделей

Итак, взглянем на итоговые результаты и выберем самую оптимальную модель:

In [31]:
list_tuples = list(zip(model, RMSE, train_time, predict_time))
frame = pd.DataFrame(list_tuples, columns=['model', 'RMSE', 'train_time, sec', 'predict_time, sec'])
frame.set_index('model')

Unnamed: 0_level_0,RMSE,"train_time, sec","predict_time, sec"
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
DummyRegression,4520.37082,0.135631,0.0
LinearRegression,3360.575355,0.288336,0.017611
RandomForestRegression,2286.316181,141.435558,0.639746
Cat,1793.714158,29.594263,0.324815
LGBMRegressor,1722.037987,21.42143,4.65239
ElasticNet,3992.415064,1.075421,0.015652


* `LinearRegression` и `ElasticNetCV` продемонстрировали самые плохие показатели RMSE, `EN` едва прошла проверку на адекватность, но обе показали крайне высокую скорость. Применять эти моделя для поставленной решения поставленной задачи не рекомендую.

* Неплохой результат показала модель `RandomForestRegressor`, однако и самую низкую скорость во всем исследовании.

* Самые лучшие результаты по метрике RMSE показали модели `CatBoostRegressor` и `LGBMRegressor` - 1793.71 и 1722, соответственно. Показатель скорости в приоритете у модели `LGBMRegressor`, она работает быстрее больше, чем в 2 раза, да и метрика у нее получше.

Итого, останавливаемся на модели `LGBMRegressor`. Применим ее к тестовой выборке:

In [32]:
timer_begin = time.time()

lgbm_pipe = Pipeline([
                    ('scale', StandardScaler()),
                    ('reduce_dims', PCA()),
                    ('model', lgbm)
    ])
lgbm_pipe.fit(X_train, y_train)

timer_end = time.time()
train_timer = timer_end - timer_begin
timer_begin = time.time()

pred_test = lgbm_pipe.predict(X_test)
print('RMSE: ', mean_squared_error(y_test, pred_test)**0.5)

timer_end = time.time()
predict_timer = timer_end - timer_begin
print('Время обучения: ', train_timer)
print('Время предсказания: ', predict_timer)

RMSE:  1718.121351459064
Время обучения:  24.99641227722168
Время предсказания:  5.866947650909424


**Вывод:** при изначально поставленном условии, что результат метрики RMSE должен быть меньше 2500, задача выполнена.

Итого, перевес в качестве метрики RMSE и времени обучения и предсказания за моделью `LGBMRegressor`, она показала полную способность к выполнению данной задачи. Ее мы и порекомендуем по итогу результата исследования.