# Определение стоимости автомобилей

Версия: 1.0.0.1 <BR>
<strong>Github:</strong> https://github.com/govermsk/chislennie_metodi

Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости. 

Заказчику важны:

- качество предсказания;
- скорость предсказания;
- время обучения.

## Подготовка данных

In [2]:
import pandas as pd
import numpy as np
import platform
import datetime

from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from catboost import Pool, CatBoostRegressor, cv
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RandomizedSearchCV

In [None]:
# Использовать подгруженную таблицу: DOWNLOAD_PREPROCESSED_DATASET = True
# Пересчитать данные с нуля: DOWNLOAD_PREPROCESSED_DATASET = False (займёт кучу времени)

DOWNLOAD_PREPROCESSED_DATASET = True

In [None]:
!jupyter nbextension enable --py widgetsnbextension

Импорт/установка прогресс-бара и LightGBM

Подгрузка библиотеки pandas_profiling для создания отчетов по таблицам

In [None]:
!pip install -q pandas_profiling ipywidgets tqdm lightgbm

In [None]:
from pandas_profiling import ProfileReport
import lightgbm as lgb
from lightgbm import LGBMRegressor

Выбираем источник(и) для загрузки файлов данных

In [None]:
host = platform.node()
filename = "autos.csv"

# На машинах исполнителя проекта файл с данными доступен через символический путь, 
# ссылающийса на папку на яндекс.диске, где расположен загружаемый файл. 
# В случае если хостом где выполняется анализ является какая-либо другая машина, 
# используем путь по умолчанию.
try:    
    if host in ['22varivoda','Gover-pc','MSI']:
        filepath    = 'C:/_YDsymlink/Python/datascience/Projects/20 - Численные методы/'
    else:
        filepath    = '/datasets/'
except:
    print("Не удалось подгрузить данные")
    
pd.reset_option('^display.',silent=True)
pd.set_option('display.float_format', str)

In [None]:
RANDOM_STATE = 12345

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == True:
    # Подгрузка обработанной таблички
    from io import BytesIO
    import requests
    spreadsheet_id_before_adequacy_check = '1XQJpZEWquYxrPrV_Z7YHHMbISpDgcmB3WxCto5MprMA'
    before_adequacy_check_file_name = 'https://docs.google.com/spreadsheets/d/{}/export?format=csv'.format(spreadsheet_id_before_adequacy_check)

df = pd.read_csv(filepath+filename)

### Первичный осмотр данных

In [None]:
df.sample(5)

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.isna().sum()

### Заполнение пропусков

Создадим две функции, которые будут помогать нам искать значения для заполнения пустот.

Первая функция готовит табличку с объектами, сгруппированными по признакам по списку

In [None]:
def get_neighbors_table(df, equality_fields,target_field):
    neighbors_table = df.groupby(equality_fields)[target_field].describe().reset_index()
    return neighbors_table

Вторая функция ищет из этой таблички соседа для переданного объекта и смотрит нужное значение у него.
Сосед подбирается сначала по одному совпадению признаков, потом по двум и так далее, пока не подберётся наиболее близкий сосед с таким количеством совпадающих признаков какое возможно.

In [None]:
def get_popular(object, target_field, equality_fields, fill_table):

    value = ''
    all_eqs = np.full(fill_table.shape[0],True)
    N = 1 

    for ef in equality_fields:
        eq = (fill_table[ef] == object[ef])

        all_eqs = ((all_eqs) & (eq)) 
        filtered_table = fill_table.loc[(all_eqs)]
        N+=1
        v_count = filtered_table.shape[0]    
        if v_count > 0:
            if len(filtered_table.loc[filtered_table['top'].isna()==False]) > 0:
                v = filtered_table.loc[filtered_table['top'].isna()==False,'top'].values[0]
                if v != np.nan:
                    value = v

    return value


<div class="alert alert-block alert-success">
<b>Успех:</b> удобные помощники
</div>


#### FuelType

Заполняем пропуски поля, указывающего тип топлива с помощью ранее созданных функций, подбирающих значения по соседям

In [None]:
equality_fields = ['Brand','VehicleType','Model','Gearbox','Power','RegistrationYear']
target_field = 'FuelType'

if DOWNLOAD_PREPROCESSED_DATASET == False:
    df_fuel_table = get_neighbors_table(df, equality_fields, target_field)

In [None]:
%%time
# выполняется примерно 9 минут
if DOWNLOAD_PREPROCESSED_DATASET == False:
    df.loc[~df['FuelType'].isin(['petrol','gasoline','lpg','cng','other','hybrid','electric']),target_field ] = df.loc[~df['FuelType'].isin(['petrol','gasoline','lpg','cng','other','hybrid','electric']) ].apply(get_popular,axis=1, args=(target_field,equality_fields,df_fuel_table,))
    df.loc[df[target_field].isna(),target_field] = df.loc[df[target_field].isna()].apply(get_popular,axis=1, args=(target_field,equality_fields,df_fuel_table,))

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == False:
    print(f"Число пустых записей {target_field}: {len(df.loc[(df[target_field].isna())|(~df['FuelType'].isin(['petrol','gasoline','lpg','cng','other','hybrid','electric']))])}")

In [None]:
df['FuelType'].value_counts()

Так как не все поля заполнились по алгоритму наиболее подходящих значений - остальные пустоты заполним наиболее популярным значением

In [None]:
df.loc[~df[target_field].isin(['petrol','gasoline','lpg','cng','other','hybrid','electric']),target_field ] = df[target_field].value_counts().index[0]

In [None]:
len(df.loc[~df['FuelType'].isin(['petrol','gasoline','lpg','cng','other','hybrid','electric']) ])

In [None]:
len(df.loc[df['FuelType'].isna()])

#### VehicleType

Аналогичным способом заполняем и столбец с типом кузова

In [None]:
equality_fields = ['Brand','Model','Gearbox','Power','FuelType','RegistrationYear']
target_field = 'VehicleType'

In [None]:
df[target_field].value_counts()

In [None]:
target_values_list = list(df[target_field].value_counts().index)

In [None]:
%%time
if DOWNLOAD_PREPROCESSED_DATASET == False:
    df_vehicle_type_table = get_neighbors_table(df, equality_fields, target_field)

In [None]:
%%time
if DOWNLOAD_PREPROCESSED_DATASET == False:
    df.loc[(df[target_field].isna()) | (~df[target_field].isin(target_values_list)),target_field] = df.loc[(df[target_field].isna()) | (~df[target_field].isin(target_values_list))].apply(get_popular,axis=1, args=(target_field,equality_fields,df_vehicle_type_table,))
#    df.loc[~df['VehicleType'].isin(target_values_list),target_field] = df.loc[~df['VehicleType'].isin(target_values_list)].apply(get_popular,axis=1, args=(target_field,equality_fields,df_vehicle_type_table,))

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == False:
    print(f"Число пустых записей {target_field}: {len(df.loc[(df[target_field].isna())|(~df[target_field].isin(target_values_list))])}")

Так как не все поля заполнились по алгоритму наиболее подходящих значений - остальные пустоты заполним наиболее популярным значением

In [None]:
df.loc[~df[target_field].isin(target_values_list),target_field ] = df[target_field].value_counts().index[0]

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == False:
    print(f"Число пустых записей {target_field}: {len(df.loc[(df[target_field].isna())|(~df[target_field].isin(target_values_list))])}")

#### Gearbox

Аналогично

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == False:
    equality_fields = ['Brand','Model','VehicleType','FuelType','Power','RegistrationYear']
    target_field = 'Gearbox'

In [None]:
df[target_field].value_counts()

In [None]:
target_values_list = list(df[target_field].value_counts().index)

In [None]:
%%time
if DOWNLOAD_PREPROCESSED_DATASET == False:
    df_gearbox_table = get_neighbors_table(df, equality_fields, target_field)

In [None]:
%%time
if DOWNLOAD_PREPROCESSED_DATASET == False:    
    df.loc[(df[target_field].isna()) | (~df[target_field].isin(target_values_list)),target_field] = df.loc[(df[target_field].isna()) | (~df[target_field].isin(target_values_list))].apply(get_popular,axis=1, args=(target_field,equality_fields,df_gearbox_table,))

Если все же остались пустоты - заполним их "ручной коробкой" (наиболее популярным значением)

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == False:
    print(f"Число пустых записей {target_field}: {len(df.loc[(df[target_field].isna())|(~df[target_field].isin(target_values_list))])}")

In [None]:
df.loc[~df[target_field].isin(target_values_list),target_field ] = df[target_field].value_counts().index[0]

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == False:
    print(f"Число пустых записей {target_field}: {len(df.loc[(df[target_field].isna())|(~df[target_field].isin(target_values_list))])}")

#### Model

Так как восстановить модели всё равно не получится, указываем значение по-умолчанию (константу) = 'unknown'

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == False:
    df.loc[df['Model'].isna(),'Model'] = 'unknown'

#### Repaired

В случае со столбцом <code>Repaired</code> будем исходить из соображений что скорее всего его заполняют в том случае если отметка о ремонте ставится. Значит при незаполненности этого столбца скорее всего должно быть указано значение no. Его и внесем.

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == False:    
    target_field = 'Repaired'
    target_values_list = list(df[target_field].value_counts().index)
    
    print(f"Варианты поля Repaired:\n{df['Repaired'].value_counts()}")
    
    print(f"\nЧисло пустых записей {target_field}: {len(df.loc[(df[target_field].isna())|(~df[target_field].isin(target_values_list))])}")
    
    
    

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == False:
    df.loc[df['Repaired'].isna(),'Repaired'] = 'no'

Итого. Сверяемся со списком пропусков

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == False:
    print(f'Пустых значений:\n{df.isna().sum()}')

Пропуски устранены. Займёмся анализом адекватности значений.

In [None]:
if DOWNLOAD_PREPROCESSED_DATASET == True:
    r_before_adequacy_check = requests.get(before_adequacy_check_file_name)
    df = pd.read_csv(BytesIO(r_before_adequacy_check.content))
    df = df.drop(columns='Unnamed: 0')

### Проверка значений на адекватность, необходимость. Исправления значений

Что будем проверять и исправлять:<BR>
- <code>Price</code> - Цена. Если значений в этом столбце нет то такие объекты нам не нужны, так как они не помогут нам обучить модель. От таких объектов будем избавляться
- <code>RegistrationYear</code> - стоит проверить на адекватность значений. Не было ли регистраций во времена Ноя, либо в будущем. Не было ли регистраций в даты, превышающие максимальную дату в столбце <code>DateCrawled</code>. Дата регистрации не может быть больше даты выгрузки данных. 
- <code>Power</code> - проверим на нереальные цифры. К примеру не может быть машины мощностью равной нулю либо 10 л/с, так же как и машины в несколько тысяч л/с. Попробуем поисправлять эти значения созданной ранее функцией
- <code>Kilometer</code> - посмотрим, нет ли запредельных значений
- <code>DateCreated</code> - проверим на реалистичность дат
- <code>NumberOfPictures</code> - столбец не нужен, будем удалять
- <code>PostalCode</code> -  столбец не нужен, будем удалять
- <code>LastSeen</code> - тоже не нужный столбец

#### Price

Избавляемся от объектов для которых не указана цена, так как они бесполезны для обучения моделей

In [None]:
len(df.loc[df['Price'] == 0])

In [None]:
df = df.loc[df['Price'] != 0]

Построим график цен

In [None]:
df['Price'].hist(bins=200,figsize=(8,8));

Убираем записи с подозрительно дешевой ценой (<99 у.е.).

In [None]:
df = df.loc[df['Price'] >= 99]

#### RegistrationYear

Если год регистрации больше года парсинга объявления - это ошибка. Исключим их из датасета

In [None]:
max_date = datetime.datetime.strptime(df['DateCrawled'].max(),'%Y-%m-%d %X')
max_year = max_date.year
max_year # Максимальный год парсинга объявлений

In [None]:
print(f"{len(df.loc[df['RegistrationYear'] > max_year])} - число объявлений с датой регистрации, превышающей максимальный год парсинга")

In [None]:
df.loc[df['RegistrationYear'] > max_year, 'RegistrationYear'] = max_year

In [None]:
df = df.loc[df['RegistrationYear'] <= max_year]

Посмотрим что с минимальными значениями

In [None]:
df.loc[df['RegistrationYear'] < 1960]['RegistrationYear'].value_counts().sort_index()

Все понятно. Оставляем только значения от 1900 года (можно было бы взять скажем от 1950 и выше, но наверно неплохо бы оставить раритетные автомобили)

In [None]:
df = df.loc[df['RegistrationYear'] >= 1900]

Посмотрим как выглядит распределение по годам регистрации

In [None]:
df['RegistrationYear'].hist(bins=100,figsize=(8,8));

#### Power

Сразу посмотрим, что у нас по крайним значениям

In [None]:
df['Power'].value_counts().sort_index().head(5)

In [None]:
df['Power'].value_counts().sort_index().tail(5)

Восстановить данные о мощностях двигателей мы не можем, так что будем исключать те записи где указана неадекватная информация.<BR>
Нижней границей адекватности будем считать мощность автомобиля-инвалидки - 18 л/с<BR>
Чтобы понять верхнюю границу адекватности - посмотрим, есть ли в списке брендов те которые делают высокомощные суперкары.<BR>
Если нет - ограничимся 800 л/с

Оставим в таблице автомобили с нулевой мощностью, предполагая что двигатель в них изьят, а записи где мощность 1-17 л/с уберём.

In [None]:
df['Brand'].unique()

В списке не видно ни Bugatti ни Aston Martin/Lotus/McLaren и т.п.<BR>
Значит верхней границей поставим 800 л/с

In [None]:
power_min = 18
power_max = 800
df = df.loc[ ((df['Power'] >= power_min) & (df['Power'] <= power_max)) | (df['Power'] == 0 ) ] 

Посмотрим на распределение мощностей

In [None]:
df['Power'].hist(bins=100,figsize=(8,8));

#### Kilometer

In [None]:
df['Kilometer'].value_counts().sort_index()

Похоже что всё округлено и выбрасов нет. Едем дальше

#### DateCreated

In [None]:
df['DateCreated'].value_counts().sort_index().head(5)

In [None]:
df['DateCreated'].value_counts().sort_index().tail(5)

Претензий к значениям нет

#### NumberOfPictures

Столбец не нужен, удаляем

In [None]:
df = df.drop(columns='NumberOfPictures')

#### PostalCode

Столбец не нужен, удаляем

In [None]:
df = df.drop(columns='PostalCode')

#### LastSeen

Столбец тоже не нужен

In [None]:
df = df.drop(columns='LastSeen')

#### DateCrawled

Столбец тоже не нужен

In [None]:
df = df.drop(columns='DateCrawled')

#### DateCreated

Столбец тоже не нужен

In [None]:
df = df.drop(columns='DateCreated')

#### Repaired

Сделаем поле бинарным где 1 = ремонтировали, 0 - не ремонтировали

In [None]:
df.loc[df['Repaired']=='yes','Repaired'] = 1
df.loc[df['Repaired']=='no','Repaired'] = 0

#### Gearbox

Аналогично полю Repaired сделаем поле бинарным, где 1 = автомат, 0 = ручная коробка

In [None]:
df.loc[df['Gearbox']=='auto',  'Gearbox'] = 1
df.loc[df['Gearbox']=='manual','Gearbox'] = 0

#### RegistrationMonth

С виду тоже не нужный столбец

In [None]:
df = df.drop(columns='RegistrationMonth')

#### Преобразование типов данных

In [None]:
df.info()

Использование памяти 25.7 мб

In [None]:
df['Price']             = pd.to_numeric( df['Price'], downcast='integer')
df['Power']             = pd.to_numeric( df['Power'], downcast='integer')
df['Kilometer']         = pd.to_numeric( df['Kilometer'], downcast='integer')
df['RegistrationYear']  = pd.to_numeric( df['RegistrationYear'], downcast='integer')
df['Gearbox']           = pd.to_numeric( df['Gearbox'],  downcast='integer')
df['Repaired']          = pd.to_numeric( df['Repaired'], downcast='integer')

In [None]:
df.info()

Размер таблички сделали чуть поменьше, 15.2 Мб

#### Вывод по предварительной обработке данных и их анализу:

- Ряд столбцов таблицы нам не потребовались: PostalCode, LastSeen, NumberOfPictures, DateCrawled, DateCreated, RegistrationMonth
- Были выбросы в столбцах Power, RegistrationYear. Оставлены только те объекты, которые не относились к выбросам.
- В значимых столбцах заполнены пропуски. В FuelType, VehicleType, GearBox значения подобраны по наиболее похожим для соответствующих объектов соседям.
- В Model и Repaired пропуски заполнены константными значениями.
- Из выборки исключены объекты где не указана цена.
- Столбцы Gearbox, Repaired приведены к бинарному виду (значения у них теперь 1/0)

Посмотрим сколько получилось объектов

In [None]:
len(df)

## Обучение моделей

Попробуем модельки:
- LinearRegression
- Ridge
- CatboostRegressor
- LGBMRegressor

Создадим датасет results, в который будем сохранять показатели работы моделей

In [None]:
data = [
    ['LinearRegression','',0,0,0],
    ['Ridge','',0,0,0],
    ['CatboostRegressor','',0,0,0],
    ['LGBMRegressor','',0,0,0]
]
results = pd.DataFrame(data,columns=['model','comment','learning_time','prediction_time','rmse_score'])

Для разнообразия воспользуемся Pipeline для подготовки данных для линейной регрессии. И для выбора столбцов сделаем небольшой класс ColumnSelector.

In [None]:
class ColumnSelector(BaseEstimator, TransformerMixin):
    """Select only specified columns."""
    def __init__(self, columns):
        self.columns = columns
        
    def fit(self, X, y=None):
        return self
    
    def transform(self, X):
        return X[self.columns]

Для подготовки данных нужно сделать OHE-кодирование категориальных признаков и масштабирование числовых

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df.drop(columns=['Price']), 
                                                    df['Price'], 
                                                    test_size=.2, 
                                                    random_state=RANDOM_STATE)


In [None]:
categorical = ['VehicleType','Brand','Model','FuelType']
numerical   = [c for c in df.columns if c not in categorical and c !='Price']

In [None]:
cat_pipe = Pipeline([
    ('selector', ColumnSelector(categorical)),
    ('encoder', OneHotEncoder(handle_unknown='ignore', sparse=False))
])

num_pipe = Pipeline([
    ('selector', ColumnSelector(numerical)),
    ('scaler', StandardScaler())
])

preprocessor = FeatureUnion([
    ('cat', cat_pipe),
    ('num', num_pipe)
])

Подготовим также табличку где категориальные признаки кодированы через OrdinalEncoder без использования pipeline-Ов, назовем её df_ordinal

In [None]:
encoder = OrdinalEncoder()
df_ordinal = df.copy()
cat_features_ordinal = pd.DataFrame(
                                      encoder.fit_transform( df[categorical] ),
                                      columns=categorical,
                                      index=df.index
                       )

for c in categorical:
    df_ordinal[c] = cat_features_ordinal[c]
df_ordinal.sample(3)

X_train_ordinal, X_test_ordinal, y_train_ordinal, y_test_ordinal = train_test_split(df_ordinal.drop(columns=['Price']), 
                                                                                    df_ordinal['Price'], 
                                                                                    test_size=.2, 
                                                                                    random_state=RANDOM_STATE
                                                                                   )


И табличку признаков где категориальные обработаны с применением OHE

In [None]:
ohe_features = pd.get_dummies(df[categorical].copy(),drop_first=True)
df_numerical = df[numerical].copy()
df_price     = df['Price'].copy()

df_ohe = pd.concat([df_numerical, ohe_features, df_price],axis=1)

X_train_ohe, X_test_ohe, y_train_ohe, y_test_ohe = train_test_split(df_ohe.drop(columns=['Price']), 
                                                                                    df_ohe['Price'], 
                                                                                    test_size=.2, 
                                                                                    random_state=RANDOM_STATE
                                                                                   )

Для замера времени работы ячейки в jupyter notebook используется ключевое слово %%time. Но помимо него воспользуемся классом datetime для замера времени работы ячеек. Будем считать время в начале и в конце работы ячейки, а разницу сохранять в табличку results, которую создавали ранее.

### LinearRegression

In [None]:
pipe_linreg = Pipeline([
    ('preprocessor', preprocessor),
    ('model', LinearRegression())
])

In [None]:
model_linear = LinearRegression()

In [None]:
rmse = (cross_val_score( pipe_linreg, 
                         X_train,
                         y_train,
                         cv = 5,
                         scoring ="neg_mean_squared_error" ).mean() * -1) ** 0.5

In [None]:
%%time
t_start = datetime.datetime.now()

pipe_linreg.fit(X_train,y_train)

t_end   = datetime.datetime.now()
time_linear = t_end-t_start



In [None]:
tp_start = datetime.datetime.now()


pipe_linreg.predict(X_train)

tp_end   = datetime.datetime.now()
time_linear_predict = tp_end-tp_start

In [None]:
rmse_linear = rmse

In [None]:
rmse_linear

Так себе результат. Не дотягивает до цифры которая нам нужна

In [None]:
results.loc[results['model'] == 'LinearRegression','learning_time'  ] = time_linear
results.loc[results['model'] == 'LinearRegression','prediction_time'] = time_linear_predict
results.loc[results['model'] == 'LinearRegression','rmse_score'     ] = rmse_linear

### Ridge (гребневая регрессия)

In [None]:
params = {
    # переменные
    'alpha':[0.1,0.2,0.5,0.7],
    'max_iter':[1000,1500,2000],
    'solver':['svd','cholesky','sparse_cg','lsqr','sag'],
    
    # констатнтные 
    'copy_X':[True],
    'fit_intercept':[False],
    'random_state':[RANDOM_STATE]    
}

In [None]:
model_ridge = Ridge()

In [None]:

rsearch_ridge = RandomizedSearchCV( model_ridge,
                                    params ,
                                    scoring='neg_mean_squared_error'
                                  )

rsearch_ridge.fit(X_train_ohe, y_train_ohe)


In [None]:
best_params_ridge = rsearch_ridge.best_params_
best_params_ridge

In [None]:
%%time
t_start = datetime.datetime.now()
model_ridge = Ridge(
                        alpha        = best_params_ridge['alpha'],
                        max_iter     = best_params_ridge['max_iter'],
                        solver       = best_params_ridge['solver'],
                        copy_X       = best_params_ridge['copy_X'],
                        random_state = best_params_ridge['random_state']
                    )
model_ridge.fit(X_train_ohe, y_train_ohe)

t_end   = datetime.datetime.now()
time_ridge = t_end - t_start

In [None]:
rmse_ridge = ((rsearch_ridge.best_score_) * -1) ** 0.5
rmse_ridge

Тоже цифра неудачная, увы.

Замер времени предсказания:

In [None]:
%%time
tp_start = datetime.datetime.now()

model_ridge.predict(X_train_ohe)

tp_end   = datetime.datetime.now()
time_ridge_predict = tp_end-tp_start

In [None]:
results.loc[results['model'] == 'Ridge','learning_time'  ] = time_ridge
results.loc[results['model'] == 'Ridge','prediction_time'] = time_ridge_predict
results.loc[results['model'] == 'Ridge','rmse_score'     ] = rmse_ridge

### CatBoostRegressor

Пробуем считать catboost на GPU, а если система к этому не приспособлена - считаем на CPU

In [None]:
%%time

try:
    params = [{ 'learning_rate':[0.1,0.3,0.5,0.6,0.7,0.8],
                'iterations':[200,225,250,275,300],
                'loss_function':['RMSE'],
                'task_type':['GPU']
              }]
    c_boost = CatBoostRegressor(random_state=RANDOM_STATE,
                                loss_function='RMSE',
                                verbose=False)


    rsearch_cat = RandomizedSearchCV( c_boost,
                                      params 
                                    )
    rsearch_cat.fit(X_train_ordinal, y_train_ordinal)

    results.loc[results['model'] == 'CatboostRegressor','comment'  ] = 'GPU'
    
except:
    params =  [{'learning_rate':[0.1,0.3,0.5,0.6,0.7,0.8],
                'iterations':[200,225,250,275,300],
                'loss_function':['RMSE'],
                'task_type':['CPU']
              }]
    c_boost = CatBoostRegressor(random_state=RANDOM_STATE,
                                loss_function='RMSE',
                                verbose=False)

    rsearch_cat = RandomizedSearchCV( c_boost,
                                      params 
                                    )
    rsearch_cat.fit(X_train_ordinal, y_train_ordinal)
    
    results.loc[results['model'] == 'CatboostRegressor','comment'  ] = 'CPU'
    


In [None]:
%%time
# Замер времени обучения на подобранных параметрах
c_boost = CatBoostRegressor(   
                                learning_rate  = c_boost_best_params['learning_rate'],
                                iterations     = c_boost_best_params['iterations'],
                                loss_function  = c_boost_best_params['loss_function'],
                                task_type      = c_boost_best_params['task_type'],
                                verbose=False
                            )
t_start = datetime.datetime.now()

c_boost.fit(X_train_ordinal, y_train_ordinal)    

t_end   = datetime.datetime.now()  
time_catboost = t_end-t_start

In [None]:
c_boost_best_params = rsearch_cat.best_params_
c_boost_best_params

In [None]:
c_boost_best_score = rsearch_cat.best_score_

Замеряем время предсказания

In [None]:
%%time

tp_start = datetime.datetime.now()

y_pred_c_boost = rsearch_cat.predict(X_train_ordinal)

tp_end   = datetime.datetime.now()
time_catboost_predict = tp_end - tp_start

In [None]:
rmse_catboost = mean_squared_error(y_train_ordinal,y_pred_c_boost)**0.5

In [None]:
rmse_catboost

В отличие от линейной регрессии метрика регрессии стала удовлетворять требованиям задачи.

In [None]:
results.loc[results['model'] == 'CatboostRegressor','learning_time'  ] = time_catboost
results.loc[results['model'] == 'CatboostRegressor','prediction_time'] = time_catboost_predict
results.loc[results['model'] == 'CatboostRegressor','rmse_score'     ] = rmse_catboost

### LGBMRegressor

In [None]:
lgb_reg = LGBMRegressor(random_state = RANDOM_STATE)

In [None]:
params = { 
           'boosting_type': ['gbdt'],
           'num_leaves': [20,30,40,50,100,150,200],
           'learning_rate': [0.1,0.2,0.3,0.4,0.5,0.6,0.7],
           'n_estimators': [80,100,120,150]
}
    

In [None]:
%%time

rsearch_lgbm = RandomizedSearchCV( lgb_reg,
                                   params 
                                 )
rsearch_lgbm.fit(X_train_ordinal, y_train_ordinal)

In [None]:
lgbm_best_params = rsearch_lgbm.best_params_
lgbm_best_params

In [None]:
lgb_reg = LGBMRegressor(random_state = RANDOM_STATE,
                        boosting_type = lgbm_best_params['boosting_type'],
                        num_leaves = lgbm_best_params['num_leaves'],
                        n_estimators = lgbm_best_params['n_estimators'],
                        learning_rate = lgbm_best_params['learning_rate'],
                       )

In [None]:
%%time
t_start   = datetime.datetime.now()

lgb_reg.fit(X_train_ordinal,y_train_ordinal)

t_end     = datetime.datetime.now()
time_lgbm = t_end-t_start

In [None]:
tp_start = datetime.datetime.now()

y_pred_train_lgbm = lgb_reg.predict(X_train_ordinal)

tp_end = datetime.datetime.now()
time_lgbm_predict = tp_end - tp_start

In [None]:
rmse_lgbm = mean_squared_error(y_train_ordinal,y_pred_train_lgbm)**0.5
rmse_lgbm

Хороший результат! Сохраняем в табличку

In [None]:
results.loc[results['model'] == 'LGBMRegressor','learning_time'  ] = time_lgbm
results.loc[results['model'] == 'LGBMRegressor','prediction_time'] = time_lgbm_predict
results.loc[results['model'] == 'LGBMRegressor','rmse_score'     ] = rmse_lgbm

## Анализ моделей

Посмотрим на цифры

In [None]:
results

<B>Вывод</B>:<BR>

Линейные модели не тянут .... Учитывая выдаваемые ими значения метрики, время обучения и предсказания не интересны.<BR>
Модели бустинга проявили себя хорошо, выдавая неплохие значения метрики. По скорости обучения выиграла LGBM, показав время обучения 1:23 против 2:22, несмотря на то что Catboost обучился на GPU. Метрика также лучше у LGBM. <BR>
У Catboost преимущество оказалось по времени предсказания, но меньшее значение ошибки вё же поважнее<BR>
При небольшом наборе гиперпараметров "победителем" становится LGBM-регрессия, засчет более низкой ошибки в предсказаниях (хотя сами предсказания и делаются чуть медленнее чем в catboost).<BR>Однако нужно учесть что если перебрать большее количество параметров, результат может измениться в пользу Catboost.

Проверяем результат на тестовых данных

In [None]:
%%time
y_pred_test_lgbm = lgb_reg.predict(X_test_ordinal)


In [None]:
rmse_test_lgbm = mean_squared_error(y_test_ordinal,y_pred_test_lgbm)**0.5
rmse_test_lgbm