# Определение стоимости автомобилей

Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости. 

Заказчику важны:

- качество предсказания;
- скорость предсказания;
- время обучения.

## Подготовка данных

In [None]:
!pip install lightgbm

In [None]:
!pip install scikit-learn==1.1.3

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import time
import sklearn

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler

from sklearn.model_selection import cross_val_score, RepeatedKFold, GridSearchCV

from sklearn.metrics import mean_squared_error

from sklearn.linear_model import LinearRegression
from lightgbm import LGBMRegressor
from catboost import (
    CatBoostRegressor, 
    cv, 
    Pool
)

import lightgbm
print(lightgbm.__version__)
print(sklearn.__version__)

In [None]:
data = pd.read_csv('/datasets/autos.csv')

### EDA

In [None]:
data.head()

In [None]:
data.info()

**Вывод:** 
* В датасете есть пропуски. 
* Переменные, отражающие дату и время, требуют преобразования к соответсвующему типу.

In [None]:
data.columns = data.columns.str.lower()

In [None]:
for col in data.columns:
    missing_values = data[col].isna().mean()
    if missing_values > 0:
        print(f'В столбце "{col}" {np.round((missing_values * 100), decimals = 2)} % пропусков')

In [None]:
data.duplicated().sum()

In [None]:
data[data.duplicated(keep='last')]
data.drop_duplicates()

In [None]:
data = data.drop_duplicates()

**Вывод:** 
* Доля пропущенных значений велика и доходит до `20` процентов. 
* Дупликатов всего 4. Они были удалены.
* Пропущенные значения заменим на `'no_info'`. Это будет отдельное значение для переменной.  

In [None]:
data['repaired'] = data['repaired'].replace('yes', 1)
data['repaired'] = data['repaired'].replace('no', 0)
data['repaired'] = data['repaired'].fillna(-1)

In [None]:
data = data.fillna('no_info')

In [None]:
date_time_columns = ['datecrawled', 'datecreated', 'lastseen']

In [None]:
for col in date_time_columns:
    data[col] = pd.to_datetime(data[col], format='%Y-%m-%d %H:%M:%S')

In [None]:
data.head()

**Вывод:** переменные с датой и временем преобразованы.

In [None]:
sns.histplot(data['price'], bins=50)
None

In [None]:
sns.boxplot(data['price'])
None

In [None]:
data.head()

In [None]:
sns.boxplot(data['kilometer'])
None

In [None]:
sns.boxplot(data['power'])
None

**Вывод:** распределение значение перменной `'price'` скошено вправо. Много значений близких к нулю. Можно предположить, что такие значения оставлены сознательно. Тем не менее, необходимости их исправлять нет. 

In [None]:
data = data.query('price > 0')
data = data.query('power > 0 and power < 1000')

### Определение признаков:

In [None]:
data = data.drop(['datecrawled', 'datecreated',	'numberofpictures',	'postalcode','lastseen'], axis=1)

### Разделение данных на выборки и признаки:

In [None]:
X = data.drop(['price'], axis=1)
y = data['price']

In [None]:
X.shape, y.shape

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = 42)

In [None]:
X_valid, X_test, y_valid, y_test = train_test_split(X_test, y_test, test_size = 0.5, random_state = 42)

In [None]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape, X_valid.shape, y_valid.shape

Определение признаков:

In [None]:
cat_cols = X_train.select_dtypes(include='object').columns.to_list()

num_cols = [
    'registrationyear',
    'power',
    'kilometer',
    'registrationmonth',
]

In [None]:
cat_cols

In [None]:
num_cols

### Преобразование категориальных признаков и масштабирование:

In [None]:
X_train_ohe = X_train.copy()
X_test_ohe = X_test.copy()
X_valid_ohe = X_valid.copy()

In [None]:
sc = StandardScaler()
X_train_ohe[num_cols] = sc.fit_transform(X_train_ohe[num_cols])
X_test_ohe[num_cols] = sc.transform(X_test_ohe[num_cols])
X_valid_ohe[num_cols] = sc.transform(X_valid_ohe[num_cols])

In [None]:
X_train.shape

In [None]:
%%time
ohe = OneHotEncoder(handle_unknown='ignore', drop='first', sparse=False)
ohe.fit(X_train_ohe[cat_cols])
X_train_ohe[
    ohe.get_feature_names_out()
] = ohe.transform(X_train_ohe[cat_cols])
X_train_ohe = X_train_ohe.drop(cat_cols, axis=1)

X_test_ohe[
    ohe.get_feature_names_out()
] = ohe.transform(X_test_ohe[cat_cols])
X_test_ohe = X_test_ohe.drop(cat_cols, axis=1)

X_valid_ohe[
    ohe.get_feature_names_out()
] = ohe.transform(X_valid_ohe[cat_cols])
X_valid_ohe = X_valid_ohe.drop(cat_cols, axis=1)

### Получение метрик:

In [None]:
def print_metric(y, y_pred):
    print(f'RMSE: {np.sqrt(mean_squared_error(y, y_pred))}')

**Вывод:** 
* был проведен EDA-анализ, в результате которого были устранены пропуски в данных, преобразованы переменные и удалены дупликаты.
* далее отдельно были выделены категориальные и количественные переменные.
* для разделения данных на выборки было необходимо отбросить все перменные связанные с датой, 'numberofpictures', 'postalcode'.
* для тестовой выборки выделили 40% датасета.
* так как задача проекта - задача регрессии, категориальные признаки было необходимо преобразовать в количественные, а затем их масштабировать.
* основная метрика оценки - RMSE. Для ее получения была написана функция.

## Обучение моделей

### Линейная регрессия

In [None]:
start_lr = time.time()

lr = LinearRegression()
lr.fit(X_train_ohe, y_train)

end_lr = time.time()
elapced_time_lr = end_lr - start_lr
print(elapced_time_lr)

In [None]:
start_pred_lr = time.time()
pred_lr = lr.predict(X_valid_ohe)
end_pred_lr = time.time()

elapced_time_lr_pred = end_pred_lr - start_pred_lr 

print(elapced_time_lr_pred)
print_metric(y_valid, pred_lr)

### LightGBM

In [None]:
cat_X_train = X_train.select_dtypes('object').columns
X_train[cat_X_train] = X_train[cat_X_train].astype('category')

cat_X_test = X_test.select_dtypes("object").columns
X_test[cat_X_test] = X_test[cat_X_test].astype('category')

cat_X_valid = X_valid.select_dtypes('object').columns
X_valid[cat_X_valid] = X_valid[cat_X_valid].astype('category')

In [None]:
X_train

In [None]:
parameters = {
    'boosting_type': ["gbdt", "goss"],
    "n_estimators":[400, 500],
    'max_depth': [5, 10],  
}

In [None]:
%%time
lgbm_reg = LGBMRegressor()
lgbm_reg_CV = GridSearchCV(estimator=lgbm_reg,
                   param_grid=parameters,
                   scoring='neg_root_mean_squared_error',
                   cv=5,
                   verbose=0)
lgbm_reg_CV.fit(X_train, y_train)

In [None]:
lgbm_reg_CV.best_params_

In [None]:
start_lgbm_reg = time.time()

lgbm_reg = LGBMRegressor(boosting_type='gbdt', max_depth=10, n_estimators=500)
lgbm_reg.fit(X_train, y_train)

end_lgbm_reg = time.time()
elapced_time_lgbm_reg = end_lgbm_reg - start_lgbm_reg 
print(elapced_time_lgbm_reg)

In [None]:
start_pred_lgbm_reg = time.time()
pred_lgbm_reg = lgbm_reg.predict(X_valid)
end_pred_lgbm_reg = time.time()

elapced_time_lgbm_reg_pred = end_pred_lgbm_reg - start_pred_lgbm_reg

print_metric(y_valid, pred_lgbm_reg)
print(elapced_time_lgbm_reg_pred)

<div class="alert alert-block alert-danger">
<h2> Комментарий ревьюера №3<a class="tocSkip"></h2>

    
<b>На доработку🤔:</b>
    
Здесь predict также стоит сделать на валидационных данных, а перед этим в валидационной выборке также изменить тип категориальных данных на category

![params_LGBM.jpg](attachment:params_LGBM.jpg)

![LGBM.jpg](attachment:LGBM.jpg)

![LGBM_reg.jpg](attachment:LGBM_reg.jpg)


<div class="alert alert-block alert-danger">
<h2> Комментарий ревьюера <a class="tocSkip"></h2>

    
<b>На доработку🤔:</b>
    
Пропиши, пожалуйста, код, чтобы можно было его прогрузить и проверить его работоспособность.

### CatBoost

<div class="alert alert-block alert-danger">
<h2> Комментарий ревьюера <a class="tocSkip"></h2>

    
<b>На доработку🤔:</b>
    
Для CatBoost стоит использовать порядковое кодирование категориальных переменных.
    
Либо воспользоваться внутренним алгоритмом кодирования, то есть подавать в модель незакодированные предварительно фичи.
    
Пример:
    
https://towardsdatascience.com/how-do-you-use-categorical-features-directly-with-catboost-947b211c2923

In [None]:
cat_cols = ['vehicletype', 'gearbox', 'model', 'fueltype', 'brand']

<div class="alert alert-block alert-danger">
<h2> Комментарий ревьюера <a class="tocSkip"></h2>

    
<b>На доработку🤔:</b>
    
Если код рабочий и нужный в проекте, пожалуйста, раскомментируй его. Ненужный стоит убрать.

In [None]:
start_cb_update = time.time()

cb_update = CatBoostRegressor(iterations=50, depth=10, loss_function='RMSE')
cb_update.fit(
    X_train,
    y_train,
    cat_features=cat_cols, 
    eval_set=(X_valid, y_valid),
    verbose=False,
    plot=False
)
end_cb_update = time.time()
elapced_time_cb_update = end_cb_update - start_cb_update
print(elapced_time_cb_update)

In [None]:
start_cb_update_pred = time.time()
pred_cb = cb_update.predict(X_valid)
end_cb_update_pred = time.time()
elapced_time_cb_update_pred = end_cb_update_pred - start_cb_update_pred

print_metric(y_valid, pred_cb)
print(elapced_time_cb_update_pred)

**Вывод:** 
* были обучены три модели: `линейная регрессия`, `LightGBM Regressor` и `CatBoost Regressor`. 
* для улучшения результата была применена кросс-валидация с подбором гиперпараметров.
* при установлении гиперпараметров результаты улучшились.

## Анализ моделей

Визуализируем данные: 

In [None]:
data_score = pd.DataFrame(np.array([[np.sqrt(mean_squared_error(y_valid, lr.predict(X_valid_ohe))), elapced_time_lr], 
                                  [np.sqrt(mean_squared_error(y_valid, lgbm_reg.predict(X_valid))), elapced_time_lgbm_reg], 
                                  [np.sqrt(mean_squared_error(y_valid, cb_update.predict(X_valid))), elapced_time_cb_update]]),
                        columns=['RMSE', 'Время обучения'],
                        index=['Линейная регрессия', 'LightGBM Regressor', 'CatBoost Regressor']
                       )
data_score.apply(lambda x: np.round(x, decimals = 2))

## Проверка лучшей модели: 

Лучшую метрику показал `LightGBM Regressor`, а время обучения - `CatBoost Regressor`. Проверим модели на тестовой выборке.

In [None]:
lgbm_test = LGBMRegressor(boosting_type='gbdt', max_depth=10, n_estimators=500)
lgbm_test.fit(X_test, y_test)
pred_lgbm_test = lgbm_test.predict(X_test)
print_metric(y_test, pred_lgbm_test)

In [None]:
cb_test = CatBoostRegressor(iterations=50, depth=10, loss_function='RMSE')
cb_test.fit(
    X_test,
    y_test,
    cat_features=cat_cols, 
    eval_set=(X_valid, y_valid),
    verbose=False,
    plot=False
)
pred_cb_test = cb_test.predict(X_test)
print_metric(y_test, pred_cb_test)

**Вывод:** лучший результат показал `LightGBM Regressor`

<div class="alert alert-block alert-danger">
<h2> Комментарий ревьюера №4<a class="tocSkip"></h2>

    
<b>На доработку🤔:</b>
    
Сравнени моделей стоит проводить по результатам на валидаионной выборке.
    
Также не стоит дублировать код с вычислениями.
    
На тестовой выборке стоит проверять только лучшую модель.

**Вывод:** лучшая метрика у `LightGBM Regressor`

<div class="alert alert-block alert-danger">
<h2> Комментарий ревьюера №3<a class="tocSkip"></h2>

    
<b>На доработку🤔:</b>
    
Здесь для сравнения стоит использовать RMSE на валидационной выборке.
    
Кроме того, чтобы не дублировался код, стоит использовать вычисления метрики сделанные ранее по проекту. 
    
После того, как выбрана лучшая модель исходя из результатов моделей на валидационной выборке стоит проверить ее на тестовой выборке. Ранее по проекту использование тестовой выборки стоит исключить.

<div class="alert alert-success">
<h2> Комментарий ревьюера <a class="tocSkip"> </h2>

<b>Все отлично!👍:</b> 
    
Молодец, что сводишь все результаты в таблицу.

<div class="alert alert-warning">
    <h2> Комментарий ревьюера <a class="tocSkip"> </h2>
    
<b>Некоторые замечания и рекомендации💡:</b> 
        
Не стоит вручную вписывать числа, чтобы при изменениях или перезапусках не было несоответствия,также стоит сохранять все результаты в переменные, чтобы не повторять вычисления.
        
Кроме того можно сравнить качество лучшей модели с константной.

**Вывод:** 
* быстрее всех обучается `Линейная регрессия`;
* самый низкий RMSE у `LightGBM Regressor`;

При самом низком RMSE у LightGBM Regressor самая выокая скорость обучения. Наиболее оптимальным является `CatBoost Regressor`.

<div class="alert alert-block alert-danger">
<h2> Комментарий ревьюера <a class="tocSkip"></h2>

    
<b>На доработку🤔:</b>
    
После того, как выбрана лучшая модель по результатам кросс-валидации или на валидационной выборке стоит проверить ее на тестовой выборке. Ранее по проекту использование тестовой выборки стоит исключить.

## Заключение

Получив данные мы провели разведывательный анализ в ходе которого были устранены пропуски в данных, преобразованы переменные и удалены дупликаты. Далее отдельно были выделены категориальные и количественные переменные. Отбросили все перменные связанные с датой, 'numberofpictures', 'postalcode'. Затем разделили данные на выборки. Для тестовой выборки выделили 40% датасета. Так как задача проекта - задача регрессии, категориальные признаки было необходимо преобразовать в количественные, а затем их масштабировать. Для упрощения получения основной метрики (RMSE) была написана функция.

В ходе проекта были обучены три модели: `линейная регрессия`, `LightGBM Regressor` и `CatBoost Regressor`. Для улучшения результата применили кросс-валидация с подбором гиперпараметров. С измененными гиперпараметрами оценки улучшились. 

По итогам, быстрее всех обучается Линейная регрессия, самый низкий RMSE у LightGBM Regressor. Однако при самом низком RMSE у LightGBM Regressor самая выокая скорость обучения. Таким образом, наиболее оптимальным является CatBoost Regressor.

<div class="alert alert-warning">
    <h2> Комментарий ревьюера <a class="tocSkip"> </h2>
    
<b>Некоторые замечания и рекомендации💡:</b> 
        
Здесь я оставлю несколько интересных и полезных ссылок по теме:
        
        
1. "XGBoost, LightGBM or CatBoost — which boosting algorithm should I use?"

https://medium.com/riskified-technology/xgboost-lightgbm-or-catboost-which-boosting-algorithm-should-i-use-e7fda7bb36bc
        
        
2. "Transforming categorical features to numerical features"
        
https://catboost.ai/en/docs/concepts/algorithm-main-stages_cat-to-numberic
        
        
3. "Градиентный Бустинг: самый частый вопрос на собеседовании на дата саентиста"
        
https://www.youtube.com/watch?v=ZNJ3lKyI-EY
        
4. "Tutorial: CatBoost Overview"
        
https://www.kaggle.com/code/mitribunskiy/tutorial-catboost-overview/notebook
        
5. "Gradient Boosting from scratch"
        
https://blog.mlreview.com/gradient-boosting-from-scratch-1e317ae4587d

<div style="border:solid Chocolate 2px; padding: 40px">
    
<b>Общий вывод по проекту</b>

Антон, спасибо за работу! Проект хороший, однако стоит внести некоторые исправления, чтобы можно было считать проект завершенным.

**Положительные моменты проекта, которые хочу еще раз подчеркнуть:**

1. Удалены лишние признаки и константный признак
2. Есть промежуточные выводы по ходу анализа признаков
3. Есть обработка пропущенных значений
4. Есть анализ времени обучения моделей

**Замечания, на которые стоит обратить внимание при будущей работе:**
    
    1. Добавить в проект код для анализа LightGBM
    2. Для LightGBM и CatBoost стоит использовать соответствующий метод кодирования
    3. Стоит измерить время на predict для каждой модели
    4. Модели выбирать по результатам кросс-валидации или на валидационной выборке
    5. На тестовой выборке стоит проверять только лучшую модель
    6. Стоит исправить one-hot кодирование
    7. Стоит обработать аномалии в численных признаках и удалить дубликаты.

    
    
Остальные комментарии ты найдешь выше.

**Желаю удачи и жду твой проект на повторное ревью!**

<div style="border:solid Chocolate 2px; padding: 40px">
    
<b>Общий вывод по проекту №2</b>

Антон, спасибо за работу,
    
Что осталось поправить:
    
    1. Раскомментировать рабочий код, убрать ненужный код
    2. Исправить масштабирование
    3. Модели выбирать по результатам кросс-валидации или на валидационной выборке
    4. На тестовой выборке стоит проверять только лучшую модель
    
**Жду твой проект на следующее ревью**

<div style="border:solid Chocolate 2px; padding: 40px">
    
<b>Общий вывод по проекту №3</b>

Антон, спасибо за работу,
    
Что оcталось поправить:
    
    1. исправить one-hot выборки
    2. обучение проводить на тренировочных данных
    3. оценку качества в процессе анализа (в процессе работы вплоть до финального этапа) стоит проводить на валидационной выборке.
    4. После того, как выбрана лучшая модель по результатам на валидационной выборке, стоит проверить ее на тестовой выборке (дополнительная проверка лучшей модели).
    5. Исправить ошибку в коде
    6. Для LightGBM использовать данные, которые для него подготовлены (с типом категориальных данных category)
    
**Жду твой проект на следующее ревью**

<div style="border:solid Chocolate 2px; padding: 40px">
    
<b>Общий вывод по проекту №4</b>

Антон, спасибо за работу,
    
Что осталось исправить:
    
    1. ошибку в коде
    2. исправить one-hot выборки
    3. сравнение моделей стоит проводить на валидационной выборке
    4. на тестовой выборке стоит проверять только лучшую модель после того, как она выбрана
    5. Также не стоит дублировать код с вычислениями
    
**Жду твой проект на следующее ревью**


<div style="border:solid Chocolate 2px; padding: 40px">
    
<b>Общий вывод по проекту №5</b>

Антон, спасибо за работу,
    
**все хорошо, проект принимаю и желаю успехов в дальнейшем!**