# Описание проекта
Многие знают про маркетплейсы где продаются б/у вещи, на которых есть возможность недорого купить качественную и полезную вещь. Но всегда волнует вопрос - кто и как устанавливает цену, и какие его характеристики больше всего влияют на итоговую стоимость продажи?! Вопрос становиться особо актуальным, если речь идет про дорогие товары, например про автомобили!

Задача - разработать модель для предсказания стоимости продажи автомобиля на вторичном рынке.

Данные:
* train.csv - информация о характеристиках автомобилей (~440000), которые будут использоваться в качестве обучающих данных.
* test.csv - информация о характеристиках автомобилей (~110000), которые будут использоваться в качестве тестовых данных. Задача - предсказать значение 'sellingprice' для каждого автомобиля из этого датасета.
* sample_submission.csv - пример файла предсказаний в правильном формате.
* vin - идентификатор автомобиля в тестовом наборе.
* sellingprice - Целевой признак. Для каждого автомобиля предскажите числовое значение стоимости продажи.

**Описание полей данных**
* Date: Год выпуска автомобиля.
* Make: Марка автомобиля.
* Model: издание автомобиля определенной марки.
* Trim: Уровни отделки салона автомобиля — это просто разные версии модели.
* Body: Тип кузова транспортного средства относится к форме и модели конкретной марки автомобиля.
* Transmission: механизм, который передает мощность от двигателя к колесам.
* VIN: идентификационный номер транспортного средства.
* State: состояние, в котором автомобиль выставлен на аукцион.
* Condition: Состояние автомобилей на момент аукциона.
* Odometer: расстояние, пройденное автомобилем с момента выпуска.
* Color: Цвет кузова автомобиля.
* Interior: Цвет салона автомобиля.
* Seller: Продавец автомобиля, автосалоны.
* mmr: Рекорд рынка Manhiem, рыночная оценочная цена автомобилей.
* sellingprice: цена, по которой автомобиль был продан на аукционе.
* saledate: Дата продажи автомобиля.

In [None]:
# Импорт библиотек
%matplotlib inline
import pandas as pd
import seaborn as sns
import numpy as np
from sklearn.model_selection import train_test_split
from catboost import CatBoostRegressor
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_absolute_percentage_error
import warnings
from pylab import rcParams
import matplotlib
import matplotlib.pyplot as plt
import optuna
import ydata_profiling


sns.set(style="darkgrid")
rcParams['figure.figsize'] = 20, 9

In [None]:
# Загрузка обучающего датасета
df_train = pd.read_csv('datasets/train.csv')

In [None]:
# ydata_profiling.ProfileReport(df_train)

In [None]:
df_train.info()

In [None]:
df_train['body'].unique()

In [None]:
df_train['body'] = df_train['body'].filna('unknown')

In [None]:
df_train[df_train.isna()]

In [None]:
df_train['body'][df_train['body'].isna()]

In [None]:
def lowercase_alphabetic(text):
    new_text = ''
    for i in text:
        if i.isalpha():
            new_text += i.lower()
        else:
            new_text += i
    
    return new_text

In [None]:
# lowercase_alphabetic('Q60 Coupe')

In [None]:
df_train['body'] = df_train['body'].apply(lowercase_alphabetic)

In [None]:
# df_train['body'] = df_train['body'].apply(lambda x: ''.join([char.lower() if char.isalpha() else char for char in x]))