# Оценка рыночной стоимости мотоцикла с пробегом

## Выполнили: Болгарин Максим, Моисеенков Павел. BD-11

<br>

**Цель проекта:** проанализировать факторы, влияющие на рыночную стоимость подержанных мотоциклов, и научиться её предсказывать. Какую пользу можно вынести из этого простому человеку? Зная, как образуется стоимость мотоцикла, владелец подобного транспортного средства может подобрать подходящую для него цену для продажи. С другой стороны, будущий владелец сможет оценить адекватность заинтересовавшего его предложения.

**План выполнения:**
1. Поиск данных, формирование датасета
    * Скачивание и парсинг данных.
    * Формирование датасета.
2. Первичный анализ данных
    * Изучение данных: определение смысла признаков, типов данных, наличия пропусков и т.д.
3. Предобработка данных
    * Очистка и отбор данных, выполнение необходимых преобразований.
4. Применение моделей анализа данных для предсказания стоимости
    * Тестирование нескольких простых моделей, сравнение качества, выбор baseline.
    * Обучение и проверка модели, показывающей наилучшее качество.
5. Вывод

<br>

### 1. Поиск данных, формирование датасета

Источником данных послужил архив объявлений на сайте moto.drom.ru

Всего было обработано около 11000 объявлений из Москвы, Санкт-Петербурга и прочих небольших городов. Скачивание производилось в [другом Jupyter Notebook](https://github.com/maxbolgarin/datamining_project/blob/master/project/parce.ipynb). На выходе мы имеем .csv файл, с ним нам и предстоит работать.

#### Подключим необходимые библиотеки

In [79]:
%matplotlib inline
import numpy as np
import pandas as pd
from datetime import datetime

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler

from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR

#### Теперь загрузим данные

In [80]:
motorcycles = pd.read_csv('data/motorcycles.csv', index_col='id')

In [81]:
motorcycles.sample(5)

Unnamed: 0_level_0,price,model,mileage,motorcycle_class,year,engine_capacity,engine_strokes,damaged,documents,city,date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
6540,20 000₽,Honda Super Cub,8 900 км,,2014,110 куб. см.,4х тактный,Исправен,Без ПТС,Москва,8 июля 2014
9858,219 000₽,Минск М 103,5 км,,1963,125 куб. см.,2х тактный,Исправен,Есть ПТС,Санкт-Петербург,26 ноября 2016
6418,120 000₽,Yamaha YZF R6,,,2011,600 куб. см.,,Исправен,Есть ПТС,Москва,25 августа 2014
3981,280 000₽,Yamaha Royal Star,45 000 км,Чоппер,1998,1 300 куб. см.,4х тактный,Исправен,Есть ПТС,Москва,14 июня 2016
5932,90 000₽,NS1-2,14 500 км,Спортивный,2005,50 куб. см.,2х тактный,Исправен,Есть ПТС,Москва,14 апреля 2015


In [82]:
motorcycles.shape

(11488, 11)

Видим, что данные успешно загрузились и выглядят вполне адекватно. Можем работать дальше.

<br>

### 2. Первичный анализ данных

Посмотрим общую информацию по датасету:

In [83]:
motorcycles.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 11488 entries, 1 to 11783
Data columns (total 11 columns):
price               11488 non-null object
model               11488 non-null object
mileage             11488 non-null object
motorcycle_class    11488 non-null object
year                11488 non-null object
engine_capacity     11488 non-null object
engine_strokes      11488 non-null object
damaged             11488 non-null object
documents           11488 non-null object
city                11488 non-null object
date                11488 non-null object
dtypes: object(11)
memory usage: 1.1+ MB


In [84]:
motorcycles.nunique()

price               1250
model               3156
mileage             2506
motorcycle_class      16
year                  64
engine_capacity      434
engine_strokes         3
damaged                3
documents              3
city                 116
date                2518
dtype: int64

In [85]:
motorcycles.drop_duplicates().shape

(11390, 11)

Теперь подробнее рассмотрим столбцы:

**price:**

In [86]:
motorcycles.price.value_counts()

150 000₽           240
200 000₽           218
250 000₽           214
300 000₽           192
350 000₽           184
120 000₽           172
180 000₽           164
220 000₽           153
160 000₽           148
230 000₽           147
100 000₽           146
140 000₽           143
130 000₽           142
110 000₽           141
190 000₽           134
Цена не указана    134
170 000₽           130
450 000₽           126
210 000₽           119
280 000₽           118
165 000₽           117
320 000₽           111
90 000₽            110
400 000₽           108
240 000₽           102
80 000₽             96
50 000₽             95
260 000₽            94
135 000₽            90
60 000₽             88
                  ... 
132 300₽             1
477 000₽             1
2 145 000₽           1
97 950₽              1
391 000₽             1
629 303₽             1
2 900₽               1
177 990₽             1
457 000₽             1
646 000₽             1
312 000₽             1
889 303₽             1
86 400₽    

**model:**

In [87]:
motorcycles.model.value_counts()[:8]

Yamaha YZF R6             162
Honda CBR 600RR           110
Suzuki Boulevard M109R    107
Honda CB 400SF            107
Kawasaki Ninja ZX-6R       91
Yamaha YZF R1              83
Yamaha FZ 6                82
Yamaha                     80
Name: model, dtype: int64

**mileage:**

In [88]:
motorcycles.mileage.value_counts()[:10] / motorcycles.mileage.size

None         0.129439
1 км         0.055710
30 000 км    0.017584
20 000 км    0.016104
25 000 км    0.013057
40 000 км    0.012013
10 000 км    0.011490
35 000 км    0.010794
15 000 км    0.010010
12 000 км    0.009749
Name: mileage, dtype: float64

**motorcycle_class:**

In [89]:
motorcycles.motorcycle_class.value_counts() / motorcycles.motorcycle_class.size

None               0.496431
Чоппер             0.181581
Классика           0.071901
Спортивный         0.062326
Спорт-турист       0.039171
Эндуро             0.034645
Круизер            0.034558
Питбайк            0.022371
Туристический      0.020717
Кроссовый          0.011316
Стритфайтер        0.010097
Кастом             0.009488
Мотард             0.002786
Трайк (трицикл)    0.001306
Детский            0.001219
Триал              0.000087
Name: motorcycle_class, dtype: float64

**year:**

In [90]:
motorcycles.year.value_counts()[:13] / motorcycles.year.size

2014    0.065721
2006    0.061368
2008    0.060498
2007    0.059018
2013    0.054840
2005    0.047180
2003    0.045526
2012    0.043698
2002    0.040477
2004    0.039432
2009    0.038997
2011    0.035864
None    0.034819
Name: year, dtype: float64

**engine_capacity:**

In [91]:
motorcycles.engine_capacity.value_counts()[:14] / motorcycles.engine_capacity.size

400 куб. см.      0.102890
600 куб. см.      0.101671
250 куб. см.      0.083565
1 000 куб. см.    0.049530
650 куб. см.      0.047615
1 300 куб. см.    0.039084
750 куб. см.      0.037169
1 200 куб. см.    0.032382
125 куб. см.      0.028987
1 800 куб. см.    0.027159
1 100 куб. см.    0.025331
800 куб. см.      0.024634
200 куб. см.      0.019760
None              0.019063
Name: engine_capacity, dtype: float64

**engine_strokes:**

In [92]:
motorcycles.engine_strokes.value_counts() / motorcycles.engine_strokes.size

4х тактный    0.841400
None          0.099843
2х тактный    0.058757
Name: engine_strokes, dtype: float64

**damaged:**

In [93]:
motorcycles.damaged.value_counts() / motorcycles.damaged.size

Исправен      0.969185
None          0.017409
Неисправен    0.013405
Name: damaged, dtype: float64

**documents:**

In [94]:
motorcycles.documents.value_counts() / motorcycles.documents.size

Есть ПТС    0.908687
Без ПТС     0.089224
None        0.002089
Name: documents, dtype: float64

**city:**

In [95]:
motorcycles.city.value_counts()[:10] / motorcycles.city.size

Москва             0.597580
Санкт-Петербург    0.270021
Серпухов           0.009053
Подольск           0.004788
Мытищи             0.004526
Одинцово           0.003743
Жуковский          0.003743
Дмитров            0.003395
Зеленоград         0.003221
Пушкино            0.003134
Name: city, dtype: float64

**date:**

In [96]:
motorcycles.sample(10).date

id
3276     30 сентября 2016
6921        20 марта 2014
483               26 июня
432                4 июля
7006      26 февраля 2014
9918       8 октября 2016
2419           1 мая 2017
6586          4 июля 2014
10064         6 июня 2016
8897              16 июля
Name: date, dtype: object

Пройдемся по столбцам и, на основе уже имеющейся информации, дадим им некоторое описание:
1. **id:** просто порядковый номер мотоцикла, который вряд ли несет какую либо полезную информацию.
2. **price:** цена мотоцикла, целевая переменная. Видим, что есть объекты со значением "Цена не указана". Их нам придется отбросить. Также можно заметить, что не у всех мотоциклов стоит адекватная цена (290₽ и т.п.). Такие объекты тоже скорее всего можно отбросить, так как они вряд ли составляют весомую долю от всех остальных. Также следует преобразовать стоимость в числовой тип, отбросив символ "₽".
3. **model:** модель мотоцикла. Можно построить отдельный столбец **manufacturer**, в котором указывать только производителя, и рассматривать его как новое свойство.
4. **mileage:** пробег мотоцикла. 13% имеют пропуски, возможно это из за того, что такие мотоциклы являются новыми. Было бы странно, если бы продавец не указывал хотя бы примерный пробег своего подержанного транспортного средства, ведь это является один из самых главных факторов при покупке. Так что заполним пропуски нулями. Также 5.6% имеют пробег "1 км", это странное значение можно тоже занулить. Значения стоит привести к числовым, отбросить подстроку "км".
5. **motorcycle_class:** класс мотоцикла. Как видим, около 50% всех объектов не имеют информции о классе. Возможно, этот столбец придется убрать из рассмотрения, так как заполнить пропуски сложно без искажения реальной информации. Считать отсутстиве значения как свойство не имеет смысла, так как класс присущ каждому мотоциклу, и отстуствие информации об этом характеризует скорее не мотоцикл, а человека, составляющего объявление.
6. **year:** год выпуска мотоцикла. Как видим, значения отсутсвуют лишь у 3.5% всех объявлений, что не значительно.
7. **engine_capacity:** объем двигателя. Пропуски имеют 2% объектов. Значения можно преобразовать с числовой тип, отбросив подстроку "куб. см.".
8. **engine_strokes:** число тактов двигателя. Видим, что всего 2 разных значения, и что больше 80% мотоциклов обладают четырехтактным двигателем. Также имеем 10% пропусков. Можно попробовать заменить пропуски на "4х тактный", так как большинство двигателей именно такие, и скорее всего продавец скорее всего знал бы, что у него особенный "2х тактный" двигатель, и указал бы это. Не думаю, что ошибка будет более 1% от общего количества. Также обрежем строку до одного числа, 2 или 4.
9. **damaged:** состояние мотоцикла. Пропуски имеют 2%, и с большой уверенностью можно заполнить их значениями "Исправен", так как предполагается, что если мотоцикл сломан, то продавец об этом скорее всего сообщит заранее (если он добросовестный, конечно). Также значение "Исправен" можно закодировать под 0, а "Неисправен" - под 1.
10. **documents:** наличие ПТС у продавца. Аналогично с прошлым столбцом, можно заполнить пропуски самым популярным вариантом и закодировать "Есть ПТС" как 0 и "Без ПТС" как 1.
11. **city:** город, в котором продается мотоцикл. Пропусков нет.
12. **date:** как можно заметить из семпла, у некоторых объявлений есть информация о годе, а у некоторых нет. Те, у которых нет - объявления за 2018 год. Надо подправить это и дописать 2018 к этим датам.

<br>

### 3. Предобработка данных

Для начала избавимся от повторяющихся значений и запомним изначальное число объявлений:

In [97]:
motorcycles = motorcycles.drop_duplicates()
number_of_motocycles = motorcycles.shape[0]

Напишем функцию drop_none для упрощения работы:

In [98]:
def drop_none(df):
    return df.replace(to_replace='None', value=np.nan).dropna()

Теперь произведем обработку слобцов в соответствии с замечаниями, данными выше.

Начнем с преобразования целевого столбца **price**:

In [99]:
motorcycles.price = drop_none(motorcycles.price)
motorcycles = motorcycles[motorcycles.price != "Цена не указана"]
motorcycles.price = motorcycles.price.str[:-1].replace(' ', '', regex=True).astype(np.int64)
motorcycles.price = motorcycles.loc[motorcycles.price.values > 4999, 'price']
motorcycles.price = motorcycles.loc[motorcycles.price.values < 10000001, 'price']

  """


Перейдем к столбцу **model**:

In [100]:
(motorcycles.model.shape[0] - drop_none(motorcycles.model).shape[0]) / motorcycles.model.shape[0]

0.0010660033756773562

Как видим, None имеют один процент мотоциклов, поэтому отбросим их и создадим новый столбец **manufacturer**:

In [101]:
motorcycles.model = drop_none(motorcycles.model)
motorcycles['manufacturer'] = [item[0] if type(item) is list else item
                               for item in motorcycles.model.str.split(' ').values]

Преобразуем столбец **mileage**:

In [102]:
motorcycles.mileage = motorcycles.mileage.str.replace("None", "0")
motorcycles.mileage = motorcycles.mileage.str.replace("1 км", "0", regex=True)
motorcycles.mileage = motorcycles.mileage.str.replace("км", "", regex=True)
motorcycles.mileage = motorcycles.mileage.str.replace(' ', '', regex=True).astype(np.int64)

Как решили ранее, с **motorcycle_class** работать сложно, поэтому просто не будем рассматривать этот столбец.

In [103]:
motorcycles = motorcycles.drop(['motorcycle_class'], axis=1)

Отбросим пропуски и преобразуем тип значений столбца **year** в integer:

In [104]:
motorcycles.year = drop_none(motorcycles.year)
motorcycles.year = motorcycles.year.dropna().astype(np.int32)

На очереди **engine_capacity**:

In [105]:
motorcycles.engine_capacity = drop_none(motorcycles.engine_capacity)
motorcycles.engine_capacity = motorcycles.engine_capacity.str.replace("куб. см.", '', regex=True)
motorcycles.engine_capacity = motorcycles.engine_capacity.str.replace(' ', '', regex=True)
motorcycles.engine_capacity = motorcycles.engine_capacity.dropna().astype(np.int64)

В столбце **engine_strokes** заменим None на "4х тактный":

In [106]:
motorcycles.engine_strokes = motorcycles.engine_strokes.str.replace("None", "4", regex=True)
motorcycles.engine_strokes = motorcycles.engine_strokes.str.replace("х тактный", '', regex=True)
motorcycles.engine_strokes = motorcycles.engine_strokes.dropna().astype(np.int64)

Преобразуем **damaged**:

In [107]:
motorcycles.damaged = motorcycles.damaged.str.replace("None", "0", regex=True)
motorcycles.damaged = motorcycles.damaged.str.replace("Исправен", "0", regex=True)
motorcycles.damaged = motorcycles.damaged.str.replace("Неисправен", "1", regex=True)
motorcycles.damaged = motorcycles.damaged.dropna().astype(np.int64)

Аналогично **documents**:

In [108]:
motorcycles.documents = motorcycles.documents.str.replace("None", "0", regex=True)
motorcycles.documents = motorcycles.documents.str.replace("Есть ПТС", "0", regex=True)
motorcycles.documents = motorcycles.documents.str.replace("Без ПТС", "1", regex=True)
motorcycles.documents = motorcycles.documents.dropna().astype(np.int64)

Наконец, преобразуем столбец **date**. Сначала добавим год тем объектам, у которых его нет:

In [109]:
motorcycles.date = [s + " 2018" if len(s.split()) == 2 else s for s in motorcycles.date.values]

По хорошему, строки с датой надо бы привести к формату datetime. Однако, не совсем понятно, как работать с названиями месяцев на русском языке. Поэтому поменяем их на английский, а потом приведем значения к datetime:

In [110]:
rus_eng_month = {
    'января': 'January',
    'февраля': 'February',
    'марта': 'March',
    'апреля': 'April',
    'мая': 'May',
    'июня': 'June',
    'июля': 'July',
    'августа': 'August',
    'сентября': 'September',
    'октября': 'October',
    'ноября': 'November',
    'декабря': 'December',  
}

dates = []
for s in motorcycles.date.values:
    temp_s = s.split()
    dates.append(temp_s[0] + ' ' + rus_eng_month[temp_s[1]] + ' ' + temp_s[2])
    
motorcycles.date = [datetime.strptime(s, '%d %B %Y').strftime('%Y-%m-%d') for s in dates]
motorcycles.date = pd.to_datetime(motorcycles.date.dropna()).dt.date

Отбросим оставшиеся неопределенные значения:

In [111]:
motorcycles = drop_none(motorcycles)
motorcycles = motorcycles.dropna()

Вот так теперь выглядит таблица:

In [112]:
motorcycles.sample(5)

Unnamed: 0_level_0,price,model,mileage,year,engine_capacity,engine_strokes,damaged,documents,city,date,manufacturer
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
11054,199000.0,Honda CBR 1100XX,43000,1998.0,1100.0,4,0,0,Санкт-Петербург,2014-03-11,Honda
3076,599000.0,BRP Can-Am Spyder RS SE5,7000,2010.0,990.0,4,0,0,Москва,2016-11-03,BRP
3811,38000.0,Irbis TTR,100,2013.0,160.0,4,0,0,Зеленоград,2016-07-10,Irbis
6170,30000.0,Jmc 140,0,2013.0,140.0,4,0,1,Москва,2015-01-03,Jmc
543,150000.0,Kawasaki ZZR 1100 Ninja,47306,1992.0,1100.0,4,0,1,Москва,2018-06-09,Kawasaki


In [113]:
motorcycles.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10718 entries, 1 to 11783
Data columns (total 11 columns):
price              10718 non-null float64
model              10718 non-null object
mileage            10718 non-null int64
year               10718 non-null float64
engine_capacity    10718 non-null float64
engine_strokes     10718 non-null int64
damaged            10718 non-null int64
documents          10718 non-null int64
city               10718 non-null object
date               10718 non-null object
manufacturer       10718 non-null object
dtypes: float64(3), int64(4), object(4)
memory usage: 1004.8+ KB


Посмотрим, сколько осталось объектов после всех преобразований:

In [114]:
print('Было: {}'.format(number_of_motocycles))
print('Осталось: {}'.format(motorcycles.shape[0]))
print('Датасет уменьшился на {:.3}% от первоначального размера'.format(
    100*(number_of_motocycles - motorcycles.shape[0]) / number_of_motocycles)
     )

Было: 11390
Осталось: 10718
Датасет уменьшился на 5.9% от первоначального размера


Как видим, после данных преобразований датасет уменьшился незначительно. Теперь обратим внимание на стобец **manufacturer**.

In [115]:
motorcycles.manufacturer.value_counts()

Honda              2483
Yamaha             1873
Suzuki             1379
Kawasaki           1016
BMW                 436
Harley-Davidson     412
KTM                 196
Ducati              164
Irbis               121
Stels               119
HONDA               101
Kayo                 87
Racer                87
YAMAHA               86
Triumph              79
Урал                 74
Aprilia              67
Baltmotors           52
Иж                   47
Ява                  45
SUZUKI               36
BSE                  35
Victory              33
Sym                  31
Минск                28
NO.                  28
Днепр                27
ABM                  26
CBR                  22
BRP                  21
                   ... 
VT                    1
stels                 1
Betamotor             1
mini                  1
000                   1
UMC                   1
Полноприводный        1
Alpha                 1
pitmoto               1
Kymso                 1
FZX-750         

Как можно заметить, встречаются одинаковые названия производителей, но написанные разным способом. Компьютер их различает как разных производителей, нам же надо преобразовать их к одному единому виду.

Если "NO.", то название производителя начинается с третьего слова в **model**:

In [116]:
motorcycles.loc[motorcycles.manufacturer == "NO.", "manufacturer"] = \
            [item[2] for item in motorcycles[motorcycles.manufacturer == "NO."].model.str.split().values]

Honda $\leftarrow$ HONDA, honda, ХОНДА, Хонда, CBR, CB, CB400

In [117]:
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("HONDA", "Honda", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("ХОНДА", "Honda", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("Хонда", "Honda", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("honda", "Honda", regex=True)
motorcycles.loc[motorcycles.manufacturer == "CBR", "manufacturer"] = "Honda"
motorcycles.loc[motorcycles.manufacturer == "CB", "manufacturer"] = "Honda"
motorcycles.loc[motorcycles.manufacturer == "CB400", "manufacturer"] = "Honda"
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("CBR", "Honda", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("CB", "Honda", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("CB400", "Honda", regex=True)

Yamaha $\leftarrow$ YAMAHA, yamaha

In [118]:
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("YAMAHA", "Yamaha", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("yamaha", "Yamaha", regex=True)

Harley-Davidson $\leftarrow$ Harleu-Davidson, HARLEY-DAVIDSON, Харли, Harley, Harley-Davidson, Harley-Davidson

In [119]:
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("Harleu-Davidson", "Harley-Davidson", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("HARLEY-DAVIDSON", "Harley-Davidson", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("Харли", "Harley-Davidson", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("Harley-Davidson", "Harley-Davidson", regex=True)
motorcycles.loc[motorcycles.manufacturer == "Harley", "manufacturer"] = "Harley-Davidson"

Kawasaki $\leftarrow$ KAWASAKI, КАВАСАКИ, Кавасаки, кавасаки, kawasaki

In [120]:
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("KAWASAKI", "Kawasaki", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("КАВАСАКИ", "Kawasaki", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("Кавасаки", "Kawasaki", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("кавасаки", "Kawasaki", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("kawasaki", "Kawasaki", regex=True)

Suzuki $\leftarrow$ сузуки, suzuki, SUZUKI, Сузуки

In [121]:
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("сузуки", "Suzuki", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("suzuki", "Suzuki", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("Сузуки", "Suzuki", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("SUZUKI", "Suzuki", regex=True)

Ява $\leftarrow$ ЯВА

In [122]:
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("ЯВА", "Ява", regex=True)

Иж $\leftarrow$ ИЖ, иж, ИЖ-49, Иж-49

In [123]:
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("ИЖ", "Иж", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("иж", "Иж", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("ИЖ-49", "Иж", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("Иж-49", "Иж", regex=True)

Triumph $\leftarrow$ triumph, TRIUMPH

In [124]:
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("triumph", "Triumph", regex=True)
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("TRIUMPH", "Triumph", regex=True)

Ducati $\leftarrow$ DUCATI

In [125]:
motorcycles.manufacturer = motorcycles.manufacturer.str.replace("DUCATI", "Ducati", regex=True)

Теперь самым редким производителям дадим метку Other:

In [126]:
names = [motorcycles.manufacturer.value_counts().index[i] 
         if m < 30 else None for i, m in enumerate(motorcycles.manufacturer.value_counts())]
names = np.array(names)
names = names[names != np.array(None)]

for moto in motorcycles.manufacturer.values:
    if moto in names:
        motorcycles.loc[motorcycles.manufacturer == moto, "manufacturer"] = "Other"
        
motorcycles.manufacturer.value_counts()

Honda              2655
Yamaha             1971
Other              1516
Suzuki             1419
Kawasaki           1031
BMW                 442
Harley-Davidson     420
KTM                 196
Ducati              168
Irbis               121
Stels               119
Triumph              93
Kayo                 87
Racer                87
Урал                 74
Aprilia              67
Иж                   54
Baltmotors           52
Ява                  47
BSE                  35
Victory              33
Sym                  31
Name: manufacturer, dtype: int64

Теперь у нас есть неплохая информация о производителях. Можно отбросить столбец с моделями, так как нам не нужна излишняя информация:

In [127]:
motorcycles = motorcycles.drop(["model"], axis=1)

Осталось сделать некоторые преобразования со столбцом **city**:

In [128]:
cities = [motorcycles.city.value_counts().index[i] 
         if m < 30 else None for i, m in enumerate(motorcycles.city.value_counts())]

cities = np.array(cities)
cities = cities[cities != np.array(None)]

for city in motorcycles.city.values:
    if city in cities:
        motorcycles.loc[motorcycles.city == city, "city"] = "Другой"
        
motorcycles.city.value_counts()

Москва             6353
Санкт-Петербург    2956
Другой              832
Серпухов            101
Подольск             52
Мытищи               47
Жуковский            42
Одинцово             40
Егорьевск            36
Дмитров              36
Пушкино              35
Зеленоград           34
Ногинск              32
Коломна              32
Домодедово           30
Раменское            30
Щелково              30
Name: city, dtype: int64

Предварительная обработка данных закончена. Теперь можем приступать к анализу датасета и построению моделей.

<br>

### 4. Применение моделей анализа данных для предсказания стоимости

Перед использованием данных в модели необходимо закодировать категориальные переменные. Для этого используем одход one-hot encoding. Для избежания эффекта мультиколлинеарности выкинем самое популярное значение (мы можем закодировать g вариантов g-1 one-hot признаками без потери информации):

In [129]:
motorcycles = pd.concat([motorcycles,
                         pd.get_dummies(motorcycles.loc[motorcycles.manufacturer != 'Honda', 
                                                        'manufacturer'])], axis=1)

motorcycles = pd.concat([motorcycles,
                         pd.get_dummies(motorcycles.loc[motorcycles.city != 'Москва', 
                                                        'city'])], axis=1)

motorcycles = motorcycles.drop(['manufacturer'], axis=1)
motorcycles = motorcycles.drop(['city'], axis=1)
motorcycles = motorcycles.fillna(value=0)

Также необходимо преобразовать дату. В качестве baseline даты выберем саммую раннюю в датасете, и от нее будет отсчитывать число прошедших дней.

In [130]:
baseline_date = motorcycles.tail(1).date.values
date_code = []
for date in motorcycles.date.values:
    date_code.append((date - baseline_date)[0].days)
    
motorcycles['date_code'] = date_code
motorcycles = motorcycles.drop(['date'], axis=1)

Теперь датасет готов для применения в моделях. Разобъем его на обучающую и тестовую выборки и стандартизуем:

In [131]:
X_train, X_test, y_train, y_test = train_test_split(motorcycles.drop(['price'], axis=1), 
                                                    motorcycles.price, test_size=0.25, 
                                                    random_state=42)

scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

Определим две функции для вычисления качества модели. Первая будет просто рассчитывать RMSE, вторая же - проводить кросс-валидацию. Так как мы решаем задачу регрессии, то в качестве метрики качества для кросс валидации будет использоваться коэффициент детерминации ($R^2$ score).

Пара слов об $R^2$ score. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50 % (в этом случае коэффициент множественной корреляции превышает по модулю 70 %). Модели с коэффициентом детерминации выше 80 % можно признать достаточно хорошими (коэффициент корреляции превышает 90 %). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными. В общем случае коэффициент детерминации может быть и отрицательным, это говорит о крайней неадекватности модели: простое среднее приближает лучше.

$$ R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{n\hat{\sigma_y}^2} $$

ДОПИСАТЬ

In [132]:
def test_model(model, X_train, y_train, X_test=None, y_test=None, model_name=''):
    model.fit(X_train, y_train)
    prediction = model.predict(X_train)
    rmse = np.sqrt(mean_squared_error(y_train, prediction))
    print("{} train RMSE: {:.3f}".format(model_name, rmse))
    
    if X_test is not None and y_test is not None:
        prediction_test = model.predict(X_test)
        rmse_test = np.sqrt(mean_squared_error(y_test, prediction_test))
        print("{} test RMSE: {:.3f}".format(model_name, rmse_test))

In [133]:
def model_score(model, X_train, y_train, cv=5, model_name='', scoring='r2'):
    scores = cross_val_score(model, X_train, y=y_train, cv=cv, scoring=scoring)
    print("{} {} score: {:.2f} (+/- {:.2f})".format(model_name, scoring, scores.mean(), scores.std()*2))

Попробуем разные модели для решения задач регрессии. Использовать будем готовые реализации из библиотеки sklearn.

**K-ближайших соседей**:

In [134]:
model_knn = KNeighborsRegressor()

test_model(model_knn, X_train_scaled, y_train, X_test_scaled, y_test, model_name='kNN')
model_score(model_knn, X_train_scaled, y_train, model_name='kNN')

kNN train RMSE: 158949.680
kNN test RMSE: 193216.615
kNN r2 score: 0.47 (+/- 0.08)


**Линейная регрессия**:

In [135]:
model_linear = LinearRegression()

test_model(model_linear, X_train_scaled, y_train, X_test_scaled, y_test, model_name='Linear')
model_score(model_linear, X_train_scaled, y_train, model_name='Linear')

Linear train RMSE: 218503.426
Linear test RMSE: 221092.340
Linear r2 score: 0.37 (+/- 0.07)


**Метод опорных векторов**:

In [136]:
model_svm = SVR(kernel='rbf')

test_model(model_svm, X_train_scaled, y_train, X_test_scaled, y_test, model_name='SVM')
model_score(model_svm, X_train_scaled, y_train, model_name='SVM')

SVM train RMSE: 285312.101
SVM test RMSE: 289390.121
SVM r2 score: -0.07 (+/- 0.03)


**Дерево решений**:

In [137]:
model_tree = DecisionTreeRegressor(criterion='mse', max_depth=None)

test_model(model_tree, X_train, y_train, X_test, y_test, model_name='Tree')
model_score(model_tree, X_train, y_train, model_name='Tree')

Tree train RMSE: 2479.414
Tree test RMSE: 200937.864
Tree r2 score: 0.51 (+/- 0.20)


**Бэггинг над случайным лесом**:

In [138]:
model_forest = RandomForestRegressor(n_estimators=5, random_state=42)

test_model(model_forest, X_train, y_train, X_test, y_test, model_name='Forest')
model_score(model_forest, X_train, y_train, model_name='Forest')

Forest train RMSE: 65579.279
Forest test RMSE: 166464.012
Forest r2 score: 0.70 (+/- 0.06)


Беггинг, подбирать параметры и тд