# Оценка рыночной стоимости мотоцикла с пробегом

## Выполнили: Болгарин Максим, Моисеенков Павел. BD-11

<br>

**Цель проекта:** проанализировать факторы, влияющие на рыночную стоимость подержанных мотоциклов, и научиться её предсказывать. Какую пользу можно вынести из этого простому человеку? Зная, как образуется стоимость мотоцикла, владелец подобного транспортного средства может подобрать подходящую для него цену для продажи. С другой стороны, будущий владелец сможет оценить адекватность заинтересовавшего его предложения.

**План выполнения:**
1. Поиск данных, формирование датасета
    * Скачивание и парсинг данных.
    * Формирование датасета.
2. Первичный анализ данных
    * Изучение данных: определение смысла признаков, типов данных, наличия пропусков и т.д.
3. Предобработка данных
    * Очистка и отбор данных, выполнение необходимых преобразований.
4. Визуальный анализ данных
    * Поиск скрытых особенностей в данных, анализ корреляций.
5. Применение моделей анализа данных для предсказания стоимости
    * Тестирование нескольких простых моделей, сравнение качества, выбор baseline.
    * Обучение и проверка модели, показывающей наилучшее качество.
6. Вывод

<br>

### 1. Поиск данных, формирование датасета

Источником данных послужил архив объявлений на сайте moto.drom.ru

Всего было обработано около 7000 объявлений из Москвы. Скачивание производилось в [другом Jupyter Notebook](https://github.com/maxbolgarin/datamining_project/blob/master/project/parce.ipynb). На выходе мы имеем .csv файл, с ним нам и предстоит работать.

#### Подключим необходимые библиотеки

In [318]:
import numpy as np
import pandas as pd

#### Теперь загрузим данные

In [319]:
motorcycles = pd.read_csv('data/motorcycles.csv', index_col='id')

In [320]:
motorcycles.sample(5)

Unnamed: 0_level_0,price,model,mileage,motorcycle_class,year,engine_capacity,engine_strokes,damaged,documents,city,date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
3879,2 150 000₽,Honda Gold Wing,6 591 км,,2013,118 куб. см.,4х тактный,Исправен,Есть ПТС,Москва,8 марта 2016
6263,280 000₽,Honda CB 600,23 000 км,,2007,600 куб. см.,4х тактный,Исправен,Есть ПТС,Москва,11 июля 2013
4463,170 000₽,Honda VTR 1000F,50 450 км,,1999,1 000 куб. см.,4х тактный,Исправен,Есть ПТС,Москва,12 августа 2015
1392,245 000₽,Yamaha R1,30 000 км,Спортивный,2001,150 куб. см.,4х тактный,Исправен,Есть ПТС,Москва,1 июля 2017
1849,526 000₽,Yamaha XVS 1300,3 295 км,Круизер,2012,1 300 куб. см.,4х тактный,Исправен,Есть ПТС,Москва,6 мая 2017


In [321]:
motorcycles.shape

(6848, 11)

Видим, что данные успешно загрузились и выглядят вполне адекватно. Можем работать дальше.

<br>

### 2. Первичный анализ данных

Посмотрим общую информацию по датасету:

In [322]:
motorcycles.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6848 entries, 1 to 7100
Data columns (total 11 columns):
price               6848 non-null object
model               6848 non-null object
mileage             6848 non-null object
motorcycle_class    6848 non-null object
year                6848 non-null object
engine_capacity     6848 non-null object
engine_strokes      6848 non-null object
damaged             6848 non-null object
documents           6848 non-null object
city                6848 non-null object
date                6848 non-null object
dtypes: object(11)
memory usage: 642.0+ KB


In [323]:
motorcycles.nunique()

price               1059
model               2284
mileage             1958
motorcycle_class      15
year                  56
engine_capacity      348
engine_strokes         3
damaged                3
documents              3
city                   1
date                2133
dtype: int64

In [324]:
motorcycles.drop_duplicates().shape

(6797, 11)

Теперь посмотрим на некоторые столбцы, вызывающие вопросы:

**price:**

In [325]:
motorcycles.price.value_counts()

150 000₽           135
200 000₽           132
250 000₽           132
300 000₽           115
350 000₽           109
220 000₽           103
120 000₽           101
180 000₽            92
100 000₽            89
160 000₽            86
190 000₽            86
Цена не указана     85
110 000₽            85
230 000₽            83
450 000₽            83
170 000₽            83
130 000₽            80
280 000₽            74
140 000₽            72
240 000₽            71
165 000₽            71
400 000₽            69
90 000₽             63
260 000₽            60
320 000₽            58
125 000₽            58
210 000₽            58
270 000₽            58
500 000₽            55
290 000₽            54
                  ... 
273 000₽             1
207 800₽             1
789 033₽             1
64 700₽              1
162 900₽             1
18 800₽              1
37 399₽              1
13 000₽              1
349 900₽             1
434 000₽             1
1 122 000₽           1
295 053₽             1
86 000₽    

**model:**

In [326]:
motorcycles.model.value_counts()[:8]

Yamaha YZF R6             95
Honda CBR 600RR           73
Suzuki Boulevard M109R    58
Yamaha YZF R1             58
Yamaha FZ 6               55
Yamaha                    52
Kawasaki Ninja ZX-6R      51
Honda CB 400SF            51
Name: model, dtype: int64

**mileage:**

In [327]:
motorcycles.mileage.value_counts()[:10] / motorcycles.mileage.size

None         0.088201
1 км         0.068633
30 000 км    0.017377
20 000 км    0.016063
25 000 км    0.014895
40 000 км    0.010952
12 000 км    0.010806
15 000 км    0.009930
23 000 км    0.009784
10 000 км    0.009784
Name: mileage, dtype: float64

**motorcycle_class:**

In [328]:
motorcycles.motorcycle_class.value_counts() / motorcycles.motorcycle_class.size

None               0.518400
Чоппер             0.178592
Классика           0.067465
Спортивный         0.053154
Круизер            0.040888
Спорт-турист       0.037967
Эндуро             0.025263
Питбайк            0.024971
Туристический      0.018692
Стритфайтер        0.011536
Кроссовый          0.008470
Кастом             0.007155
Мотард             0.003213
Детский            0.002482
Трайк (трицикл)    0.001752
Name: motorcycle_class, dtype: float64

**year:**

In [329]:
motorcycles.year.value_counts()[:10] / motorcycles.year.size

2014    0.070093
2013    0.063960
2008    0.062354
2006    0.059725
2007    0.058557
2005    0.047605
2012    0.045853
2009    0.044539
2003    0.043954
None    0.043808
Name: year, dtype: float64

**engine_capacity:**

In [330]:
motorcycles.engine_capacity.value_counts()[:13] / motorcycles.engine_capacity.size

400 куб. см.      0.110981
600 куб. см.      0.097985
250 куб. см.      0.088347
1 000 куб. см.    0.049504
650 куб. см.      0.045999
750 куб. см.      0.036069
1 200 куб. см.    0.035193
1 300 куб. см.    0.032856
125 куб. см.      0.027599
1 800 куб. см.    0.025847
1 100 куб. см.    0.025701
800 куб. см.      0.024533
None              0.019860
Name: engine_capacity, dtype: float64

**engine_strokes:**

In [331]:
motorcycles.engine_strokes.value_counts() / motorcycles.engine_strokes.size

4х тактный    0.863902
None          0.081484
2х тактный    0.054614
Name: engine_strokes, dtype: float64

**damaged:**

In [332]:
motorcycles.damaged.value_counts() / motorcycles.damaged.size

Исправен      0.968166
None          0.019568
Неисправен    0.012266
Name: damaged, dtype: float64

**documents:**

In [333]:
motorcycles.documents.value_counts() / motorcycles.documents.size

Есть ПТС    0.908732
Без ПТС     0.089223
None        0.002044
Name: documents, dtype: float64

**date:**

In [334]:
motorcycles.sample(10).date

id
3553    24 апреля 2016
5727     12 марта 2014
546              9 мая
3540    24 апреля 2016
1913        4 мая 2017
4562      16 июля 2015
4130    20 ноября 2015
3995    17 января 2016
1824        6 мая 2017
6572      17 июня 2012
Name: date, dtype: object

Теперь пройдемся по столбцам и, на основе уже имеющейся информации, дадим им некоторое описание:
1. **id:** просто порядковый номер мотоцикла, который вряд ли несет какую либо полезную информацию.
2. **price:** цена мотоцикла, целевая переменная. Видим, что есть объекты со значением "Цена не указана". Их нам придется отбросить. Также можно заметить, что не у всех мотоциклов стоит адекватная цена (290₽ и т.п.). Такие объекты тоже скорее всего можно отбросить, так как они вряд ли составляют весомую долю от всех остальных. Также следует преобразовать стоимость в числовой тип, отбросив символ "₽".
3. **model:** модель мотоцикла. Можно построить отдельный столбец **manufacturer**, в котором указывать только производителя, и рассматривать его как новое свойство.
4. **mileage:** пробег мотоцикла. 9% имею пропуски, возможно это из за того, что такие мотоциклы являются новыми. Было бы странно, если бы продавец не указывал хотя бы примерный пробег своего подержанного транспортного средства, ведь это является один из самых главных факторов при покупке. Так что заполним пропуски нулями. Также 7% имеют пробег "1 км", это странное значение можно тоже занулить. Значения стоит привести к числовым, отбросить подстроку "км".
5. **motorcycle_class:** класс мотоцикла. Как видим, около 50% всех объектов не имеют информции о классе. Возможно, этот столбец придется убрать из рассмотрения, так как заполнить пропуски сложно без искажения реальной информации. Считать отсутстиве значения как свойство не имеет смысла, так как класс присущ каждому мотоциклу, и отстуствие информации об этом характеризует скорее не мотоцикл, а человека, составляющего объявление.
6. **year:** год выпуска мотоцикла. Как видим, значения отсутсвуют лишь у 4% всех объявлений, что не значительно.
7. **engine_capacity:** объем двигателя. Пропуски имеют 2% объектов. Значения можно преобразовать с числовой тип, отбросив подстроку "куб. см.".
8. **engine_strokes:** число тактов двигателя. Видим, что всего 2 разных значения, и что больше 85% мотоциклов обладают четырехтактным двигателем. Также имеем 8% пропусков. Можно попробовать заменить пропуски на "4х тактный", так как большинство двигателей именно такие, и скорее всего продавец скорее всего знал бы, что у него особенный "2х тактный" двигатель, и указал бы это. Не думаю, что ошибка будет более 1% от общего количества. Также обрежем строку до одного числа, 2 или 4.
9. **damaged:** состояние мотоцикла. Пропуски имеют 2%, и с большой уверенностью можно заполнить их значениями "Исправен", так как предполагается, что если мотоцикл сломан, то продавец об этом скорее всего сообщит заранее (если он добросовестный, конечно). Также значение "Исправен" можно закодировать под 0, а "Неисправен" - под 1.
10. **documents:** наличие ПТС у продавца. Аналогично с прошлым столбцом, можно заполнить пропуски самым популярным вариантом и закодировать "Есть ПТС" как 0 и "Без ПТС" как 1.
11. **city:** все объявления из одного города, не несет информации.
12. **date:** как можно заметить из семпла, у некоторых объявлений есть информация о годе, а у некоторых нет. Те, у которых нет - объявления за 2018 год. Надо подправить это и дописать 2018 к этим датам.

<br>

### 3. Предобработка данных

Для начала избавимся от повторяющихся значений и запомним изначальное число объявлений:

In [335]:
motorcycles = motorcycles.drop_duplicates()
number_of_motocycles = motorcycles.shape[0]

Напишем функцию drop_none для упрощения работы:

In [336]:
def drop_none(df):
    return df.replace(to_replace='None', value=np.nan).dropna()

Теперь произведем обработку слобцов в соответствии с замечаниями, данными выше.

Начнем с преобразования целевого столбца **price**:

In [337]:
motorcycles.price = drop_none(motorcycles.price)
motorcycles = motorcycles[motorcycles.price != "Цена не указана"]
motorcycles.price = motorcycles.price.str[:-1].replace(' ', '', regex=True).astype(np.int32)
motorcycles.price = motorcycles.price[motorcycles.price.values > 4999]

Перейдем к столбцу **model**:

In [338]:
(motorcycles.model.shape[0] - drop_none(motorcycles.model).shape[0]) / motorcycles.model.shape[0]

0.0010429082240762813

Как видим, None имеют один процент мотоциклов, поэтому отбросим их и создадим новый столбец **manufacturer**:

In [339]:
motorcycles.model = drop_none(motorcycles.model)
motorcycles['manufacturer'] = [item[0] if type(item) is list else item 
                               for item in motorcycles.model.str.split(' ').values]

Преобразуем столбец **mileage**:

In [340]:
motorcycles.mileage = motorcycles.mileage.str.replace("None", "0")
motorcycles.mileage = motorcycles.mileage.str.replace("1 км", "0", regex=True)
motorcycles.mileage = motorcycles.mileage.str.replace("км", "", regex=True)
motorcycles.mileage = motorcycles.mileage.str.replace(' ', '', regex=True).astype(np.int64)

Как решили ранее, с **motorcycle_class** работать сложно, поэтому просто не будем рассматривать этот столбец.

In [341]:
motorcycles = motorcycles.drop(['motorcycle_class'], axis=1)

Отбросим пропуски и преобразуем тип значений столбца **year** в integer:

In [342]:
motorcycles.year = drop_none(motorcycles.year)
motorcycles.year = motorcycles.year.dropna().astype(np.int32)

На очереди **engine_capacity**:

In [343]:
motorcycles.engine_capacity = drop_none(motorcycles.engine_capacity)
motorcycles.engine_capacity = motorcycles.engine_capacity.str.replace("куб. см.", '', regex=True)
motorcycles.engine_capacity = motorcycles.engine_capacity.str.replace(' ', '', regex=True)
motorcycles.engine_capacity = motorcycles.engine_capacity.dropna().astype(np.int32)

В столбце **engine_strokes** заменим None на "4х тактный":

In [344]:
motorcycles.engine_strokes = motorcycles.engine_strokes.str.replace("None", "4", regex=True)
motorcycles.engine_strokes = motorcycles.engine_strokes.str.replace("х тактный", '', regex=True)
motorcycles.engine_strokes = motorcycles.engine_strokes.dropna().astype(np.int32)

4    6347
2     365
Name: engine_strokes, dtype: int64

Преобразуем **damaged**:

In [345]:
motorcycles.damaged = motorcycles.damaged.str.replace("None", "0", regex=True)
motorcycles.damaged = motorcycles.damaged.str.replace("Исправен", "0", regex=True)
motorcycles.damaged = motorcycles.damaged.str.replace("Неисправен", "1", regex=True)
motorcycles.damaged = motorcycles.damaged.dropna().astype(np.int32)

0    6634
1      78
Name: damaged, dtype: int64

Аналогично **documents**:

In [346]:
motorcycles.documents = motorcycles.documents.str.replace("None", "0", regex=True)
motorcycles.documents = motorcycles.documents.str.replace("Есть ПТС", "0", regex=True)
motorcycles.documents = motorcycles.documents.str.replace("Без ПТС", "1", regex=True)
motorcycles.documents = motorcycles.documents.dropna().astype(np.int32)

0    6125
1     587
Name: documents, dtype: int64

**city** выкидываем за ненадобностью:

In [347]:
motorcycles = motorcycles.drop(['city'], axis=1)

И наконец преобразуем столбец **date**: