In [1]:
import numpy as np# Массивы (матрицы, векторы, линейная алгебра)
import matplotlib.pyplot as plt # Научная графика
%matplotlib inline
    # Говорим jupyter'у, чтобы весь графический вывод был в браузере, а не в отдельном окне
import pandas as pd             # Таблицы и временные ряды (dataframe, series)
import seaborn as sns           # Еще больше красивой графики для визуализации данных
import sklearn                  # Алгоритмы машинного обучения
plt.style.use('default')

## 1. Описание задачи
***

Данными для задачи является набор объявлений о продаже `423857` поддержанных автомобилей на территории США. Данные собраны с портала Craigslist.org - самой большой в мире коллекции подержанных автомобилей 


##### Постановка задачи:
С помощью методов машинного обучения, научить модель определять `condition` - состояние машины:

| Состояние | Описание на русском | 
| ---- | ---- |
| 'excellent' | превосходное, уникальное |
| 'new' | новое, но без изысков |
| 'like new' | с пробегом, но работает как новая |
| 'good' | хорошее |
| 'fair' | удовлетворительное |
| 'salvage' | неудовлетворительное |



## 2. Чтение и разбор данных
***

In [2]:
url = "vehicles.csv"
full_data = pd.read_csv(url) # Читаем данные

FileNotFoundError: [Errno 2] File vehicles.csv does not exist: 'vehicles.csv'

In [None]:
full_data.shape # Получаем размерность данных

##### Обзор данных и их типов:
1. `id` - уникальный номер объявления, `номинальный`	
2. `url` - ссылка на объявление о продаже, `номинальный`	
3. `region` - регион продажи автомобиля, `номинальный`	
4. `region_url` - ссылка на домен региона продажи, `номинальный`	
5. `price` - стоимость машины в долларах, `количественный`	
6. `year` - год выпуска машины, `номинальный`	
7. `manufacturer` - марка машины, `номинальный`	
8. `model` - модель машины, `номинальный`	
9. `condition` - состояние машины, `номинальный`	
10. `cylinders` - количество цилиндров в двигателе, `номинальный`	
11. `fuel` - тип двигателя, `номинальный`	
12. `odometer` - пробег, `количественный`	
13. `title_status` - официальный статус в государственном реестре 
(чистая, в залоге, угнана, только на запчасти, востановленная, металлолом), `номинальный`
14. `transmission` - тип коробки передач, `номинальный`	
15. `vin` - уникальный идентификационный номер машины, `номинальный`	
16. `drive` - тип привода (передний, задний, 4x4), `номинальный`	
17. `size` - габариты машины, `номинальный`	
18. `type` - тип кузова, `номинальный`	
19. `paint_color` - цвет машины, `номинальный`	
20. `image_url` - сслыка на фотографию, `номинальный`	
21. `description` - мета-тег дескриптор страницы объявления, `номинальный`
22. `county` - страна продажи автомобиля, `номинальный`
23. `state` - штат продажи автомобиля, `номинальный`	
24. `lat` - широта, `количественный`	
25. `long` - долгота, `количественный`

In [None]:
full_data.columns

##### Обзор данных:

С помощью метода `Dataframe.describe()` библиотеки `pandas`, осмотрим наши столбцы данных на наличе пустых столбов, аномалий или закономерностей
###### Для номинальных признаков
`count` - количество значений 

`unique` - количество уникальных значений в каждом столбце

`top` - самое распространенное значение

`freq` - частота наиболее распространенного значения

###### Для количественных признаков:
`mean` - Среднее арифметическое

`std` - Стандартное отклонение

`min` - Минимальное значение

`25%` - Квартиль уровня (1/4)

`50%` - Медиана

`75%` - Квартиль уровня (3/4)

`max` - Максимальное значение

In [None]:
full_data.iloc[:,:15].describe(include="all")

In [None]:
full_data.iloc[:,15:].describe(include="all")

* Благодаря такой проверке был обнаружен пустой столбец - `county`, который мы исключим из данных при дальнейшей работе


* Самое встречаемое значение наших классов состояния машин - `excellent`, количество непропущенных строк даных - `176719`, а частота входжения - `85254`, что составляет - `48%` значений всего класса, а значит наши классы по этому столбцу - сбалансированны 
(при условии что баланс считаем нарушенным если, один класс занимает более 75% от класса)

* Так же видно что данные содержат пропущенные значения в некоторых столбцах

## 3 Визуализация данных и описательная статистика
***

Рассмотрим диаграмму по двум количественным признакам - цене от пробегу автомобиля, предполагаем что эти данные зависимы т.к с ростом пробега, будет уменьшатся цена автомобиля

In [None]:
plt.scatter(full_data['odometer'], full_data['price']) 
plt.xlabel('odometer')
plt.ylabel('price')
pass

Видим большие выбросы, не дающие адекватно рассмотреть диаграмму рассеивания от наших двух признаков, попробуем рассмотреть диаграмму на рандомной выборке для 1000 объектов

In [None]:
np.random.seed(73)
random_subset = np.random.choice(np.arange(full_data.shape[0]), size=1000, replace=False)

plt.scatter(full_data.iloc[random_subset]['odometer'], full_data.iloc[random_subset]['price'], alpha=0.4)
plt.xlabel('odometer')
plt.ylabel('price')
pass

Видим, что большие величины выбросов не дают возможность адекватно отрисовать диаграмму, а значит для дальнейшей работы над визуализацией нам нужно очистить данные от выбросов, и заодно избавиться от пустого столбца, обнаруженного на этапе чтения данных. 

##### Обнаружение и очистка от выбросов: 
Для обнаружения выбросов найдем, квантили для признаков `odometer` и `price`

In [None]:
full_data['price'].quantile([0.005,.01,.05,.080,.09,.1,.5,.9,.95,.99,.995])

In [None]:
full_data['price'].max()

Рассмотрим квартили уровней 0.005 - 0.080, которые говорят что около $7.5\%$ машин - "бесплатные", эти данные нам нужноо отсечь

Для работы возьмем интервал от 0.090 до 0.995 - это $90.5\%$ данных

In [None]:
full_data['odometer'].quantile([0.005,.01,.05,.1,.5,.9,.95,.99,.995])

In [None]:
full_data['odometer'].max()

Аналогично рассматриваем данные о пробеге автомобиля. В данном случае пробег у машины может быть нулевой если она новая, и такие данные уже будут адекватно вписываться в модель обучения. Их исключать мы не будем, и возьмем $99.0\%$ данных, с пробегами в промежутках от `0км` до `330'000км`

Создадим новую переменную `clear_data` - куда занесем только очищенные данные

In [None]:
rows_to_drop = full_data[
    (full_data['price'] < full_data['price'].quantile(0.090)) | (full_data['price'] > full_data['price'].quantile(0.995)) | 
    (full_data['odometer']  < full_data['odometer'].quantile(0.005)) | (full_data['odometer']  > full_data['odometer'].quantile(0.995))].index
clear_data = full_data.drop(rows_to_drop)

del clear_data['county']

clear_data.shape

Проверим, как теперь будет выглядеть диаграмма, которую мы отрисовывали выше

In [None]:
plt.scatter(clear_data['odometer'], clear_data['price'], alpha = 0.01) 
plt.xlabel('odometer')
plt.ylabel('price')
pass

Теперь диаграмма рассеивания выглядит адекватно, мы видим линейную зависимость уменьшения цены, при увеличении пробега автомобиля, но данных довольно много из-за чего сложно понять где большее или меньшее скопление точек, отрисуем более наглядный вариант диаграммы с меньшим числом объектов

In [None]:
np.random.seed(73)
random_subset = np.random.choice(np.arange(clear_data.shape[0]), size=1000, replace=False)

plt.scatter(clear_data.iloc[random_subset]['odometer'], clear_data.iloc[random_subset]['price'], alpha=0.4)
plt.xlabel('odometer')
plt.ylabel('price')
pass

##### Визуализация данных

Теперь, когда мы очистили данные, попробуем визуализировать зависимость признака по которому мы собираемся классифицировать данные, от различных других признаков
За состояние автомобиля будет отвечать цвет, за год выпуска - размер, а так же оставим для осей ординат и абцисс - стоимость и пробег соотвественно

In [None]:
np.random.seed(73)
random_subset = np.random.choice(np.arange(clear_data.shape[0]), size=1000, replace=False)
plt.figure(figsize = (8, 6))
sns.scatterplot(x='odometer', y='price', size='year', hue='condition', data=clear_data.iloc[random_subset], alpha=0.5)
pass

* Наблюдается ожидаемая корреляция между пробегом и стоимостью автомобия

* Так же видим что машины состояния `fair` - удовлетворительно и `salvage` - неудовлетворительно, находятся по стоимости в районе менее `10'000$`, и наоборот самые дорогие машины, чаще всего в состоянии `excelent` и `like new`

* Машин 1950г и ранее - на диаграмме почти нет

* Почти все машины из класса `like new` - имеют пробег не более `150'000км` -  `200'000км`

Построим все возможные диаграммы рассеивания для каждой пары переменных, на небольшой выборке:

In [None]:
np.random.seed(73)
random_subset = np.random.choice(np.arange(clear_data.shape[0]), size=10000, replace=False)
sns.pairplot(clear_data.iloc[random_subset], hue='condition', diag_kind='hist')
plt.legend()
pass

Из диаграмм видно, что есть зависимости:
* цена/пробег
* цена/год
* пробег/год
* ширина/долгота

Так же можно посмотреть гистограммы для наших 3-х основных 

количественных признаков - стоимости, года и пробега

In [None]:
sns.distplot(clear_data['price'], bins = 20)
pass

In [None]:
sns.distplot(clear_data['odometer'], bins = 20)
pass

In [None]:
sns.distplot(clear_data['year'], bins = 20)
pass

##### Количественные признаки

Для более полного анализа данных, построим кореляционную матрицу и оценим степень зависимости количественных признаков друг от друга

In [None]:
corr_mat = clear_data.corr()
corr_mat

In [None]:
sns.heatmap(corr_mat, square=True, cmap='seismic', annot = True, vmin=-1, vmax=1, center= 0)
pass

In [None]:
corr_mat.where(np.triu(corr_mat > 0.2, k=1) | np.triu(corr_mat < -0.2, k=1)).stack().sort_values(ascending=False)

Корреляция наблюдается у 4-х пар признаков:

| признак 1 | признак 2 | степень корреляции |
| ----- | ---- | -------------- |
| price | year |       0.305079 |
| lat   | long |     -0.206862  |
| year  | odometer |  -0.368601 |
| price | odometer |  -0.511734 |

Больше всего коррелируют цена и пробег, но значение корреляции все равно не очень большое, нужно так же проверить номинальные признаки, на возможные зависимости


##### Номинальные признаки

Рассмотрим балансы внутри классов данных:

In [None]:
clear_data['region'].value_counts() 

In [None]:
clear_data['manufacturer'].value_counts() 

In [None]:
clear_data['model'].value_counts() 

In [None]:
clear_data['condition'].value_counts() 

In [None]:
clear_data['cylinders'].value_counts() 

In [None]:
clear_data['fuel'].value_counts() 

In [None]:
clear_data['title_status'].value_counts() 

In [None]:
clear_data['transmission'].value_counts() 

In [None]:
clear_data['drive'].value_counts() 

In [None]:
clear_data['size'].value_counts()

In [None]:
clear_data['type'].value_counts()

In [None]:
clear_data['paint_color'].value_counts()

In [None]:
clear_data['state'].value_counts()

По частоте вхождений данных, можно назвать 3 класса - несбаласированными:
* `transmission` - тип коробки передач

| transmission  | 295445 | % |
| ---- | ---- | --- |
| automatic   | 263213 | 89 |
| manual      |  21796 | 7 |
| other       |  10436 | 4 |

* `title_status` - официальный статус в государственном реестре 

| title_status  | 295043 | % |
| ---- | ---- | --- |
| clean |        283253 | 96 |
| rebuilt |        5874 | 2 |
| salvage |        3164 | 1 |
| lien    |        1919 | 0,6 |
| missing |         659 | 0,3 |
| parts only |      174 | 0,1 |

* `fuel` - тип двигателя

| fuel  | 294428 | % |
| ---- | ---- | --- |
| gas         | 260888 | 88,6 |
| diesel      | 20316  | 6,9 |
| other       |  8902  | 3 |
| hybrid      |  3427  | 1,1 |
| electric    |   895  | 0,4 |


Так же подробнее рассмотрим состояние машин, по котрому мы будем их классифицировать

In [None]:
sns.countplot(x='condition', order=clear_data['condition'].value_counts().index, hue='transmission', data=clear_data)
pass

Видим что машины с коробками передач типа(вариатор или роботизированной) в большинстве случаев находятся в хорошем состоянии, значит это своеобразный индикатор, для более точного определения состояния машины, так же и тип двигателя имеет похожий вид гистограммы

In [None]:
sns.countplot(x='condition', order=clear_data['condition'].value_counts().index, hue='paint_color', data=clear_data)
pass

а вот цвет машины почти ничего не может сказать о ее состоянии, похожая картина получается при рассмотрении состояния с признаками `type`, `size`, `drive`, `cylinders`

Также посмотрим информацию о характере распределения состояния от цены/года и пробега автомобиля

In [None]:
sns.violinplot(x="condition", y="price", data=clear_data)
pass

In [None]:
sns.violinplot(x="condition", y="year", data=clear_data)
pass

In [None]:
sns.violinplot(x="condition", y="odometer", data=clear_data)
pass

## 4 Обработка пропущенных значений
***
Посмотрим на число пропущенных значений в каждом столбце

In [None]:
clear_data.shape

In [None]:
clear_data.isna().sum()  

В нашем признаке состояния машины находится 217865 (57%) пропущенных значений, что ставит вопрос о том как правильно обработать эти значения? 

Первый вариант - просто удалить эти данные, оставив 43% данных для обучения модели

Второй - заместить средним все показатели, кроме самого класса и так же удалить только те строки, значение класса в которых для нас не известно

В любом случае статистическая мощность будет уменьшаться, и на данном этапе невозможно предсказать какой из методов покажет себя лучше, поэтому будем использовать 2 параллельных набора данных с 2-мя типами обработки пропущенных значений `delete_data` и `predict_data`, и посмотрим как в итоге это повлияет на ошибку при обучении модели

Так же столбцы, `url`, `region_url`, `image_url`, `description`, `vin` не имеют особого смысла для модели, а так же их будет очень сложно бинаризовать для дальнейшего обучения, поэтому удалим их на этом этапе

##### обработка номинальных признаков

In [None]:
import copy

predict_data = copy.deepcopy(clear_data)
predict_data.drop(['url','region_url','image_url','description','vin'], axis='columns', inplace=True)
predict_data.fillna(predict_data.median(axis = 0), axis=0 , inplace=True)

In [None]:
predict_data.isna().sum()  

##### обработка категориальных признаков

In [None]:
predict_data['manufacturer'].fillna(predict_data['manufacturer'].mode().iloc[0], inplace=True)
predict_data['model'].fillna(predict_data['model'].mode().iloc[0], inplace=True)
predict_data['cylinders'].fillna(predict_data['cylinders'].mode().iloc[0], inplace=True)
predict_data['fuel'].fillna(predict_data['fuel'].mode().iloc[0], inplace=True)
predict_data['title_status'].fillna(predict_data['title_status'].mode().iloc[0], inplace=True)
predict_data['transmission'].fillna(predict_data['transmission'].mode().iloc[0], inplace=True)
predict_data['drive'].fillna(predict_data['drive'].mode().iloc[0], inplace=True)
predict_data['size'].fillna(predict_data['size'].mode().iloc[0], inplace=True)
predict_data['type'].fillna(predict_data['type'].mode().iloc[0], inplace=True)
predict_data['paint_color'].fillna(predict_data['paint_color'].mode().iloc[0], inplace=True)

In [None]:
predict_data.isna().sum()  

И последним шагом, оставляем в наших данных только те, значение класса для которых нам известно

In [None]:
predict_data.dropna(inplace=True)

In [None]:
predict_data.shape

##### Исключение пропущенных значений
Соберем второй датасет, не используя принцип замены показателей

In [None]:
delete_data = copy.deepcopy(clear_data)
delete_data.drop(['url','region_url','image_url','description','vin'], axis='columns', inplace=True)

А теперь удалим все встроки с вхождением пропущенных значений

In [None]:
delete_data.dropna(inplace=True)

In [None]:
delete_data.shape

## 5 Обработка категореальных признаков
***
Для алгоритмов нам потребуется провести бинаризацию данных для всех категориальных признаков, особое внимание нужно обратить на столбец - `model` и `region` содеращие большое количество уникальных признаков, и имеющие написание в формате предложения, а не одного слова. 

In [None]:
delete_data['model'].value_counts()

In [None]:
predict_data['model'].value_counts()

In [None]:
count_cloud = set()

for val in predict_data['model']:      
    val = str(val)
    tokens = val.split()
    
    for i in range(len(tokens)):
        tokens[i] = tokens[i].lower() 
        count_cloud.add(tokens[i])

model_dummies = pd.DataFrame(count_cloud).T
model_dummies.rename(columns=model_dummies.iloc[0], inplace=True)
model_dummies.iloc[0] = 0

"""
import re
def substr(word, words):
    list=(re.findall(r"[\w']+", words))
    if word in list:
        return 1
    else:
        return 0

for i in range(predict_data['model'].size):
    for j in range(len(count_cloud)):
        model_dummies.at[i,model_dummies.columns[j]] = substr(model_dummies.columns[j],predict_data['model'].iloc[i])
"""

model_dummies

Данная функция собирает облако уникальных слов содержащихся в параметре, и создает для нее pandas dataframe с фиктивными dummy-признаками, но к сожалению выходная размерность облака слов - `6183`, а число строк `predict_data - 164421`, очень велики, из-за чего не удается бинаризировать признак `model`, а так же и признак `region` на размерностях - `497 * 57930`

В данной работе, эти признаки так же придется убрать из рассмотрения.

In [None]:
delete_data.drop(['model','region'], axis='columns', inplace=True)

In [None]:
predict_data.drop(['model','region'], axis='columns', inplace=True)

А вот с оставшимися категориальными признаками, проводим бинаризацию

In [None]:
def dummies(name, data):
    return_data = data
    return_data[name] = return_data[name].astype('category')
    p_dummies = pd.get_dummies(return_data[name])   
    return_data = pd.concat([return_data, p_dummies], axis=1)
    return return_data

predict_data = dummies('state', predict_data)    
predict_data = dummies('manufacturer', predict_data)
predict_data = dummies('cylinders', predict_data)
predict_data = dummies('fuel', predict_data)
predict_data = dummies('title_status', predict_data)
predict_data = dummies('transmission', predict_data)
predict_data = dummies('drive', predict_data)
predict_data = dummies('size', predict_data)
predict_data = dummies('type', predict_data)
predict_data = dummies('paint_color', predict_data)

predict_data.drop(['state','manufacturer','cylinders','fuel','title_status',
                   'transmission','drive','size','type',
                   'paint_color'], axis='columns', inplace=True)


In [None]:
predict_data.describe()

In [None]:
predict_data.shape

In [None]:
delete_data = dummies('state', delete_data)    
delete_data = dummies('manufacturer', delete_data)
delete_data = dummies('cylinders', delete_data)
delete_data = dummies('fuel', delete_data)
delete_data = dummies('title_status', delete_data)
delete_data = dummies('transmission', delete_data)
delete_data = dummies('drive', delete_data)
delete_data = dummies('size', delete_data)
delete_data = dummies('type', delete_data)
delete_data = dummies('paint_color', delete_data)

delete_data.drop(['state','manufacturer','cylinders','fuel','title_status',
                   'transmission','drive','size','type',
                   'paint_color'], axis='columns', inplace=True)

In [None]:
delete_data.shape

## 6 Нормализация и деление на выборки
***
Так же нормализуем полученные данные, что бы большие величины, не внесли больше вклада в веса сети, чем следовало бы


Для каждого набора данных возьем пропорциональное количество данных - 

75%/25% для обучения и тестовых, что бы точнее сравнить результат 

In [None]:
y1 = predict_data['condition']
y2 = delete_data['condition']

predict_data.drop(['condition'], axis='columns', inplace=True)
delete_data.drop(['condition'], axis='columns', inplace=True)

In [None]:
x1 = (predict_data - predict_data.mean(axis = 0))/predict_data.std(axis = 0)
x2 = (delete_data - delete_data.mean(axis = 0))/delete_data.std(axis = 0)

In [None]:
x1.describe()

In [None]:
x1 = x1.to_numpy()
x2 = x2.to_numpy()

In [None]:
y1 = y1.replace(['excellent','new','like new','good','fair','salvage'], [6, 5, 4, 3, 2, 1])
y2 = y2.replace(['excellent','new','like new','good','fair','salvage'], [6, 5, 4, 3, 2, 1])

In [None]:
y1

In [None]:
y1 = y1.to_numpy()
y2 = y2.to_numpy()

In [None]:
y2

Разбиваем данные на обучающие выборки:

In [None]:
from sklearn.model_selection import train_test_split
X1_train, X1_test, y1_train, y1_test = train_test_split(x1, y1, test_size = 0.25, random_state = 73)

N1_train, _ = X1_train.shape 
N1_test,  _ = X1_test.shape 

N1_train, N1_test

In [None]:
X2_train, X2_test, y2_train, y2_test = train_test_split(x2, y2, test_size = 0.25, random_state = 73)

N2_train, _ = X2_train.shape 
N2_test,  _ = X2_test.shape 

N2_train, N2_test

## 7. Классификатор ближайших соседей

Запустим классифифкатор ближайших N соседей

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn1 = KNeighborsClassifier(n_neighbors = 10)
#knn.set_params(n_neighbors=10)
knn1.fit(X1_train, y1_train)

In [None]:
knn1

In [None]:
y1_test_predict = knn1.predict(X1_test)
err_test1  = np.mean(y1_test  != y1_test_predict)

In [None]:
err_test

## 8. Ошибки и выводы

Для к 

In [None]:
y1 = stand_predict_data['Price']
X1 = stand_predict_data.drop(['Date'], axis=1)