In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy_score, confusion_matrix 
from sklearn.ensemble import RandomForestClassifier

# Machine Learning. Decision Tree & Random Forest

### Описание датасета:

- `id`: идентификатор записи;
- `is_manufacturer_name`: признак производителя автомобиля;
- `region_*`: регион;
- `x0_*`: тип топлива;
- `manufacturer_*`: производитель;
- `short_model_*`: сокращённая модель автомобиля;
- `title_status_*`: статус;
- `transmission_*`: коробка передач;
- `state_*`: штат;
- `age_category_*`: возрастная категория автомобиля;
- `std_scaled_odometer`: количество пройденных миль (после стандартизации);
- `year_std`: год выпуска (после стандартизации);
- `lat_std`: широта (после стандартизации);
- `long_std`: долгота (после стандартизации);
- `odometer/price_std`: отношение стоимости к пробегу автомобиля (после стандартизации);
- `desc_len_std`: количество символов в тексте объявления о продаже (после стандартизации);
- `model_in_desc_std`: количество наименований модели автомобиля в тексте объявления о продаже (после стандартизации);
- `model_len_std`: длина наименования автомобиля (после стандартизации);
- `model_word_count_std`: количество слов в наименовании автомобиля (после стандартизации);
- `month_std`: номер месяца размещения объявления о продаже автомобиля (после стандартизации);
- `dayofweek_std`: день недели размещения объявления о продаже автомобиля (после стандартизации);
- `diff_years_std`: количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля (после стандартизации);
- `price`: стоимость;
- `price_category`: категория цены.

### *Подготовка базовой модели*

Обучим простую модель классификации с помощью DecisionTreeClassifier на данных из датасета vehicles_dataset_prepared.csv.


In [2]:
df = pd.read_csv('data/vehicles_dataset_for_ml.csv')

df_prepared = df.copy()
df_prepared = df_prepared.drop(['price', 'odometer/price_std'], axis=1)

x = df_prepared.drop(['price_category'], axis=1)
y = df_prepared['price_category']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

Модель дерева решений с зафиксированным random_state на тренировочной выборке

In [3]:
clf = DecisionTreeClassifier(random_state=42)
clf.fit(x_train, y_train)

DecisionTreeClassifier(random_state=42)

Предикт на тестовой выборке

In [4]:
predicted_test = clf.predict(x_test)

Точность на тестовой выборке

In [5]:
accuracy_score(y_test, predicted_test)

0.6704781704781705

Матрица ошибок

In [6]:
confusion_matrix(y_test, predicted_test)

array([[738,  54, 205],
       [ 46, 688, 219],
       [198, 229, 509]], dtype=int64)

Удаление фичей с нулевыми весами по feature_importance из тренировочной и тестовой выборок

In [7]:
f_imp_list = list(zip(x_train.columns, clf.feature_importances_))
f_imp_list.sort(key = lambda x: x[1], reverse=True)

f_imp_list_0 = [x[0] for x in f_imp_list if x[1] == 0]

df_prepared = df_prepared.drop(f_imp_list_0, axis=1)

Заново обучим модель и проверим качество

In [9]:
x = df_prepared.drop(['price_category'], axis=1)
y = df_prepared.price_category

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

clf.fit(x_train, y_train)

predicted_test = clf.predict(x_test)

print(accuracy_score(y_test, predicted_test))

0.6725571725571725


### *Подготовка модели случайного леса*

In [10]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

rf_clf = RandomForestClassifier(random_state=50) 
rf_clf.fit(x_train, y_train)

predicted_test_rf = rf_clf.predict(x_test)
print(accuracy_score(y_test, predicted_test_rf))

0.7418572418572419


In [11]:
confusion_matrix(y_test, predicted_test_rf)

array([[793,  37, 167],
       [ 16, 789, 148],
       [165, 212, 559]], dtype=int64)

### *Тюнинг модели случайного леса*

In [12]:
rf_clf_2 = RandomForestClassifier(bootstrap=False, max_depth=100, random_state=42)
rf_clf_2.fit(x_train, y_train)

predicted_test_rf_2 = rf_clf_2.predict(x_test)
print(accuracy_score(y_test, predicted_test_rf_2))

0.7643797643797644
