In [1]:
import pandas as pd

from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, mean_absolute_error
from sklearn.model_selection import train_test_split 
from sklearn.neural_network import MLPClassifier
from collections import Counter

### Описание датасета:

- `id`: идентификатор записи;
- `is_manufacturer_name`: признак производителя автомобиля;
- `region_*`: регион;
- `x0_*`: тип топлива;
- `manufacturer_*`: производитель;
- `short_model_*`: сокращённая модель автомобиля;
- `title_status_*`: статус;
- `transmission_*`: коробка передач;
- `state_*`: штат;
- `age_category_*`: возрастная категория автомобиля;
- `std_scaled_odometer`: количество пройденных миль (после стандартизации);
- `year_std`: год выпуска (после стандартизации);
- `lat_std`: широта (после стандартизации);
- `long_std`: долгота (после стандартизации);
- `odometer/price_std`: отношение стоимости к пробегу автомобиля (после стандартизации);
- `desc_len_std`: количество символов в тексте объявления о продаже (после стандартизации);
- `model_in_desc_std`: количество наименований модели автомобиля в тексте объявления о продаже (после стандартизации);
- `model_len_std`: длина наименования автомобиля (после стандартизации);
- `model_word_count_std`: количество слов в наименовании автомобиля (после стандартизации);
- `month_std`: номер месяца размещения объявления о продаже автомобиля (после стандартизации);
- `dayofweek_std`: день недели размещения объявления о продаже автомобиля (после стандартизации);
- `diff_years_std`: количество лет между годом производства автомобиля и годом размещения объявления о продаже автомобиля (после стандартизации);
- `price`: стоимость;
- `price_category`: категория цены.

In [2]:
df = pd.read_csv('data/vehicles_dataset_for_lr.csv')
df.head()

Unnamed: 0,id,price,price_category,is_audi,is_ford,is_chevrolet,is_toyota,x0_diesel,x0_electric,x0_gas,...,long_std,year_std,odometer/price_std,desc_len_std,model_in_desc_std,model_len_std,model_word_count_std,month_std,dayofweek_std,diff_years_std
0,7308295377,54990,high,0,0,0,0,1.0,0.0,0.0,...,0.484245,1.322394,-0.510784,0.632075,-0.155788,1.163032,1.910669,-0.615846,1.120284,-1.322394
1,7316380095,16942,medium,0,1,0,0,0.0,0.0,0.0,...,1.1108,0.695973,-0.402947,-0.646781,-0.155788,0.932087,1.235799,1.623784,-1.374972,-0.695973
2,7313733749,35590,high,0,0,0,0,0.0,0.0,1.0,...,0.531185,0.852578,-0.51448,0.560744,-0.155788,0.470197,0.56093,-0.615846,-0.37687,-0.852578
3,7308210929,14500,medium,0,0,0,1,0.0,0.0,1.0,...,0.853562,0.226157,-0.241883,0.180435,-0.155788,-0.915473,-0.78881,-0.615846,1.120284,-0.226157
4,7303797340,14590,medium,0,0,0,0,0.0,0.0,0.0,...,0.557607,0.069552,-0.333074,0.766366,-0.155788,1.163032,1.910669,-0.615846,0.122182,-0.069552


### **Линейная регрессия**

Попробуем обучить модель линейной регрессии для предсказания цены автомобиля (колонка `price`).


Подготовка данных: удаление колонок, которые косвенно содержат информацию о целевой переменной (`odometer/price_std`, `price_category`)

In [3]:
df_new = df.copy()
df_new = df_new.drop(['odometer/price_std', 'price_category'], axis=1)

Разделение выборку на треин и тест в отношении 70/30. Обучение модели линейной регрессии с дефолтными параметрами. Значение метрики MAE на тестовой выборке для линейной регрессии

In [4]:
train, test = train_test_split(df_new, test_size=0.3, random_state=42)

lr = LinearRegression()
lr.fit(train.drop(['price'], axis=1), train.price)

pred_lin = lr.predict(test.drop(['price'], axis=1))
mean_absolute_error(test.price, pred_lin)

4600.341117614581

Проверка на коэффициенты, которые равны нулю

In [5]:
for i in range(len(lr.coef_)):
    if lr.coef_[i] == 0:
        print(i)

1360


In [6]:
df_new.iloc[:, 1360].name

'manufacturer_dodge'

Удаление фичи, коэффициент которой равен нулю. Переобучение модели. Проверка метрики

In [7]:
df_new = df_new.drop(['manufacturer_dodge'], axis=1)

In [8]:
train, test = train_test_split(df_new, test_size=0.3, random_state=42)

lr = LinearRegression()
lr.fit(train.drop(['price'], axis=1), train.price)

pred_lin = lr.predict(test.drop(['price'], axis=1))
mean_absolute_error(test.price, pred_lin)

4600.6034457974965

### **Логистическая регрессия**

Предварительно из датафрейма удалим переменные, в которых косвенно содержится информация о целевой переменной (`odometer/price_std`, `price`)

In [9]:
df_new1 = df.copy()
df_new1 = df_new1.drop(['odometer/price_std', 'price'], axis=1)

In [10]:
x = df_new1.drop(['price_category'], axis=1)
y = df_new1.price_category

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

In [11]:
logreg = LogisticRegression()

logreg.fit(x_train, y_train)

pred_log = logreg.predict(x_test)
print(accuracy_score(y_test, pred_log))
confusion_matrix(y_test, pred_log)

0.32432432432432434


array([[  0,   0, 997],
       [  0,   0, 953],
       [  0,   0, 936]], dtype=int64)

In [12]:
df_new1 = df_new1.drop(['id'], axis=1)

In [13]:
x = df_new1.drop(['price_category'], axis=1)
y = df_new1.price_category

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

logreg = LogisticRegression()

logreg.fit(x_train, y_train)

pred_log = logreg.predict(x_test)
print('accuracy на тренировочной выборке:', accuracy_score(y_train, logreg.predict(x_train)))
print('accuracy на тестовой выборке:', accuracy_score(y_test, pred_log))
confusion_matrix(y_test, pred_log)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


accuracy на тренировочной выборке: 0.8551908510322294
accuracy на тестовой выборке: 0.7543312543312544


array([[801,  26, 170],
       [ 22, 767, 164],
       [156, 171, 609]], dtype=int64)

In [14]:
logreg.get_params()

{'C': 1.0,
 'class_weight': None,
 'dual': False,
 'fit_intercept': True,
 'intercept_scaling': 1,
 'l1_ratio': None,
 'max_iter': 100,
 'multi_class': 'auto',
 'n_jobs': None,
 'penalty': 'l2',
 'random_state': None,
 'solver': 'lbfgs',
 'tol': 0.0001,
 'verbose': 0,
 'warm_start': False}

In [15]:
logreg = LogisticRegression(C=35, max_iter=150, random_state=42)

logreg.fit(x_train, y_train)

pred_log = logreg.predict(x_test)
print('accuracy на тренировочной выборке:', accuracy_score(y_train, logreg.predict(x_train)))
print('accuracy на тестовой выборке:', accuracy_score(y_test, pred_log))
confusion_matrix(y_test, pred_log)

accuracy на тренировочной выборке: 0.8918758354373979
accuracy на тестовой выборке: 0.7598752598752598


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


array([[803,  24, 170],
       [ 26, 761, 166],
       [148, 159, 629]], dtype=int64)

### **Многослойный персептрон**

In [16]:
mlp = MLPClassifier(random_state=42, max_iter=500)
mlp.fit(x_train, y_train)

MLPClassifier(max_iter=500, random_state=42)

In [17]:
pred_mlp = mlp.predict(x_test)
print('accuracy на тренировочной выборке:', accuracy_score(y_train, mlp.predict(x_train)))
print('accuracy на тестовой выборке:', accuracy_score(y_test, pred_mlp))

accuracy на тренировочной выборке: 0.9998514777959305
accuracy на тестовой выборке: 0.7678447678447679


In [18]:
mlp.get_params()

{'activation': 'relu',
 'alpha': 0.0001,
 'batch_size': 'auto',
 'beta_1': 0.9,
 'beta_2': 0.999,
 'early_stopping': False,
 'epsilon': 1e-08,
 'hidden_layer_sizes': (100,),
 'learning_rate': 'constant',
 'learning_rate_init': 0.001,
 'max_fun': 15000,
 'max_iter': 500,
 'momentum': 0.9,
 'n_iter_no_change': 10,
 'nesterovs_momentum': True,
 'power_t': 0.5,
 'random_state': 42,
 'shuffle': True,
 'solver': 'adam',
 'tol': 0.0001,
 'validation_fraction': 0.1,
 'verbose': False,
 'warm_start': False}

In [19]:
mlp.n_layers_

3

In [20]:
mlp = MLPClassifier(random_state=42, max_iter=500, hidden_layer_sizes=(100,20), activation = 'tanh')
mlp.fit(x_train, y_train)

MLPClassifier(activation='tanh', hidden_layer_sizes=(100, 20), max_iter=500,
              random_state=42)

In [21]:
pred_mlp = mlp.predict(x_test)
print('accuracy на тренировочной выборке:', accuracy_score(y_train, mlp.predict(x_train)))
print('accuracy на тестовой выборке:', accuracy_score(y_test, pred_mlp))

accuracy на тренировочной выборке: 1.0
accuracy на тестовой выборке: 0.7761607761607762


### **Сравнение с древовидными моделями**

In [22]:
rf_clf = RandomForestClassifier(random_state=42) 
rf_clf.fit(x_train, y_train)

pred_rf = rf_clf.predict(x_test)
print('accuracy на тренировочной выборке:', accuracy_score(y_train, rf_clf.predict(x_train)))
print('accuracy на тестовой выборке:', accuracy_score(y_test, pred_rf))

accuracy на тренировочной выборке: 1.0
accuracy на тестовой выборке: 0.7574497574497574


### **Стратегия голосования**

In [23]:
pred_df = pd.DataFrame({'rfc': pred_rf, 'mlp': pred_mlp, 'logreg': pred_log})
pred_df['target'] = pred_df.apply(lambda x: Counter([x.rfc, x.mlp, x.logreg]).most_common(1)[0][0], axis=1)
pred_df

Unnamed: 0,rfc,mlp,logreg,target
0,medium,high,high,high
1,medium,medium,medium,medium
2,low,low,low,low
3,low,low,low,low
4,high,high,high,high
...,...,...,...,...
2881,medium,medium,medium,medium
2882,low,medium,low,low
2883,low,low,low,low
2884,medium,medium,medium,medium


In [24]:
print(accuracy_score(y_test, pred_df.target))
confusion_matrix(y_test, pred_df.target)

0.7879417879417879


array([[820,  31, 146],
       [ 17, 800, 136],
       [122, 160, 654]], dtype=int64)