In [1]:
import numpy as np
import pandas as pd

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

In [44]:
# Создаём сэмпл с характеристиками автомобиля и расчет его стоимости
n_samples = 100

horse_power = np.random.choice(301, n_samples) + 70     # мощность автомобиля
year = np.random.choice(22, n_samples) +1               # год выпуска
grade = np.random.choice(5, n_samples) +1               # класс автомобиля
amount = np.random.choice(100, n_samples) + 1           # количество на рынке
colour = np.random.choice(10, n_samples) + 1            # цвет автомобиля, один из 10

price = 2 * horse_power * 10 * year * 5 * grade + 100000

data = pd.DataFrame({'horse_power': horse_power, 'year': year, 'grade':grade, 'amount': amount, 'colour':colour, 'price': price})
data.head(5)

Unnamed: 0,horse_power,year,grade,amount,colour,price
0,91,4,1,46,8,136400
1,213,5,3,51,1,419500
2,266,19,4,10,5,2121600
3,103,16,1,30,8,264800
4,134,22,2,65,8,689600


In [52]:
# Формируем модель машинного обучения для всех признаков

X = data[['horse_power', 'year', 'grade', 'amount', 'colour']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['horse_power', 'year', 'grade', 'amount', 'colour']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [  2697.42261998  64129.2761803  235698.94219138   -321.26029715
   -406.75146388]
Bias: -1139346.2874996085
Error: 253592.22458580203


In [53]:
# Средняя цена
y.median()

594500.0

In [54]:
# Формируем модель машинного обучения для наиболее значимых признаков

X = data[['horse_power', 'year', 'grade']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['horse_power', 'year', 'grade']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [  2687.85846436  64133.24811949 235085.34135012]
Bias: -1153997.6956561562
Error: 253683.5719942713


Ошибка не изменилась, значит количество и цвет автомобиля не влияет на ценообразование

In [50]:
# Создаем новый признак
data['mult'] = data['year'] * data['horse_power'] * data['grade']
data.head(5)

Unnamed: 0,horse_power,year,grade,amount,colour,price,mult
0,91,4,1,46,8,136400,364
1,213,5,3,51,1,419500,3195
2,266,19,4,10,5,2121600,20216
3,103,16,1,30,8,264800,1648
4,134,22,2,65,8,689600,5896


In [55]:
# Формируем модель машинного обучения на основе нового признака

X = data[['mult']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['mult']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [100.]
Bias: 100000.00000000023
Error: 2.2919266484677792e-10


Ошибка минимальна, можно сделать вывод, что цена прежде всего зависит от оставшихся признаков.