In [19]:
import numpy as np
import pandas as pd

from sklearn.linear_model import LinearRegression

In [27]:
# Создаём сэмпл
n_samples = 500

# Будем прогнозировать расход топлива
drivers_age = np.random.choice(50, n_samples) + 30
release_year = np.random.choice(1990, n_samples)
expense = np.random.choice(100, n_samples) + 15
expense_on_100 = np.random.choice(5, n_samples) + 5

# Пройденное расстояние (расход 10 литров на 100 км)
distance = expense / expense_on_100 * 100

data = pd.DataFrame({'drivers_age': drivers_age, 'release_year': release_year, 'expense_on_100': expense_on_100, 'expense': expense, 'distance': distance})
data.head(10)

Unnamed: 0,drivers_age,release_year,expense_on_100,expense,distance
0,31,1045,5,24,480.0
1,74,562,9,15,166.666667
2,54,1239,7,89,1271.428571
3,47,1221,5,25,500.0
4,48,1798,6,50,833.333333
5,57,1706,5,98,1960.0
6,75,871,5,86,1720.0
7,63,28,6,21,350.0
8,61,1593,8,33,412.5
9,33,493,8,113,1412.5


In [28]:
from sklearn.metrics import mean_absolute_error

X = data[['drivers_age', 'release_year', 'expense_on_100', 'expense']]
y = data['distance']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['drivers_age', 'distance', 'expense_on_100', 'expense']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [ 1.16419078e-01  7.38424072e-03 -1.39935037e+02  1.49782368e+01]
Bias: 957.1443307948603
Error: 75.35377673926604


Убираем год и возрост так как они не влияют на пройденное расстояние.

In [29]:
X = data[['expense_on_100', 'expense']]
y = data['distance']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['expense_on_100', 'expense']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-139.96303661   14.97365476]
Bias: 971.2012974133273
Error: 75.84222445214101


Особо ничего не изменилось.

In [30]:
# Создаем новый признак (коэффициент расхода топлива)
data['coef'] = data['expense'] / data['expense_on_100']
data.head(5)

Unnamed: 0,drivers_age,release_year,expense_on_100,expense,distance,coef
0,31,1045,5,24,480.0,4.8
1,74,562,9,15,166.666667,1.666667
2,54,1239,7,89,1271.428571,12.714286
3,47,1221,5,25,500.0,5.0
4,48,1798,6,50,833.333333,8.333333


In [31]:
X = data[['coef']]
y = data['distance']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['coef']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [100.]
Bias: 6.821210263296962e-13
Error: 2.546016730775591e-13


Наша модель почти со 100% точностью предсказывает пройденное расстояние.