In [1]:
import numpy as np
import pandas as pd

from sklearn.linear_model import LinearRegression

## Гипотетическая ситуация
Берем модель "Таксист и чаевые".
У нас есть фичи:
- Стоимость 1 км пути
- Расстояние поездки
- Количество пассажиров

Целевая метрика - это "Величина чаевых". Расчитывается по формуле: Чаевые = [Расстояние поездки] х [Стоимость 1 км] х 5%

In [2]:
# Создаём сэмпл
n_samples = 1000

# Дистанция
distance = np.random.choice(100, n_samples) + 1

# Количество пассажиров
passengers = np.random.choice(7, n_samples) + 1

# Стоимость 1 км пути
one_km_price = 12

# % чаевых
tip_percentage = 0.05

# Наша целевая метрика - величина чаевых
tips = distance * one_km_price * tip_percentage

# Загоняем все в df
data = pd.DataFrame({'distance': distance, 'one_km_price': one_km_price, 'tip_percentage': tip_percentage, 'passengers': passengers, 'tips': tips})
data.head(5)

Unnamed: 0,distance,one_km_price,tip_percentage,passengers,tips
0,34,12,0.05,4,20.4
1,22,12,0.05,4,13.2
2,73,12,0.05,5,43.8
3,27,12,0.05,1,16.2
4,47,12,0.05,6,28.2


In [7]:
from sklearn.metrics import mean_absolute_error

X = data[['distance', 'passengers', 'one_km_price', 'tip_percentage']]
y = data['tips']

# Строим регрессию
reg = LinearRegression().fit(X, y)

# Смотрим на веса
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['distance', 'passengers', 'one_km_price', 'tip_percentage']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [6.00000000e-01 1.84071232e-17 0.00000000e+00 1.35452958e-48]
Bias: -3.907985046680551e-14
Error: 2.0531465416695484e-14


In [5]:
# Создаем новый признак
data['mult'] = data['one_km_price'] * data['tip_percentage']
data.head(5)

Unnamed: 0,distance,one_km_price,tip_percentage,passengers,tips,mult
0,34,12,0.05,4,20.4,0.6
1,22,12,0.05,4,13.2,0.6
2,73,12,0.05,5,43.8,0.6
3,27,12,0.05,1,16.2,0.6
4,47,12,0.05,6,28.2,0.6


In [9]:
X = data[['mult', 'distance']]
y = data['tips']

# Снова смотрим на регрессию
reg = LinearRegression().fit(X, y)

print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['mult', 'distance']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-4.38865846e-34  6.00000000e-01]
Bias: 3.552713678800501e-15
Error: 2.5563995365018854e-15


Ошибка уменьшилась в **10** раз