In [1]:
import numpy as np
import pandas as pd

from sklearn.linear_model import LinearRegression

## Гипотетическая ситуация
Берем модель "Таксист и чаевые".
У нас есть фичи:
- Стоимость 1 км пути
- Расстояние поездки
- Количество пассажиров

Целевая метрика - это "Величина чаевых". Расчитывается по формуле: Чаевые = [Расстояние поездки] х [Стоимость 1 км] х 5%

In [2]:
# Создаём сэмпл
n_samples = 1000

# Дистанция
distance = np.random.choice(100, n_samples) + 1

# Количество пассажиров
passengers = np.random.choice(7, n_samples) + 1

# Температура воздуха (Цельсий)
temp_air = np.random.choice(30, n_samples) + 1

# Стоимость бензина АИ-95 (рубли)
petrol_price_95 = np.random.choice(55, n_samples) + 1

# Стоимость 1 км пути
one_km_price = 12

# % чаевых
tip_percentage = 0.05

# Наша целевая метрика - величина чаевых (формула просто с "потолка") :)
tips = distance * tip_percentage * 35 + 11

# Загоняем все в df
data = pd.DataFrame({
    'distance': distance, 
    'passengers': passengers, 
    'one_km_price': one_km_price, 
    'tip_percentage': tip_percentage, 
    'temp_air': temp_air, 
    'petrol_price_95': petrol_price_95, 
    'tips': tips})
data.head(5)

Unnamed: 0,distance,passengers,one_km_price,tip_percentage,temp_air,petrol_price_95,tips
0,7,7,12,0.05,3,8,23.25
1,84,7,12,0.05,30,12,158.0
2,68,7,12,0.05,28,41,130.0
3,26,7,12,0.05,10,35,56.5
4,37,6,12,0.05,16,45,75.75


In [3]:
from sklearn.metrics import mean_absolute_error

X = data[['distance', 'passengers', 'temp_air', 'petrol_price_95']]
y = data['tips']

# Строим регрессию
reg = LinearRegression().fit(X, y)

# Смотрим на веса
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['distance', 'passengers', 'temp_air', 'petrol_price_95']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [ 1.75000000e+00 -7.53916158e-16  2.26358457e-16  1.15730679e-16]
Bias: 10.999999999999929
Error: 3.376676716015936e-14


In [4]:
# Создаем новый признак
data['mult'] = data['one_km_price'] * data['tip_percentage']
data.head(5)

Unnamed: 0,distance,passengers,one_km_price,tip_percentage,temp_air,petrol_price_95,tips,mult
0,7,7,12,0.05,3,8,23.25,0.6
1,84,7,12,0.05,30,12,158.0,0.6
2,68,7,12,0.05,28,41,130.0,0.6
3,26,7,12,0.05,10,35,56.5,0.6
4,37,6,12,0.05,16,45,75.75,0.6


In [5]:
X = data[['mult', 'distance']]
y = data['tips']

# Снова смотрим на регрессию
reg = LinearRegression().fit(X, y)

print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['mult', 'distance']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-4.01917578e-33  1.75000000e+00]
Bias: 10.999999999999972
Error: 1.3114842545292049e-14


Ошибка уменьшилась в **3** раза