In [19]:
import numpy as np
import pandas as pd
import seaborn as sns

from sklearn.linear_model import LinearRegression

### 1. Создаем исходные данные для подсчета индекса массы тела (BMI)

In [20]:
# Создаём сэмпл
n_samples = 1000

age_owner = np.random.randint(18, 35, n_samples)
height = np.random.randint(120, 210, n_samples)
weight = np.random.randint(50, 150, n_samples)

BMI = weight / (height / 100) ** 2 + 2

data = pd.DataFrame({'age_owner': age_owner, 'height': height, 'weight': weight, 'BMI': BMI})
data.head(5)

Unnamed: 0,age_owner,height,weight,BMI
0,23,161,64,26.690405
1,32,209,147,35.653076
2,30,136,76,43.089965
3,34,123,120,81.317866
4,33,145,65,32.915577


### 2. Как настоящие датасаентисты пробуем запустить линейную регрессию на всех атрибутах, что есть. Вдруг повезет.

In [21]:
from sklearn.metrics import mean_absolute_error

X = data[['age_owner', 'height', 'weight']]
y = data['BMI']
reg = LinearRegression(normalize=True).fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['age_owner', 'height', 'weight']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [ 0.01766818 -0.49716359  0.39248441]
Bias: 83.98648719944964
Error: 3.6640599240713563


### 3. Видим, что 1 из признаков дает низкий вклад, попробуем его убрать.

In [22]:
X = data[['height', 'weight']]
y = data['BMI']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['height', 'weight']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-0.4971542   0.39238926]
Bias: 84.4543616263669
Error: 3.6679716445259123


### 4. Помогло не сильно, но это и очевидно, вес итак уже около 0, соответсвенно и влияния на ошибку после исключения тоже около 0. Значит будем пользоваться логикой и попробуем изменить атрибут роста.

In [23]:
# Создаем новый признак
data['new_height'] = (data['height'] / 100) ** 2
data.head(5)

Unnamed: 0,age_owner,height,weight,BMI,new_height
0,23,161,64,26.690405,2.5921
1,32,209,147,35.653076,4.3681
2,30,136,76,43.089965,1.8496
3,34,123,120,81.317866,1.5129
4,33,145,65,32.915577,2.1025


In [24]:
X = data[['new_height', 'weight']]
y = data['BMI']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['new_height', 'weight']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-14.87074053   0.39112373]
Bias: 44.04114730745591
Error: 4.123844756374423


### 5. Только ухудшило результат, но мы парни отчаянные, будет пробовать пристроить куда-нибудь свой новый признак.

In [25]:
data['new_height_Weight'] = data['weight'] / data['new_height']
data.head(5)

Unnamed: 0,age_owner,height,weight,BMI,new_height,new_height_Weight
0,23,161,64,26.690405,2.5921,24.690405
1,32,209,147,35.653076,4.3681,33.653076
2,30,136,76,43.089965,1.8496,41.089965
3,34,123,120,81.317866,1.5129,79.317866
4,33,145,65,32.915577,2.1025,30.915577


In [28]:
X = data[['new_height_Weight', 'weight']]
y = data['BMI']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['new_height_Weight', 'weight']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [1.00000000e+00 1.61593454e-16]
Bias: 1.9999999999999787
Error: 6.957989739930781e-15


### 6. Точнейшее попадание. Даже то, что мы добавили в список атрибутов вес никак не повлияло на модель, она просто занулила вес.