In [7]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

In [19]:
# Создаём выборку для описания модели суммы сбережений, которая предположительно зависит от заработной платы,
# возраста, образования

n_samples = 200

age_saver = np.random.choice(100, n_samples) + 18
wages = np.random.choice(1000000, n_samples) + 30000
education = np.random.choice(2, n_samples)
savings = wages*0.3

data = pd.DataFrame({'age_saver': age_saver, 'wages': wages, 'education': education, 'savings': savings})
data.head(5)

Unnamed: 0,age_saver,wages,education,savings
0,72,465717,1,139715.1
1,68,779835,1,233950.5
2,86,736683,0,221004.9
3,99,343826,1,103147.8
4,18,684165,0,205249.5


In [21]:
# Построим линейную регресиию, где признаками будут 'age_saver', 'wages', 'education',
# которые будут определять размер сбережений ('savings')

from sklearn.metrics import mean_absolute_error
X = data[['age_saver', 'wages', 'education']]
y = data['savings']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['age_saver', 'wages', 'education']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

# модель хорошо описывает данные, ошибка (Error) очень маленькая

Weights: [-1.37329459e-14  3.00000000e-01 -6.17665557e-12]
Bias: 8.731149137020111e-11
Error: 3.8698999560438094e-11


In [29]:
# Попробуем при прочих равных увеличить выборку до 1000
n_samples = 1000

age_saver = np.random.choice(100, n_samples) + 18
wages = np.random.choice(1000000, n_samples) + 30000
education = np.random.choice(2, n_samples)
savings = wages*0.3

data = pd.DataFrame({'age_saver': age_saver, 'wages': wages, 'education': education, 'savings': savings})

from sklearn.metrics import mean_absolute_error
X = data[['age_saver', 'wages', 'education']]
y = data['savings']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['age_saver', 'wages', 'education']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

# Ошибка уменьшалась в два раза - модель стала лучше

Weights: [-2.86208244e-14  3.00000000e-01 -1.79931677e-12]
Bias: -1.4551915228366852e-10
Error: 6.004847818985581e-11


In [30]:
# Попробуем исключить из модели показатель 'wages', так как он очень сильно коррелирует
# со значением savings (я сама это задала)

X = data[['age_saver', 'education']]
y = data['savings']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['age_saver', 'education']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

# судя по изменению значения ошибки, которая очень сильно возрасла, показатель 'wages' нельзя исключать из модели

Weights: [ 1.18986096e+01 -1.22665682e+04]
Bias: 166347.64037094914
Error: 73359.08122224674


In [31]:
# Создадим новый признак - то есть мы говорим, учитывая бинальный признак образования [0,1], что возраст влияет
# на размер сбережений, только если есть образование
data['mult'] = data['age_saver'] * data['education']
data.head(5)

Unnamed: 0,age_saver,wages,education,savings,mult
0,94,803616,1,241084.8,94
1,39,125250,1,37575.0,39
2,68,505663,0,151698.9,0
3,60,668897,0,200669.1,0
4,40,828853,1,248655.9,40


In [32]:
X = data[['mult', 'wages']]
y = data['savings']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['mult', 'education']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

# Ошибка большая, модель плохо описывает данные - 
# значит возраст влияет не только, когда есть образование (предполагаем, высшее)

Weights: [9.38745144e-14 3.00000000e-01]
Bias: -2.9103830456733704e-11
Error: 160674.97230000002


In [33]:
# Добавим еще два признака  - семейное положение и количество детей
data['marital_status'] = np.random.choice(2, n_samples)
data['children'] = np.random.choice(10, n_samples)
data.head(5)

Unnamed: 0,age_saver,wages,education,savings,mult,marital_status,children
0,94,803616,1,241084.8,94,1,5
1,39,125250,1,37575.0,39,0,3
2,68,505663,0,151698.9,0,0,0
3,60,668897,0,200669.1,0,1,8
4,40,828853,1,248655.9,40,1,0


In [34]:
# Построим линейную регресиию, где признаками будут 'age_saver', 'wages', 'education', 'marital_status', 'children',
# которые будут определять размер сбережений ('savings')

from sklearn.metrics import mean_absolute_error
X = data[['age_saver', 'wages', 'education','marital_status','children']]
y = data['savings']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['age_saver', 'wages', 'education','marital_status','children']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

# модель хорошо описывает данные, ошибка (Error) очень маленькая, но больше, чем в первой регрессии

Weights: [-2.87968379e-14  3.00000000e-01 -1.82056047e-12  8.62071560e-13
  4.84647251e-14]
Bias: -2.9103830456733704e-11
Error: 3.1781382858753207e-11


In [36]:
# Можно изменить параметры: например, брать выборку по возрасту от 35 лет, и уровень заработной платы от 100 000 у.е.

n_samples = 1000
age_saver = np.random.choice(100, n_samples) + 35
wages = np.random.choice(1000000, n_samples) + 100000
education = np.random.choice(2, n_samples)
savings = wages*0.3

data = pd.DataFrame({'age_saver': age_saver, 'wages': wages, 'education': education, 'savings': savings})

from sklearn.metrics import mean_absolute_error
X = data[['age_saver', 'wages', 'education']]
y = data['savings']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['age_saver', 'wages', 'education']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

# данная модель лучше предыдущих описывает данные, ошибка (Error) очень маленькая

Weights: [ 9.26566881e-14  3.00000000e-01 -1.40926671e-12]
Bias: -2.3283064365386963e-10
Error: 9.940777090378105e-11
