# Домашнее задание "Проблема качества данных"
Необходимо запустить практическую часть занятия, и посмотреть самому то, о чём говорили на лекции. По образу практики, попробуйте создать искусственный датасет с лишними столбцами. Целевую метку, при правильной обработке данных, формируйте таким образом, чтобы без затруднений её смогла описать линейная модель. Ориентируйтесь на то, что было показано во время занятия, и каждый шаг описывайте в markdown. Здесь важно видеть ваш ход мысли. Не бойтесь ошибиться или написать не то. Данное задание не имеет какого-то “правильного” решения. Цель - достичь базового понимания проблемы. Чем больше вы фантазируете, тем лучше :) Тем не менее, старайтесь представить те ситуации, которые по-вашему мнению могли бы быть в реальных данных. Успеха!

In [1]:
import numpy as np
import pandas as pd

from sklearn.linear_model import LinearRegression

датасет состоит из колонок: возраст, количество иждивенцев, доход и траты каких-то людей

траты - целевая переменная, зависит от остальных переменных, допусти таким образом:

траты = доход - (количество иждивенцев)/возраст

In [2]:
# Создаём сэмпл
n_samples = 1000

age = np.random.choice(90, n_samples) + 21
dependent_count = np.random.choice(6, n_samples)
income = np.random.choice(200, n_samples) + 50

expenses = income - 5 * dependent_count / age - 20 + np.random.choice(10, n_samples)

data = pd.DataFrame({'age': age, 'dependent_count': dependent_count , 'income': income, 'expenses': expenses})
data.head(5)

Unnamed: 0,age,dependent_count,income,expenses
0,34,3,185,170.558824
1,37,3,191,173.594595
2,46,2,215,200.782609
3,44,4,150,136.545455
4,71,1,116,103.929577


Обучаем модель линейной регресси с учетом всех признаков

In [3]:
from sklearn.metrics import mean_absolute_error

X = data[['age', 'dependent_count', 'income']]
y = data['expenses']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['age', 'dependent_count', 'income']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [ 0.00455352 -0.17201374  0.99854565]
Bias: -15.367974135223278
Error: 2.466366319735248


In [4]:
# коэффициент детерминации
reg.score(X, y)

0.997551575094644

Расчет ошибки данной модели MAE=2,46.

Проверим как поведет себя модель, если убрать один из признаков, допустим, доход

In [5]:
X = data[['age', 'dependent_count']]
y = data['expenses']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['age', 'dependent_count']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [0.014627   0.36508702]
Bias: 130.75109203660816
Error: 49.34054793620242


In [6]:
# коэффициент детерминации сильно упал, модель предсказывает намного хуже
reg.score(X, y)

0.00016802743092514394

Расчет ошибки данной модели MAE=49.

Создадим новый признак: количество иждивенцев / возраст

In [7]:
# Создаем новый признак
data['div'] = data['dependent_count'] / data['age']
data.head(5)

Unnamed: 0,age,dependent_count,income,expenses,div
0,34,3,185,170.558824,0.088235
1,37,3,191,173.594595,0.081081
2,46,2,215,200.782609,0.043478
3,44,4,150,136.545455,0.090909
4,71,1,116,103.929577,0.014085


In [8]:
X = data[['div', 'income']]
y = data['expenses']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['div', 'income']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-7.02856576  0.99843784]
Bias: -15.153513049114082
Error: 2.4673326598269383


In [9]:
# коэффициент детерминации как в первом случае
reg.score(X, y)

0.9975501521223479