# Домашнее задание "Проблема качества данных"

Необходимо запустить практическую часть занятия, и посмотреть самому то, о чём говорили на лекции. 
По образу практики, попробуйте создать искусственный датасет с лишними столбцами. 
Целевую метку, при правильной обработке данных, формируйте таким образом, 
чтобы без затруднений её смогла описать линейная модель. 
Ориентируйтесь на то, что было показано во время занятия, и каждый шаг описывайте в markdown. 
Здесь важно видеть ваш ход мысли. Не бойтесь ошибиться или написать не то. 
Данное задание не имеет какого-то “правильного” решения. Цель - достичь базового понимания проблемы. 
Чем больше вы фантазируете, тем лучше :) 
Тем не менее, старайтесь представить те ситуации, которые по-вашему мнению могли бы быть в реальных данных.
Успеха!

In [21]:
import pandas as pd
import numpy as np 

Количество объектов = 1000

In [22]:
n_samples = 1000

Создаем признак - количество лет опыта

In [23]:
years_of_exp = np.random.choice(20, n_samples)

Создаем признак - предыдущая зарплата человека

In [24]:
previous_salary = np.random.randint(200, 10000, n_samples) + 54

Создаем признак - количество детей у человека

In [25]:
num_of_kids = np.random.randint(0, 5, n_samples)

Создаем признак - вес человека

In [26]:
weight = np.random.randint(40, 150, n_samples) + 10

Создаем целевую переменную, которая зависит только от размера предыдущей зарплаты и количества лет опыта

In [27]:
salary = 1.2 * previous_salary + years_of_exp **2 + 77

Создаем еще один признак - пол человека

In [28]:
sex = []
for i in range(n_samples):
    if np.random.randint(1, n_samples) > i:
        sex.append('man')
    else:
        sex.append('woman')
sex = np.array(sex)

Создаем датафрейм с признаками и целевой переменной "salary" (зарплата на новой работе)

In [30]:
data = pd.DataFrame({'years_of_exp': years_of_exp, 
                     'previous_salary': previous_salary, 
                     'num_of_kids': num_of_kids,
                     'weight': weight,
                     'sex': sex,
                     'salary': salary
                    })
data.head(50)

Unnamed: 0,years_of_exp,previous_salary,num_of_kids,weight,sex,salary
0,2,2632,4,110,man,3239.4
1,5,6925,2,72,man,8412.0
2,0,9270,3,92,man,11201.0
3,18,8709,3,83,man,10851.8
4,2,9251,2,65,man,11182.2
5,11,383,4,50,man,657.6
6,1,7687,2,65,man,9302.4
7,4,9428,3,87,man,11406.6
8,17,4315,2,157,man,5544.0
9,12,3911,2,132,man,4914.2


In [31]:
from sklearn.linear_model import LinearRegression

Построим модель на большей части признаков 

In [None]:
from sklearn.metrics import mean_absolute_error

X = data[['years_of_exp', 'previous_salary', 'weight', 'num_of_kids']]
y = data['salary']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['years_of_exp', 'previous_salary', 'weight', 'num_of_kids']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Попробуем оставить только 2 признака (годы опыта и предыдущая зарплата)

In [37]:
X = data[['previous_salary', 'years_of_exp']]
y = data['salary']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['previous_salary', 'years_of_exp']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [ 1.20005519 19.0719109 ]
Bias: 19.345200855619623
Error: 25.42459956678574


Добавим синтетический признак

In [None]:
data['mult'] = data['years_of_exp'] * data['years_of_exp']

Добавим к модели признак количества лет опыта в квадрате

In [42]:
X = data[['previous_salary', 'years_of_exp', 'mult']]
y = data['salary']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['previous_salary', 'years_of_exp', 'mult']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [ 1.20000000e+00 -2.39808173e-14  1.00000000e+00]
Bias: 77.00000000000455
Error: 2.182730440836167e-12


Значение ошибки очень низкое, bias соответствует заданному изначально значению шума, 
признак количества лет опыта почти абсолютно никак не влияет на целевую переменную 

Попробуем убрать признак количество лет опыта

In [43]:
X = data[['previous_salary', 'mult']]
y = data['salary']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['previous_salary', 'mult']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [1.2 1. ]
Bias: 77.00000000000273
Error: 1.7003571883833502e-12


Ошибка стала еще меньше