# Проблема качества данных

Необходимо запустить практическую часть занятия, и посмотреть самому то, о чём говорили на лекции. По образу практики, попробуйте создать искусственный датасет с лишними столбцами. Целевую метку, при правильной обработке данных, формируйте таким образом, чтобы без затруднений её смогла описать линейная модель. Ориентируйтесь на то, что было показано во время занятия, и каждый шаг описывайте в markdown. Здесь важно видеть ваш ход мысли. Не бойтесь ошибиться или написать не то. Данное задание не имеет какого-то “правильного” решения. Цель - достичь базового понимания проблемы. Чем больше вы фантазируете, тем лучше :) Тем не менее, старайтесь представить те ситуации, которые по-вашему мнению могли бы быть в реальных данных.

In [25]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

Пример. В магазине имеется отделочный материал (гипсокартон еще к-л плиты для отделки). У плит есть характеристики: длина, ширина, толщина и влагостойкость. Стоимость 1 м3 плиты 3 у.е., наличие влагостойкого покрытия 50 у.е., магазин добавляет к стоимости плиты 93 у.е. комиссии.

In [26]:
n_samples = 1000

length = np.random.choice(500, n_samples) + 20
width = np.random.choice(100, n_samples) + 15
thickness = np.random.choice(5, n_samples) / 10
moisture_resistance = np.random.choice([0, 1], n_samples)

price = length * width * thickness * 3 + moisture_resistance * 50 + 93

data = pd.DataFrame({ 'length': length, 'width': width, 'thickness' : thickness, 'moisture resistance' : moisture_resistance, 'price': price})
data.head(5)

Unnamed: 0,length,width,thickness,moisture resistance,price
0,245,103,0.0,1,143.0
1,228,52,0.3,1,10813.4
2,195,82,0.1,1,4940.0
3,348,20,0.0,0,93.0
4,121,39,0.3,1,4390.1


In [27]:
X = data[['length', 'width', 'thickness', 'moisture resistance']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['length', 'width', 'thickness', 'moisture resistance']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [ 4.12866681e+01  1.75888668e+02  5.42654215e+04 -6.65382523e+01]
Bias: -22777.85481491086
Error: 4249.92650108966


Создадим новый признак, опираясь на догадку, что цена зависит от размера плиты

In [28]:
data['size'] = data['length'] * data['width'] * data['thickness']
data.head(5)

Unnamed: 0,length,width,thickness,moisture resistance,price,size
0,245,103,0.0,1,143.0,0.0
1,228,52,0.3,1,10813.4,3556.8
2,195,82,0.1,1,4940.0,1599.0
3,348,20,0.0,0,93.0,0.0
4,121,39,0.3,1,4390.1,1415.7


Обучаем модель

In [29]:
X = data[['size']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['size']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [2.99961844]
Bias: 119.50562378757604
Error: 24.902712579643715


Делаем предположение, что цена зависит и от наличия влагоустойчивости

In [30]:
X = data[['size', 'moisture resistance']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['size', 'moisture resistance']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [ 3. 50.]
Bias: 93.00000000000364
Error: 5.38668132321618e-12


Коеффициенты предсказаны, ошибка снизилась