#### Домашнее задание "Проблема качества данных"

Необходимо запустить практическую часть занятия, и посмотреть самому то, о чём говорили на лекции. По образу практики, попробуйте создать искусственный датасет с лишними столбцами. Целевую метку, при правильной обработке данных, формируйте таким образом, чтобы без затруднений её смогла описать линейная модель. Ориентируйтесь на то, что было показано во время занятия, и каждый шаг описывайте в markdown. Здесь важно видеть ваш ход мысли. Не бойтесь ошибиться или написать не то. Данное задание не имеет какого-то “правильного” решения. Цель - достичь базового понимания проблемы. Чем больше вы фантазируете, тем лучше :) Тем не менее, старайтесь представить те ситуации, которые по-вашему мнению могли бы быть в реальных данных. Успеха!

#### Раздел с лекции

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns

from sklearn.linear_model import LinearRegression

In [4]:
# Создаём сэмпл
n_samples = 1000

age_owner = np.random.choice(90, n_samples) + 21
length = np.random.choice(120, n_samples) + 15
width = np.random.choice(80, n_samples) + 10

price = length * width * 100 + 126

data = pd.DataFrame({'age_owner': age_owner, 'length': length, 'width': width, 'price': price})
data.head(5)

Unnamed: 0,age_owner,length,width,price
0,57,98,25,245126
1,35,55,18,99126
2,45,37,89,329426
3,69,118,47,554726
4,29,23,12,27726


In [5]:
from sklearn.metrics import mean_absolute_error

X = data[['age_owner', 'length', 'width']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['age_owner', 'length', 'width']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [ -10.61912965 4903.57871943 7543.66266031]
Bias: -367735.96804473636
Error: 58699.09911724603


In [6]:
y.median()

301726.0

In [5]:
X = data[['length', 'width']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['length', 'width']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [4981.48918327 7166.01408217]
Bias: -354745.91399764706
Error: 60853.68307749027


In [6]:
# Создаем новый признак
data['mult'] = data['length'] * data['width']
data.head(5)

Unnamed: 0,age_owner,length,width,price,mult
0,49,25,35,87626,875
1,42,15,56,84126,840
2,46,124,71,880526,8804
3,54,64,17,108926,1088
4,70,87,72,626526,6264


In [7]:
X = data[['mult']]
y = data['price']
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(data[['mult']])
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [100.]
Bias: 126.0
Error: 0.0


#### Пробуем сами

#### Вернет ли кредит заемщик?

In [8]:
# Создадим таблицу заемщиков

data = {'The borrower': np.array(['Oleg', 'Aleksey', 'Viktoria']), 
        'Salary': np.array([125000, 175000, 225000]),
        'Payment': np.array([5000, 60000, 85000])}
data

{'The borrower': array(['Oleg', 'Aleksey', 'Viktoria'], dtype='<U8'),
 'Salary': array([125000, 175000, 225000]),
 'Payment': array([ 5000, 60000, 85000])}

In [9]:
df = pd.DataFrame(data)
df

Unnamed: 0,The borrower,Salary,Payment
0,Oleg,125000,5000
1,Aleksey,175000,60000
2,Viktoria,225000,85000


In [11]:
r = 25000
w_0 = -5000.0 / r
w_1 = 1.0 / r
w_2 = -3.0 / r

df['f(w,x)'] = w_0 + df['Salary'] * w_1 + df['Payment'] * w_2
df

Unnamed: 0,The borrower,Salary,Payment,"f(w,x)"
0,Oleg,125000,5000,4.2
1,Aleksey,175000,60000,-0.4
2,Viktoria,225000,85000,-1.4


In [12]:
decision = []
for i in df['f(w,x)']:
    if i>0:
        dec = 'Approved'
        decision.append(dec)
    else:
        dec = 'Refusal'
        decision.append(dec)
        
df['Decision'] = decision
df

Unnamed: 0,The borrower,Salary,Payment,"f(w,x)",Decision
0,Oleg,125000,5000,4.2,Approved
1,Aleksey,175000,60000,-0.4,Refusal
2,Viktoria,225000,85000,-1.4,Refusal


In [13]:
# Итак, наш рабочий датасет будет таким

tabl = df[['The borrower', 'Salary', 'Payment', 'Decision']]
tabl

Unnamed: 0,The borrower,Salary,Payment,Decision
0,Oleg,125000,5000,Approved
1,Aleksey,175000,60000,Refusal
2,Viktoria,225000,85000,Refusal


In [27]:
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_absolute_error

# зададим такие признаки X
X = tabl[['The borrower', 'Salary', 'Payment']]
y = tabl['Decision']

# X имеет категориальный признак 'The borrower', переведем его в количественные данные
# масштабирование здесь необязательно
X = pd.get_dummies(X)

# наша целевая переменная тоже является бинарной категориальной, переведем с помощью LabelEncoder() в "0" и "1"
le = LabelEncoder()
y = pd.Series(data = le.fit_transform(y))

X

Unnamed: 0,Salary,Payment,The borrower_Aleksey,The borrower_Oleg,The borrower_Viktoria
0,125000,5000,0,1,0
1,175000,60000,1,0,0
2,225000,85000,0,0,1


In [20]:
y

0    0
1    1
2    1
dtype: int32

In [28]:
# построим модель, обучим и выведем веса, свободный коэффициент и MAE (ошибку линейной регрессии)
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(X)
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-1.66666664e-05  3.33333330e-05  3.11111108e-09 -1.38888887e-09
 -1.72222220e-09]
Bias: 1.9166666380833348
Error: 7.401486830834377e-17


Пока веса далеко от истинных, большая ошибка (у нас и данных очень мало).
Если мы уберем из X признак 'The borrower', то, предположительно, это мало изменит ситуацию. Попробуем добавить признак (линейно зависимый от имеющихся) - расчет платежеспособности.

In [29]:
tabl['f(w,x)'] = w_0 + df['Salary'] * w_1 + df['Payment'] * w_2
tabl

Unnamed: 0,The borrower,Salary,Payment,Decision,"f(w,x)"
0,Oleg,125000,5000,Approved,4.2
1,Aleksey,175000,60000,Refusal,-0.4
2,Viktoria,225000,85000,Refusal,-1.4


In [32]:
# теперь зададим такие признаки X  (y остается прежним)
X = tabl[['Salary', 'Payment', 'f(w,x)']]
X

Unnamed: 0,Salary,Payment,"f(w,x)"
0,125000,5000,4.2
1,175000,60000,-0.4
2,225000,85000,-1.4


In [33]:
# построим модель, обучим и выведем веса, свободный коэффициент и MAE (ошибку линейной регрессии)
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(X)
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-1.66666665e-05  3.33333328e-05 -4.66666659e-09]
Bias: 1.916666665733334
Error: 3.7007434154171886e-16


Ситуация лучше. Попробуем из признаков оставить только 'f(w,x)'

In [38]:
X = tabl[['f(w,x)']]
X

Unnamed: 0,"f(w,x)"
0,4.2
1,-0.4
2,-1.4


In [39]:
# построим модель, обучим и выведем веса, свободный коэффициент и MAE (ошибку линейной регрессии)
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(X)
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-0.19058296]
Bias: 0.8191330343796712
Error: 0.0697558545092178


Почти хорошо. Наш пример взят так, что тут неочевидны сразу веса.., но принцип понятен.
Добавим к нашим признакам еще столбец (признак) вероятности. Посмотрим на результат.

In [45]:
import math

def logit(f):
    return 1/(1+math.exp(-f))

proba = []
for i in tabl['f(w,x)']:
    proba.append(round(logit(i), 2))
tabl['Probability'] = proba
tabl

Unnamed: 0,The borrower,Salary,Payment,Decision,"f(w,x)",Probability
0,Oleg,125000,5000,Approved,4.2,0.99
1,Aleksey,175000,60000,Refusal,-0.4,0.4
2,Viktoria,225000,85000,Refusal,-1.4,0.2


In [48]:
X = tabl[['f(w,x)', 'Probability']]
X

Unnamed: 0,"f(w,x)",Probability
0,4.2,0.99
1,-0.4,0.4
2,-1.4,0.2


In [49]:
# построим модель, обучим и выведем веса, свободный коэффициент и MAE (ошибку линейной регрессии)
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(X)
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-0.60606061  3.03030303]
Bias: -0.45454545454545847
Error: 3.1456319031046104e-16


А так хуже. А попробуем оставить только признак 'Probability'

In [51]:
X = tabl[['Probability']]
X

Unnamed: 0,Probability
0,0.99
1,0.4
2,0.2


In [52]:
# построим модель, обучим и выведем веса, свободный коэффициент и MAE (ошибку линейной регрессии)
reg = LinearRegression().fit(X, y)
print('Weights: {}'.format(reg.coef_))
print('Bias: {}'.format(reg.intercept_))

pred_values = reg.predict(X)
print('Error: {}'.format(mean_absolute_error(pred_values, y)))

Weights: [-1.36336692]
Bias: 1.389251136139103
Error: 0.1040637555160377


Получилось неплохо, но лучше был вариант X = tabl[['f(w,x)']]