# Практика. Анализ результатов линейной регрессии

## Цели практической работы

Научиться строить модель линейной регрессии и производить отбор признаков.

## Что входит в практическую работу

- Загрузить данные и ознакомиться с ними.
- Реализовать цикл отбора переменных.
- Реализовать построение модели с помощью библиотеки Scikit-learn.
- Получить качество модели с помощью MSE, MAE, R^2.
- Сравнить полученные модели и сделать выводы.

Задание не нужно сдавать на проверку. После его выполнения сверьтесь с ответами ниже.

Пусть у нас имеется некоторый набор данных `Salary_Data.csv` о заработной плате сотрудников одной специальности.

В этих данных:
- Salary — заработная плата.
- YearsExperience — опыт работы.
- Floor — этаж, на котором работает сотрудник.
- Type — тип работы: офлайн или онлайн.

Постройте модель линейной регрессии зависимости Salary от остальных параметров. 

Реализуйте построение модели линейной регрессии, используя только одну переменную, и посмотрите на качество модели. Сделайте так циклом по всем переменным. Далее, наоборот, реализуйте построение модели без участия каждой переменной по очереди.

На каждом шаге проверьте качество модели с помощью MAE, MSE, R^2. Сделайте выводы о важности переменных.

## Задача

In [8]:
# подключить необходимые библиотеки
import numpy as np
import pandas as pd

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

# Ваш код здесь

In [5]:
# считать данные
df = pd.read_csv('5.1 Salary_Data.csv')

RS = 42
train, test = train_test_split(df, test_size=0.2, random_state=RS)
# Ваш код здесь

In [7]:
features = ['YearsExperience', 'Floor', 'Type']
target = 'Salary'

In [12]:
# обучить модель линейной регрессии циклом для каждой отдельной переменной и 
# проверить качество модели на обучающей и тестовой выборках с помощью MAE, MSE, R^2

# Ваш код здесь

for feature in features:
    model = LinearRegression()
    model.fit(train[[feature]], train[target])
    pred_train = model.predict(train[[feature]])
    pred_test = model.predict(test[[feature]])
    print(feature)
    print(f'MAE: train: {mean_absolute_error(train[target], pred_train)}, test: {mean_absolute_error(test[target], pred_test)}')
    print(f'MSE: train: {mean_squared_error(train[target], pred_train)}, test: {mean_squared_error(test[target], pred_test)}')
    print(f'R^2: train: {r2_score(train[target], pred_train)}, test: {r2_score(test[target], pred_test)}')


YearsExperience
MAE: train: 12480.149365357225, test: 16399.869219041168
MSE: train: 330143844.6411523, test: 590409929.2593347
R^2: train: 0.5748556624617882, test: 0.19313309601385642
Floor
MAE: train: 23345.420613509195, test: 26060.968824940046
MSE: train: 773422703.2415568, test: 1135299210.6460478
R^2: train: 0.004021161854314448, test: -0.5515243118303406
Type
MAE: train: 20597.565476190477, test: 33842.62857142857
MSE: train: 663707568.989881, test: 1525871109.8101358
R^2: train: 0.14530735823954433, test: -1.0852882670840343


In [13]:
# обучить модель линейной регрессии циклом при исключении по очереди каждой отдельной переменной и 
# проверить качество модели на обучающей и тестовой выборках с помощью MAE, MSE, R^2

# Ваш код здесь

for feature in features:
    model = LinearRegression()
    model.fit(train[features].drop(columns=[feature]), train[target])
    pred_train = model.predict(train[features].drop(columns=[feature]))
    pred_test = model.predict(test[features].drop(columns=[feature]))
    print(feature)
    print(f'MAE: train: {mean_absolute_error(train[target], pred_train)}, test: {mean_absolute_error(test[target], pred_test)}')
    print(f'MSE: train: {mean_squared_error(train[target], pred_train)}, test: {mean_squared_error(test[target], pred_test)}')
    print(f'R^2: train: {r2_score(train[target], pred_train)}, test: {r2_score(test[target], pred_test)}')


YearsExperience
MAE: train: 20642.41597570606, test: 33038.42210144928
MSE: train: 653695411.7337843, test: 1480926423.7493114
R^2: train: 0.15820056231729507, test: -1.0238658927380944
Floor
MAE: train: 12497.161015404068, test: 17163.304399610464
MSE: train: 327499792.2818012, test: 597383262.6831645
R^2: train: 0.5782605537144314, test: 0.18360318862017977
Type
MAE: train: 12186.464984695054, test: 16294.37417723282
MSE: train: 326575784.07967347, test: 587063096.5210887
R^2: train: 0.5794504497592918, test: 0.19770694959564783


In [None]:
# какие выводы можно сделать?

|

|

## Ответы для самостоятельной проверки

In [None]:
# подключить библиотеки
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score

In [None]:
# считать данные
df = pd.read_csv('Salary_Data.csv')

In [None]:
df.head()

Unnamed: 0,YearsExperience,Floor,Type,Salary
0,1.1,18,1,39343.0
1,1.3,17,1,46205.0
2,1.5,10,0,37731.0
3,2.0,13,0,73525.0
4,2.2,1,0,39891.0


In [None]:
df.columns

Index(['YearsExperience', 'Floor', 'Type', 'Salary'], dtype='object')

In [None]:
var = ['YearsExperience', 'Floor', 'Type']

In [None]:
# обучить модель линейной регрессии циклом для каждой отдельной переменной

for i in var:
  print('-'*10, i, '-'*10)
  train_X = df[[i]]
  train_y = df[['Salary']]

  model = LinearRegression() 
  model.fit(train_X, train_y)

  y_predict_train = model.predict(train_X)

  train_mse = mean_squared_error(train_y, y_predict_train)
  print("Train MSE: {}".format(train_mse))

  train_mae = mean_absolute_error(train_y, y_predict_train)
  print("Train MAE: {}".format(train_mae))

  train_r2 = r2_score(train_y, y_predict_train)
  print("Train R2: {}".format(train_r2))
  print()

---------- YearsExperience ----------
Train MSE: 370699406.1026973
Train MAE: 12757.560541048684
Train R2: 0.5564562952985015

---------- Floor ----------
Train MSE: 826347625.1108369
Train MAE: 24740.38819545235
Train R2: 0.011270908506916255

---------- Type ----------
Train MSE: 800564520.9925923
Train MAE: 24549.23703703704
Train R2: 0.0421205223208172



In [None]:
# обучить модель линейной регрессии циклом при исключении по очереди каждой отдельной переменной

for i in var:
  var_new = var.copy()
  var_new.remove(i)

  print('-'*10, ' + '.join(var_new), '-'*10)
  train_X = df[var_new]
  train_y = df[['Salary']]

  model = LinearRegression() 
  model.fit(train_X, train_y)

  y_predict_train = model.predict(train_X)

  train_mse = mean_squared_error(train_y, y_predict_train)
  print("Train MSE: {}".format(train_mse))

  train_mae = mean_absolute_error(train_y, y_predict_train)
  print("Train MAE: {}".format(train_mae))

  train_r2 = r2_score(train_y, y_predict_train)
  print("Train R2: {}".format(train_r2))
  print()

---------- Floor + Type ----------
Train MSE: 782619552.2721326
Train MAE: 23575.642333308988
Train R2: 0.06359176769103558

---------- YearsExperience + Type ----------
Train MSE: 368997405.9785344
Train MAE: 12720.404245845155
Train R2: 0.5584927470112526

---------- YearsExperience + Floor ----------
Train MSE: 367035161.2243482
Train MAE: 12521.735323486337
Train R2: 0.5608405827333355



Данные показывают, что наилучшая модель получается при использовании переменной YearsExperience, при этом добавление переменных Type или Floor вдобавок к переменной YearsExperience не даёт значительного прироста к качеству модели. Таким образом, важная переменная — YearsExperience, а переменные Type и Floor не важные.