# Рубежный контроль 2
### Яковенко Юлия РТ5-61Б

**Задание:**

Для заданного набора данных построить модели классификации или регрессии (в зависимости от конкретной задачи, рассматриваемой в наборе данных). Для построения моделей используйте методы дерево решений и градиентный бустинг. Оцените качество моделей на основе подходящих метрик качества (не менее двух метрик). Для построения моделей необходимо выполнить требуемую предобработку данных: заполнение пропусков, кодирование категориальных признаков, и т.д.

При решении задач можно выбирать любое подмножество признаков из приведенного набора данных.

**Набор данных:** [Human Resources Data Set](https://www.kaggle.com/rhuebner/human-resources-data-set)

## Загрузка и подготовка данных

In [57]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import  mean_absolute_error, mean_squared_error, r2_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

In [41]:
data = pd.read_csv('HRDataset_v14.csv', sep=",")

In [42]:
data.head()

Unnamed: 0,Employee_Name,EmpID,MarriedID,MaritalStatusID,GenderID,EmpStatusID,DeptID,PerfScoreID,FromDiversityJobFairID,Salary,...,ManagerName,ManagerID,RecruitmentSource,PerformanceScore,EngagementSurvey,EmpSatisfaction,SpecialProjectsCount,LastPerformanceReview_Date,DaysLateLast30,Absences
0,"Adinolfi, Wilson K",10026,0,0,1,1,5,4,0,62506,...,Michael Albert,22.0,LinkedIn,Exceeds,4.6,5,0,1/17/2019,0,1
1,"Ait Sidi, Karthikeyan",10084,1,1,1,5,3,3,0,104437,...,Simon Roup,4.0,Indeed,Fully Meets,4.96,3,6,2/24/2016,0,17
2,"Akinkuolie, Sarah",10196,1,1,0,5,5,3,0,64955,...,Kissy Sullivan,20.0,LinkedIn,Fully Meets,3.02,3,0,5/15/2012,0,3
3,"Alagbe,Trina",10088,1,1,0,1,5,3,0,64991,...,Elijiah Gray,16.0,Indeed,Fully Meets,4.84,5,0,1/3/2019,0,15
4,"Anderson, Carol",10069,0,2,0,5,5,3,0,50825,...,Webster Butler,39.0,Google Search,Fully Meets,5.0,4,0,2/1/2016,0,2


In [43]:
# размер набора данных
data.shape

(311, 36)

In [25]:
df = data[["EmpID", "MarriedID", "MaritalStatusID", "GenderID", "EmpStatusID", 
      "DeptID", "PerfScoreID", "FromDiversityJobFairID", "Salary"]]

In [26]:
df.head()

Unnamed: 0,EmpID,MarriedID,MaritalStatusID,GenderID,EmpStatusID,DeptID,PerfScoreID,FromDiversityJobFairID,Salary
0,10026,0,0,1,1,5,4,0,62506
1,10084,1,1,1,5,3,3,0,104437
2,10196,1,1,0,5,5,3,0,64955
3,10088,1,1,0,1,5,3,0,64991
4,10069,0,2,0,5,5,3,0,50825


In [28]:
# типы колонок
df.dtypes

EmpID                     int64
MarriedID                 int64
MaritalStatusID           int64
GenderID                  int64
EmpStatusID               int64
DeptID                    int64
PerfScoreID               int64
FromDiversityJobFairID    int64
Salary                    int64
dtype: object

In [29]:
# проверим есть ли пропущенные значения
df.isnull().sum()

EmpID                     0
MarriedID                 0
MaritalStatusID           0
GenderID                  0
EmpStatusID               0
DeptID                    0
PerfScoreID               0
FromDiversityJobFairID    0
Salary                    0
dtype: int64

In [30]:
df.shape

(311, 9)

Все признаки являются закодированными категориальными признаками, а значит нет необходимости масштабировать их. Целевой признак числовой, но его также не будем масштабировать.

In [92]:
# разделение на обучающую и тестовую выборки
y = df['Salary']
X = df.drop('Salary', axis = 1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

In [93]:
# Размер обучающей выборки
X_train.shape, y_train.shape

((217, 8), (217,))

In [94]:
# Размер тестовой выборки
X_test.shape, y_test.shape

((94, 8), (94,))

## Дерево решений

In [95]:
tree = DecisionTreeRegressor(random_state=1)

In [96]:
y_pred_tree = tree.fit(X_train, y_train).predict(X_test)

In [97]:
mae = mean_absolute_error(y_test, y_pred_tree)
mse = mean_squared_error(y_test, y_pred_tree)
r2 = r2_score(y_test, y_pred_tree)

print(f'MAE={round(mae, 3)}, MSE={round(mse, 3)}, R2={round(r2, 3)}')

MAE=16162.021, MSE=851526142.617, R2=-0.182


## Градиентный бустинг

In [98]:
gb = GradientBoostingRegressor(random_state=1)

In [99]:
y_pred_gb = gb.fit(X_train, y_train).predict(X_test)

In [100]:
mae = mean_absolute_error(y_test, y_pred_gb)
mse = mean_squared_error(y_test, y_pred_gb)
r2 = r2_score(y_test, y_pred_gb)

print(f'MAE={round(mae, 3)}, MSE={round(mse, 3)}, R2={round(r2, 3)}')

MAE=13023.676, MSE=544542320.122, R2=0.244
