# Исследование данных. Продолжение


# Часть 1. Файловая

In [4]:
import pandas as pd
import numpy as np

pd.set_option('display.float_format', lambda x: '%.3f' % x)

In [5]:
# В интерпретаторе Python мы можем перемещаться по директориям нашей операционной системы, 
# подобно тому, как мы ходим по папочкам в "проводнике" виндоус или файндере MacOS

# Но происходит это не так тривиально -- вместо кнопок будем использовать пару команд из стандартной библиотеки os
# Для начала -- загрузим ее к себе в исполняемую среду. 
import os

In [6]:
# командой getcwd() мы можем вывести на экран текущую директорию, чтобы понять где мы
# cwd = current working directory

os.getcwd()

'C:\\Users\\User\\Downloads\\Python'

In [7]:
# Отсюда мы можем забрать наш уже привычный файл HRDataset_v14, обратившись к нему. 
# Мы ведь знаем что он внутри соседней директории "2":

df_hr = pd.read_csv('HRDataset_v14.csv')

In [8]:
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression

from matplotlib import pyplot

In [9]:
pd.options.display.max_columns = 999

In [10]:
df_hr.tail()

Unnamed: 0,Employee_Name,EmpID,MarriedID,MaritalStatusID,GenderID,EmpStatusID,DeptID,PerfScoreID,FromDiversityJobFairID,Salary,Termd,PositionID,Position,State,Zip,DOB,Sex,MaritalDesc,CitizenDesc,HispanicLatino,RaceDesc,DateofHire,DateofTermination,TermReason,EmploymentStatus,Department,ManagerName,ManagerID,RecruitmentSource,PerformanceScore,EngagementSurvey,EmpSatisfaction,SpecialProjectsCount,LastPerformanceReview_Date,DaysLateLast30,Absences
306,"Woodson, Jason",10135,0,0,1,1,5,3,0,65893,0,20,Production Technician II,MA,1810,05/11/85,M,Single,US Citizen,No,White,7/7/2014,,N/A-StillEmployed,Active,Production,Kissy Sullivan,20.0,LinkedIn,Fully Meets,4.07,4,0,2/28/2019,0,13
307,"Ybarra, Catherine",10301,0,0,0,5,5,1,0,48513,1,19,Production Technician I,MA,2458,05/04/82,F,Single,US Citizen,No,Asian,9/2/2008,9/29/2015,Another position,Voluntarily Terminated,Production,Brannon Miller,12.0,Google Search,PIP,3.2,2,0,9/2/2015,5,4
308,"Zamora, Jennifer",10010,0,0,0,1,3,4,0,220450,0,6,CIO,MA,2067,08/30/79,F,Single,US Citizen,No,White,4/10/2010,,N/A-StillEmployed,Active,IT/IS,Janet King,2.0,Employee Referral,Exceeds,4.6,5,6,2/21/2019,0,16
309,"Zhou, Julia",10043,0,0,0,1,3,3,0,89292,0,9,Data Analyst,MA,2148,02/24/79,F,Single,US Citizen,No,White,3/30/2015,,N/A-StillEmployed,Active,IT/IS,Simon Roup,4.0,Employee Referral,Fully Meets,5.0,3,5,2/1/2019,0,11
310,"Zima, Colleen",10271,0,4,0,1,5,3,0,45046,0,19,Production Technician I,MA,1730,08/17/78,F,Widowed,US Citizen,No,Asian,9/29/2014,,N/A-StillEmployed,Active,Production,David Stanley,14.0,LinkedIn,Fully Meets,4.5,5,0,1/30/2019,0,2


In [11]:
df_hr['State'].nunique()

28

Разобьем нашу выборку на пространство признаков (X) и ответов (y)

In [12]:
X = df_hr[['MarriedID', 'MaritalStatusID', 'DeptID', 'PerfScoreID', 'PositionID', 'EmpSatisfaction', 'SpecialProjectsCount']]
y = df_hr[['Salary']]

In [13]:
# В объекте X у нас оказываются признаки

X

Unnamed: 0,MarriedID,MaritalStatusID,DeptID,PerfScoreID,PositionID,EmpSatisfaction,SpecialProjectsCount
0,0,0,5,4,19,5,0
1,1,1,3,3,27,3,6
2,1,1,5,3,20,3,0
3,1,1,5,3,19,5,0
4,0,2,5,3,19,4,0
...,...,...,...,...,...,...,...
306,0,0,5,3,20,4,0
307,0,0,5,1,19,2,0
308,0,0,3,4,6,5,6
309,0,0,3,3,9,3,5


In [14]:
# в объекте 'y' у нас оказываются ответы для этих признаков

y

Unnamed: 0,Salary
0,62506
1,104437
2,64955
3,64991
4,50825
...,...
306,65893
307,48513
308,220450
309,89292


In [15]:
from sklearn.model_selection import train_test_split

In [16]:
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size = 0.2, random_state=42)


# Посмотрим каков у нас оказался размер объектов в трейне и тесте
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(248, 7)
(63, 7)
(248, 1)
(63, 1)


In [17]:
Y_test

Unnamed: 0,Salary
290,88976
9,50178
57,83552
60,65729
25,103613
...,...
195,74417
210,68829
224,46799
158,66074


# Часть 2. Моделируем

In [18]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

LinearRegression()

В этот момент за кадром обучилась небольшая модель линейной регрессии. 

Эта модель использовала зарплаты группы train (Y_train) как ответы и решила внутри себя систему линейных уравнений, назначив нашим признакам (X_train) некоторые веса. 

In [19]:
# посмотрим, какие из наших признаков оказались наиболее значимыми для определения зарплаты на объектах
importance = lin_model.coef_

print(importance)

[[ 1517.74204556 -1347.40107733 -2866.59535406  2891.55636358
   -182.22564328   698.45118922  3542.27308623]]


In [20]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

In [21]:
# Определим функцию оценки ошибки получившейся модели:

def model_access(lin_model, X_train, X_test, Y_train, Y_test):

    # model evaluation for training set
    y_train_predict = lin_model.predict(X_train)
    rmse = (np.sqrt(mean_squared_error(Y_train, y_train_predict)))
    r2 = r2_score(Y_train, y_train_predict)

    
    print("\n")
    print("The model performance for training set")
    print("--------------------------------------")
    print('RMSE is {}'.format(rmse))
    print('R2 score is {}'.format(r2))
    print("--------------------------------------")
    print("\n")

    
    # model evaluation for testing set
    y_test_predict = lin_model.predict(X_test)
    rmse = (np.sqrt(mean_squared_error(Y_test, y_test_predict)))
    r2 = r2_score(Y_test, y_test_predict)

    print("The model performance for testing set")
    print("--------------------------------------")
    print('RMSE is {}'.format(rmse))
    print('R2 score is {}'.format(r2))

## Оценка 

Попробуем оценить, насколько наша модель хороша. 

По канону оценку следует проводить на двух выборках: на той, на которой модель тренировалась (X_train, Y_train), и на той, которую модель не видела совсем (X_test, Y_test).

In [22]:
model_access(lin_model, X_train, X_test, Y_train, Y_test)



The model performance for training set
--------------------------------------
RMSE is 21191.638523978876
R2 score is 0.2295980192727235
--------------------------------------


The model performance for testing set
--------------------------------------
RMSE is 22109.817459972404
R2 score is 0.396060686220037


In [23]:
X_test

Unnamed: 0,MarriedID,MaritalStatusID,DeptID,PerfScoreID,PositionID,EmpSatisfaction,SpecialProjectsCount
290,0,2,5,3,17,3,0
9,0,2,3,3,14,5,6
57,1,1,3,3,9,3,6
60,0,0,6,3,21,4,0
25,0,0,3,3,30,5,7
...,...,...,...,...,...,...,...
195,0,3,5,3,20,5,0
210,0,0,6,3,3,5,0
224,0,2,5,3,19,4,0
158,0,2,5,3,20,3,0


# Часть 3. Как можно улучшить реализацию?


В датасете остались еще фичи, которые позволяют улучшить результат: повысить R2 (чем ближе к 1, тем лучше) и понизить RMSE (чем меньше, тем лучше). Добавьте их в модель таким образом, чтобы RMSE на тестовой выборке оказался ниже уровня 22000, а R2 оказался выше 0.43. Какие фичи оказались самыми значимыми? Укажите их в файле. Как вы думаете, почему? Получившийся файл с описанными фичами и реализацией в коде опубликуйте у себя в GitHub. Файл должен полностью воспроизводиться при скачивании, ячейки должны в явном виде выводить RMSE и R2.

In [39]:
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler

In [40]:
# Производим разметку дополнительных фичей

temp_df = pd.DataFrame(df_hr[['RaceDesc', 'ManagerID']])
labelencoder = LabelEncoder()

df_hr['RaceID'] = labelencoder.fit_transform(temp_df['RaceDesc'])
df_hr['ManagerID'] = labelencoder.fit_transform(temp_df['ManagerID'])

In [41]:
def scaling(df):
    scaler = MinMaxScaler() 
    data_scaled = scaler.fit_transform(df)
    df_scaled = pd.DataFrame(data_scaled)
    return df_scaled

In [42]:
# Добавляем их в модель

X = df_hr[['MaritalStatusID', 'PerfScoreID', 'SpecialProjectsCount',  'PositionID', 'EmpSatisfaction', 'RaceID', 'ManagerID']]
y = df_hr[['Salary']]

X_scaled = scaling(X)

X_train, X_test, Y_train, Y_test = train_test_split(X_scaled, y, test_size = 0.2, random_state=90)

lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

LinearRegression()

In [43]:
importance = lin_model.coef_
print(importance)

[[ -5223.14798934  10088.1201112   27368.18150599  -4874.91243677
    5902.2378567   -5047.08117778 -26301.76967966]]


In [44]:
# Измеряем её качество
model_access(lin_model, X_train, X_test, Y_train, Y_test)



The model performance for training set
--------------------------------------
RMSE is 21268.45842755048
R2 score is 0.29150484725117
--------------------------------------


The model performance for testing set
--------------------------------------
RMSE is 17106.084335197727
R2 score is 0.5125024946854502


## Получено: RMSE - 17106, R2 - 0.51

Наиболее значимые для модели фичи: количество специальных проектов, менеджер, оценка производительности.