# Анализ датасета "Выгорание сотрудников" (Employee attrition dataset)

Команда: Гречаная Е., Журавлева И., Попова А., Хайруллина К. 

**Цель проекта** - изучение факторов работы, приводящих к истощению (выгоранию) сотрудников  
 
**Задачи проекта**:
1. Описание факторов работы, приводящих к истощению сотрудников (разведочный анализ данных) 
2. Предобработка данных и сокращение количества факторов 
3. Построение корреляционной матрицы для выявления зависимости между выгоранием сотрудников и факторами работы
4. Выбор значимых факторов для регрессионной модели 
4. Построение регрессионной модели для объяснения влияния факторов работы на истощение сотрудников
5. Описание результатов регрессионной модели
 
Материалы проекта хранятся на Github - https://github.com/lizagrechanaya/2020_HR_Analytics_Employee_Attrition 

## Библиотеки

In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb

## Загрузка датасета

***Через директорию в Github***

In [14]:
path = "https://raw.githubusercontent.com/lizagrechanaya/2020_HR_Analytics_Employee_Attrition/master/WA_Fn-UseC_-HR-Employee-Attrition.csv"

data = pd.read_csv(path)

In [15]:
df.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


***Через локальную папку***

In [10]:
df = pd.read_csv("D:/УЧЁБА/Магистратура 2019-2021/1 курс/Методы/WA_Fn-UseC_-HR-Employee-Attrition.csv")

In [11]:
df.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


## Описание датасета

продолжить здесь описание переменных в стиле (см. файл pandas_part01):

В файле датасете "Выгорание сотрудников" хранятся результаты вымышленного опроса IBM HR Analytics Employee Attrition & Performance.

Датасет состоит из 35 переменных, из которых ...

**Показатели в файле:**

* `gender` – пол респондента;

* `ftype` – тип елки, которую оценивал респондент;

* `height` – высота елки в сантиметрах;

* `expenses` – сумма (в рублях), которую респондент готов отдать за елку;

* `score` – оценка, которую респондент поставил елке (1 – очень плохо, 5 – отлично);

* `wish` – ответ на вопрос «Хотели бы, чтобы Вам подарили такую елку?» (да, нет).


**Сокращение факторов**

перечилить, какие и почему

Далее рассмотрим более детальное описание оставшихся показателей

## Разведочный анализ данных

In [97]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
Age                         1470 non-null int64
Attrition                   1470 non-null object
BusinessTravel              1470 non-null object
DailyRate                   1470 non-null int64
Department                  1470 non-null object
DistanceFromHome            1470 non-null int64
Education                   1470 non-null int64
EducationField              1470 non-null object
EmployeeCount               1470 non-null int64
EmployeeNumber              1470 non-null int64
EnvironmentSatisfaction     1470 non-null int64
Gender                      1470 non-null object
HourlyRate                  1470 non-null int64
JobInvolvement              1470 non-null int64
JobLevel                    1470 non-null int64
JobRole                     1470 non-null object
JobSatisfaction             1470 non-null int64
MaritalStatus               1470 non-null object
MonthlyIncome         

In [7]:
df.describe()

Unnamed: 0,Age,DailyRate,DistanceFromHome,Education,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,HourlyRate,JobInvolvement,JobLevel,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,...,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,36.92381,802.485714,9.192517,2.912925,1.0,1024.865306,2.721769,65.891156,2.729932,2.063946,...,2.712245,80.0,0.793878,11.279592,2.79932,2.761224,7.008163,4.229252,2.187755,4.123129
std,9.135373,403.5091,8.106864,1.024165,0.0,602.024335,1.093082,20.329428,0.711561,1.10694,...,1.081209,0.0,0.852077,7.780782,1.289271,0.706476,6.126525,3.623137,3.22243,3.568136
min,18.0,102.0,1.0,1.0,1.0,1.0,1.0,30.0,1.0,1.0,...,1.0,80.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,30.0,465.0,2.0,2.0,1.0,491.25,2.0,48.0,2.0,1.0,...,2.0,80.0,0.0,6.0,2.0,2.0,3.0,2.0,0.0,2.0
50%,36.0,802.0,7.0,3.0,1.0,1020.5,3.0,66.0,3.0,2.0,...,3.0,80.0,1.0,10.0,3.0,3.0,5.0,3.0,1.0,3.0
75%,43.0,1157.0,14.0,4.0,1.0,1555.75,4.0,83.75,3.0,3.0,...,4.0,80.0,1.0,15.0,3.0,3.0,9.0,7.0,3.0,7.0
max,60.0,1499.0,29.0,5.0,1.0,2068.0,4.0,100.0,4.0,5.0,...,4.0,80.0,3.0,40.0,6.0,4.0,40.0,18.0,15.0,17.0


см. файлы pandas_part01 и pandas_part03 для визуализации (гистограммы) и группировки показателей

## Предобработка данных

**Проверка пропущенных значений**

In [101]:
df.isnull().values.any()

False

**Кодирование переменных**

In [98]:
cat_vars=['Attrition', 'BusinessTravel', 'Department', 'EducationField', 'Gender', 'JobRole', 'MaritalStatus', 'Over18', 'OverTime']
for var in cat_vars:
    cat_list='var'+'_'+var
    cat_list = pd.get_dummies(df[var], prefix=var)
    df1=df.join(cat_list)
    df=df1
    
cat_vars=['Attrition', 'BusinessTravel', 'Department', 'EducationField', 'Gender', 'JobRole', 'MaritalStatus', 'Over18', 'OverTime']
data_vars=df.columns.values.tolist()
to_keep=[i for i in data_vars if i not in cat_vars]

df=df[to_keep]
df.columns.values

array(['Age', 'DailyRate', 'DistanceFromHome', 'Education',
       'EmployeeCount', 'EmployeeNumber', 'EnvironmentSatisfaction',
       'HourlyRate', 'JobInvolvement', 'JobLevel', 'JobSatisfaction',
       'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked',
       'PercentSalaryHike', 'PerformanceRating',
       'RelationshipSatisfaction', 'StandardHours', 'StockOptionLevel',
       'TotalWorkingYears', 'TrainingTimesLastYear', 'WorkLifeBalance',
       'YearsAtCompany', 'YearsInCurrentRole', 'YearsSinceLastPromotion',
       'YearsWithCurrManager', 'Attrition_No', 'Attrition_Yes',
       'BusinessTravel_Non-Travel', 'BusinessTravel_Travel_Frequently',
       'BusinessTravel_Travel_Rarely', 'Department_Human Resources',
       'Department_Research & Development', 'Department_Sales',
       'EducationField_Human Resources', 'EducationField_Life Sciences',
       'EducationField_Marketing', 'EducationField_Medical',
       'EducationField_Other', 'EducationField_Technical Degree',
    

**Сокращение числа факторов**

In [100]:
df = df.drop(['OverTime_No', 'Attrition_No'], axis = 1) 

## Корреляционный анализ

## Регрессионная модель

In [141]:
from sklearn.linear_model import LogisticRegression

X = df.drop(['Attrition_Yes'], axis = 1)
Y = df['Attrition_Yes']


In [142]:
cols = list(X.columns)


0       1
1       0
2       1
3       0
4       0
       ..
1465    0
1466    0
1467    0
1468    0
1469    0
Name: Attrition_Yes, Length: 1470, dtype: uint8

In [144]:
X = X[cols]


In [145]:
import statsmodels.api as sm
logit_model=sm.Logit(Y,X)
result=logit_model.fit()
print(result.summary2())

         Current function value: inf
         Iterations: 35
                                          Results: Logit
Model:                            Logit                        Pseudo R-squared:             inf   
Dependent Variable:               Attrition_Yes                AIC:                          inf   
Date:                             2020-05-19 12:49             BIC:                          inf   
No. Observations:                 1470                         Log-Likelihood:               -inf  
Df Model:                         45                           LL-Null:                      0.0000
Df Residuals:                     1424                         LLR p-value:                  1.0000
Converged:                        0.0000                       Scale:                        1.0000
No. Iterations:                   35.0000                                                          
----------------------------------------------------------------------------------

  return 1/(1+np.exp(-X))
  return np.sum(np.log(self.cdf(q*np.dot(X,params))))
  bse_ = np.sqrt(np.diag(self.cov_params()))
  return (a < x) & (x < b)
  return (a < x) & (x < b)
  cond2 = cond0 & (x <= _a)


## Описание результатов регрессионной модели

здесь будет текст