# HR-аналитика

Аналитики HR отдела компании "Работа с заботой" помогают бизнесу оптимизировать управление персоналом: на основе данных предлагают, как избежать финансовых потерь и оттока сотрудников. И в этом аналитикам пригодится машинное обучение.

У нас будет несколько задач:
1. Построить модель предсказания уровня удовлетворённости сотрудника
2. Построить модель, которая сможет предсказать, что сотрудник уволится

Модели помогут избежать внезапных увольнений и предугадывать отток сотрудников.

Для этих задач заказчик предоставил данные со следующими признаками:
- id — уникальный идентификатор сотрудника;
- dept — отдел, в котором работает сотрудник;
- level — уровень занимаемой должности;
- workload — уровень загруженности сотрудника;
- employment_years — длительность работы в компании (в годах);
- last_year_promo — показывает, было ли повышение за последний год;
- last_year_violations — показывает, нарушал ли сотрудник трудовой договор за последний год;
- supervisor_evaluation — оценка качества работы сотрудника, которую дал руководитель;
- salary — ежемесячная зарплата сотрудника;
- job_satisfaction_rate — уровень удовлетворённости сотрудника работой в компании, целевой признак.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-и-ознакомление-с-данными" data-toc-modified-id="Загрузка-и-ознакомление-с-данными-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка и ознакомление с данными</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span></li></ul></div>

In [5]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display
import numpy as np

In [6]:
#import warnings # Отключаем предупреждения о будущих версиях библиотек(версии для проекта обновляться не будут)
#warnings.filterwarnings("ignore", category=FutureWarning)

sns.set_style('dark') # Устанавливаем стиль для графиков
RANDOM_STATE = 38 # Константа определения случайных значений

## Загрузка и ознакомление с данными

Для начала загрузим данные и ознакомимся с ними. Данные уже поделены на тренировочную и тестовую выборки.

In [7]:
def dataset_info(ds, info=True): # Универсальная функция презентации данных
    print('Количество дубликатов:', ds.duplicated().sum())
    print('Длина датасета:', len(ds))
    display(ds.head())
    if info: 
        ds.info()
        display(ds.describe())

In [8]:
try:
    train_sat = pd.read_csv('/datasets/train_job_satisfaction_rate.csv')
except:
    train_sat = pd.read_csv('datasets/train_job_satisfaction_rate.csv')
dataset_info(train_sat)

Количество дубликатов: 0
Длина датасета: 4000


Unnamed: 0,id,dept,level,workload,employment_years,last_year_promo,last_year_violations,supervisor_evaluation,salary,job_satisfaction_rate
0,155278,sales,junior,medium,2,no,no,1,24000,0.58
1,653870,hr,junior,high,2,no,no,5,38400,0.76
2,184592,sales,junior,low,1,no,no,2,12000,0.11
3,171431,technology,junior,low,4,no,no,2,18000,0.37
4,693419,hr,junior,medium,1,no,no,3,22800,0.2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4000 entries, 0 to 3999
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     4000 non-null   int64  
 1   dept                   3994 non-null   object 
 2   level                  3996 non-null   object 
 3   workload               4000 non-null   object 
 4   employment_years       4000 non-null   int64  
 5   last_year_promo        4000 non-null   object 
 6   last_year_violations   4000 non-null   object 
 7   supervisor_evaluation  4000 non-null   int64  
 8   salary                 4000 non-null   int64  
 9   job_satisfaction_rate  4000 non-null   float64
dtypes: float64(1), int64(4), object(5)
memory usage: 312.6+ KB


Unnamed: 0,id,employment_years,supervisor_evaluation,salary,job_satisfaction_rate
count,4000.0,4000.0,4000.0,4000.0,4000.0
mean,544957.621,3.7185,3.4765,33926.7,0.533995
std,257883.104622,2.542513,1.008812,14900.703838,0.225327
min,100954.0,1.0,1.0,12000.0,0.03
25%,322836.75,2.0,3.0,22800.0,0.36
50%,534082.5,3.0,4.0,30000.0,0.56
75%,771446.0,6.0,4.0,43200.0,0.71
max,999521.0,10.0,5.0,98400.0,1.0


Дубликатов нет, несколько пропусков в названиях отдела и уровнях должности. Типы данных в порядке.

In [9]:
try:
    X_test = pd.read_csv('/datasets/test_features.csv')
except:
    X_test = pd.read_csv('datasets/test_features.csv')
dataset_info(X_test)

Количество дубликатов: 0
Длина датасета: 2000


Unnamed: 0,id,dept,level,workload,employment_years,last_year_promo,last_year_violations,supervisor_evaluation,salary
0,485046,marketing,junior,medium,2,no,no,5,28800
1,686555,hr,junior,medium,1,no,no,4,30000
2,467458,sales,middle,low,5,no,no,4,19200
3,418655,sales,middle,low,6,no,no,4,19200
4,789145,hr,middle,medium,5,no,no,5,40800


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   id                     2000 non-null   int64 
 1   dept                   1998 non-null   object
 2   level                  1999 non-null   object
 3   workload               2000 non-null   object
 4   employment_years       2000 non-null   int64 
 5   last_year_promo        2000 non-null   object
 6   last_year_violations   2000 non-null   object
 7   supervisor_evaluation  2000 non-null   int64 
 8   salary                 2000 non-null   int64 
dtypes: int64(4), object(5)
memory usage: 140.8+ KB


Unnamed: 0,id,employment_years,supervisor_evaluation,salary
count,2000.0,2000.0,2000.0,2000.0
mean,552765.2135,3.6665,3.5265,34066.8
std,253851.326129,2.537222,0.996892,15398.436729
min,100298.0,1.0,1.0,12000.0
25%,339052.0,1.0,3.0,22800.0
50%,550793.0,3.0,4.0,30000.0
75%,765763.75,6.0,4.0,43200.0
max,999029.0,10.0,5.0,96000.0


Такая-же картина, пропуски в отделах и уровнях должности

In [10]:
try:
    y_test_sat = pd.read_csv('/datasets/test_target_job_satisfaction_rate.csv')
except:
    y_test_sat = pd.read_csv('datasets/test_target_job_satisfaction_rate.csv')
dataset_info(y_test_sat)

Количество дубликатов: 0
Длина датасета: 2000


Unnamed: 0,id,job_satisfaction_rate
0,130604,0.74
1,825977,0.75
2,418490,0.6
3,555320,0.72
4,826430,0.08


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 2 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     2000 non-null   int64  
 1   job_satisfaction_rate  2000 non-null   float64
dtypes: float64(1), int64(1)
memory usage: 31.4 KB


Unnamed: 0,id,job_satisfaction_rate
count,2000.0,2000.0
mean,552765.2135,0.54878
std,253851.326129,0.22011
min,100298.0,0.03
25%,339052.0,0.38
50%,550793.0,0.58
75%,765763.75,0.72
max,999029.0,1.0


## Предобработка данных