<a id="title"></a>
# <center> Дипломная работа </center>

<a id="Table-Of-Contents"></a>
# Содержание
* [Содержание](#Table-Of-Contents)
* [Описание задачи](#Task-Details)
* [Описание переменных](#Feature-Description)
* [Импорт используемых библиотек](#Importing-Libraries)
* [Задание №1. Чтение данных файла HR.csv](#Read-in-Data)
* [Выполнение заданий работы](#Completing_a_task)
    - [Задание №2. Расчет основных статистик для переменных (среднее, медиана, мода, мин/макс, сред.отклонение).](#Calculation_of_basic_statistics)
    - [Задание №3. Расчет и визуализация корреляционной матрицы для количественных переменных.
       Определение двух самых скоррелированных переменных и двух наименее скоррелированных 
       переменных](#The_correlation_matrix)
    - [Задание №4. Количество сотрудников в отделах](#Number_of_employees)
    - [Задание №5. Распределение сотрудников по зарплатам](#Distribution_of_employees_by_salary)
    - [Задание №6. Распределение сотрудников по зарплатам в каждом отделе](#Distribution_of_employees_by_salary_by_deprtment)
    - [Задание №7. Проверить гипотезу, что сотрудники с высоким окладом проводят на работе больше времени, 
       чем сотрудники с низким окладом](#Working_time_hypothesis)
    - [Задание №8. Расчет следующих показателей среди уволившихся и не уволившихся сотрудников 
       (по отдельности): доля сотрудников с повышением за последние 5 лет, средняя степень удовлетворенности,
       среднее количество проектов](#Calculation_of_indicators)
    - [Задание №9. Разделить данные на тестовую и обучающую выборки. Построить модель LDA, предсказывающую 
       уволился ли сотрудник на основе имеющихся факторов (кроме department и salary). Оценить качество 
       модели на тестовой выборке](#LDA_model)
    - [Задание №10. Загрузить задание на Github](https://github.com/MILearning2021/PythonForDataScience/blob/main/diplom/diplom.ipynb)
        
* [Заключение](#Conclusion)

<a id="Task-Details"></a>
# Описание задачи

Выполнение исследования набора данных (всего 7 задач).
Построение модели предсказания вероятности увольнения сотрудника.

<a id="Feature-Description"></a>
# Описание переменных

## Количественные переменные и их смысл
1. satisfaction_level - уровень удовлетворенности работой
2. Last_evaluation - время с момента последней оценки в годах
3. number_projects - количество проектов, выполненных за время работы
4. average_monthly_hours - среднее количество часов на рабочем месте в месяц
5. time_spend_company - стаж работы в компании в годах

## Категориальные переменные и их смысл
6. work_accident - происходили ли несчастные случаи на рабочем месте с сотрудником
7. left - уволился ли сотрудник
8. promotion_last_5years - повышался ли сотрудник за последние пять лет
9. department - отдел в котором работает сотрудник
10. salary - относительный уровень зарплаты

<a id="Importing-Libraries"></a>
# Импорт используемых библиотек

In [17]:
#основные библиотеки
import os
import numpy as np
import pandas as pd

#игнорирование сообщений
#import warnings
#warnings.filterwarnings('ignore')

<a id="Read-in-Data"></a>
# Задание №1. Чтение данных файла HR.csv

In [319]:
#читае файл из локального каталога
#создается структура DataFrame с данными HR - HR_data
with open(os.getcwd() + "/HR.csv") as HR_file:
    HR_data = pd.read_csv(HR_file)
#посмотрим информацию структуре данных
print('Информация о структуре данных HR:\n')
print(HR_data.info(verbose = True, show_counts = True),'\n')
#посмотрим на данные
print(f'Пример данных HR:')
HR_data.head()

Информация о структуре данных HR:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   satisfaction_level     14999 non-null  float64
 1   last_evaluation        14999 non-null  float64
 2   number_project         14999 non-null  int64  
 3   average_montly_hours   14999 non-null  int64  
 4   time_spend_company     14999 non-null  int64  
 5   Work_accident          14999 non-null  int64  
 6   left                   14999 non-null  int64  
 7   promotion_last_5years  14999 non-null  int64  
 8   department             14999 non-null  object 
 9   salary                 14999 non-null  object 
dtypes: float64(2), int64(6), object(2)
memory usage: 1.1+ MB
None 

Пример данных HR:


Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,left,promotion_last_5years,department,salary
0,0.38,0.53,2,157,3,0,1,0,sales,low
1,0.8,0.86,5,262,6,0,1,0,sales,medium
2,0.11,0.88,7,272,4,0,1,0,sales,medium
3,0.72,0.87,5,223,5,0,1,0,sales,low
4,0.37,0.52,2,159,3,0,1,0,sales,low


<a id="Completing_a_task"></a>
# Выполнение заданий работы

<a id="Calculation_of_basic_statistics"></a>
# Задание №2. Расчет основных статистик для переменных (среднее, медиана, мода, мин/макс, сред.отклонение).

In [191]:
#среднее, медиана, минимум, максимум, стандартное отклонение
agg_func_list =  ['mean', 'median', 'min', 'max', 'std']
columns_agg_func_list = {}

for column in HR_data.columns[:5]:
    columns_agg_func_list[column] = agg_func_list

HR_data.agg(columns_agg_func_list).round(2)

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company
mean,0.61,0.72,3.8,201.05,3.5
median,0.64,0.72,4.0,200.0,3.0
min,0.09,0.36,2.0,96.0,2.0
max,1.0,1.0,7.0,310.0,10.0
std,0.25,0.17,1.23,49.94,1.46


In [186]:
#мода
HR_data.mode()

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,left,promotion_last_5years,department,salary
0,0.1,0.55,4.0,135,3.0,0.0,0.0,0.0,sales,low
1,,,,156,,,,,,


<a id="The_correlation_matrix"></a>
# Задание №3. Расчет и визуализация корреляционной матрицы для количественных переменных. Определение двух самых скоррелированных переменных и двух наименее скоррелированных переменных.

In [289]:
#корреляционная матрица для количественных переменных
#'pearson' - метод на основе расчета коэффициента корреляции

print('Kорреляционная матрица для количественных переменных:')
corr_matrix = HR_data.corr(method = 'pearson')[['satisfaction_level', 
                                                'last_evaluation', 
                                                'number_project', 
                                                'average_montly_hours',
                                                'time_spend_company']][:5]
corr_matrix

Kорреляционная матрица для количественных переменных:


Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company
satisfaction_level,1.0,0.105021,-0.14297,-0.020048,-0.100866
last_evaluation,0.105021,1.0,0.349333,0.339742,0.131591
number_project,-0.14297,0.349333,1.0,0.417211,0.196786
average_montly_hours,-0.020048,0.339742,0.417211,1.0,0.127755
time_spend_company,-0.100866,0.131591,0.196786,0.127755,1.0


In [315]:
#две наименее коррелированные переменные
#две наиболее коррелированные переменные

max_corr = 0
min_corr = 1

for row in corr_matrix.index:
    for column in corr_matrix[row].index:
        if column != row:
            if abs(corr_matrix[row][column]) > abs(max_corr):
                max_corr = corr_matrix[row][column]
                cell_max_row = row
                cell_max_column = column
            elif abs(corr_matrix[row][column]) < abs(min_corr):
                min_corr = corr_matrix[row][column]
                cell_min_row = row
                cell_min_column = column

print(f'Наиболее коррелированы: {cell_max_row} и {cell_max_column} с коэффициентом корреляции: {max_corr.round(4)}')
print(f'Наименее коррелированы: {cell_min_row} и {cell_min_column} с коэффициентом корреляции: {min_corr.round(4)}')

Наиболее коррелированы: number_project и average_montly_hours с коэффициентом корреляции: 0.4172
Наименее коррелированы: satisfaction_level и average_montly_hours с коэффициентом корреляции: -0.02


<a id="Number_of_employees"></a>
# Задание №4. Количество сотрудников в отделах.

In [295]:
#группировка по department, агрегатор count к любому столбцу
HR_data.groupby(['department']).agg(empoyee_count=('left', 'count'))

Unnamed: 0_level_0,empoyee_count
department,Unnamed: 1_level_1
IT,1227
RandD,787
accounting,767
hr,739
management,630
marketing,858
product_mng,902
sales,4140
support,2229
technical,2720


<a id="Distribution_of_employees_by_salary"></a>
# Задание №5. Распределение сотрудников по зарплатам.

In [202]:
#группировка по salary, агрегатор count к любому столбцу
HR_data.groupby(['salary']).agg(empoyee_count=('left', 'count'))

Unnamed: 0_level_0,empoyee_count
salary,Unnamed: 1_level_1
high,1237
low,7316
medium,6446


<a id="Distribution_of_employees_by_salary_by_deprtment"></a>
# Задание №6. Распределение сотрудников по зарплатам в каждом отделе.

In [205]:
#группировка по department, salary, агрегатор count к любому столбцу
HR_data.groupby(['department' , 'salary']).agg(empoyee_count=('left', 'count'))

Unnamed: 0_level_0,Unnamed: 1_level_0,empoyee_count
department,salary,Unnamed: 2_level_1
IT,high,83
IT,low,609
IT,medium,535
RandD,high,51
RandD,low,364
RandD,medium,372
accounting,high,74
accounting,low,358
accounting,medium,335
hr,high,45


<a id="Working_time_hypothesis"></a>
# Задание №7. Проверить гипотезу о том, что сотрудники с высоким окладом проводят на работе больше времени, чем сотрудники с низким окладом.

In [325]:
#подготовка данных для проведения анализа корреляции salary и average_montly_hours
#для чего значения категориальной переменную кодируем целыми числами, с соблюдением отношения порядка,
#т.к. salary порядковая категориальная переменная

def encode_salary(string):
    if string == 'low':
        return 0 
    elif string == 'medium':
        return 1 
    elif string == 'high':
        return 2
    else:
        return None

HR_data_encoded = HR_data.copy()
HR_data_encoded['salary'] = [encode_salary(x) for x in HR_data_encoded['salary']]

#HR_data_encoded[HR_data_encoded['salary'] == 2]

In [351]:
#матрица корреляции
print('Наблюдается слабая отрицательная корреляция.')
print('Вывод: сотрудники с высоким окладом проводят на работе столько же времени, сколько и остальные, либо меньше.')
HR_data_encoded.corr(method = 'pearson')[['average_montly_hours']][-1:]

Наблюдается слабая отрицательная корреляция.
Вывод: сотрудники с высоким окладом проводят на работе столько же времени, сколько и остальные, либо меньше.


Unnamed: 0,average_montly_hours
salary,-0.002242


<a id="Calculation_of_indicators"></a>
# Задание №8. Расчет следующих показателей среди уволившихся и не уволившихся сотрудников (по отдельности): доля сотрудников с повышением за последние 5 лет, средняя степень удовлетворенности, среднее количество проектов.

In [379]:
#уволившиеся сотрудники

HR_data_left = HR_data[HR_data['left'] == 1].copy()

print(f'Уволившихся сотрудников: {len(HR_data_left)}')
print(f'  доля сотрудников с повышением: {len(HR_data_left[HR_data_left["promotion_last_5years"] == 1]) / len(HR_data_left)}')
print(f'  среднее количество проектов: {HR_data_left.mean().loc["number_project"].round(2)}')
print(f'  средняя степень удовлетворенности: {HR_data_left.mean().loc["satisfaction_level"].round(2)}')

#не уволившиеся сотрудники

HR_data_stay = HR_data[HR_data['left'] == 0].copy()

print(f'Оставшихся сотрудников: {len(HR_data_stay)}')
print(f'  доля сотрудников с повышением: {len(HR_data_stay[HR_data_stay["promotion_last_5years"] == 1]) / len(HR_data_stay)}')
print(f'  среднее количество проектов: {HR_data_stay.mean().loc["number_project"].round(2)}')
print(f'  средняя степень удовлетворенности: {HR_data_stay.mean().loc["satisfaction_level"].round(2)}')

Уволившихся сотрудников: 3571
  доля сотрудников с повышением: 0.005320638476617194
  среднее количество проектов: 3.86
  средняя степень удовлетворенности: 0.44
Оставшихся сотрудников: 11428
  доля сотрудников с повышением: 0.026251312565628283
  среднее количество проектов: 3.79
  средняя степень удовлетворенности: 0.67


<a id="LDA_model"></a>
# Задание №9. Разделить данные на тестовую и обучающую выборки. Построить модель LDA, предсказывающую уволился ли сотрудник на основе имеющихся факторов (кроме department и salary). Оценить качество модели на тестовой выборке.

<a id="Conclusion"></a>
# Заключение