In [1]:
import numpy as np
import pandas as pd
import random

import matplotlib
import matplotlib.image as img
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

from datetime import datetime

import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import train_test_split, cross_val_score

# 3. Модели
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.preprocessing import StandardScaler, RobustScaler
from sklearn.model_selection import KFold, GridSearchCV

# 4. Метрики качества
from sklearn.metrics import mean_squared_error as mse, r2_score as r2

# 5. Для визуализации внешних картинок в ноутбуке
from IPython.display import Image

In [2]:
%matplotlib inline

In [3]:
matplotlib.rcParams.update({'font.size': 12})  # размер шрифта на графиках

Загрузка данных

In [4]:
DATASET_PATH_1 = './priem.csv'
DATASET_PATH_2 = './uvolnenie.csv'

df_priem = pd.read_csv(DATASET_PATH_1, encoding = "cp1251", sep=';')
df_priem = df_priem.drop(columns=['Unnamed: 2', 'Причина увольнения по результатам собеседования',
                     'Описание причины увольнения', 'Дата следующего приема', 'Количество дней между увольнением и приемом'])
df_uvolnenie = pd.read_csv(DATASET_PATH_2, encoding = "cp1251", sep=';')
df_uvolnenie = df_uvolnenie.drop(columns=['Unnamed: 2', 'Unnamed: 4', 'Unnamed: 6'])

In [5]:
df_priem.head(3)

Unnamed: 0,№ в группе,Физическое лицо,Дата приема,Дата увольнения,Подразделение,Подразделение первого уровня,Должность,Причина увольнения
0,1,Бадодина Галина Викторовна,12.04.2010,,Центральный офис (Административное управление),Центральный офис (Административное управление),Помощник управляющего ГК,
1,2,Ананьев Евгений Александрович,20.04.2010,,ПРС_Владоптснаб,ПРС_Владоптснаб,Ведущий специалист отдела логистики,
2,3,Никитченко Василий Матвеевич,01.07.2010,,07.03. Судоремонтное производство,07. Управление судоремонта и судостроения,Сменный механик,


In [6]:
df_priem.shape

(35485, 8)

In [7]:
df_uvolnenie.head(3)

Unnamed: 0,№ в группе,Физическое лицо,Дата приема,Дата увольнения,Подразделение,Подразделение первого уровня,Должность,Причина увольнения
0,6,Чайковский С.В.,16.03.2009,01.01.2010,НМ_Кострома СТР,03. Управление промысла (добычи),Помощник капитана по радиоэлектронике,(НЕ ИСПОЛЬЗОВАТЬ) По собственному желанию А
1,7,Штин Сергей Александрович,24.03.2009,01.01.2010,НМ_Кострома СТР,03. Управление промысла (добычи),Третий помощник капитана,(НЕ ИСПОЛЬЗОВАТЬ) По собственному желанию А
2,17,Вергун Александр Иванович,26.05.2009,13.01.2010,НМ_Седанка СТР,03. Управление промысла (добычи),Старший механик,(НЕ ИСПОЛЬЗОВАТЬ) По собственному желанию А


In [8]:
df_uvolnenie.shape

(6609, 8)

In [22]:
df = df_priem
df.shape

(35485, 8)

In [23]:
df = df.append(df_uvolnenie)
df.shape

(42094, 8)

In [24]:
df.head(3)

Unnamed: 0,№ в группе,Физическое лицо,Дата приема,Дата увольнения,Подразделение,Подразделение первого уровня,Должность,Причина увольнения
0,1,Бадодина Галина Викторовна,12.04.2010,,Центральный офис (Административное управление),Центральный офис (Административное управление),Помощник управляющего ГК,
1,2,Ананьев Евгений Александрович,20.04.2010,,ПРС_Владоптснаб,ПРС_Владоптснаб,Ведущий специалист отдела логистики,
2,3,Никитченко Василий Матвеевич,01.07.2010,,07.03. Судоремонтное производство,07. Управление судоремонта и судостроения,Сменный механик,


Перекодируем переменные в дату

In [25]:
df['Дата приема'] = pd.to_datetime(df['Дата приема'])
df['Дата увольнения'] = pd.to_datetime(df['Дата увольнения'])

In [26]:
df[df['Физическое лицо'].str.match('Храмец')]

Unnamed: 0,№ в группе,Физическое лицо,Дата приема,Дата увольнения,Подразделение,Подразделение первого уровня,Должность,Причина увольнения
19953,19954,Храмец Андрей Владимирович,2016-07-12,2016-12-19,02.1.1.2. Консервное производство бригада 2,02. Управление производством,Обработчик рыбы,По состоянию здоровья (есть заключения врача)
23069,23070,Храмец Андрей Владимирович,2017-07-25,2018-01-31,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,"Истечение срока трудового договора, п2 ч1 ст77"
25268,25269,Храмец Андрей Владимирович,2018-07-17,2018-03-10,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,Личные/семейные причины
26634,26635,Храмец Андрей Владимирович,2019-08-02,2019-05-03,НМ_Калиновск СТР,03. Управление промысла (добычи),Матрос 1 класса,Не выдержал темпа работы
4373,19910,Храмец Андрей Владимирович,2017-07-25,2018-01-31,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,"Истечение срока трудового договора, п2 ч1 ст77"
4772,22108,Храмец Андрей Владимирович,2018-07-17,2018-03-10,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,Личные/семейные причины
5000,23479,Храмец Андрей Владимирович,2019-08-02,2019-05-03,НМ_Калиновск СТР,03. Управление промысла (добычи),Матрос 1 класса,Не выдержал темпа работы


Посчитаем количество дней между Датой увольнения и Датой следующего приема

In [27]:
df = df.sort_values(['Физическое лицо', 'Дата приема'])
df['Дни между ПиУ'] = ''
df['Дни между ПиУ'] = (df['Дата приема'] - df['Дата увольнения'].shift(1)).dt.days

#df.loc[df['Физическое лицо'] == df['Физическое лицо'].shift(1)]
df.loc[df['Физическое лицо'] != df['Физическое лицо'].shift(1), 'Дни между ПиУ'] = 0

In [28]:
df[df['Физическое лицо'].str.match('Храмец')]

Unnamed: 0,№ в группе,Физическое лицо,Дата приема,Дата увольнения,Подразделение,Подразделение первого уровня,Должность,Причина увольнения,Дни между ПиУ
19953,19954,Храмец Андрей Владимирович,2016-07-12,2016-12-19,02.1.1.2. Консервное производство бригада 2,02. Управление производством,Обработчик рыбы,По состоянию здоровья (есть заключения врача),0.0
23069,23070,Храмец Андрей Владимирович,2017-07-25,2018-01-31,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,"Истечение срока трудового договора, п2 ч1 ст77",218.0
4373,19910,Храмец Андрей Владимирович,2017-07-25,2018-01-31,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,"Истечение срока трудового договора, п2 ч1 ст77",-190.0
25268,25269,Храмец Андрей Владимирович,2018-07-17,2018-03-10,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,Личные/семейные причины,167.0
4772,22108,Храмец Андрей Владимирович,2018-07-17,2018-03-10,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,Личные/семейные причины,129.0
26634,26635,Храмец Андрей Владимирович,2019-08-02,2019-05-03,НМ_Калиновск СТР,03. Управление промысла (добычи),Матрос 1 класса,Не выдержал темпа работы,510.0
5000,23479,Храмец Андрей Владимирович,2019-08-02,2019-05-03,НМ_Калиновск СТР,03. Управление промысла (добычи),Матрос 1 класса,Не выдержал темпа работы,91.0


Создаем таблицу, которая будет содержать уникальные данные по каждой персоне

In [15]:
df_target = df.drop_duplicates('Физическое лицо')
df_target = df_target.drop(columns=['Подразделение первого уровня', 'Дата приема', 'Дата увольнения', '№ в группе', 'Дни между ПиУ'])
df_target.head(3)

Unnamed: 0,Физическое лицо,Подразделение,Должность,Причина увольнения
12706,!Дубль! Крюков Павел Валерьевич,ЮМРФ_Залив Восток ПЗ,Матрос 1 класса,Личные/семейные причины
11255,(УВОЛ) Бережная Надежда Владимировна,07.06. ЛРСЗ Служба главного инженера,Инженер по промышленной безопасности,По состоянию здоровья (есть заключения врача)
1043,Ёкубов Содик Шукруллаевич,"05.09.2. ОПЛ ""Красный Вымпел"" - Складская логи...",Разнорабочий,


Найдем дату первого приема на работу, дату послженего приема на работу, дату полседнего увольнения и медиану дней между увольнениями и приемом на работу

In [16]:
df_target = df_target.merge(df.groupby('Физическое лицо')['Дата приема'].agg(['min']), left_on='Физическое лицо', right_on=df.groupby('Физическое лицо')['Дата приема'].agg(['min']).index)
df_target = df_target.merge(df.groupby('Физическое лицо')['Дата приема'].agg(['max']), left_on='Физическое лицо', right_on=df.groupby('Физическое лицо')['Дата приема'].agg(['max']).index)
df_target = df_target.merge(df.groupby('Физическое лицо')['Дата увольнения'].agg(['max']), left_on='Физическое лицо', right_on=df.groupby('Физическое лицо')['Дата увольнения'].agg(['max']).index)
df_target = df_target.merge(df.groupby('Физическое лицо')['Дни между ПиУ'].agg(['median']), left_on='Физическое лицо', right_on=df.groupby('Физическое лицо')['Дни между ПиУ'].agg(['median']).index)

Посчитаем количество дней между последним увольнением и приемом на работу

In [17]:
df_target['Кол-во дней между последним увольнением и приемом на работу'] = 0 
df_target['Кол-во дней между последним увольнением и приемом на работу'] = df_target['max_x'] - df_target['max_y']

Переименуем все столбцы, для удобства работы

In [18]:
df_target = df_target.rename(columns={'min': 'Первая адата приема', 'max_x': 'Последняя дата приема', 'max_y': 'Последняя дата увольнения', 'median': 'Среднее время между приемами на работу'})

Найдем количество рейсов, выполненных персоной

In [19]:
df['Физическое лицо'].value_counts().sort_index().values
df_target = df_target.sort_values('Физическое лицо')
df_target['Кол-во рейсов'] = df['Физическое лицо'].value_counts().sort_index().values

Посмотрим результат

In [20]:
df_target[df_target['Физическое лицо'].str.match('Храмец')]

Unnamed: 0,Физическое лицо,Подразделение,Должность,Причина увольнения,Первая адата приема,Последняя дата приема,Последняя дата увольнения,Среднее время между приемами на работу,Кол-во дней между последним увольнением и приемом на работу,Кол-во рейсов
20015,Храмец Андрей Владимирович,02.1.1.2. Консервное производство бригада 2,Обработчик рыбы,По состоянию здоровья (есть заключения врача),2016-07-12,2019-08-02,2019-05-03,129.0,91 days,7


In [21]:
df[df['Физическое лицо'].str.match('Храмец')]

Unnamed: 0,№ в группе,Физическое лицо,Дата приема,Дата увольнения,Подразделение,Подразделение первого уровня,Должность,Причина увольнения,Дни между ПиУ
19953,19954,Храмец Андрей Владимирович,2016-07-12,2016-12-19,02.1.1.2. Консервное производство бригада 2,02. Управление производством,Обработчик рыбы,По состоянию здоровья (есть заключения врача),0.0
23069,23070,Храмец Андрей Владимирович,2017-07-25,2018-01-31,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,"Истечение срока трудового договора, п2 ч1 ст77",218.0
4373,19910,Храмец Андрей Владимирович,2017-07-25,2018-01-31,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,"Истечение срока трудового договора, п2 ч1 ст77",-190.0
25268,25269,Храмец Андрей Владимирович,2018-07-17,2018-03-10,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,Личные/семейные причины,167.0
4772,22108,Храмец Андрей Владимирович,2018-07-17,2018-03-10,ТРФ_Симфония ТР,05. Управление логистики и проектного офиса,Матрос 1 класса,Личные/семейные причины,129.0
26634,26635,Храмец Андрей Владимирович,2019-08-02,2019-05-03,НМ_Калиновск СТР,03. Управление промысла (добычи),Матрос 1 класса,Не выдержал темпа работы,510.0
5000,23479,Храмец Андрей Владимирович,2019-08-02,2019-05-03,НМ_Калиновск СТР,03. Управление промысла (добычи),Матрос 1 класса,Не выдержал темпа работы,91.0
