In [34]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import colors

In [35]:
cmap = colors.LinearSegmentedColormap(
    'red_blue_classes',
    {'red': [(0, 1, 1), (1, 0.7, 0.7)],
     'green': [(0, 0.7, 0.7), (1, 0.7, 0.7)],
     'blue': [(0, 0.7, 0.7), (1, 1, 1)]})
plt.cm.register_cmap(cmap=cmap)

In [36]:
hr = pd.read_csv('HR.csv')

#формально(чтобы названия всех столбцов начинались с нижнего регистра):
hr.rename(columns = {hr.columns[5]: 'work_accident'}, inplace = True)
hr

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,work_accident,left,promotion_last_5years,department,salary
0,0.38,0.53,2,157,3,0,1,0,sales,low
1,0.80,0.86,5,262,6,0,1,0,sales,medium
2,0.11,0.88,7,272,4,0,1,0,sales,medium
3,0.72,0.87,5,223,5,0,1,0,sales,low
4,0.37,0.52,2,159,3,0,1,0,sales,low
...,...,...,...,...,...,...,...,...,...,...
14994,0.40,0.57,2,151,3,0,1,0,support,low
14995,0.37,0.48,2,160,3,0,1,0,support,low
14996,0.37,0.53,2,143,3,0,1,0,support,low
14997,0.11,0.96,6,280,4,0,1,0,support,low


In [37]:
# Определяем признаки (факторы)
df = hr[['satisfaction_level', 'last_evaluation','number_project', 'average_montly_hours', 'time_spend_company', \
         'work_accident', 'promotion_last_5years']]
res = hr.left

In [38]:
df

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,work_accident,promotion_last_5years
0,0.38,0.53,2,157,3,0,0
1,0.80,0.86,5,262,6,0,0
2,0.11,0.88,7,272,4,0,0
3,0.72,0.87,5,223,5,0,0
4,0.37,0.52,2,159,3,0,0
...,...,...,...,...,...,...,...
14994,0.40,0.57,2,151,3,0,0
14995,0.37,0.48,2,160,3,0,0
14996,0.37,0.53,2,143,3,0,0
14997,0.11,0.96,6,280,4,0,0


In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   satisfaction_level     14999 non-null  float64
 1   last_evaluation        14999 non-null  float64
 2   number_project         14999 non-null  int64  
 3   average_montly_hours   14999 non-null  int64  
 4   time_spend_company     14999 non-null  int64  
 5   work_accident          14999 non-null  int64  
 6   promotion_last_5years  14999 non-null  int64  
dtypes: float64(2), int64(5)
memory usage: 820.4 KB


In [40]:
res.unique()

array([1, 0], dtype=int64)

In [41]:
res

0        1
1        1
2        1
3        1
4        1
        ..
14994    1
14995    1
14996    1
14997    1
14998    1
Name: left, Length: 14999, dtype: int64

In [42]:
# разделяем выборку на тренировочную и тестовую
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df, res, test_size=0.25)

In [43]:
len(y_test)

3750

In [44]:
y_test

6357     0
4472     0
6139     0
7343     0
6468     0
        ..
2064     0
13130    0
14600    1
12455    1
7113     0
Name: left, Length: 3750, dtype: int64

In [45]:
y_test.unique()

array([0, 1], dtype=int64)

In [46]:
y_train

2126     0
8437     0
9467     0
5410     0
10649    0
        ..
7412     0
5695     0
12532    1
9026     0
3158     0
Name: left, Length: 11249, dtype: int64

In [47]:
y_train.unique()

array([0, 1], dtype=int64)

In [48]:
# импортируем LDA-функционал
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

In [56]:
lda = LinearDiscriminantAnalysis()

In [57]:
# обучаем данные
lda.fit(X_train, y_train)

LinearDiscriminantAnalysis()

In [58]:
# делаем прогноз на тестовой выборке
lda.predict(X_test)

array([0, 0, 0, ..., 0, 0, 0], dtype=int64)

In [59]:
# смотрим разницу факта и прогноза
result = pd.DataFrame([y_test, lda.predict(X_test)]).T

In [60]:
result

Unnamed: 0,left,Unnamed 0
6357,0.0,
4472,0.0,
6139,0.0,
7343,0.0,
6468,0.0,
...,...,...
2064,0.0,0.0
13130,0.0,
14600,1.0,
12455,1.0,


In [61]:
result.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3750 entries, 6357 to 7113
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   left       3750 non-null   float64
 1   Unnamed 0  948 non-null    float64
dtypes: float64(2)
memory usage: 247.9 KB


In [62]:
result['Unnamed 0'].unique()

array([nan,  0.,  1.])

In [63]:
# расчет точности - отношение верных прогнозов к общему количеству позиций
# является хорошей метрикой для сбалансированных классов 
# (наблюдений в категориях примерно одинаковое количество)

from sklearn.metrics import accuracy_score

In [64]:
accuracy_score(y_test, lda.predict(X_test))

0.7664

In [65]:
# коэффициенты дискриминатных линий
lda.coef_

array([[-4.50207632,  0.71175488, -0.24162493,  0.00455463,  0.20509912,
        -1.08276689, -1.05982099]])

In [10]:
dep_dist = hr['department'].value_counts()
dep_dist

sales          4140
technical      2720
support        2229
IT             1227
product_mng     902
marketing       858
RandD           787
accounting      767
hr              739
management      630
Name: department, dtype: int64

In [11]:
i = 0
for k, v in dep_dist.items():
    print('В отделе', k, 'работают', v, 'сотрудников')
    i += 1   

В отделе sales работают 4140 сотрудников
В отделе technical работают 2720 сотрудников
В отделе support работают 2229 сотрудников
В отделе IT работают 1227 сотрудников
В отделе product_mng работают 902 сотрудников
В отделе marketing работают 858 сотрудников
В отделе RandD работают 787 сотрудников
В отделе accounting работают 767 сотрудников
В отделе hr работают 739 сотрудников
В отделе management работают 630 сотрудников


In [13]:
sal_distr = hr['salary'].value_counts()
sal_distr

low       7316
medium    6446
high      1237
Name: salary, dtype: int64

In [14]:
i = 0
for k, v in sal_distr.items():
    print('Зарплату категории', k, 'получают', v, 'сотрудников')
    i += 1

Зарплату категории low получают 7316 сотрудников
Зарплату категории medium получают 6446 сотрудников
Зарплату категории high получают 1237 сотрудников


In [15]:
hr['department'].value_counts()

sales          4140
technical      2720
support        2229
IT             1227
product_mng     902
marketing       858
RandD           787
accounting      767
hr              739
management      630
Name: department, dtype: int64

In [7]:
hr.mode()

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,work_accident,left,promotion_last_5years,department,salary
0,0.1,0.55,4.0,135,3.0,0.0,0.0,0.0,sales,low
1,,,,156,,,,,,


In [4]:
hr.var()

satisfaction_level          0.061817
last_evaluation             0.029299
number_project              1.519284
average_montly_hours     2494.313175
time_spend_company          2.131998
work_accident               0.123706
left                        0.181411
promotion_last_5years       0.020817
dtype: float64

In [None]:
print(hr.groupby('salary').department.count()[1], 'сотрудников с зарплатой категории:', \
      hr.groupby('salary').department.count().index[1])
print(hr.groupby('salary').department.count()[2], 'сотрудников с зарплатой категории:', \
      hr.groupby('salary').department.count().index[2])
print(hr.groupby('salary').department.count()[0], 'сотрудников с зарплатой категории:', \
      hr.groupby('salary').department.count().index[0])

In [None]:
print('В отделе', hr['department'].value_counts().index[0], 'работают:', hr['department'].value_counts()[0], 'сотрудников')
print('В отделе', hr['department'].value_counts().index[1], 'работают:', hr['department'].value_counts()[1], 'сотрудников')
print('В отделе', hr['department'].value_counts().index[2], 'работают:', hr['department'].value_counts()[2], 'сотрудников')
print('В отделе', hr['department'].value_counts().index[3], 'работают:', hr['department'].value_counts()[3], 'сотрудников')
print('В отделе', hr['department'].value_counts().index[4], 'работают:', hr['department'].value_counts()[4], 'сотрудников')
print('В отделе', hr['department'].value_counts().index[5], 'работают:', hr['department'].value_counts()[5], 'сотрудников')
print('В отделе', hr['department'].value_counts().index[6], 'работают:', hr['department'].value_counts()[6], 'сотрудников')
print('В отделе', hr['department'].value_counts().index[7], 'работают:', hr['department'].value_counts()[7], 'сотрудников')
print('В отделе', hr['department'].value_counts().index[8], 'работают:', hr['department'].value_counts()[8], 'сотрудников')
print('В отделе', hr['department'].value_counts().index[9], 'работают:', hr['department'].value_counts()[9], 'сотрудников')

In [None]:
print('Уровень удовлетворенности работой:', hr['satisfaction_level'].mode()[0])
print('Время с момента последней оценки, в годах:', hr['last_evaluation'].mode()[0])
print('Количество проектов, выполненных за время работы:', hr['number_project'].mode()[0])
print('Среднее количество часов на рабочем месте в месяц:', hr['average_montly_hours'].mode()[0])
print('Стаж работы в компании в годах:', hr['time_spend_company'].mode()[0])
print('Происходили ли несчастные случаи на рабочем месте с сотрудником:', hr['work_accident'].mode()[0])
print('Уволился ли сотрудник:', hr['left'].mode()[0])
print('Повышался ли сотрудник за последние пять лет:', hr['promotion_last_5years'].mode()[0])

In [None]:
print('Уровень удовлетворенности работой:', round(hr['satisfaction_level'].var(), 5))
print('Время с момента последней оценки, в годах:', round(hr['last_evaluation'].var(), 5))
print('Количество проектов, выполненных за время работы:', round(hr['number_project'].var(), 5))
print('Среднее количество часов на рабочем месте в месяц:', round(hr['average_montly_hours'].var(), 5))
print('Стаж работы в компании в годах:', round(hr['time_spend_company'].var(), 5))
print('Происходили ли несчастные случаи на рабочем месте с сотрудником:', round(hr['work_accident'].var(), 5))
print('Уволился ли сотрудник:', round(hr['left'].var(), 5))
print('Повышался ли сотрудник за последние пять лет:', round(hr['promotion_last_5years'].var(), 5))

##### Можно посчитть, в отдельном df, статистические метрики для признаков с Dtype - object (это колонки 'department' и 'salary'). Для этого присвоим им категории. 

In [None]:
df = hr[['satisfaction_level', 'last_evaluation','number_project', 'average_montly_hours', 'time_spend_company', \
         'work_accident', 'left', 'promotion_last_5years', 'department', 'salary' ]]

df.loc[df.department == 'sales', 'department_cat'] = 1
df.loc[df.department == 'accounting', 'department_cat'] = 2
df.loc[df.department == 'hr', 'department_cat'] = 3
df.loc[df.department == 'technical', 'department_cat'] = 4
df.loc[df.department == 'support', 'department_cat'] = 5
df.loc[df.department == 'IT', 'department_cat'] = 7
df.loc[df.department == 'product_mng', 'department_cat'] = 8
df.loc[df.department == 'marketing', 'department_cat'] = 9
df.loc[df.department == 'RandD', 'department_cat'] = 10
df.loc[df.salary == 'low', 'salary_cat'] = 1
df.loc[df.salary == 'medium', 'salary_cat'] = 2
df.loc[df.salary == 'high', 'salary_cat'] = 3
df['salary_cat'] = df.salary_cat.astype('Int64')
df['department_cat'] = df.department_cat.astype('Int64')
df.head(10)

In [None]:
print('Среднее арифметическое значение department_cat: ', round(df['department_cat'].mean(), 3))
print('Среднее арифметическое значение salary_cat: ', round(df['salary_cat'].mean(), 3))
print('Значение медианы department_cat: ', df['department_cat'].median())
print('Значение медианы salary_cat: ', df['salary_cat'].median())
print('Значение моды department_cat: ', df['department_cat'].mode()[0])
print('Значение моды salary_cat: ', df['salary_cat'].mode()[0])
print('Минимальное значение department_cat: ', df['department_cat'].min())
print('Минимальное значение salary_cat: ', df['salary_cat'].min())
print('Максимальное значение department_cat: ', df['department_cat'].max())
print('Максимальное значение salary_cat: ', df['salary_cat'].max())
print('Среднее отклонение department_cat: ', round(df['department_cat'].std(), 5))
print('Среднее отклонение salary_cat: ', round(df['salary_cat'].std(), 5))
print('Дисперсия department_cat: ', round(df['department_cat'].var(), 5))
print('Дисперсия salary_cat: ', round(df['salary_cat'].var(), 5))