# 员工离职率数据分析

数据来源：[Kaggle](https://www.kaggle.com/chandrilcg/hr-analytics-employee-turnover)

数据格式：CSV

数据描述：

* satisfaction_level ： 员工的满意度水平。
* last_evaluation：上次评估分数
* number_project： 项目个数
* average_montly_hours ：每月工作小时数 （monthly 是数据集笔误）
* time_spend_company： 工作年限
* Work_accident ：是否有工伤
* left ：是否离职
* promotion_last_5years： 过去5年内是否升职
* Department ：职能部门
* salary ：薪酬水平

### 下载数据集

点击上方kaggle链接，下载解压至本jupyter notebook所在位置   
注意，应该是一个命名为：HR_Data_Predict Employee Turnover.csv的文件

## 数据导入与初步概览

In [None]:
import pandas as pd
file = './data/HR_Data_Predict Employee Turnover.csv'

df = pd.read_csv(file)

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.describe()

## Pandas 数据基本操作

In [None]:
#列出所有列的名字

df.columns

In [None]:
# 取出特定名称的一列：

df['satisfaction_level']

In [None]:
# 取出特定名称的多列：

df[['satisfaction_level','last_evaluation','left']]

In [None]:
# 取出多行

df.loc[5:9]

In [None]:
# 取出多行，多列

df.loc[5:9, ['satisfaction_level','last_evaluation','left']]

In [None]:
# 利用条件筛选

df[df['satisfaction_level'] > 0.5]

In [None]:
# 组合条件筛选

df[(df['satisfaction_level'] > 0.5) & (df['Department'] == 'technical')]

In [None]:
new_df = df[(df['satisfaction_level'] > 0.5) & (df['Department'] == 'technical')][['last_evaluation','left']]
new_df

## 画图

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

%matplotlib inline

## 工作满意度与项目个数的散点图
- 项目多的员工满意度低；
- 项目少的员工满意度也不高；
- 满意度最高的员工群体是4、5个项目。

In [None]:
plt.figure(num=3, figsize=(8,5))
plt.scatter(df['satisfaction_level'][:100], df['number_project'][:100], c='r' )
plt.show()

## 升职相关
- 出乎意料的是，升职往往发生在新员工身上
- 同样出乎意料，升职员工的相对工作时长并不高

In [None]:
from mpl_toolkits.mplot3d import Axes3D

# 绘制散点图
fig = plt.figure()
ax = Axes3D(fig)
ax.scatter(df['average_montly_hours'][:5000], 
           df['time_spend_company'][:5000], 
           df['promotion_last_5years'][:5000])
 
 
# 添加坐标轴(顺序是Z, Y, X)
ax.set_zlabel('promotion_last_5years', fontdict={'size': 10, 'color': 'b'})
ax.set_ylabel('time_spend_company', fontdict={'size': 10, 'color': 'b'})
ax.set_xlabel('average_montly_hours', fontdict={'size': 10, 'color': 'b'})
plt.show()


## 统计每月工作小时数 (96~310)
- 新老员工的工作时间逐渐分化
- 新员工的工作时间比较平均，老员工逐渐出现划水与工作狂现象

In [None]:
a1 = df[(df['time_spend_company'] < 4) & (df['Department'] == 'sales')]['average_montly_hours']
plt.subplot(221)
plt.hist(a1, bins = list(range(75, 325, 25)))
plt.title("new salse staff")

a2 = df[(df['time_spend_company'] >= 4) & (df['Department'] == 'sales')]['average_montly_hours']
plt.subplot(222)
plt.hist(a2, bins = list(range(75, 325, 25)))
plt.title("old salse staff")

a3 = df[(df['time_spend_company'] < 4) & (df['Department'] == 'technical')]['average_montly_hours']
plt.subplot(223)
plt.hist(a3, bins = list(range(75, 325, 25)))
plt.title("new technical staff")

a4 = df[(df['time_spend_company'] >= 4) & (df['Department'] == 'technical')]['average_montly_hours']
plt.subplot(224)
plt.hist(a4, bins = list(range(75, 325, 25)))
plt.title("old salse staff")

## 统计不同工种员工的工作年限
- 各个工种上大体上新员工较多，工作年限比例类似
- 相比于其他工种，sales员工工作相对更加稳定,老员工更多

In [None]:
df['Department'].value_counts()

In [None]:
df['time_spend_company'].value_counts()
df[df['Department']=='sales']['time_spend_company'].value_counts()

In [None]:
plt.subplot(221)
labels1 = df[df['Department']=='sales']['time_spend_company'].value_counts().index
sizes1 = df[df['Department']=='sales']['time_spend_company'].value_counts().values
plt.pie(sizes1,labels = labels1)
plt.title('SALES')

plt.subplot(222)
labels2 = df[df['Department']=='technical']['time_spend_company'].value_counts().index
sizes2 = df[df['Department']=='technical']['time_spend_company'].value_counts().values
plt.pie(sizes2,labels = labels2)
plt.title('TECHNICAL')

plt.subplot(223)
labels3 = df[df['Department']=='support']['time_spend_company'].value_counts().index
sizes3 = df[df['Department']=='support']['time_spend_company'].value_counts().values
plt.pie(sizes3,labels = labels3)
plt.title('SUPPORT')

plt.subplot(224)
labels4 = df[df['Department']=='IT']['time_spend_company'].value_counts().index
sizes4 = df[df['Department']=='IT']['time_spend_company'].value_counts().values
plt.pie(sizes4,labels = labels4)
plt.title('IT')

plt.show()

## 子图的添加方法

In [None]:
ax1=plt.subplot2grid((3,3),(0,0),colspan=3,rowspan=1)
ax2=plt.subplot2grid((3,3),(1,0),colspan=2,rowspan=1)
ax3=plt.subplot2grid((3,3),(1,2),colspan=1,rowspan=2)
ax4=plt.subplot2grid((3,3),(2,0),colspan=1,rowspan=1)
ax5=plt.subplot2grid((3,3),(2,1),colspan=1,rowspan=1)

## seaborn的使用

In [None]:
import seaborn as sns
sns.set(style="darkgrid")

fig,ax = plt.subplots()
ax = sns.countplot(x='left',hue='Department',data=df,ax=ax)
for p in ax.patches:
    percentage = '{:.2f}%'.format(p.get_height()/len(df))
    x = p.get_x() + p.get_width()/2
    y = p.get_y() + p.get_height() + 0.05
    ax.annotate(percentage, (x, y))
ax.set_title('turnover ratio')
plt.show()

## 离职与在职人员特征分布（三列数据可视化）

刚刚我们分析了项目个数与离职的关系，其中我们提到，会不会是钱没有给够？ 我们是否可以一张图看到工资，项目个数，以及离职关系？

这里我们采用violinplot 来进行分布可视化。这里x 选择工资水平，y轴选择项目个数，hue 颜色选择离职与否，并且为了节省空间，我们采用split的显示格式，也就是violin的两翼分别表示两类。

In [None]:
fig,ax = plt.subplots()
ax = sns.violinplot(x="salary", y="number_project", hue='left',data=df, ax=ax,split=True)

可以看到，末位淘汰是很明显的。离职高管的项目个数很极端，要么很差，要么很牛。

同样的我们可以画出其他特征的分布情况。

两种画法(是否split）显示上次评估的与薪资以及离职的关系。

In [None]:
fix,ax=plt.subplots()
ax = sns.violinplot(x="salary", y="last_evaluation", hue='left',data=df, ax=ax,split=False)

可以看到，每种薪资类别的离职人员都是两极化，要么评估很高，要么很低。再次说明末位淘汰在该公司应该是实行的。以及下图，可以看到各个部门的考核方式应该是类似的。

In [None]:
fix,ax=plt.subplots(figsize=(15,5))
ax = sns.violinplot(x="Department", y="last_evaluation", hue='left',data=df, ax=ax,split=False)

## 聚类分析

In [None]:
from sklearn.cluster import KMeans
df = pd.read_csv(file)
clf=KMeans(n_clusters=3) #n_clusters确定聚类类别
data=df[df['left']==1]
data=data[['last_evaluation', 'satisfaction_level']]

clf.fit(data) #训练模型

In [None]:
x_set=data.values
label_clf = clf.labels_
#获得聚类中心,保存在df_center的DataFrame中给数据加上标签
center = clf.cluster_centers_
print(center)
df_center = pd.DataFrame(center, columns=['x', 'y'])
df = pd.DataFrame(x_set, index=label_clf, columns=['x', 'y'])
df1 = df[df.index==0]
df2 = df[df.index==1]
df3 = df[df.index==2]
plt.figure(figsize=(5,5), dpi=80)
axes = plt.subplot()
type1 = axes.scatter(df1.loc[:,['x']], df1.loc[:,['y']], s=50, c='brown', marker='s') 
type2 = axes.scatter(df2.loc[:,['x']], df2.loc[:,['y']], s=50, c='purple', marker='s') 
type3 = axes.scatter(df3.loc[:,['x']], df3.loc[:,['y']], s=50, c='red', marker='s')
type_center = axes.scatter(df_center.loc[:,'x'], df_center.loc[:,'y'], s=40, c='blue')
plt.xlabel('last_evaluation', fontsize=16)
plt.ylabel('satisfaction_level', fontsize=16)
axes.legend((type1, type2, type3, type_center), ('0','1','2','center'), loc=1)
plt.show()

In [None]:
data['SER_values']=data['satisfaction_level']/data['last_evaluation']
total=data.shape[0]
kmodel = KMeans(n_clusters=4)
kmodel.fit(data)
label = pd.Series(kmodel.labels_)  # 各样本的类别
num = pd.Series(kmodel.labels_).value_counts()  # 统计各样本对应的类别的数目
center = pd.DataFrame(kmodel.cluster_centers_)  # 找出聚类中心  
max = center.values.max()
min = center.values.min()
X = pd.concat([center, num], axis=1)  # 横向连接（0是纵向），得到聚类中心对应的类别数目  <class 'pandas.core.frame.DataFrame'>
X.columns = list(data.columns) + ['NUM'] # 表头加上一列

In [None]:
fig = plt.figure(figsize=(8,8))
ax = fig.add_subplot(111, polar=True) #polar=True 画圆形
feature = ['satisfaction_level','last_evaluation','SER_values']
center_num = X.values  #<class 'numpy.ndarray'>
N = len(feature)
angles = np.linspace(0, 2 * np.pi, N, endpoint=False)
ax.set_thetagrids(angles * 180 / np.pi, feature, fontsize=12)

for i, v in enumerate(center_num):
    # 设置雷达图的角度，用于平分切开一个圆面
    angles = np.linspace(0, 2 * np.pi, N, endpoint=False)
    # 为了使雷达图一圈封闭起来，需要下面的步骤
    center = np.concatenate((v[:-1], [v[0]]))
    angles = np.concatenate((angles, [angles[0]]))
    # 绘制折线图
    ax.plot(angles, center, 'o-', linewidth=2, label="NO.%d = %d (%d%%)"%(i + 1, v[-1],v[-1]*100/total))
    # 填充颜色
    ax.fill(angles, center, alpha=0.25)
    # 添加每个特征的标签

    # 设置雷达图的范围
    ax.set_ylim(min - 0.1, max + 0.1)
    # 添加标题
    plt.title('SER_CLUSTERING', fontsize=20)
    # 添加网格线
    ax.grid(True)
    # 设置图例
    plt.legend(loc='upper right', bbox_to_anchor=(1.3, 1.0), ncol=1, fancybox=True, shadow=True)

# 显示图形
plt.show()

## 桑基图(Sankey)介绍
桑基图全称应该为桑基能量分流图或者桑基能量平衡图。所谓的平衡，就是输入和输出"某种和“相等。这里的”和“可以是物理意义上的”能量“ ，也可以是普遍意义上的”总数“，比如人口流动总数，网络流量总数，航班去向总数等。

作为一种可视化的方法，它可以帮我们直观的”映射“各个类别之间的关系。按照桑基图的画法，所有的类别可以分成两类：一种是source，也就是流向的起始端。一个是target，也就是流向的结束端。

接下来我们先预处理一下数据，我们需要将一些数字换成有可视化意义的标签。
- 我们对left 列的数据进行替代，将1 替换为"left"标签，将0 替换为"stay"标签
- 同理，对"promotion_last_5years"列也进行类似的替换，分别为"promoted" 和"no_promotion"
- 对于last_evaluation，我们可以划分等级：比如0:0.5：0.85:1 分别划分为low，mid和high 三个等级
- 最后我们将我们需要展示的流向图，按照（source，target）的格式进行配对，并且放在list中。可以看到前一组的target 是下一组的source项，最后一组的target是left 列。
 - ('Department','salary'),
 - ('salary','last_evaluation'),
 - ('last_evaluation','promotion_last_5years'),
 - ('promotion_last_5years','left')

通过上面的划分，我们有望看到：不同部门的人员的工资水平，不同工资水平人的上次评分水平，不同上次评分的人是否5年内晋升，5年内晋升是否影响到离职。

In [None]:
df = pd.read_csv(file)
df['left'].replace({0: 'stay', 1: 'left'}, inplace=True)
df['promotion_last_5years'].replace({0: 'no_promotion', 1: 'promoted'}, inplace=True)
df['last_evaluation'] =pd.cut(df['last_evaluation'],bins=[0,0.5,0.85,1],labels=['eval_low','eval_mid','eval_high'])
t_list = [('Department','salary'),('salary','last_evaluation'),('last_evaluation','promotion_last_5years'),('promotion_last_5years','left')]

数据预处理完毕后，我们需要按照sankey函数来准备关键的参数。其中最重要的就是三个参数，node的label，link的source 和target。

下面是通用的函数，可以方便的将dataframe 转化成sankey需要的数据格式。

函数主要思路如下：

- 从dataframe中按source 和target 对提取数据
- groupby 来获取link的value值（重命名为”value“）
- reindex 来将source 和target 从index变成列（重命名为"source"和”target")
- 获取label
- 将"source"和”target" 中的label 数值化
- 返回包含（"source"，”target" ，“value”）三列数据的s 以及label

In [None]:
def df_to_sankey(df,cols_tuple_list):
    s = pd.DataFrame([])
    for t in cols_tuple_list: # 提取source 和target 名称
        s1 = df.groupby(by=[t[0],t[1]],axis=0).count() # groupby 得到value
        s1 = s1.iloc[:,[0]]
        s1.columns = ['value'] # 重命名
        if s.shape[0]== 0:
            s = s1
        else:
            s = pd.concat([s,s1],axis=0) # 按行堆砌所有的循环结果
    s.reset_index(inplace=True) # 重置index
    s.columns = ['source','target','value'] # 重命名
    label_set = set(s['source'].unique()) | set(s['target'].unique()) # 获取label 列表
    labels = {v: k for k, v in enumerate(label_set)} 
    s.replace(labels, inplace=True) # 将source 和target的label 数值化
    return s,list(label_set)
s,labels = df_to_sankey(df[['Department','left','salary','promotion_last_5years','last_evaluation']],t_list)

## 画Sankey图
帮助文件中对sankey 描述的第一句话是：Aplotly.graph_objects.Sankeytrace is a graph object in the figure'sdatalist with any of the named arguments or attributes listed below.

也就是说，sankey函数要传给figure的data 参数。导入plotly.graph_objects，具体代码如下。 其中:

- label 为上文中函数返回的labels，
- source，target，value分别取s 数据中的对应列。


In [None]:
import plotly.graph_objects as go

fig = go.Figure(data=[go.Sankey(
    node = dict(
      pad = 15,
      thickness = 20,
      line = dict(color = "black", width = 0.5),
      label = labels,
    ),
    link = dict(
      source = s['source'].values,
      target = s['target'].values,
      value = s['value'].values
  ))])

fig.update_layout(title_text="Employee Turnover", font_size=10)
fig.show()

上图中我们可以看到：

同一级别的不同类的比例，比如：sales部分最多。工资高的人比例少，上次评估时，分数为low的人没有。五年内提升的人超级少。

也可以看到不同级别流向图，比如：promoted 人离职较少（无论是绝对值还是比例）。

## 连续型数据的可视化

连续型数据的可视化主要是数据的分布，对于1维数据来说，最常见的直方图。对于时间序列来说，trend 曲线（line plot）也是常用的方法。

对于2维数据来说，最常用的scatter plot，也就是分析相关性的散点图。这里我们直接用一个图来展示上述我们关心的信息，代码如下：

主要采用了pairplot来显示两两特征之间的相关分布，我们将hue 设为“left” 可以通过颜色区分离职人员的分布。

In [None]:
df = pd.read_csv(file)
sns.pairplot(df[['satisfaction_level', 'last_evaluation', 'number_project',
       'average_montly_hours', 'time_spend_company','left']], kind="scatter", hue="left", palette="Set2")

我们分析“满意度”，“上次评估水平”，“项目的数量“，”平均工作时间“，以及”工龄“之间的关系，以及他们的分布对于是否离职的影响。

对角线显示的是每列数据的自身的分布情况，其中绿色表示离职，橘色表示在职。其实还是可以看到每个特征，离职和在职人员的分布区别很明显。比如每个月工作时间，如果员工工作时间少（怠工），可能有离职倾向。相反的如果员工连着加班几个月，也有可能会离职。

如果两两特征匹配，发现会更有意思：绿色的点（离职人员）几乎都是分布在画面的”边缘“，很”离群“。比如员工如何做了7个项目，工作时间高于300小时（传说的996 ），员工很快就离职了。

## 练习：表格操作与统计

* 项目评估分数超出全体中位数的人中，离职率有多少？
* 离职人群与非离职人群各自统计公司满意度均值，是否有差别？
* 离职人群与非离职人群各自统计薪酬水平（最大值、最小值、中位数）
* 是否有人入职5年以上，且过去5年从未升职过？

