In [156]:
import numpy as np
import pandas as pd
df = pd.read_csv("./HR.csv")
df.head()

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_monthly_hours,time_spend_company,Work_accident,left,promotion_last_5years,department,salary
0,0.38,0.53,2,157,3,0,1,0,sales,low
1,0.8,0.86,5,262,6,0,1,0,sales,medium
2,0.11,0.88,7,272,4,0,1,0,sales,medium
3,0.72,0.87,5,223,5,0,1,0,sales,low
4,0.37,0.52,2,159,3,0,1,0,sales,low


# satisfaction_level

## 异常值分析：None

In [16]:
#(sl是satisfaction_level的简称，后面的s代表它是个Series)
sl_s = df["satisfaction_level"]
#isnull()有True,说明有异常值
sl_s.isnull()
#查看异常值有几条
sl_s[sl_s.isnull()]

14999   NaN
15000   NaN
Name: satisfaction_level, dtype: float64

In [9]:
#查看这两条数据的完整情况
df[df["satisfaction_level"].isnull()]

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_monthly_hours,time_spend_company,Work_accident,left,promotion_last_5years,department,salary
14999,,0.52,2,158,3,0,1,0,support,low
15000,,999999.0,2,158,3,0,1,0,sale,low


In [38]:
#丢弃异常值（丢弃这两条数据）
sl_s = sl_s.dropna()
#填充异常值
#sl_s = sl_s.fillna()

## 看有无其他异常值：

In [17]:
#均值看起来没什么问题
sl_s.mean()

0.6128393333333343

In [19]:
#标准差也没什么问题
sl_s.std()

0.24862338135945417

In [21]:
#最大值
sl_s.max()

1.0

In [23]:
#最小值
#我们可以看到它就是个0-1的分布
sl_s.min()

0.09

In [24]:
#中位数
sl_s.median()

0.64

In [25]:
#下四分位数
sl_s.quantile(q=0.25)

0.44

In [26]:
#上四分位数
#0.82-0.44=0.38 向上向下都可以覆盖到它的最大值和最小值
sl_s.quantile(q=0.75)

0.82

## 基本上可以断定无其他异常值

In [28]:
#偏度:负偏，均值偏小，大部分数比均值大
sl_s.skew()

-0.47643761717258093

In [39]:
#峰度：相对于正态分布较平缓
sl_s.kurt()

-0.6706959323886252

## 我们知道它的分布大概是在0-1之间，那么我们怎么获取它的离散化分布呢？pandas画图详见下节/numpy函数

In [40]:
#第一个参数是Series的值（把它怎么切分的值）
#第二个参数bins是把它切分的临界值。
#np.arange(0.0,1.1,0.1)表示从0-1.1,间隔是0.1
#输出有两项，第二项就是它的分隔点,第一项表示，如在0-0.1之间有多少个数。
np.histogram(sl_s.values,bins=np.arange(0.0,1.1,0.1))

(array([ 195, 1214,  532,  974, 1668, 2146, 1973, 2074, 2220, 2004],
       dtype=int64),
 array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ]))

# last_evaluation

In [45]:
# last_evaluation差不多也在0-1之间
le_s = df["last_evaluation"]

In [50]:
#返回空，说明不存在空值
le_s[le_s.isnull()]

Series([], Name: last_evaluation, dtype: float64)

In [51]:
le_s.mean()

67.37373216904412

In [53]:
le_s.std()

8164.407523745649

In [55]:
le_s.median()

0.72

In [57]:
le_s.max()

999999.0

In [59]:
le_s.min()

0.36

In [61]:
#极度正偏，说明它的均值比大部分值大好多
le_s.skew()

122.48265175204614

In [67]:
#说明这个分布的形变非常大，应该是不靠谱的
le_s.kurt()

15001.999986807796

In [71]:
#我们的印象中值在0-1之间，大于1的话，就有可能是异常值
#就只有一个值大于1，所以它有问题，可以抛弃
#从这里我们也可以看出一个非常大的异常值会对均值和方差造成什么样的影响
le_s[le_s>1]

15000    999999.0
Name: last_evaluation, dtype: float64

In [None]:
#去掉异常值
le_s[le_s<=1]

In [82]:
q_low=le_s.quantile(q=0.25)
q_high=le_s.quantile(q=0.75)
q_interval=q_high-q_low
k=1.5

In [83]:
#用上下界进行筛选,可以同时筛选(去掉异常值的另一种方法)
le_s=le_s[le_s<q_high+k*q_interval][le_s>q_low-k*q_interval]

In [85]:
len(le_s)

15001

In [86]:
#可以得到它的直方图
np.histogram(le_s.values,bins=np.arange(0.0,1.1,0.1))

(array([   0,    0,    0,  179, 1390, 3396, 2234, 2062, 2752, 2988],
       dtype=int64),
 array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ]))

In [87]:
#丢掉异常值，重新计算它的一些属性值
le_s.mean()

0.7160675954936238

In [89]:
le_s.std()

0.17118464250786247

## 中位数相差不是很多，所以具有比较远的离群值的时候，中位数更能表达它的集中效果

In [91]:
le_s.median()

0.72

In [93]:
le_s.max()

1.0

In [95]:
le_s.skew()

-0.02653253746872579

In [97]:
le_s.kurt()

-1.2390454655108427

# number_project

In [99]:
np_s=df["number_project"]

In [101]:
np_s[np_s.isnull()]

Series([], Name: number_project, dtype: int64)

In [103]:
np_s.mean()

3.8026929742700974

In [104]:
np_s.std()

1.2327327792005955

In [105]:
np_s.median()

4.0

In [106]:
np_s.max()

7

In [107]:
np_s.min()

2

In [108]:
#大部分值小于均值
np_s.skew()

0.3377744235231047

In [109]:
np_s.kurt()

-0.49580962709450604

In [116]:
#它的属性也是个数字，但都是整数2-7那么几个，所以，我们直接数每个数字出现了多少次
np_s.value_counts()

4    4365
3    4055
5    2761
2    2391
6    1174
7     256
Name: number_project, dtype: int64

In [118]:
#我们更关心每个数出现的比例
#可以看出做四个项目的人最多，三个项目的其次，一个人做很多项目还是占少数的
np_s.value_counts(normalize=True)

4    0.290961
3    0.270297
5    0.184042
2    0.159379
6    0.078256
7    0.017064
Name: number_project, dtype: float64

In [120]:
#我们来给它排下序,按index排序，升序
np_s.value_counts(normalize=True).sort_index()

2    0.159379
3    0.270297
4    0.290961
5    0.184042
6    0.078256
7    0.017064
Name: number_project, dtype: float64

## 小结：这节我们接触到静态结构分析的方法

# average_monthly_hours

In [123]:
amh_s = df["average_monthly_hours"]

In [124]:
amh_s.mean()

201.0417277696307

In [125]:
amh_s.std()

49.94181527437911

In [127]:
amh_s.median()

200.0

In [129]:
#每个月最多工作310个小时
amh_s.max()

310

In [130]:
#每个月只工作96个小时
amh_s.min()

96

In [131]:
amh_s.skew()

0.05322458779916304

In [137]:
amh_s.kurt()

-1.1350158577565719

In [139]:
#剔除异常值
amh_s=amh_s[amh_s<amh_s.quantile(0.75)+1.5*(amh_s.quantile(0.75)-amh_s.quantile(0.25))][amh_s>amh_s.quantile(0.25)-1.5*(amh_s.quantile(0.75)-amh_s.quantile(0.25))]

In [140]:
#无异常值
len(amh_s)

15002

In [141]:
#连续值是有它的分布的,bins=10表示分成10份儿
np.histogram(amh_s.values,bins=10)

(array([ 367, 1240, 2736, 1722, 1628, 1712, 1906, 2240, 1127,  324],
       dtype=int64),
 array([ 96. , 117.4, 138.8, 160.2, 181.6, 203. , 224.4, 245.8, 267.2,
        288.6, 310. ]))

In [143]:
#这里如果amh_s不加10，就只会取到306，结果会显示不全
#注意：这里的bins获得的区间是左闭右开的，最后一个数则要归到之前的集合中去
np.histogram(amh_s.values,bins=np.arange(amh_s.min(),amh_s.max()+10,10))

(array([ 168,  171,  147,  807, 1153, 1234, 1075,  824,  818,  758,  751,
         738,  856,  824,  987, 1002, 1045,  935,  299,  193,  131,   86],
       dtype=int64),
 array([ 96, 106, 116, 126, 136, 146, 156, 166, 176, 186, 196, 206, 216,
        226, 236, 246, 256, 266, 276, 286, 296, 306, 316], dtype=int64))

In [146]:
#注意：value_counts获得的区间是左开右闭的
amh_s.value_counts(bins=np.arange(amh_s.min(),amh_s.max()+10,10))

(146.0, 156.0]     1277
(136.0, 146.0]     1159
(256.0, 266.0]     1063
(236.0, 246.0]     1006
(156.0, 166.0]      995
(246.0, 256.0]      987
(126.0, 136.0]      886
(216.0, 226.0]      873
(266.0, 276.0]      860
(166.0, 176.0]      832
(226.0, 236.0]      814
(176.0, 186.0]      813
(186.0, 196.0]      761
(196.0, 206.0]      755
(206.0, 216.0]      731
(276.0, 286.0]      319
(95.999, 106.0]     187
(286.0, 296.0]      164
(116.0, 126.0]      162
(106.0, 116.0]      162
(296.0, 306.0]      128
(306.0, 316.0]       68
Name: average_monthly_hours, dtype: int64

# time_spend_company

In [147]:
tsc_s= df["time_spend_company"]

In [149]:
#大多数人在公司待了3年
tsc_s.value_counts().sort_index()

2     3245
3     6445
4     2557
5     1473
6      718
7      188
8      162
10     214
Name: time_spend_company, dtype: int64

In [151]:
#平均下来每个员工待了3.5年
tsc_s.mean()

3.498066924410079

# Work_accident

In [152]:
wa_s=df["Work_accident"]

In [154]:
#大部分人工作中是没有事故的，少部分人出现过事故
wa_s.value_counts()

0    12833
1     2169
Name: Work_accident, dtype: int64

In [157]:
#我们可以得到它的构成和比例
#求下它的事故率，对于0和1取值的事故率是相等的
wa_s.mean()

0.14458072257032395

# left

In [158]:
l_s=df["left"]

In [159]:
#最近离职的有3574人，没有离职的有11428人
l_s.value_counts()

0    11428
1     3574
Name: left, dtype: int64

# promotion_last_5years

In [160]:
ply_s=df["promotion_last_5years"]

In [161]:
# 只有少部分人得到晋升，大部分人是没有晋升的
ply_s.value_counts()

0    14683
1      319
Name: promotion_last_5years, dtype: int64

# salary

In [162]:
s_s=df["salary"]

In [164]:
#发现有异常值
s_s.value_counts()

low       7318
medium    6446
high      1237
nme          1
Name: salary, dtype: int64

In [170]:
# 去异常值：把异常值填成空，再dropna()
#高收入人群是少数，低收入人群是多数
s_s.where(s_s!='nme').dropna().value_counts()

low       7318
medium    6446
high      1237
Name: salary, dtype: int64

# department

In [171]:
d_s = df["department"]

In [174]:
# 可以看出各个部门人数的比例
# 其中有个sale和sales，可能是录入错误，要根据具体业务场景分析，也有可能有其特别的含义
d_s.value_counts(normalize=True)

sales          0.275963
technical      0.181309
support        0.148647
IT             0.081789
product_mng    0.060125
marketing      0.057192
RandD          0.052460
accounting     0.051127
hr             0.049260
management     0.041994
sale           0.000133
Name: department, dtype: float64

In [176]:
d_s=d_s.where(d_s!="sale")
d_s

0             sales
1             sales
2             sales
3             sales
4             sales
5             sales
6             sales
7             sales
8             sales
9             sales
10            sales
11            sales
12            sales
13            sales
14            sales
15            sales
16            sales
17            sales
18            sales
19            sales
20            sales
21            sales
22            sales
23            sales
24            sales
25            sales
26            sales
27            sales
28       accounting
29       accounting
            ...    
14972    accounting
14973    accounting
14974    accounting
14975            hr
14976            hr
14977            hr
14978            hr
14979     technical
14980     technical
14981     technical
14982     technical
14983     technical
14984     technical
14985     technical
14986     technical
14987     technical
14988     technical
14989     technical
14990       support


In [178]:
d_s.dropna()

0             sales
1             sales
2             sales
3             sales
4             sales
5             sales
6             sales
7             sales
8             sales
9             sales
10            sales
11            sales
12            sales
13            sales
14            sales
15            sales
16            sales
17            sales
18            sales
19            sales
20            sales
21            sales
22            sales
23            sales
24            sales
25            sales
26            sales
27            sales
28       accounting
29       accounting
            ...    
14970         sales
14971         sales
14972    accounting
14973    accounting
14974    accounting
14975            hr
14976            hr
14977            hr
14978            hr
14979     technical
14980     technical
14981     technical
14982     technical
14983     technical
14984     technical
14985     technical
14986     technical
14987     technical
14988     technical


# 简单对比分析