
# <center>Pandas案例分析</center>

### 实践题目
#### 员工离职预测与劳资谈判应用

* 为什么我们最好和最有经验的员工过早离职？数据来自Kaggle中的，想并尝试预测下一个什么样的有价值的员工将离开。通过分析数据，了解影响员工辞职的因素有哪些，以及最主要的原因，预测哪些优秀员工会离职。

### 数据文件
* pfm_train.csv
* pfm_test.csv

### 本节任务
* 用pandas进行数据从文件读取、数据预览、异常数据查看和处理、数据转换等
* 用sklearn进行模型构建，模型评估，并进行相关预测。
* 从给定的影响员工离职的因素和员工是否离职的记录，建立一个逻辑回归模型预测有可能离职的员工

> 数据主要包括影响员工离职的各种因素（工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等）以及员工是否已经离职的对应记录。 
> 数据分为训练数据和测试数据，分别保存在pfm_train.csv和pfm_test.csv两个文件中。 其中训练数据主要包括1100条记录，31个字段，主要字段说明如下：
* （1）Age：员工年龄
* （2）Attrition：员工是否已经离职，1表示已经离职，2表示未离职，这是目标预测值；
* （3）BusinessTravel：商务差旅频率，Non-Travel表示不出差，Travel_Rarely表示不经常出差，Travel_Frequently表示经常出差；
* （4）Department：员工所在部门，Sales表示销售部，Research & Development表示研发部，Human Resources表示人力资源部；
* （5）DistanceFromHome：公司跟家庭住址的距离，从1到29，1表示最近，29表示最远；
* （6）Education：员工的教育程度，从1到5，5表示教育程度最高；
* （7）EducationField：员工所学习的专业领域，Life Sciences表示生命科学，Medical表示医疗，Marketing表示市场营销，Technical Degree表示技术学位，Human Resources表示人力资源，Other表示其他；
* （8）EmployeeNumber：员工号码；
* （9）EnvironmentSatisfaction：员工对于工作环境的满意程度，从1到4，1的满意程度最低，4的满意程度最高；
* （10）Gender：员工性别，Male表示男性，Female表示女性；
* （11）JobInvolvement：员工工作投入度，从1到4，1为投入度最低，4为投入度最高；
* （12）JobLevel：职业级别，从1到5，1为最低级别，5为最高级别；
* （13）JobRole：工作角色：Sales Executive是销售主管，Research Scientist是科学研究员，Laboratory Technician实验室技术员，Manufacturing Director是制造总监，Healthcare Representative是医疗代表，Manager是经理，Sales Representative是销售代表，Research Director是研究总监，Human Resources是人力资源；
* （14）JobSatisfaction：工作满意度，从1到4，1代表满意程度最低，4代表满意程度最高；
* （15）MaritalStatus：员工婚姻状况，Single代表单身，Married代表已婚，Divorced代表离婚；
* （16）MonthlyIncome：员工月收入，范围在1009到19999之间；
* （17）NumCompaniesWorked：员工曾经工作过的公司数；
* （18）Over18：年龄是否超过18岁；
* （19）OverTime：是否加班，Yes表示加班，No表示不加班；
* （20）PercentSalaryHike：工资提高的百分比；
* （21）PerformanceRating：绩效评估；
* （22）RelationshipSatisfaction：关系满意度，从1到4，1表示满意度最低，4表示满意度最高；
* （23）StandardHours：标准工时；
* （24）StockOptionLevel：股票期权水平；
* （25）TotalWorkingYears：总工龄；
* （26）TrainingTimesLastYear：上一年的培训时长，从0到6，0表示没有培训，6表示培训时间最长；
* （27）WorkLifeBalance：工作与生活平衡程度，从1到4，1表示平衡程度最低，4表示平衡程度最高；
* （28）YearsAtCompany：在目前公司工作年数；
* （29）YearsInCurrentRole：在目前工作职责的工作年数
* （30）YearsSinceLastPromotion：距离上次升职时长
* （31）YearsWithCurrManager：跟目前的管理者共事年数；


In [None]:
# 引入文件操作所需要的包
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# 获取文件的当前路径
current_dir = os.path.dirname(os.path.realpath('__file__'))
print(current_dir)

In [None]:
# 设置读取文件的路径
train_filename = os.path.join(current_dir, 'data/pfm_train.csv')
print(train_filename)
test_filename = os.path.join(current_dir, 'data/pfm_test.csv')
print(test_filename)

In [None]:
# 探索数据
# 加载训练集和测试集
train_data = pd.read_csv(train_filename)
test_data = pd.read_csv(test_filename)

In [None]:
train_data.head()

In [None]:
# 查看数据集形状
print('train size:{}'.format(train_data.shape))  # train size:(1100, 31)
print('test size:{}'.format(test_data.shape))  #test size:(350, 30)

In [None]:
# 查看数据集中是否含有缺失值
train_data.isnull().mean()  # false 0   True:1
test_data.isnull().mean()

In [None]:
# 查看数据有没有缺失值
train_data.info()
test_data.info()

In [None]:
# 设置显示所有列
pd.options.display.max_columns = None
pd.set_option('expand_frame_repr', False)

In [None]:
train_data.describe()

In [None]:
# 分别对数值类型与object类型的数据做数据汇总
num_col = train_data.select_dtypes(['number']).columns
train_data[num_col].describe()
# train_data['JobLevel'].plot()  

In [None]:
obj_col = train_data.select_dtypes(['object']).columns  #非数值型
train_data[obj_col].describe()
#count（非空值数）、unique（唯一值数）、top（频数最高者）、freq（最高频数）

In [None]:
# 计算数值型各个类别的离职概率，大概了解一部分对于离职率的影响
for col in train_data.columns:
    if train_data[col].dtype == 'int64':
        print('column:'+col + ':')
        print((train_data[train_data['Attrition'] == 1.0][col].value_counts()/
               train_data[col].value_counts()).sort_values(ascending = False)) #两个Series相除，再排序
        print('-----------------------')


In [None]:
train_data[train_data['Attrition'] == 1.0]['Age'].value_counts() 

In [None]:
# 计算对象型object各个类别的离职概率，大概了解一部分对于离职率的影响
for i in train_data.columns:
    if train_data[i].dtype == 'O':
        print(i + ':')
        print((train_data[train_data['Attrition'] == 1.0][i].value_counts()/
               train_data[i].value_counts()).sort_values(ascending=False))
        print('-----------------------')
# 可以看出，大学专业和出差频率两项有明显的影响，单身职员的离职的概率比较大，职业角色里，代理销售的人员流动大。

In [None]:
# 在分析中发现有一些字段的值是单一的,进一步验证
single_value_feature = []
for col in train_data.columns:
    lenght = len(train_data[col].unique())
    if lenght == 1:
        single_value_feature.append(col)
print(single_value_feature)

In [None]:
# 整体数值比较平滑，部分数值受到极值影响，并且基本可以判断出几个字段基本没有意义。（EmployeeNumber，StandardHours，Over18）
# 丢弃掉没有作用的数据
train_data = train_data.drop(['StandardHours', 'Over18', 'EmployeeNumber'], axis=1)#删除数据
print(train_data.shape)

In [None]:
#DataFrame删除、插入数据
# 将Attrition（该字段为标签）移至1列，方便索引
Attrition = train_data['Attrition']
train_data.drop(['Attrition'], axis = 1, inplace = True)#删除一个coloum
train_data.insert(0, 'Attrition', Attrition) #插入一个新的column
train_data.head(5)

In [None]:
# 特征处理
# 主要是对部分特征进行分组以及one-hot编码
# 对收入进行分箱
print(train_data['MonthlyIncome'].min())  # 1009
print(train_data['MonthlyIncome'].max())  # 19999
print(test_data['MonthlyIncome'].min())  # 1051
print(test_data['MonthlyIncome'].max())  # 19973

In [None]:
# 为了在train和test中的MonthlyIncome进行分组后的区间一致，需要保持两个数据集中MonthlyIncome的最大值和最小值一致，这里使用等宽分组
# 使用pandas的cut进行分组，分为10组
train_data['MonthlyIncome'] = pd.cut(train_data['MonthlyIncome'], bins=10)
print(train_data['MonthlyIncome'])

In [None]:
# 将数据类型为‘object’的字段名提取出来，并使用one-hot-encode对其进行编码
col_object = []
for col in train_data.columns[1:]:
    if train_data[col].dtype == 'object':
        col_object.append(col)
print(col_object)

In [None]:
# 对train数据集进行one-hot编码
train_encode = pd.get_dummies(train_data) #哑编码
pd.options.display.max_columns = None
pd.set_option('expand_frame_repr', True)
train_encode.head()

In [None]:
#这个例子帮助理解one hot编码
import pandas as pd
df = pd.DataFrame([  
            ['green' , 'A'],   
            ['red'   , 'B'],   
            ['blue'  , 'A']])  
df.columns = ['color',  'class'] 
df

In [None]:
pd.get_dummies(df) # 0 1编码  one hot 编码

In [None]:
# 保存数据集，方便日后使用
# train_data.to_csv('trainwithoutencode.csv')
# train_encode.to_csv('train.csv')

In [None]:
# 3 特征共线性处理
corr = train_data.corr() # 相关性系数
corr

In [None]:
corr[corr>0.75]   

In [None]:
# 'TotalWorkingYears' & 'JobLevel' 'YearsAtCompany' & 'YearsWithCurrManager'存在共线性，选择删除其中一个特征即可
train_encode.drop(['TotalWorkingYears', 'YearsWithCurrManager'], axis = 1, inplace = True)

In [None]:
#到这一步，df 数据完全准备好了， 机器学习需要的特征向量准备好了

In [None]:
# 机器学习建模预测
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [None]:
X = train_encode.iloc[:, 1:]
y = train_encode.iloc[:, 0]

In [None]:
# 划分训练集以及测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

In [None]:
lr = LogisticRegression()
lr.fit(X_train, y_train)
train_score = lr.score(X_train, y_train)  # 0.8886363636363637
print(train_score)

In [None]:
pred = lr.predict(X_test)
print(np.mean(pred == y_test))  # 0.8863636363636364

# Any Questions?