# HR Analysis
ปัจจัยที่สำคัญที่สุดประการหนึ่งของความสำเร็จของบริษัทคือพนักงานของพวกเขา กลยุทธ์การรักษาพนักงานเป็นสิ่งสำคัญสำหรับองค์กรในการลดการสูญเสียความสามารถ ลดเวลา และค่าใช้จ่ายเพื่อทดแทนพนักงานที่มีประสบการณ์ Employee attrition คือจำนวนพนักงานที่ออกจากองค์กรและแตกต่างกันไปตามอุตสาหกรรม แต่โดยทั่วไปแล้วจำนวนที่น้อยกว่าจะดีกว่า พนักงานที่ออกจากองค์กรเป็นปัญหาที่หลีกเลี่ยงไม่ได้ เเต่การระบุปัญหาหรือปัจจัยที่ส่งผลต่อพนักงานที่ออกจากองค์กรสามารถช่วยให้บริษัทปรับปรุงความพยายามในการบรรเทาผลกระทบและลดการออกจากงานของพนักงานในเชิงรุกได้ เพื่อที่จะเสนอสิ่งที่จูงใจพนักงานให้อยู่ต่อ

In [1]:
import os
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
import scipy
import scipy.cluster.hierarchy as sch
from statistics import stdev
from pprint import pprint
import warnings
warnings.filterwarnings("ignore")
sns.set_context("notebook")

In [2]:
data = pd.read_csv('HR-Employee-Attrition.csv')
print("There are {:,} rows and {} columns in the data.".format(data.shape[0], data.shape[1]))

There are 1,470 rows and 35 columns in the data.


ในการวิเคราะห์นี้ ใช้[ชุดข้อมูล](https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset)ของ IBM เกี่ยวกับ HR Analytics ข้อมูลประกอบด้วยพนักงานปัจจุบันและอดีตเกือบ 1,500 คน พร้อมข้อมูลที่เกี่ยวข้องกับความพึงพอใจในงาน สมดุลชีวิตในการทำงาน อายุงาน ประสบการณ์ เงินเดือน และข้อมูลประชากร (job satisfaction, work life balance, tenure, experience, salary, and demographic data) ด้านล่างนี้เป็นภาพรวมโดยย่อและสถิติสรุปของข้อมูล

In [4]:
# Check for missing data
data.isnull().sum().sum()

0

In [5]:
data.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


In [6]:
print("Summary Statistics of numeric variables")
data.describe()

Summary Statistics of numeric variables


Unnamed: 0,Age,DailyRate,DistanceFromHome,Education,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,HourlyRate,JobInvolvement,JobLevel,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,...,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,36.92381,802.485714,9.192517,2.912925,1.0,1024.865306,2.721769,65.891156,2.729932,2.063946,...,2.712245,80.0,0.793878,11.279592,2.79932,2.761224,7.008163,4.229252,2.187755,4.123129
std,9.135373,403.5091,8.106864,1.024165,0.0,602.024335,1.093082,20.329428,0.711561,1.10694,...,1.081209,0.0,0.852077,7.780782,1.289271,0.706476,6.126525,3.623137,3.22243,3.568136
min,18.0,102.0,1.0,1.0,1.0,1.0,1.0,30.0,1.0,1.0,...,1.0,80.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,30.0,465.0,2.0,2.0,1.0,491.25,2.0,48.0,2.0,1.0,...,2.0,80.0,0.0,6.0,2.0,2.0,3.0,2.0,0.0,2.0
50%,36.0,802.0,7.0,3.0,1.0,1020.5,3.0,66.0,3.0,2.0,...,3.0,80.0,1.0,10.0,3.0,3.0,5.0,3.0,1.0,3.0
75%,43.0,1157.0,14.0,4.0,1.0,1555.75,4.0,83.75,3.0,3.0,...,4.0,80.0,1.0,15.0,3.0,3.0,9.0,7.0,3.0,7.0
max,60.0,1499.0,29.0,5.0,1.0,2068.0,4.0,100.0,4.0,5.0,...,4.0,80.0,3.0,40.0,6.0,4.0,40.0,18.0,15.0,17.0


In [7]:
cat_cols=data.select_dtypes(include=object).columns.tolist() #name columns typr object
cat_df=pd.DataFrame(data[cat_cols].melt(var_name='column', value_name='value')
                    .value_counts()).rename(columns={0: 'count'}).sort_values(by=['column', 'count'])
print("Summary Statistics of categorical variables")
display(cat_df.T)

Summary Statistics of categorical variables


column,Attrition,Attrition,BusinessTravel,BusinessTravel,BusinessTravel,Department,Department,Department,EducationField,EducationField,...,JobRole,JobRole,JobRole,JobRole,MaritalStatus,MaritalStatus,MaritalStatus,Over18,OverTime,OverTime
value,Yes,No,Non-Travel,Travel_Frequently,Travel_Rarely,Human Resources,Sales,Research & Development,Human Resources,Other,...,Manufacturing Director,Laboratory Technician,Research Scientist,Sales Executive,Divorced,Single,Married,Y,Yes,No
count,237,1233,150,277,1043,63,446,961,27,82,...,145,259,292,326,327,470,673,1470,416,1054


In [8]:
data.select_dtypes(include=obDataFrame(data[cat_cols].melt(var_name='column', value_name='value')ject).columns.tolist()

['Attrition',
 'BusinessTravel',
 'Department',
 'EducationField',
 'Gender',
 'JobRole',
 'MaritalStatus',
 'Over18',
 'OverTime']