In [1]:
import pandas as pd

In [123]:
data = pd.read_csv('data/WA_Fn-UseC_-HR-Employee-Attrition.csv')
data.head(10) # 데이터 10개 불러오기

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2
5,32,No,Travel_Frequently,1005,Research & Development,2,2,Life Sciences,1,8,...,3,80,0,8,2,2,7,7,3,6
6,59,No,Travel_Rarely,1324,Research & Development,3,3,Medical,1,10,...,1,80,3,12,3,2,1,0,0,0
7,30,No,Travel_Rarely,1358,Research & Development,24,1,Life Sciences,1,11,...,2,80,1,1,2,3,1,0,0,0
8,38,No,Travel_Frequently,216,Research & Development,23,3,Life Sciences,1,12,...,2,80,0,10,2,3,9,7,1,8
9,36,No,Travel_Rarely,1299,Research & Development,27,3,Medical,1,13,...,2,80,2,17,3,2,7,7,7,7


In [3]:
print(f"결측치 수: {data.isna().sum().sum()}개")
print(f"중복값 수: {data.duplicated(keep=False).sum()}개")

결측치 수: 0개
중복값 수: 0개


### 데이터 정보 확인하기

직원 감소로 이어지는 요인을 파악하고 '직업 및 감소별 집과의 거리 분석' 또는 '교육 및 감소별 월평균 소득 비교'

**Attrition is the gradual reduction of a workforce as employees leave or retire.**

**=> 직원들이 떠나거나 은퇴함에 따라 노동력이 점진적으로 감소(즉, 은퇴 여부)**
 
- 전체 행 수: 1470개
- 결측치 수: 0개
- 중복값 수: 0개

### Data Set Description
1. Age : 해당 직원의 나이
2. Attrition : 퇴직 여부 Target값 (종속변수)
3. BusinessTravel : 출장의 빈도
4. DailyRate : 일 대비 급여의 수준
5. Department : 업무분야
6. DistanceFromHome : 집과의 거리
7. Education : 교육의 정도
8. EducationField : 전공
9. EmployeeCount : 직원 숫자
10. EmployeeNumber : 직원 ID
11. EnvironmentSatisfaction : 업무 환경에 대한 만족도
12. Gender : 성별
13. HourlyRate : 시간 대비 급여의 수준
14. JobInvolvement : 업무 참여도
15. JobLevel : 업무의 수준
16. JobRole : 업무 종류
17. JobSatisfaction : 업무 만족도
18. MaritalStatus : 결혼 여부
19. MonthlyIncome : 월 소득
20. MonthlyRate : 월 대비 급여 수준
21. NumCompaniesWorked : 일한 회사의 수
22. Over18 : 18세 이상
23. OverTime : 규정외 노동시간
24. PercentSalaryHike : 급여의 증가분 백분율
25. PerformanceRating : 업무 성과
26. RelationshipSatisfaction : 대인관계 만족도
27. StandardHours : 표준 시간
28. StockOptionLevel : 스톡옵션 정도
29. TotalWorkingYears : 경력 기간
30. TrainingTimesLastYear : 교육 시간
31. WorkLifeBalance : 일과 생활의 균형 정도
32. YearsAtCompany : 근속 연수
33. YearsInCurrentRole : 현재 역할의 년수
34. YearsSinceLastPromotion : 마지막 프로모션
35. YearsWithCurrManager : 현재 관리자와 함께 보낸 시간


### Column 수가 너무 많아서 보기 불편하니까, 의미없는 변수들을 제거하자.

EmployeeCount는 모두 1의 값을 가진다.

EmployeeNumber는 직원의 ID를 뜻하지만 모두 유일한 값을 가지므로 인덱스와 같은 역할을 한다.

Over18: 대상자 모두 18세 이상이므로 모두 True 값을 가진다.

StandardHours: 주당 근무시간 => 모두 80 값을 가진다.(주 80시간은 너무 많은 것 같은데, 2주간 근무 시간일지도 모른다.)

In [4]:
print(f"EmployeeCount의 값 종류\n {data['EmployeeCount'].value_counts()}", end='\n\n')
print(f"EmployeeNumber의 유일한 값 수: {data['EmployeeNumber'].nunique()}", end='\n\n')
print(f"Over18의 값 종류\n{data['Over18'].value_counts()}", end="\n\n")
print(f"StandardHours의 값 종류\n{data['StandardHours'].value_counts()}", end="\n\n")

data.drop(['EmployeeCount', 'EmployeeNumber', 'Over18', 'StandardHours'], axis = 1, inplace = True)

EmployeeCount의 값 종류
 1    1470
Name: EmployeeCount, dtype: int64

EmployeeNumber의 유일한 값 수: 1470

Over18의 값 종류
Y    1470
Name: Over18, dtype: int64

StandardHours의 값 종류
80    1470
Name: StandardHours, dtype: int64



### 데이터간 상관계수 확인하기

1. JobLevel - MonthlyIncome
=> JobLevel이 높을수록 월급이 많다.

2. PercentSalaryHike - PerformanceRating
=> 급여가 많이 오를수록 수행 능력이 올라간다.



In [155]:
import chart_studio
import chart_studio.plotly as py

username = 'ms9648' # your username
api_key = 'TAuIvYPB3CMW5WvFZ16W' # your api key - go to profile > settings > regenerate key
chart_studio.tools.set_credentials_file(username=username, api_key=api_key)

In [7]:
Attrition = data[data['Attrition'] == 'Yes']
Not_Attrition = data[data['Attrition'] != 'Yes']

In [157]:
import plotly.express as px

fig = px.imshow(data.corr())
fig.show()
py.plot(fig, filename = 'DataCorrelation', auto_open=True)

'https://plotly.com/~ms9648/3/'

In [158]:
import chart_studio.tools as tls
tls.get_embed('https://plotly.com/~ms9648/3/') #change to your url

'<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/3.embed" height="525" width="100%"></iframe>'

<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/3.embed" height="525" width="100%"></iframe>

#### 1. 나이별 은퇴 여부 확인하기
25 ~ 35세가 많이 분포하고 있으며, 전체 대상자의 나이 분포에 비해 25~30세의 은퇴 비율이 높으며, 35~40세의 은퇴 비율이 낮다.

In [160]:
import plotly.express as px

fig = px.histogram(data[data['Attrition'] == 'Yes'], x="Age", nbins = 10, title='<b>은퇴자 나이 분포</b>')
fig.update_layout(bargap=0.2)
fig.show()
py.plot(fig, filename = 'Age_Attrition', auto_open=True)

'https://plotly.com/~ms9648/5/'

In [162]:
tls.get_embed('https://plotly.com/~ms9648/5/')

'<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/5.embed" height="525" width="100%"></iframe>'

<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/5.embed" height="525" width="100%"></iframe>

In [163]:
fig = px.histogram(data, x="Age", nbins = 10,  title='<b>전체 대상자 나이 분포</b>')
fig.update_layout(bargap=0.2)
py.plot(fig, filename = 'Age_All', auto_open=True)

'https://plotly.com/~ms9648/7/'

In [164]:
tls.get_embed('https://plotly.com/~ms9648/7/')

'<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/7.embed" height="525" width="100%"></iframe>'

<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/7.embed" height="525" width="100%"></iframe>

#### 2. 직업/직무별 은퇴

1. 각 직업별 은퇴자들의 나이는 평균적으로 30~35세에 몰려있으며, Human Resources가 상대적으로 어린 나이에 은퇴를 하는 경향을 띈다.

In [27]:
data[data['Attrition'] == 'Yes'].groupby('Department').mean()

Unnamed: 0_level_0,Age,DailyRate,DistanceFromHome,Education,EnvironmentSatisfaction,HourlyRate,JobInvolvement,JobLevel,JobSatisfaction,MonthlyIncome,...,PerformanceRating,RelationshipSatisfaction,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
Department,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Human Resources,30.083333,749.916667,13.416667,3.0,2.333333,62.916667,2.5,1.333333,2.166667,3715.75,...,3.083333,3.083333,0.833333,6.083333,2.083333,2.916667,4.166667,2.0,0.833333,1.5
Research & Development,33.473684,754.548872,10.263158,2.827068,2.473684,66.834586,2.556391,1.421053,2.458647,4108.075188,...,3.195489,2.518797,0.518797,8.082707,2.586466,2.578947,4.954887,2.706767,1.87218,2.849624
Sales,34.26087,744.369565,10.804348,2.836957,2.467391,64.097826,2.467391,1.98913,2.521739,5908.456522,...,3.108696,2.652174,0.5,8.76087,2.75,2.73913,5.51087,3.304348,2.195652,3.032609


2. 직업별 은퇴자 비율을 따져봤을 때, Sales에 종사하는 사람들이 상대적으로 은퇴 비율이 높다.
    - 하지만, 평균 은퇴 나이는 가장 많다.

In [33]:
data.groupby('Department').count() / len(data)

Unnamed: 0_level_0,Age,Attrition,BusinessTravel,DailyRate,DistanceFromHome,Education,EducationField,EnvironmentSatisfaction,Gender,HourlyRate,...,PerformanceRating,RelationshipSatisfaction,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
Department,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Human Resources,0.042857,0.042857,0.042857,0.042857,0.042857,0.042857,0.042857,0.042857,0.042857,0.042857,...,0.042857,0.042857,0.042857,0.042857,0.042857,0.042857,0.042857,0.042857,0.042857,0.042857
Research & Development,0.653741,0.653741,0.653741,0.653741,0.653741,0.653741,0.653741,0.653741,0.653741,0.653741,...,0.653741,0.653741,0.653741,0.653741,0.653741,0.653741,0.653741,0.653741,0.653741,0.653741
Sales,0.303401,0.303401,0.303401,0.303401,0.303401,0.303401,0.303401,0.303401,0.303401,0.303401,...,0.303401,0.303401,0.303401,0.303401,0.303401,0.303401,0.303401,0.303401,0.303401,0.303401


In [34]:
data[data['Attrition'] == 'Yes'].groupby('Department').count() / len(data[data['Attrition'] == 'Yes'])

Unnamed: 0_level_0,Age,Attrition,BusinessTravel,DailyRate,DistanceFromHome,Education,EducationField,EnvironmentSatisfaction,Gender,HourlyRate,...,PerformanceRating,RelationshipSatisfaction,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
Department,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Human Resources,0.050633,0.050633,0.050633,0.050633,0.050633,0.050633,0.050633,0.050633,0.050633,0.050633,...,0.050633,0.050633,0.050633,0.050633,0.050633,0.050633,0.050633,0.050633,0.050633,0.050633
Research & Development,0.561181,0.561181,0.561181,0.561181,0.561181,0.561181,0.561181,0.561181,0.561181,0.561181,...,0.561181,0.561181,0.561181,0.561181,0.561181,0.561181,0.561181,0.561181,0.561181,0.561181
Sales,0.388186,0.388186,0.388186,0.388186,0.388186,0.388186,0.388186,0.388186,0.388186,0.388186,...,0.388186,0.388186,0.388186,0.388186,0.388186,0.388186,0.388186,0.388186,0.388186,0.388186


아래 그래프는 대상자들의 직업 분포를 나타낸 것이다.

- 왼쪽 그래프는 전체 대상자들의 직업 분포를 나타낸 것이다.
- 오른쪽 그래프는 은퇴한 대상자들의 직업 분포를 나타낸 것이다.

In [167]:
from plotly.subplots import make_subplots
import plotly.graph_objs as go

fig = make_subplots(rows=1, cols=2, specs=[[{'type':'pie'},{'type':'pie'}]], x_title='대상자 직업 분포')


                   
fig.add_pie(labels=data.Department, values = data.Age,row=1,col=1)
fig.add_pie(labels=data[data['Attrition'] == 'Yes'].Department, values= data[data['Attrition'] == 'Yes'].Age,row=1,col=2)

fig.show()
tls.get_embed(py.plot(fig, filename = 'Job_Distribution', auto_open=True))

'<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/9.embed" height="525" width="100%"></iframe>'

<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/9.embed" height="525" width="100%"></iframe>

3. 직무에 따른 은퇴자 비율을 나타낸 것이다.
   - 왼쪽 그래프는 전체 대상자들의 직무 분포를 나타낸 것이다.
   - 오른쪽 그래프는 은퇴한 대상자들의 직무 분포를 나타낸 것이다.

상대적으로 은퇴 비율이 높은 직무는 Sales Executive, Research Scientist, Laboratory Technician, Sales Representative, Human Resources가 있고, 

상대적으로 은퇴 비율이 낮은 직무는 Manufacturing Director, Healthcare Representative, Manager, Research Director가 있다.

In [168]:
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'pie'},{'type':'pie'}]], x_title='대상자 직무 분포')


                   
fig.add_pie(labels=data.JobRole, values = data.Age,row=1,col=1)
fig.add_pie(labels=data[data['Attrition'] == 'Yes'].JobRole, values= data[data['Attrition'] == 'Yes'].Age,row=1,col=2)


fig.show()
tls.get_embed(py.plot(fig, filename = 'Job_Role_Distribution', auto_open=True))

'<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/13.embed" height="525" width="100%"></iframe>'

<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/13.embed" height="525" width="100%"></iframe>

#### 3. 업무 환경에 따른 만족도 분포

왼쪽 그래프는 은퇴하지 않은 사람들의 업무 만족도 분포이다.

오른쪽 그래프는 은퇴한 사람들의 업무 만족도 분포이다.

은퇴하지 않은 사람들의 업무 만족도 분포를 보면 높은 만족도(4점 + 3점)를 가진 사람들의 비율이 약 63%로 높게 나오지만, 은퇴한 사람들의 업무 만족도 분포는 높은 만족도(4점 + 3점)를 가진 사람들의 비율이 약 53%로 상대적으로 낮다.

따라서, 업무 만족도가 낮을 수록 은퇴한 사람들의 비율이 높아짐을 알 수 있었다.

In [169]:
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'pie'},{'type':'pie'}]], x_title='업무 만족도 분포')


                   
fig.add_pie(labels=data[data['Attrition'] != 'Yes'].JobSatisfaction,row=1,col=1)
fig.add_pie(labels=data[data['Attrition'] == 'Yes'].JobSatisfaction,row=1,col=2)

fig.show()
tls.get_embed(py.plot(fig, filename = 'Job_Satisfaction_Distribution', auto_open=True))

'<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/15.embed" height="525" width="100%"></iframe>'

<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/15.embed" height="525" width="100%"></iframe>

#### 4. 업무 수준에 따른 은퇴 비율

왼쪽 그래프는 은퇴하지 않은 사람들의 업무 수준 분포이다.

오른쪽 그래프는 은퇴한 사람들의 업무 수준 분포이다.

은퇴한 사람들의 분포를 보면 업무 수준이 낮은 사람들의 은퇴 비율이 상대적으로 매우 높음을 알 수 있다. 그에 반해 업무 수준이 높은 사람들의 경우 은퇴 비율이 급격히 낮아지는 것을 볼 수 있다.

In [170]:
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'pie'},{'type':'pie'}]], x_title='업무 수준 분포')


                   
fig.add_pie(labels=data[data['Attrition'] != 'Yes'].JobLevel,row=1,col=1)
fig.add_pie(labels=data[data['Attrition'] == 'Yes'].JobLevel,row=1,col=2)

fig.show()
tls.get_embed(py.plot(fig, filename = 'Job_Level_Distribution', auto_open=True))

'<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/17.embed" height="525" width="100%"></iframe>'

<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/17.embed" height="525" width="100%"></iframe>

#### 5. 규정 외 노동시간에 따른 은퇴 비율

왼쪽 그래프는 은퇴하지 않은 사람들의 규정 외 노동 여부 분포이다.

오른쪽 그래프는 은퇴한 사람들의 규정 외 노동 여부 분포이다.

규정 외 시간동안 노동을 하는 경우 은퇴 비율이 매우 높아짐을 알 수 있었다.

In [171]:
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'pie'},{'type':'pie'}]], x_title='규정 외 노동시간 여부 분포')


                   
fig.add_pie(labels=data[data['Attrition'] != 'Yes'].OverTime,row=1,col=1)
fig.add_pie(labels=data[data['Attrition'] == 'Yes'].OverTime,row=1,col=2)

fig.show()
tls.get_embed(py.plot(fig, filename = 'OverTime_Distribution', auto_open=True))

'<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/19.embed" height="525" width="100%"></iframe>'

<iframe id="igraph" scrolling="no" style="border:none;" seamless="seamless" src="https://plotly.com/~ms9648/19.embed" height="525" width="100%"></iframe>

## 파생변수 생성

JobRoleFixedness: 업무 고정성, 회사에 입사한 후 본인의 업무가 자주 바뀌는 정도를 나타낸다. 높을수록 업무가 바뀌지 않음을 뜻한다.

업무가 자주 변경되는 경우 은퇴 비율이 상대적으로 더 높았다.

In [125]:
data['JobRoleFixedness'] = data['YearsInCurrentRole'] / data['YearsAtCompany']

In [126]:
data['JobRoleFixedness'].fillna(0)

0       0.666667
1       0.700000
2       0.000000
3       0.875000
4       1.000000
          ...   
1465    0.400000
1466    1.000000
1467    0.333333
1468    0.666667
1469    0.750000
Name: JobRoleFixedness, Length: 1470, dtype: float64

In [153]:
print("은퇴한 사람들의 업무 고정성")
print(data[data['Attrition'] == 'Yes']['JobRoleFixedness'].mean(), end='\n\n')

print("은퇴하지 않은 사람들의 업무 고정성")
print(data[data['Attrition'] != 'Yes']['JobRoleFixedness'].mean())

은퇴한 사람들의 업무 고정성
0.5142947110036932

은퇴하지 않은 사람들의 업무 고정성
0.6110574226795091
