# **Lesson 7. 직원 퇴사 분석 및 예측**

* 실습 배경
    * 00 회사의 인사팀 A 팀장은 최근 가속화되고 있는 직원들의 퇴사 현황에 대해 깊게 고민하고 있습니다. 
    * 이는 업무 공백뿐만 아니라, 향후 신규 직원을 영입하는 데에도 어려움을 초래하기 때문입니다.
    * 최근 퇴사율을 줄이기 위해 퇴사가 예상되는 직원들과 개인 면담을 진행하거나 근무 만족도를 평가하기 위한 설문을 진행하는 등 다양한 노력을 시도하고 있지만, 여전히 퇴사율은 감소하지 않고 있는데요.
    * 이에 A 팀장은 데이터 분석을 활용해 직원들이 퇴사하는 주요 원인을 파악하고, 복지와 근무 환경을 개선해 퇴사를 방지하기 위한 전략을 수립하고자 합니다.

* 데이터 분석 목표
    * ① 문제 정의 및 요인 파악을 위한 가설 확인
    * ② 중요 변수 발견 : 어떤 변수가 퇴사여부에 영향을 미치는지 변수를 확인
    * ③ 퇴사와 퇴사에 영향을 주는 변수 간의 관계 분석


## **1.환경준비**

### **(1) 라이브러리 로딩**

In [None]:
# jupyter lite에서 패키지 설치
import piplite
await piplite.install("seaborn")

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from statsmodels.graphics.mosaicplot import mosaic   

### **(2) 데이터 로딩**

|	변수명	|	설명	|	구분	|  데이터 유형 |
|----|----|----|----|
|	Attrition 	|	 직원 이직여부(0-잔류, 1 - 이직)	|	Target	| 범주형 |
|	Age 	|	직원 나이	|	feature	| 수치형 |
|	Distance 	|	 출퇴근 거리	|	feature	| 수치형 |
|	Gender 	|	 성별(Female, Male) 	|	feature	| 범주형 |
|	JobSat 	|	 직무만족도	|	feature	| 범주형 |
|	Marital 	|	 결혼상태(Single, Married, Divorced)	|	feature	| 범주형 |
|	Income 	|	 월급($) 	|	feature	| 수치형 |
|	TotalYear 	|	 총 경력 연수	|	feature	| 수치형 |



In [None]:
path = 'Employee_Attrition.csv'
data = pd.read_csv(path)

## **2.기본 탐색**

### **(1) 상위, 하위 5개의 정보 확인**
* .head()
* .tail()

In [None]:
data.head()

In [None]:
data.tail()

### **(2) 데이터프레임 정보 확인**
* .info()

In [None]:
data.info()

## **3.단변량 분석**

### **(1) 수치형 변수**

* 기초통계량 : .describe()
* 그래프 : 히스토그램, 박스플롯 등

#### **1)  Age**

In [None]:
var = 'Age'

* 기초통계량과 그래프

In [None]:
# 기초통계량
display(data[[var]].describe().T)

# 그래프
plt.figure(figsize = (7,5))
plt.subplot(2,1,1)
sns.histplot(x = var, data = data, bins = 30, kde = True)
plt.grid()

plt.subplot(2,1,2)
sns.boxplot(x = var, data = data)
plt.grid()

plt.tight_layout()
plt.show()

* 파악한 내용을 적어 봅시다.

In [None]:
# 밀집구간 : 29~35 젊은 직원들이 많음
# 희박구간 : 42~60 40대 직원이 적음
# 정년이 60?

#### **2)  Distance**

In [None]:
var = 'Distance'

* 기초통계량과 그래프

In [None]:
# 기초통계량
display(data[[var]].describe().T)

# 그래프
plt.figure(figsize = (7,5))
plt.subplot(2,1,1)
sns.histplot(x = var, data = data, bins = 30, kde = True)
plt.grid()

plt.subplot(2,1,2)
sns.boxplot(x = var, data = data)
plt.grid()

plt.tight_layout()
plt.show()

* 파악한 내용을 적어 봅시다.

In [None]:
# 밀집구간 : 1~2 - 회사 근처에 기숙사?
# 희박구간 : 15~29 - 먼거리 출퇴근

#### **3) Income**

In [None]:
var = 'Income'

* 기초통계량과 그래프

In [None]:
# 기초통계량
display(data[[var]].describe().T)

# 그래프
plt.figure(figsize = (7,5))
plt.subplot(2,1,1)
sns.histplot(x = var, data = data, bins = 30, kde = True)
plt.grid()

plt.subplot(2,1,2)
sns.boxplot(x = var, data = data)
plt.grid()

plt.tight_layout()
plt.show()

* 파악한 내용을 적어 봅시다.

In [None]:
# 75% 직원 1000 ~ 7500 달러
# 25% 7500 ~ 20000

#### **4) TotalYear**

In [None]:
var = 'TotalYear'

* 기초통계량과 그래프

In [None]:
# 기초통계량
display(data[[var]].describe().T)

# 그래프
plt.figure(figsize = (7,5))
plt.subplot(2,1,1)
sns.histplot(x = var, data = data, bins = 30, kde = True)
plt.grid()

plt.subplot(2,1,2)
sns.boxplot(x = var, data = data)
plt.grid()

plt.tight_layout()
plt.show()

* 파악한 내용을 적어 봅시다.

In [None]:
# 밀집 : 6 ~ 9년차
# 희박 : 14 ~ 40

### **(2) 범주형 변수**
* 기초통계량 : 범주별 빈도수/비율
* 그래프 : 막대 그래프(sns.countplot)

#### **1)  Attrition**

In [None]:
var = 'Attrition'

* 기초통계량과 그래프

In [None]:
# 기초통계량
cnt = data[var].value_counts()
rate = data[var].value_counts(normalize = True)
display(pd.DataFrame({'cnt':cnt, 'rate':rate}))

# 그래프
plt.figure(figsize = (8,4))
plt.subplot(1,2,1)
sns.countplot(x = var, data = data)
plt.grid()

plt.subplot(1,2,2)
temp = data[var].value_counts()
plt.pie(temp.values, labels = temp.index, autopct = '%.1f%%')

plt.tight_layout()
plt.show()

* 파악한 내용을 적어 봅시다.

In [None]:
# 잔류 직원 - 67.5%
# 퇴사 직원 - 32.5%

#### **2) Gender**

In [None]:
var = 'Gender'

* 기초통계량과 그래프

In [None]:
# 기초통계량
cnt = data[var].value_counts()
rate = data[var].value_counts(normalize = True)
display(pd.DataFrame({'cnt':cnt, 'rate':rate}))

# 그래프
plt.figure(figsize = (8,4))
plt.subplot(1,2,1)
sns.countplot(x = var, data = data)
plt.grid()

plt.subplot(1,2,2)
temp = data[var].value_counts()
plt.pie(temp.values, labels = temp.index, autopct = '%.1f%%')

plt.tight_layout()
plt.show()

* 파악한 내용을 적어 봅시다.

In [None]:
# 남자 62.8%
# 여자 37.2%

#### **3) JobSat**

In [None]:
var = 'JobSat'

* 기초통계량과 그래프

In [None]:
# 기초통계량
cnt = data[var].value_counts()
rate = data[var].value_counts(normalize = True)
display(pd.DataFrame({'cnt':cnt, 'rate':rate}))

# 그래프
plt.figure(figsize = (8,4))
plt.subplot(1,2,1)
sns.countplot(x = var, data = data)
plt.grid()

plt.subplot(1,2,2)
temp = data[var].value_counts()
plt.pie(temp.values, labels = temp.index, autopct = '%.1f%%')

plt.tight_layout()
plt.show()

* 파악한 내용을 적어 봅시다.

In [None]:
# 전체 직원중 불만인 직원의 비율이 약 40%
# 매우만족이 제일 높다. 30.8%

#### **4) Marital**

In [None]:
var = 'Marital'

* 기초통계량과 그래프

In [None]:
# 기초통계량
cnt = data[var].value_counts()
rate = data[var].value_counts(normalize = True)
display(pd.DataFrame({'cnt':cnt, 'rate':rate}))

# 그래프
plt.figure(figsize = (8,4))
plt.subplot(1,2,1)
sns.countplot(x = var, data = data)
plt.grid()

plt.subplot(1,2,2)
temp = data[var].value_counts()
plt.pie(temp.values, labels = temp.index, autopct = '%.1f%%')

plt.tight_layout()
plt.show()

* 파악한 내용을 적어 봅시다.

In [None]:
# 싱글 : 35.7%
# 기혼 : 45.7%
# 이혼 : 18.7%

## **4.이변량분석**

In [None]:
target = 'Attrition'

### **(1) 숫자형 X --> Y**

#### **1) Age -> Attrition**

* 그래프

In [None]:
var = 'Age'
sns.barplot(x = target, y = var, data = data)
plt.grid()
plt.show()

 * 파악한 내용을 적어 봅시다.

In [None]:
# 나이와 퇴사여부는 관련이 있다.

#### **2) Distance -> Attrition**

* 그래프

In [None]:
var = 'Distance'
sns.barplot(x = target, y = var, data = data)
plt.grid()
plt.show()

 * 파악한 내용을 적어 봅시다.

In [None]:
# 출퇴근 거리와 퇴사여부는 관련이 있다. 그러나 크지는 않다.

#### **3) Income -> Attrition**

* 그래프

In [None]:
var = 'Income'
sns.barplot(x = target, y = var, data = data)
plt.grid()
plt.show()

 * 파악한 내용을 적어 봅시다.

In [None]:
# 월급과 퇴사여부는 관련이 크다.

#### **4) TotalYear -> Attrition**

* 그래프

In [None]:
var = 'TotalYear'
sns.barplot(x = target, y = var, data = data)
plt.grid()
plt.show()

 * 파악한 내용을 적어 봅시다.

In [None]:
# 총경력 연수와 퇴사여부는 관련이 크다.

### **(2) 범주형 X --> Y**

#### **1) Gender -> Attrition**

* 그래프

In [None]:
var = 'Gender'
mosaic(data, [var, target])
plt.axhline(1-data[target].mean(), color = 'red')
plt.show()

 * 파악한 내용을 적어 봅시다.

In [None]:
# 여자 : 퇴사율이 살짝 낮고
# 남자 : 살짝 높다.
# 성별과 퇴사여부는 관계가 거의 없다.

#### **2) JobSat -> Attrition**

* 그래프

In [None]:
var = 'JobSat'
mosaic(data, [var, target])
plt.axhline(1-data[target].mean(), color = 'red')
plt.show()

 * 파악한 내용을 적어 봅시다.

In [None]:
# 직무만족도와 퇴사여부는 관계가 있다. 아주 강하지는 않다.

#### **3) Marital -> Attrition**

* 그래프

In [None]:
var = 'Marital'
mosaic(data, [var, target])
plt.axhline(1-data[target].mean(), color = 'red')
plt.show()

 * 파악한 내용을 적어 봅시다.

In [None]:
# 결혼상태와 퇴사여부는 관련이 크다
# 미혼 : 퇴사를 많이 하고
# 이혼 : 퇴사를 제일 적게 한다.

### **(3) 관계 정리하기**

* 강한관계

In [None]:
# Income, TotalYear, Marital, JobSat

* 중간관계

In [None]:
# Age, Distance, 

* 관계없음

In [None]:
# Gender

## **5.예측 모델링**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import *

### **(1) 데이터 준비**
* 모델링을 위해서는 데이터가 특별한 형태로 준비되어야 합니다.
    * 본 실습에서는 준비에 대한 세세한 내용을 다루지는 않습니다.
    * 가변수화 : 범주형 --> 수치형 변환
    * 데이터 분할 : 학습용과 검증용 분할
        * 학습용 : 모델링 용도
        * 검증용 : 모델 성능 측정(검증)

In [None]:
# 데이터 분할1 : x, y 분할
x = data.drop(target, axis = 1)
y = data[target]

In [None]:
# 가변수화
category_cols = ['Gender', 'JobSat', 'Marital']
x['Gender'] = pd.Categorical(x['Gender'], categories = ['Female', 'Male'])
x['JobSat'] = pd.Categorical(x['JobSat'], categories = [1,2,3,4])
x['Marital'] = pd.Categorical(x['Marital'], categories = ['Single', 'Married', 'Divorced'])

x = pd.get_dummies(x, columns = category_cols, drop_first = True)

In [None]:
# 데이터 분할2 : 학습용 : 검증용
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 20)

### **(2) 모델링 및 평가**

* 모델링 절차
    * 선언
    * 학습(모델링) : x_train, y_train
    * 예측 : x_test
    * 평가 : y_test, 예측값

* 아래 주석으로 되어 있는 코드를 그대로 작성해 봅시다.

In [None]:
# 선언 : model = DecisionTreeClassifier(max_depth = 2)
model = DecisionTreeClassifier(max_depth = 2)

In [None]:
# 학습 : model.fit(x_train, y_train)
model.fit(x_train, y_train)

In [None]:
# 예측 : pred = model.predict(x_test)
pred = model.predict(x_test)

In [None]:
# 평가(정확도) : accuracy_score(y_test, pred)
accuracy_score(y_test, pred)

* 모델 사용하기
    * 최근 A 부서의 김OO 대리가 업무에 집중하지 못하는 것 같으므로, 생성한 모델을 활용해 퇴사 가능성을 예측해 봅시다
        * Age : 35세
        * Distance : 15
        * Gender : Male
        * JobSat : 2
        * Marital : Single
        * Income  : 4600
        * TotalYear : 5

In [97]:
# 데이터 전처리
newdata = pd.DataFrame({'Age' : [35], 'Distance' : [15], 'Gender' : ['Male'], 'JobSat':[2], 'Marital' : ['Single'], 
                        'Income' : [4600], 'TotalYear' : [5]})

category_cols = ['Gender', 'JobSat', 'Marital']
newdata['Gender'] = pd.Categorical(newdata['Gender'], categories = ['Female', 'Male'])
newdata['JobSat'] = pd.Categorical(newdata['JobSat'], categories = [1,2,3,4])
newdata['Marital'] = pd.Categorical(newdata['Marital'], categories = ['Single', 'Married', 'Divorced'])

newdata = pd.get_dummies(newdata, columns = category_cols, drop_first = True)

In [98]:
# 예측
model.predict(newdata)

array([0], dtype=int64)