# 연도별 퇴사자 비율 변화

## #연도별 퇴사자 수 데이터

In [3]:
# 기본 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 그래프 기본 테마 설정
# https://coldbrown.co.kr/2023/07/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%A4%EC%A0%84%ED%8E%B8-08-seaborn-sns-set%EC%9D%84-%ED%86%B5%ED%95%B4-%EC%8A%A4%ED%83%80%EC%9D%BC-%EC%84%A4%EC%A0%95%ED%95%98%EA%B8%B0/
sns.set()

# 그래프 기본 설정
#plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 10, 5
plt.rcParams['font.size'] = 12
plt.rcParams['axes.unicode_minus'] = False

# 복잡한 통계 처리를 위한 라이브러리
from scipy import stats

In [4]:
df = pd.read_excel('퇴사자 분석 데이터.xlsx')

In [5]:
# 데이터 상위 5개 행
df.head()

# 데이터 구조 확인
df.info()

# 통계 요약
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38 entries, 0 to 37
Columns: 145 entries, 산업별(1) to 2023.15
dtypes: object(145)
memory usage: 43.2+ KB


Unnamed: 0,산업별(1),2015,2015.1,2015.2,2015.3,2015.4,2015.5,2015.6,2015.7,2015.8,...,2023.6,2023.7,2023.8,2023.9,2023.10,2023.11,2023.12,2023.13,2023.14,2023.15
count,38,38,38,38,38,38,38,38,38,38,...,38,38,38,38,38,38,38,38,38,38
unique,37,38,38,36,38,38,38,38,15,38,...,38,9,38,38,38,9,38,37,34,7
top,산업별(1),퇴사인력,퇴사인력,0,퇴사인력,구인인력,구인인력,구인인력,0,채용인력,...,구인인력,0,채용인력,채용인력,채용인력,0,미충원인력,80,0,0
freq,2,1,1,2,1,1,1,1,24,1,...,1,30,1,1,1,29,1,2,3,32


In [6]:
# 결측치 확인
df.isnull().sum()

산업별(1)     0
2015       0
2015.1     0
2015.2     0
2015.3     0
          ..
2023.11    0
2023.12    0
2023.13    0
2023.14    0
2023.15    0
Length: 145, dtype: int64

In [7]:
df1 = df[['2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022', '2023']]
df2 = df1.iloc[[2]]

In [8]:
df2 = df2.rename(index={2: '퇴사인력'})

In [9]:
df2.columns.name = '연도'
df2

연도,2015,2016,2017,2018,2019,2020,2021,2022,2023
퇴사인력,148035,150304,151447,155382,156594,158671,159550,159923,157490


### 퇴사자의 수는 2015년부터 2022년까지 계속해서 증가하였으며, 2023년에는 157490으로 퇴사자의 수가 하락하였다.

## #연도별 퇴사자 수 증감 파악

In [12]:
# 전년도 대비 증감량 계산 (열 방향)
delta = df2.diff(axis=1)

# 인덱스 이름 바꾸기
delta.index = ['증감량']

# 열 이름 그대로 유지
delta.columns.name = '연도'

# 원본과 증감량 위아래로 결합
df_final = pd.concat([df2, delta])

# 출력
print(df_final)

연도      2015    2016    2017    2018    2019    2020    2021    2022    2023
퇴사인력  148035  150304  151447  155382  156594  158671  159550  159923  157490
증감량      NaN    2269    1143    3935    1212    2077     879     373   -2433


In [13]:
df_final.to_excel('연도별 퇴사인력_증감.xlsx')

# 퇴사율 구하기

In [15]:
# 절대 경로 예시 (Mac 기준)
df = pd.read_excel("/Users/kimgayeong/Desktop/mid_github_김가영/근로형태별 평균근속기간 및 근속기간별 구성비 (1).xlsx")

  warn("Workbook contains no default style, apply openpyxl's default")


In [16]:
df.head()

Unnamed: 0,근로형태별,2015.03,2015.03.1,2015.03.2,2015.03.3,2015.03.4,2015.08,2015.08.1,2015.08.2,2015.08.3,...,2023.08,2023.08.1,2023.08.2,2023.08.3,2023.08.4,2024.08,2024.08.1,2024.08.2,2024.08.3,2024.08.4
0,근로형태별,평균근속기간,평균근속기간 증감(전년동월),1년미만,1~3년 미만,3년 이상,평균근속기간,평균근속기간 증감(전년동월),1년미만,1~3년 미만,...,평균근속기간,평균근속기간 증감(전년동월),1년미만,1~3년 미만,3년 이상,평균근속기간,평균근속기간 증감(전년동월),1년미만,1~3년 미만,3년 이상
1,임금근로자,69,1,30.6,22,47.3,68,1,32.4,20.9,...,74,1,30.3,21.2,48.5,76,3,29.1,21.4,49.6
2,정규직,87,2,20.6,21.5,57.9,88,2,20.7,21.1,...,98,1,16.7,20.9,62.4,103,5,15.1,20.5,64.4
3,비정규직,29,-2,52.1,23.2,24.7,28,-2,56.8,20.5,...,32,2,53.3,21.8,25,34,2,51.6,22.7,25.7
4,한시적,31,-3,45.3,27.6,27.1,29,-2,51.5,24.1,...,30,0,53.2,23,23.8,30,0,53,24.6,22.4


In [17]:
# 1. '1년미만'인 열만 추출
cols = df.columns[df.iloc[0] == '1년미만']

# 2. 해당 열만 추출한 새 DataFrame 만들기
df_filtered = df[cols]

# 3. '근로형태별'이 '임금근로자'인 행만 필터링
df1 = df_filtered[df['근로형태별'] == '임금근로자']
df1

Unnamed: 0,2015.03.2,2015.08.2,2016.03.2,2016.08.2,2017.08.2,2018.08.2,2019.08.2,2020.08.2,2021.08.2,2022.08.2,2023.08.2,2024.08.2
1,30.6,32.4,30.4,32.4,31.1,30.9,32.2,31.2,32.2,31.6,30.3,29.1


In [18]:
df1 = df1.drop(columns=['2015.03.2', '2016.03.2'])  # 실제 열 이름으로 지정
df1.rename(index={1: '퇴사율'}, inplace=True)

In [19]:
df1

Unnamed: 0,2015.08.2,2016.08.2,2017.08.2,2018.08.2,2019.08.2,2020.08.2,2021.08.2,2022.08.2,2023.08.2,2024.08.2
퇴사율,32.4,32.4,31.1,30.9,32.2,31.2,32.2,31.6,30.3,29.1


In [20]:
# 열 이름 중에서 앞 4자리(연도)를 추출해서 "2015" 형태로 바꾸기
df1.columns = [col[:4] if col[:4].isdigit() else col for col in df1.columns]
df1

Unnamed: 0,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
퇴사율,32.4,32.4,31.1,30.9,32.2,31.2,32.2,31.6,30.3,29.1


In [21]:
df1.loc['퇴사율'] = df1.loc['퇴사율'].apply(lambda x: f'{x}%' if not str(x).endswith('%') else x)

## 데이터프레임 합치기

In [23]:
df_to = pd.concat([df_final, df1], axis=0)

In [24]:
df_to.columns.name = '연도'
df_to

연도,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
퇴사인력,148035,150304,151447,155382,156594,158671,159550,159923,157490,
증감량,,2269,1143,3935,1212,2077,879,373,-2433,
퇴사율,32.4%,32.4%,31.1%,30.9%,32.2%,31.2%,32.2%,31.6%,30.3%,29.1%


In [25]:
print(df_to.index.tolist())

['퇴사인력', '증감량', '퇴사율']


In [26]:
df_to.loc['퇴사율'] = df_to.loc['퇴사율'].astype(str).str.replace('%', '').astype(float)

In [27]:
df_to

연도,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
퇴사인력,148035.0,150304.0,151447.0,155382.0,156594.0,158671.0,159550.0,159923.0,157490.0,
증감량,,2269.0,1143.0,3935.0,1212.0,2077.0,879.0,373.0,-2433.0,
퇴사율,32.4,32.4,31.1,30.9,32.2,31.2,32.2,31.6,30.3,29.1


In [28]:
#세로형 데이터로 만들기
import pandas as pd

# 엑셀 파일 읽기 (index_col=0 → '연도' 행이 인덱스로 인식되게)
df = pd.read_excel("1. 연도별 퇴사율_총 데이터(재수정).xlsx", index_col=0)

# 행과 열을 바꿔서 열: 연도 / 행: 항목 → 열: 항목 / 행: 연도 구조로 전환
df_transposed = df.T

# 인덱스 초기화 (연도를 열로 만들기)
df_transposed.reset_index(inplace=True)
df_transposed.rename(columns={'index': '연도'}, inplace=True)

# 확인
print(df_transposed.head())

연도    연도      퇴사인력     증감량    퇴사율
0   2015  148035.0     NaN  0.324
1   2016  150304.0  2269.0  0.324
2   2017  151447.0  1143.0  0.311
3   2018  155382.0  3935.0  0.309
4   2019  156594.0  1212.0  0.322


In [55]:
df_transposed.to_excel("1. 퇴사율_세로열기준(3차).xlsx", index=False)