# 원티드 DB 국민연금 사업장 데이터 분석
---
## 데이터 정보
* 회사 수 : 약 5,000여개
- 월별데이터 : 직원 수, 국민연금 보험료(인원 수에 대한 상한선_최대고지금액이 존재함)
- 년단위 데이터 : 매출액(천원단위)
---

In [113]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from datetime import datetime, timedelta

### 데이터 Read

In [114]:
df = pd.read_csv('company_nps_data.csv',encoding='euc-kr')

In [115]:
df.head(2)

Unnamed: 0,회사ID,연매출액,년도,월,월별_연금보험료,월별_직원수
0,233757,41688077,2018,7,8912380,36
1,123464,1760695,2018,3,942380,5


In [116]:
df.describe()

Unnamed: 0,회사ID,연매출액,년도,월,월별_연금보험료,월별_직원수
count,99801.0,99801.0,99801.0,99801.0,99801.0,99801.0
mean,276298.2,30535890.0,2016.967125,6.714352,9734079.0,37.623431
std,133903.2,301664700.0,0.976688,3.512966,43472560.0,146.947194
min,63.0,-7882176.0,2015.0,1.0,0.0,0.0
25%,165530.0,1409760.0,2016.0,4.0,1181160.0,6.0
50%,259149.0,3573585.0,2017.0,7.0,2332760.0,11.0
75%,382656.0,9582321.0,2018.0,10.0,5591860.0,24.0
max,5159723.0,11328780000.0,2019.0,12.0,978067300.0,3133.0


In [117]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99801 entries, 0 to 99800
Data columns (total 6 columns):
회사ID        99801 non-null int64
연매출액        99801 non-null int64
년도          99801 non-null int64
월           99801 non-null int64
월별_연금보험료    99801 non-null int64
월별_직원수      99801 non-null int64
dtypes: int64(6)
memory usage: 4.6 MB


In [118]:
df.groupby(['회사ID','년도'])['연매출액'].mean().unstack()

년도,2015,2016,2017,2018,2019
회사ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
63,,,,1.132878e+10,
95,,,,6.569474e+08,
102,,,,7.426589e+08,
295,,,,8.377670e+07,
414,,,,1.973277e+07,
597,,,,2.081416e+08,
786,,,,6.551457e+07,
917,,,,4.284371e+07,
1052,,,,1.215784e+06,
1125,,,,5.371387e+07,


---
### 데이터 전처리

- 데이터 추가
 * '년도'와 '월' 데이터를 활용하여 시계열데이터(datetime) 추가
- 이상치 제거
 * 연매출액이 0보다 낮은 경우
 * 월별직원수가 0명인 경우

In [119]:
# 데이터 형변환(object to datetime) 및 미활용데이터 제거
df["년월"] = pd.to_datetime(df['년도'].astype(str) + df["월"].astype(str), format='%Y%m')
df = df.sort_values(by=["회사ID", "년월"])

In [120]:
# 이상치 제거
# 이상치 제거를 통해 2개 기업에 대한 데이터 삭제
df = df.drop(index=df.query('연매출액 < 0').index)
df = df.drop(index=df.query('월별_직원수 == 0').index)

In [193]:
# 연도별 데이터 확인
display(df.groupby(['회사ID','년도'])['연매출액'].mean().unstack().count())

년도
2015    1827
2016    3211
2017    1503
2018    3493
2019      74
dtype: int64

In [None]:
# 중복값 제거를 통한 고유 회사ID 갯수 확인
# df.drop_duplicates('회사ID')

In [191]:
# # 데이터 확인
# print("최대 연매출액 : ", df['연매출액'].max()
#      ,"\n최대 월별 연금보험료 : ",df['월별_연금보험료'].max()
#      ,"\n최대 월별 직원수 : ", df['월별_직원수'].max())
# print()
# print("평균 연매출액 : ", df['연매출액'].mean()
#      ,"\n평균 월별 연금보험료 : ",df['월별_연금보험료'].mean()
#      ,"\n평균 월별 직원수 : ", df['월별_직원수'].mean())
# print()
# print("최소 연매출액 : ", df['연매출액'].min()
#      ,"\n최소 월별 연금보험료 : ",df['월별_연금보험료'].min()
#      ,"\n최소 월별 직원수 : ", df['월별_직원수'].min())



## 데이터 통계
- 4998개 기업의 2015년~2019년까지의 데이터(사업시작 기간은 기업별로 상이)
 * 최초 5000개 기업이었으나, 전처리 과정 중 이상치 제거를 진행함
---

- 최대 연매출액 :  금11,328,779,396,000원(금일십일조삼천이백팔십칠억칠천구백삼십구만육천원)
- 최대 월별 연금보험료 :  금978,067,260원(금구억칠천팔백육만칠천이백육십원)
- 최대 월별 직원수 :  3,133명


- 평균 연매출액 :  금30,544,049,000원(금삼백오억사천사백사만구천원)
- 평균 월별 연금보험료 :  금9,736,289원(금구백칠십삼만육천이백팔십구원)
- 평균 월별 직원수 : 약 38명


- 최소 연매출액 :  금300,000원(금삼십만원)
- 최소 월별 연금보험료 :  금90,000원(금구만원)
- 최소 월별 직원수 :  3명
---
- 연도별 데이터 수량
 - 2015년 : 1827
 - 2016년 : 3211
 - 2017년 : 1503
 - 2018년 : 3493
 - 2019년 : 74


In [83]:
# 고유 회사ID 확인
unique = df["회사ID"].unique()
unique

array([     63,      95,     102, ..., 2693684, 3312354, 5159723],
      dtype=int64)

In [85]:
# 비어있는 신규 데이터 프레임 생성
column_names = ["회사ID",	"연매출액", "년도", "월", "월별_연금보험료", "월별_직원수", "년월", "월별_직원수_변동률"]
new_df = pd.DataFrame()
new_df = new_df.reindex(columns=column_names)

In [86]:
# 월별 직원수 변동률 column 추가
for i in unique:
    company = df[df["회사ID"] == i]
    roc = company["월별_직원수"].pct_change().round(2)
    company.insert(len(company.columns), "월별_직원수_변동률", roc)
    new_df = new_df.append(company, sort=False)

In [87]:
# 결측치 처리 : NaN to 0
new_df = new_df.fillna(0)

In [88]:
# 데이터 형변환 float64 > int64
new_df["연매출액"] = new_df["연매출액"].astype('int64')
new_df["회사ID"] = new_df["회사ID"].astype('int64')
new_df["월별_연금보험료"] = new_df["월별_연금보험료"].astype('int64')
new_df["월별_직원수"] = new_df["월별_직원수"].astype('int64')
new_df["년도"] = new_df["년도"].astype('int64')
new_df["월"] = new_df["월"].astype('int64')

In [49]:
# 대한민국 연금보험 비율은 9%로 0.09
new_df['월별_월급총합'] = (new_df['월별_연금보험료'] / 0.09).round(2)

In [50]:
new_df['월별_월급평균'] = (new_df['월별_월급총합'] / new_df['월별_직원수']).round(2)

In [51]:
new_df.head()

Unnamed: 0,회사ID,연매출액,년도,월,월별_연금보험료,월별_직원수,년월,월별_직원수_변동률,월별_월급총합,월별_월급평균
33039,63,11328779396,2018,1,403119840,1006,2018-01-01,0.0,4479109000.0,4452394.96
74251,63,11328779396,2018,2,406770960,1018,2018-02-01,0.01,4519677000.0,4439761.62
80947,63,11328779396,2018,3,404826240,1013,2018-03-01,-0.0,4498069000.0,4440344.85
80770,63,11328779396,2018,4,404211800,1012,2018-04-01,-0.0,4491242000.0,4437986.39
28110,63,11328779396,2018,5,400339640,1002,2018-05-01,-0.01,4448218000.0,4439339.54


In [52]:
new_df["평균_연봉"] = (new_df["월별_월급평균"] * 12)

In [55]:
# group = new_df.groupby(['회사ID', "년도"])['월별_직원수'].mean().unstack()
group = new_df.groupby(['회사ID', "년도"])['월별_직원수'].agg(np.mean)


In [194]:
연매출총량 대비 총 인건비의 비율 산출

SyntaxError: invalid syntax (<ipython-input-194-28b659cd9912>, line 1)

In [195]:
https://github.com/chsop/team4_wanted_onboarding/blob/main/week1/%EB%B0%95%EC%B0%AC%EC%84%9C_onboarding_week1_analysis_v1.1_%ED%81%B4%EB%9F%AC%EC%8A%A4%ED%84%B0%EB%A7%81.ipynb

SyntaxError: invalid syntax (<ipython-input-195-59b899bccbee>, line 1)