해당 페이지에서는 직원, 프로그램, 프로젝트, 총 3가지 데이터를 통합하여 볼 수 있는 테이블 등을 생성하는데에 목적을 둔다

# Settings
#### Import Libraries

In [5]:
import os
import numpy as np
import pandas as pd

#### Set pandas option
table display 할 때에 컬럼이 많아도 전부 출력되도록 함

In [143]:
pd.set_option('display.max_rows', 5, 'display.max_columns', None)

# Import Data

In [7]:
root = os.path.join(os.getcwd(), 'DATA')

### 직원 데이터
행내 직원 기본 정보

In [8]:
# 직원
jikwon_dir = os.path.join(root, 'jikwon.csv')
jikwon = pd.read_csv(jikwon_dir, encoding='cp949')

### 프로그램 변경 이력 데이터
2020년 이후 신규/변경된 프로그램의 변경 이력 정보

용량 문제로 인하여 2개의 파일로 존재

In [9]:
# 프로그램 변경 이력
change_dir_1 = os.path.join(root, 'program_change_1.xlsx')
change_dir_2 = os.path.join(root, 'program_change_2.xlsx')
program_change_1 = pd.read_excel(change_dir_1)
program_change_2 = pd.read_excel(change_dir_2)

###  프로젝트 데이터
2020년 이후 프로그램을 신규/변경한 프로젝트 정보

In [10]:
# 프로젝트
project_dir = os.path.join(root, 'project.xlsx')
project = pd.read_excel(project_dir, sheet_name='프로젝트정보')
project_jikwon = pd.read_excel(project_dir, sheet_name='프로젝트인력')

---
# Data Overview & Preprocessing _ Jikwon

In [144]:
display(jikwon)

Unnamed: 0,JIKWON_NO,NAME,JEOM_NO,JEOM_NAME,JIKGUN,JIKGEUB,JIKWHI,JIKWHI_NAME,JUMINNO,JIKWHI2,JUJKMU_C,JUJKMU_NM,JUJKMU_RATE,BUJKMU_C,BUJKMU_NM,BUJKMU_RATE,JUMJANG_G,HOBONG,TOIJIKGBN,BUIM_ILJA,LST_CHG_ILSI,SILNO_CID,CUSNO,SAME_MN_NO
0,20505190,최태호,4,준법감시부,30000,99999,20425,전문계약직원,,9,,,,,,,0,99998,0,20200401,,fLOjQav3YWgEC,464464292,464464292
1,6209769,김명희,1107,영등포,20004,3,31053,부지점장겸 WRM,,2,10905.0,WRM,100.0,,,0.0,0,10975,0,20190128,2.019013e+13,yoV049wbj4xLo,478015769,478015769
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13971,20100700,이재상,1207,종로,20004,5,20258,행원,,3,10612.0,상담 FC,90.0,10611.0,후선업무 AS,10.0,0,47345,0,20200206,2.020022e+13,l5xVJSARN5L8m,499646799,499646799
13972,6211895,김정아,1857,안양비산동,20004,4,20112,차장,,2,10733.0,WM,100.0,,,0.0,0,23170,0,20200708,2.021021e+13,Ydg/fYYORY+c0,438419556,438419556


### 1. 점번호 필터링
데이터 대상자는 ICT 그룹 직원이므로 점번호를 기준으로 필터링

- 61(ICT운영부)
- 62(정보개발부)
- 63(금융개발부)
- 64(글로벌개발부)
- 66(기관개발부)
- 69(디지털개발부)
- 507(ICT기획부)

In [49]:
jikwon_data = jikwon[(jikwon['JEOM_NO'] == 61) | (jikwon['JEOM_NO'] == 62) | (jikwon['JEOM_NO'] ==  63) |
                     (jikwon['JEOM_NO'] == 64) | (jikwon['JEOM_NO'] == 66) | (jikwon['JEOM_NO'] == 69) | (jikwon['JEOM_NO'] ==  507)]

In [50]:
jikwon_data.shape

(432, 24)

432명의 ICT 그룹 직원이 있음을 확인할 수 있다

### 2. 코드 테이블 생성
문자열이나 코드로 이루어져 있거나 기타 이유로 사용할 수 없는 데이터가 있다면 제외해준다

**점정보**

In [81]:
jeom = jikwon_data[['JEOM_NO', 'JEOM_NAME']].drop_duplicates().reset_index(drop=True)

In [82]:
jeom

Unnamed: 0,JEOM_NO,JEOM_NAME
0,63,금융개발부
1,66,기관개발부
2,62,정보개발부
3,64,글로벌개발부
4,69,디지털개발부
5,507,ICT기획부
6,61,ICT운영부
7,507,정보개발부


**직위**

In [83]:
jikwhi = jikwon_data[['JIKWHI', 'JIKWHI_NAME']].drop_duplicates().reset_index(drop=True)

In [84]:
jikwhi

Unnamed: 0,JIKWHI,JIKWHI_NAME
0,20164,대리
1,20112,차장
2,20133,부부장
3,20258,행원
4,20161,과장
5,20425,전문계약직원
6,20456,사무직원
7,20023,부장
8,31036,수석
9,20019,본부장


**직무**

In [107]:
jkmu = jikwon_data[['JUJKMU_C', 'JUJKMU_NM']].drop_duplicates().reset_index(drop=True)
jkmu.shape

(67, 2)

In [110]:
jkmu2 = jikwon_data[['BUJKMU_C', 'BUJKMU_NM']].drop_duplicates().reset_index(drop=True).rename(columns = {'BUJKMU_C': 'JUJKMU_C', 'BUJKMU_NM': 'JUJKMU_NM'}, inplace = False)
jkmu2.shape

(8, 2)

In [111]:
jkmu = pd.concat([jkmu, jkmu2], axis=0).drop_duplicates().reset_index(drop=True)

In [112]:
jkmu

Unnamed: 0,JUJKMU_C,JUJKMU_NM
0,11609.0,펌/가상
1,11614.0,시도금고 공금예금
2,11599.0,자산관리개발
3,11040.0,글로벌여신개발
4,11089.0,외환개발
...,...,...
63,11218.0,ICT운영부장
64,10119.0,일반관리
65,11641.0,ICT감사
66,10961.0,본부운용지원(기타)


### 3. 데이터 선별

In [113]:
jikwon_columns = ['JIKWON_NO', 'JEOM_NO', 'JIKGUN', 'JIKGEUB', 'JIKWHI', 'JIKWHI2', 'JUJKMU_C',
                  'JUJKMU_RATE', 'BUJKMU_C', 'BUJKMU_RATE', 'JUMJANG_G', 'HOBONG', 'BUIM_ILJA']

In [125]:
jikwon_data = jikwon_data[jikwon_columns].reset_index()

### 4. 최종

In [136]:
display(jikwon_data)

Unnamed: 0,index,JIKWON_NO,JEOM_NO,JIKGUN,JIKGEUB,JIKWHI,JIKWHI2,JUJKMU_C,JUJKMU_RATE,BUJKMU_C,BUJKMU_RATE,JUMJANG_G,HOBONG,BUIM_ILJA
0,5,20101491,63,20004,5,20164,3,11609.0,100.0,,0.0,0,43440,20210201
1,34,7101368,66,20004,4,20112,2,11614.0,100.0,,0.0,0,26530,20180619
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
430,13902,10618082,61,40002,99999,20456,9,10961.0,100.0,,0.0,0,99998,20200203
431,13945,18101798,63,20004,5,20258,3,11029.0,100.0,,0.0,0,45405,20180907


# Data Overview & Preprocessing _ Program

In [46]:
display(program_change_1)

Unnamed: 0,COL01,COL02,COL03,COL04,COL05,COL06,COL07,COL08,COL09,COL10,COL11,COL12,COL13,COL14,COL15,dw_lst_jukja_dt
0,코어,수신,수신 공통,채널매핑룰,A0_0003200002_SSDM0320A001_I,이창건,BK08101329,P2020-15765-01,20201228,수정,2020-04-059662,/webdev/chl1/CHLDownload/trans/mappingrule,코어,6,0,20210407
1,프로프레임4.0,JPK-일본ROC,글로벌여신,프로프레임소스(.c),sgle9999a.c,박창언,BK10101011,P2020-09188-02,20200818,신규,2020-04-042659,/jpsdev/gln/src,DS_글로벌뱅킹3,1,695,20210407
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
319996,프로프레임4.0,TSM-신신탁,신탁펀드등록,HTML5_xml,284016P002.xml,이세연,BK19100736,P2018-7039-01,20200109,수정,2020-04-002825,/src/tpm/tfr/screen/popup,신탁,3,4,20210407
319997,단위,(U2L)단위-통합CRM,단위-통합CRM,FLEX(/src 파일),F358135P000.mxml,신현국,BK06142869,P2020-03458-01,20200717,신규,2020-04-SCM731,/flexdev/src/ocs/ucs/screen/component/popup,ICTRM,1,326,20210407


### 1. Combine Program Data

데이터 조인에 앞서 프로그램 변경이력의 경우 2개의 dataframe으로 나뉘어져 있기 때문에 이를 합치도록 한다

In [117]:
program = pd.concat([program_change_1, program_change_2], axis=0)

In [118]:
print(program_change_1.shape)
print(program_change_2.shape)
print(program.shape)

(319998, 16)
(318125, 16)
(638123, 16)


### 2. 데이터 선별

In [120]:
program_columns = ['COL01', 'COL02', 'COL03', 'COL04', 'COL05', 'COL07', 'COL08', 'COL09', 'COL10',
                   'COL11', 'COL12', 'COL14', 'COL15']

In [121]:
program_data = program[program_columns]

### 3. 행번 전처리
직원 데이터의 직원번호는 **int형**인 반면, 프로그램 데이터의 직원번호는 'BK' + 행번 형태의 **object형**임을 확인할 수 있다

In [126]:
jikwon_data['JIKWON_NO']

0      20101491
1       7101368
2       6226493
3       6145272
4      20100248
         ...   
427     6220886
428     6154654
429     6224598
430    10618082
431    18101798
Name: JIKWON_NO, Length: 432, dtype: int64

In [123]:
program_data['COL07']

0         BK08101329
1         BK10101011
2         BK15061008
3         BK17092004
4         BK18100783
             ...    
318120    BK15112004
318121    BK20100167
318122    BK06226973
318123    BK20200821
318124    BK16111008
Name: COL07, Length: 638123, dtype: object

프로그램 데이터의 직원번호를 직원데이터와 형태가 일치하도록 수정한다

그 전에, 모든 직원번호가 **BK + 행번** 형태인지 확인하자

In [127]:
program_data[program_data['COL07'].str[:2] != 'BK'].COL07

619        SGO001348
716        SGO001338
968        SGO001338
1419      SGO1000511
3234       SGO001354
             ...    
316002     SGO001332
316142    SGO1000615
316540     SGO001347
317327     SGO001348
317900     SGO001354
Name: COL07, Length: 1107, dtype: object

이렇듯, BK로 시작하지 않는, 다시 말해 당행 직원이 아닌 데이터가 있다

해당 데이터는 현재 단계에서 필요하지 않기 때문에 제외하도록 한다

In [128]:
print(program_data.shape, end="->")
program_data = program_data[program_data['COL07'].str[:2] == 'BK']
print(program_data.shape)

(638123, 13)->(637016, 13)


이제 다시 직원데이터와 형태가 일치하도록 변경한다

In [129]:
program_data['COL07'] = program_data['COL07'].str[2:].astype(int)

### 3. Rename columns
Program 데이터의 경우 컬럼명이 실제 컬럼값을 대변하지 않는 것을 확인할 수 있는데, 컬럼값을 보면서 컬럼을 유추해야한다

In [131]:
rename_columns = {'COL01': '시스템구분', 'COL04': '프로그램종류', 'COL05': '프로그램명', 'COL07': '변경자',
                  'COL08': '프로젝트번호', 'COL09': '변경일자', 'COL10': '변경구분', 'COL11': '신청번호', 'COL12': '경로'}

In [132]:
program_data = program_data.rename(columns = rename_columns, inplace = False)

### 3.

In [None]:
program_data[['시스템구분', 'COL02', 'COL03']].drop_duplicates().reset_index(drop=True)

### 최종

In [139]:
display(program_data)

Unnamed: 0,시스템구분,COL02,COL03,프로그램종류,프로그램명,변경자,프로젝트번호,변경일자,변경구분,신청번호,경로,COL14,COL15
0,코어,수신,수신 공통,채널매핑룰,A0_0003200002_SSDM0320A001_I,8101329,P2020-15765-01,20201228,수정,2020-04-059662,/webdev/chl1/CHLDownload/trans/mappingrule,6,0
1,프로프레임4.0,JPK-일본ROC,글로벌여신,프로프레임소스(.c),sgle9999a.c,10101011,P2020-09188-02,20200818,신규,2020-04-042659,/jpsdev/gln/src,1,695
2,단위,단위(신)_BPR(AP),BPR수신,ONL_OMM,SBDP2305F702InDto.omm,15061008,P2020-08091-01,20200821,수정,2020-04-043394,/BprNbpBdp/src/bpr/nbp/bdp/service/dto,3,1
3,웹컨텐츠,문서중앙화시스템(Sdrive),문서중앙화시스템(Sdrive),Image,btn_submit_del.gif,17092004,P2020-09726-01,20210401,신규,2021-04-011705,/skin/blue_en/images/content-page/button,1,0
4,프로프레임4.0,JBS-(신)일본ROC,글로벌공통,프로프레임소스(.c),pfmDbiogif_trx_mas_s002.pc,18100783,P2020-05278-01,20200427,수정,2020-04-026378,/jpsdev/dbio/src,2,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
318120,코어,(U2L) 단위-CCRM,사후관리,채널화면_MAP,0226350000.MAP,15112004,P2020-08975-01,20200828,수정,2020-04-044195,/webdev/chl1/CHLDownload/iWorks/DOWNLOAD/res/b...,3,3
318121,프로프레임4.0,VBS-(신)베트남ROC,글로벌공통,프로프레임소스(.c),mgcbbizmntr.c,20100167,P2020-08550-01,20201123,신규,2020-04-054523,/vbsdev/gcm/src,1,559
318122,단위,(U2L)단위-통합CRM,단위-통합CRM,HTML5_xml,351201W100.xml,6226973,P2021-02618-01,20210330,수정,2021-04-010927,/src/ocs/ucs/screen/component/view,3,74
318123,프로프레임4.0,CAS-캐나다ROC,글로벌공통,FLEX(/src 파일),F429675A000as.as,20200821,P2020-13019-01,20201214,수정,2020-04-057678,/flexdev/src/cas/gcm/screen,3,165


---
# Data Overview & Preprocessing _ Project

In [145]:
display(project_jikwon)

Unnamed: 0,프로젝트번호,행번,성명,부서명,팀명,직위,직급,역할,계획공수,실제공수
0,P2018-1020-01,16031001,김현주,글로벌개발부,DS_글로벌뱅킹1,S부부장,기타,PM,1829,2577.0
1,P2018-1020-01,06172202,손현수,금융개발부,IB,수석,Ma,개발자,1,1.0
...,...,...,...,...,...,...,...,...,...,...
29989,P2021-04489-01,19200854,박지현,정보개발부,Risk,선임,5급,PM,0,30.0
29990,P2021-04503-01,19501668,안지성,개발 Cell (SBJ DNX),개발 Cell (SBJ DNX),매니저,기타,PM,1,1.0


# Merge Data
이제 기본 인덱스로 사용할 직원 데이터에 다른 데이터를 조인하자

이때, 메모리 낭비를 방지하기 위해 필요한 컬럼만 추려서 이용한다

### 직원 데이터 + 프로그램 변경 이력

In [42]:
main_data_columns = ['JIKWON_NO', 'JEOM_NO', 'JIKGUN', 'JIKGEUB', 'JIKWHI', 'JIKWHI2', 'JUJKMU_C',
                     'JUJKMU_RATE', 'BUJKMU_C', 'BUJKMU_RATE', 'JUMJANG_G', 'HOBONG', 'BUIM_ILJA']
program_columns = ['COL01', 'COL02', 'COL03', 'COL04', 'COL05', 'COL07', 'COL08', 'COL09', 'COL10',
                   'COL11', 'COL12', 'COL14', 'COL15']

In [43]:
print(main_data.shape, end="->")
main_data = pd.merge(left=main_data[main_data_columns],
                     right=program[program_columns],
                     how='left', left_on='JIKWON_NO', right_on='COL07')
print(main_data.shape)

(432, 24)->(370040, 26)


In [44]:
main_data.head()

Unnamed: 0,JIKWON_NO,JEOM_NO,JIKGUN,JIKGEUB,JIKWHI,JIKWHI2,JUJKMU_C,JUJKMU_RATE,BUJKMU_C,BUJKMU_RATE,...,COL04,COL05,COL07,COL08,COL09,COL10,COL11,COL12,COL14,COL15
0,20101491,63,20004,5,20164,3,11609.0,100.0,,0.0,...,온라인서비스,sfis2100d.c,20101491.0,P2021-00342-01,20210120.0,수정,2021-04-002421,/nbsdev/fib/fis/src,6.0,4.0
1,20101491,63,20004,5,20164,3,11609.0,100.0,,0.0,...,온라인서비스,sfis7100a.c,20101491.0,P2021-00342-01,20210120.0,수정,2021-04-002421,/nbsdev/fib/fis/src,10.0,15.0
2,20101491,63,20004,5,20164,3,11609.0,100.0,,0.0,...,채널화면_txt,5639000000.txt,20101491.0,P2021-00342-01,20210120.0,수정,2021-04-002421,/webdev/chl1/CHLDownload/iWorks/DOWNLOAD/res/b...,39.0,2.0
3,20101491,63,20004,5,20164,3,11609.0,100.0,,0.0,...,온라인서비스,svas1102c.c,20101491.0,P2021-01486-01,20210209.0,수정,2021-04-005149,/nbsdev/via/vas/src,3.0,105.0
4,20101491,63,20004,5,20164,3,11609.0,100.0,,0.0,...,온라인서비스,selb0002a.c,20101491.0,P2021-01319-02,20210317.0,수정,2021-04-008846,/nbsdev/uif/elb/src,97.0,53.0


### 직원데이터 + 프로젝트 정보
프로그램의 프로젝트번호를 기반으로 조인한다

이때 필요한 컬럼만 추려서 조인하자 (메모리 낭비 방지)

In [None]:

project_jikwon_columns = ['PM행번', '업무명', '개발의뢰번호', '의뢰자행번', '행번', '부서명', '팀명', '직위', '직급', '역할']

In [None]:
main_data = pd.merge(left=main_data[main_data[main_data_columns]], right=project[project[project_columns]],
                     how='left', left_on='COL08', right_on='프로젝트번호')

In [None]:
main_data = pd.merge(left=main_data, right=project_jikwon[project_jikwon[project_jikwon_columns]],
                     how='left', left_on='COL08', right_on='프로젝트번호')

In [None]:
main_data.describe(include=['O'])

# Export Data
데이터 전처리를 완료하였으니, 해당 Dataframe을 csv 파일로 저장한다

In [None]:
save_dir = os.path.join(root, 'raw_data.csv')
main_data.to_csv(save_dir, na_rep='NaN')

# Create Code Data
데이터 처리의 편의성을 위해 코드로 이루어진 데이터의 경우 코드만 저장을 하였다

그러나 결국은 코드 값을 알고 있어야 하기에, 코드와 코드 값을 매칭한 테이블도 필요할 것이다