In [1]:
import pandas as pd
import glob
import numpy as np

In [2]:
# data 모두 불러오기
file_list = glob.glob('./Data/*.csv')
for file_name in file_list:
    print(file_name)

./Data/BGCON_CUST_DATA.csv
./Data/BGCON_CLAIM_DATA.csv
./Data/BGCON_FPINFO_DATA.csv
./Data/BGCON_FMLY_DATA.csv
./Data/BGCON_CNTT_DATA.csv


In [3]:
# read BGCON_CUST_DATA.csv ( 고객정보 )
customer_df = pd.read_csv(file_list[0], encoding='utf-16')

# read BGCON_CLAIM_DATA.csv ( 지급정보 )
claim_df = pd.read_csv(file_list[1], encoding='utf-16')

# read BGCON_FPINFO_DATA.csv ( 설계사정보 )
fpinfo_df = pd.read_csv(file_list[2], encoding='utf-16')

# read BGCON_FMLY_DATA.csv ( 가족정보 )
family_df = pd.read_csv(file_list[3], encoding='utf-16')

# read BGCON_CNTT_DATA.csv ( 계약정보 )
contract_df = pd.read_csv(file_list[4], encoding='utf-16')

## Data Description

### customer_df

In [8]:
customer_df.tail()

Unnamed: 0,CUST_ID,DIVIDED_SET,SIU_CUST_YN,SEX,AGE,RESI_COST,RESI_TYPE_CODE,FP_CAREER,CUST_RGST,CTPR,...,WEDD_YN,MATE_OCCP_GRP_1,MATE_OCCP_GRP_2,CHLD_CNT,LTBN_CHLD_AGE,MAX_PAYM_YM,MAX_PRM,CUST_INCM,RCBASE_HSHD_INCM,JPBASE_HSHD_INCM
22395,20048,2,,1,34,5652,11,N,201103,경북,...,N,,,0,0,,,3331.0,3622,3331
22396,21483,1,N,2,30,31944,20,N,200306,경기,...,N,,,0,0,,,0.0,9361,8947
22397,21940,1,N,2,23,45972,20,N,200501,경기,...,N,,,0,0,,,0.0,11522,11484
22398,20356,1,N,1,15,27777,20,N,200306,경기,...,N,,,0,0,,,,7960,7614
22399,17118,1,N,2,18,21527,20,N,200306,경기,...,N,,,0,0,,,,7746,7746


#### Columns
* CUST_ID : 고객ID
* DIVIDED_SET : 데이터셋 구분 - train(1) / test(2)
* SIU_CUST_YN : 보험사기자 구분
* SEX : 성별
* AGE : 연령
* RESI_COST : 주택가격
* RESI_TYPE_CODE : 주택유형
* FP_CAREER : FP 경력 유뮤
* CUST_RGST : 고객등록일
* CTPR : 거주 주소
* OCCP_GRP1 : 직업분류코드1
* OCCP_GRP2 : 직업분류코드2
* TOTALPREM : 납입총보험료
* MINCRDT : 최소신용등급 - 미확인시 6등급
* MAXCRDT : 최대신용등급 - 미확인시 6등급
* WEDD_YN : 결혼여부
* MATE_OCCP_GRP1 : 배우자직업코드1
* MATE_OCCP_GRP2 : 배우자직업코드2
* CHLD_CNT : 자녀수
* LTBN_CHLD_AGE : 막내자녀연령
* MAX_PAYM_YM : 최대보험료연월
* MAX_PRM : 최대보험료
* CUST_INCM : 고객의 추정소득
* RCBASE_HSHD_INCM : 가구의 추정소득1 ( 주택가격 기준 )
* JPBASE_HSHD_INCM : 가구의 추정소득2 ( 직업 및 납입보험료 기준 )

### contract_df

In [41]:
contract_df.tail()

Unnamed: 0,POLY_NO,CUST_ID,CUST_ROLE,IRKD_CODE_DTAL,IRKD_CODE_ITEM,GOOD_CLSF_CDNM,CNTT_YM,CLLT_FP_PRNO,REAL_PAYM_TERM,SALE_CHNL_CODE,...,EXPR_YM,EXTN_YM,LAPS_YM,PAYM_CYCL_CODE,MAIN_INSR_AMT,SUM_ORIG_PREM,RECP_PUBL,CNTT_RECP,MNTH_INCM_AMT,DISTANCE
113005,112765,12297,1,1267,1,보장,200204,4033,10,2,...,201204,200205.0,,1,10000000,33600,0,0,0,3.0
113006,112766,9296,1,1256,27,일반종신,200204,4023,20,2,...,999912,200602.0,200602.0,1,50000000,154250,0,0,0,8.0
113007,112767,20517,1,1267,1,보장,200204,4033,10,2,...,202204,,,1,10000000,90100,0,0,0,7.0
113008,112768,1316,1,1228,13,일반연금,200204,2309,10,2,...,999912,200812.0,200508.0,1,2461560,20513,0,0,0,
113009,112769,20760,1,1259,19,보장,200204,2217,10,2,...,203104,,,1,10000000,52000,0,0,0,0.0


#### Columns
* POLY_NO : 보험계약코드
* CUST_ID : 고객ID
* CUST_ROLE : 고객 역할 코드 ; 계약자(0) / 계약자+주피보험자(1) / 주피보험자(2) / 피보험자(21) / 생존수익자(3) / 입원장해수익자(4) / 사망수익자(5)
* IRKD_CODE_DTAL : 보험상품코드
* IRKD_CODE_ITEM : 보험상품코드(변경됨???)
* GOOD_CLSF_CDNM : 상품분류 (총 18가지)
* CNTT_YM : 계약일자
* CLLT_FP_PRNO : FP번호
* REAL_PAYM_TERM : 보험료를 납입하기로 한 기간
* SALE_CHNL_CODE : 보험상품 구매 경로
* CNTT_STAT_CODE : 계약 상태 코드
* EXPR_YM : 만기년월
* EXTN_YM : 소멸년월 ( 없으면 NULL )
* LAPS_YM : 실효년월 ( 없으면 NULL )
* PAYM_CYCL_CODE : 납입주기코드
* MAIN_INSR_AMT : 주보험금
* SUM_ORIG_PREM : 합계보험료 ( 주계약 + 특약 )
* RECP_PUBL : 청약서발행_접수소요일
* CNTT_RECP : 청약서접수_계약소요일
* MNTH_INCM_AMT : 청약서 소득
* DISTANCE : FP와 고객거주지의 거리

In [49]:
# comment : cust id 로 customer df 와 join 하자!
contract_df['CUST_ID'].unique().shape

(22400,)

In [54]:
# comment : fpinfo_df 와 join ; but 1개의 데이터를 버려야한다.
contract_df['CLLT_FP_PRNO'].unique().shape

(31523,)

### claim_df

In [42]:
claim_df.tail()

Unnamed: 0,CUST_ID,POLY_NO,ACCI_OCCP_GRP1,ACCI_OCCP_GRP2,CHANG_FP_YN,CNTT_RECP_SQNO,RECP_DATE,ORIG_RESN_DATE,RESN_DATE,CRNT_PROG_DVSN,...,PMMI_DLNG_YN,SELF_CHAM,NON_PAY,TAMT_SFCA,PATT_CHRG_TOTA,DSCT_AMT,COUNT_TRMT_ITEM,DCAF_CMPS_XCPA,NON_PAY_RATIO,HEED_HOSP_YN
119015,15545,48830,3.사무직,사무직,Y,2215030300002,20150303,20140919,20150123,23,...,Y,103350,227700,0,331050,0,1,,0.687812,N
119016,15489,110348,,,Y,2215051300001,20150513,20150427,20150427,23,...,Y,28521,23000,0,51521,21,1,22000.0,0.44642,N
119017,6864,110453,,,Y,2215061800001,20150618,20150604,20150604,23,...,Y,139854,1616000,0,1755854,54,1,10000.0,0.92035,N
119018,15545,48830,3.사무직,사무직,Y,2215061800002,20150618,20140919,20150523,23,...,Y,39100,93000,0,132100,0,1,43000.0,0.704012,N
119019,21542,34676,8.기타,학생,N,2215063000001,20150630,20150506,20150506,23,...,Y,44003,1054241,0,1098244,4,1,3000.0,0.959933,N


#### Columns
* CUST_ID : 고객ID
* POLY_NO : 증권번호
* ACCI_OCCP_GRP1 : 직업그룹코드1
* ACCI_OCCP_GRP2 : 직업그룹코드2
* CHANG_FP_YN : FP 변경 여부
* CNTT_RECP_SQNO : 계약별접수일련번호
* RECP_DATE : 사고접수일자
* ORIG_RESN_DATE : 최초사유발생일자
* RESN_DATE : 지급사유 발생일자
* CRNT_PROG_DVSN : 현재진행구분
* ACCI_DVSN : 사고구분
* CAUS_CODE : 원인코드
* CAUS_CODE_DTAL : 원인코드상세
* DSAS_NAME : 병명
* DMND_RESN_CODE : 청구사유코드
* DMND_RSCD_SQNO : 청구사유코드 일련번호
* HOSP_OTPA_STDT : 입원/통원시작일자
* HOSP_OTPA_ENDT : 입원/통원종료일자
* RESL_CD1 : 사고원인에 대한 결과코드
* RESL_NM1 : 결과내용
* VLID_HOSP_OTDA : 유효입원/통원일수
* HOUSE_HOSP_DIST : 고객 거주지와 병원까지 거리
* HOSP_CODE : 병원코드
* ACCI_HOSP_ADDR : 병원지역(시도)
* HOSP_SPEC_DVSN : 병원종별구분
* CHME_LICE_NO : 담당의사면허번호
* PAYM_DATE : 지급일자
* DMND_AMT : 청구금액
* PAYM_AMT : 지급금액
* PMMI_DLNG_YN : 실손처리여부
* SELF_CHAM : 본인부담금
* NON_PAY : 비급여
* TAMT_SFCA : 전액본인부담금
* PATT_CHRG_TOTA : 환자부담총액
* DSCT_AMT : 병원에서 할인해준 금액
* COUNT_TRMT_ITEM : 진료과목갯수
* NON_PAY_RATIO : 실손비급여비율
* HEED_HOSP_YN : 유의병원여부

In [51]:
# comment : cust id 로 customer df 와 join 하자!
claim_df['CUST_ID'].unique().shape

(22400,)

### fpinfo_df

In [43]:
fpinfo_df.tail()

Unnamed: 0,CLLT_FP_PRNO,INCB_DVSN,ETRS_YM,FIRE_YM,BEFO_JOB,EDGB,BRCH_CODE
31517,2282,D,#,#,,,99999999
31518,55,D,#,#,,,99999999
31519,118,D,#,#,,,99999999
31520,93,D,#,#,,,99999999
31521,80,D,#,#,,,99999999


In [53]:
fpinfo_df['CLLT_FP_PRNO'].unique().shape

(31522,)

#### Columns
* CLLT_FP_PRNO : FP사번
* INCB_DVSN : 재직구분
* ETRS_YM : 입사년월
* FIRE_YM : 퇴사년월
* BEFO_JOB : 입사전직업
* EDGB : 학력
* BRCH_CODE : 소속지점코드

### family_df

In [44]:
family_df.tail()

Unnamed: 0,CUST_ID,SUB_CUST_ID,FMLY_RELN_CODE
421,6191,1733,14
422,810,14786,14
423,21168,14558,12
424,19941,13263,14
425,21615,15176,15


#### Columns
* CUST_ID : 고객ID
* SUB_CUST_ID : 가족고객ID
* FMLY_RELN_CODE : 가족관계