In [13]:
from collections import Counter
from glob import glob

import pandas as pd
from tqdm import tqdm

In [14]:
file_paths = glob("./data/raw_data/*.csv")

In [15]:
def read_csv(file_path):
    encodings = ["utf-8", "cp949"]
    for encoding in encodings:
        try:
            df = pd.read_csv(file_path, low_memory=False, encoding=encoding)
            return df, encoding
        except UnicodeDecodeError:
            continue
        except pd.errors.ParserError:
            return None, None

In [16]:
file_encoding_dict = dict()
file_column_dict = dict()

for file_path in tqdm(file_paths):
    df, encoding = read_csv(file_path)
    if df is not None:
        file_encoding_dict[file_path] = encoding
        file_column_dict[file_path] = df.columns
    else:
        file_encoding_dict[file_path] = "ParseError"
        file_column_dict[file_path] = "ParseError"

100%|██████████| 77/77 [02:08<00:00,  1.66s/it]


In [17]:
file_encoding_dict

{'./data/raw_data/국민연금 가입 사업장 내역 2021년 6월.csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 (7).csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 2019년 2월.csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 (15).csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 2020년 5월.csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 (23).csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 2020년 9월.csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 2018년 1월.csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 (19).csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 (18).csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 2020년 7월.csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 (22).csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 2018년 3월.csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 (14).csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 2021년 4월.csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 (6).csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 2021년 8월.csv': 'cp949',
 './data/raw_data/국민연금 가입 사업장 내역 2018년 7월.csv': 'cp949',
 './data

In [18]:
Counter(list(file_encoding_dict.values()))

Counter({'cp949': 77})

In [19]:
columns = [list(column) for column in file_column_dict.values()]

In [None]:
# Counter({'자료생성년월': 32,
#          ' 사업장명': 28,
#          ' 사업자등록번호': 28,
#          ' 사업장가입상태코드 1 등록 2 탈퇴': 28,,
#          '사업장가입상태코드 1:등록2:탈퇴 WKPL_JNNG_STCD VARCHAR(1)': 27,
#          '우편번호 ZIP\tVARCHAR(6)': 27,
#          '사업장지번상세주소 WKPL_LTNO_DTL_ADDR\tVARCHAR(300)': 27,
#          '사업장도로명상세주소 WKPL_ROAD_NM_DTL_ADDR VARCHAR(300)': 27,
# ...
#          ' 상실가입자수(납부예외 포함  전달 고지대상자와 비교하므로 실제 퇴사자와 상이할 수 있음(초일이 아닌 상실자는 다음달 상실자수에 반영) 국민연금법 제6조 8조 동법 시행령 제18조에 의거 60세 도달하거나 퇴직연금수급자 조기노령연금 수급권을 취득한 자는 가입대상에서 제외되며 18세미만 기초수급자는 본인희망에 의해 제외될 수 있음)': 18,
#          ' 가입자수': 10,
#          ' 당월고지금액': 10,
#          ' 신규취득자수': 10,
#          ' 상실가입자수': 10})

In [20]:
Counter(sum(columns,[]))

Counter({'자료생성년월': 32,
         ' 사업장명': 28,
         ' 사업자등록번호': 28,
         ' 사업장가입상태코드 1 등록 2 탈퇴': 28,
         ' 우편번호': 28,
         ' 사업장지번상세주소': 28,
         ' 사업장도로명상세주소': 28,
         ' 고객법정동주소코드': 28,
         ' 고객행정동주소코드': 28,
         ' 법정동주소광역시도코드': 28,
         ' 법정동주소광역시시군구코드': 28,
         ' 법정동주소광역시시군구읍면동코드': 28,
         ' 사업장형태구분코드 1 법인 2 개인': 28,
         ' 사업장업종코드': 28,
         ' 사업장업종코드명': 28,
         ' 적용일자': 28,
         ' 재등록일자': 28,
         ' 탈퇴일자': 28,
         '자료생성년월 DATA_CRT_YM VARCHAR(6)': 27,
         '사업장명 WKPL_NM\tVARCHAR(100)': 27,
         '사업자등록번호 BZOWR_RGST_NO VARCHAR(10)': 27,
         '사업장가입상태코드 1:등록2:탈퇴 WKPL_JNNG_STCD VARCHAR(1)': 27,
         '우편번호 ZIP\tVARCHAR(6)': 27,
         '사업장지번상세주소 WKPL_LTNO_DTL_ADDR\tVARCHAR(300)': 27,
         '사업장도로명상세주소 WKPL_ROAD_NM_DTL_ADDR VARCHAR(300)': 27,
         '고객법정동주소코드 CUST_LDONG_ADDR_CD\tVARCHAR(10)': 27,
         '고객행정동주소코드 CUST_PADONG_ADDR_CD\tVARCHAR(10)': 27,
         '법정동주소광역시도코드 LDONG_ADDR_MGPL_

In [41]:
df.columns = [col.strip().split()[0].split("(")[0] for col in df.columns]

In [44]:
df['자료생성년월'].mode().iloc[0]

'2019-01'

In [31]:
Counter([col.strip().split()[0].split("(")[0] for col in sum(columns, [])])

Counter({'자료생성년월': 65,
         '사업장명': 65,
         '사업자등록번호': 65,
         '사업장가입상태코드': 65,
         '우편번호': 65,
         '사업장지번상세주소': 65,
         '사업장도로명상세주소': 65,
         '고객법정동주소코드': 65,
         '고객행정동주소코드': 65,
         '법정동주소광역시도코드': 65,
         '법정동주소광역시시군구코드': 65,
         '법정동주소광역시시군구읍면동코드': 65,
         '사업장형태구분코드': 65,
         '사업장업종코드': 65,
         '사업장업종코드명': 65,
         '적용일자': 65,
         '재등록일자': 65,
         '탈퇴일자': 65,
         '가입자수': 65,
         '당월고지금액': 65,
         '신규취득자수': 65,
         '상실가입자수': 65})

In [32]:
len(file_paths)

65

In [6]:
sorted(file_paths)

['./data/raw_data/국민연금 가입 사업장 내역 (1).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (10).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (11).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (12).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (13).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (14).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (15).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (16).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (17).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (18).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (19).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (2).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (20).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (21).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (22).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (23).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (24).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (25).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (26).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (27).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (3).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (4).csv',
 './data/raw_data/국민연금 가입 사업장 내역 (5)

In [8]:
pd.read_csv("./data/raw_data/국민연금 가입 사업장 내역 2019년 2월.csv", encoding="cp949")

  pd.read_csv( './data/raw_data/국민연금 가입 사업장 내역 2019년 2월.csv',encoding='cp949')


Unnamed: 0,자료생성년월 DATA_CRT_YM VARCHAR(6),사업장명 WKPL_NM\tVARCHAR(100),사업자등록번호 BZOWR_RGST_NO VARCHAR(10),사업장가입상태코드 1:등록2:탈퇴 WKPL_JNNG_STCD VARCHAR(1),우편번호 ZIP\tVARCHAR(6),사업장지번상세주소 WKPL_LTNO_DTL_ADDR\tVARCHAR(300),사업장도로명상세주소 WKPL_ROAD_NM_DTL_ADDR VARCHAR(300),고객법정동주소코드 CUST_LDONG_ADDR_CD\tVARCHAR(10),고객행정동주소코드 CUST_PADONG_ADDR_CD\tVARCHAR(10),법정동주소광역시도코드 LDONG_ADDR_MGPL_DG_CD\tVARCHAR(2),...,사업장형태구분코드 1:법인2:개인 WKPL_STYL_DVCD\tVARCHAR(1),사업장업종코드 WKPL_INTP_CD\t국세청업종코드참조 VARCHAR(6),사업장업종코드명 VLDT_VL_KRN_NM VARCHAR(200),적용일자 ADPT_DT VARCHAR(8),재등록일자 RRG_DT\tVARCHAR(8),탈퇴일자 SCSN_DT VARCHAR(8),가입자수 JNNGP_CNT INTEGER,당월고지금액 CRRMM_NTC_AMT\tINTEGER,신규취득자수 NW_ACQZR_CNT\tINTEGER,상실가입자수 LSS_JNNGP_CNT\tINTEGER
0,2019-01,서등주식회사,102812,1,03740,서울특별시 서대문구 미근동,서울특별시 서대문구 충정로6안길,1141010400,1141056500,11,...,1,222102,스크린 인쇄업,1988-01-01,,,4,837880,0,1
1,2019-01,(주)니프코코리아,211814,1,31409,충청남도 아산시 둔포면,충청남도 아산시 둔포면 아산밸리남로,4420036032,4420036032,44,...,1,252901,포장용 플라스틱 성형용기 제조업,1988-01-01,,,667,276233220,0,6
2,2019-01,글로웨이 주식회사,110812,1,06072,서울특별시 강남구 청담동,서울특별시 강남구 영동대로137길,1168010400,1168056500,11,...,1,452101,미장 타일 및 방수 공사업,1988-01-01,,,3,1035900,0,0
3,2019-01,신일기업(주),201810,1,04537,서울특별시 중구 충무로2가,서울특별시 중구 퇴계로,1114012500,1114055000,11,...,1,381002,,1988-01-01,,,21,6480400,0,0
4,2019-01,디에스디엘(주),104811,1,04526,서울특별시 중구 남대문로4가,서울특별시 중구 세종대로,1114011700,1114054000,11,...,1,701201,비주거용 건물 임대업(점포 자기땅),1988-01-01,,,23,5046960,3,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
497452,2019-01,삼성전자로지텍(주) (일용)천안상록리조트리모델링공사지급자재(시스템에어컨옵션품목)구매 설치,124815,1,31251,충청남도 천안시 동남구 수신면,충청남도 천안시 동남구 수신면 수신로,4413135026,4413135026,44,...,1,630201,일반 창고업,2018-12-27,,,4,868560,4,0
497453,2019-01,수만건설（주）-(일용) 삼선초 본관동 외벽개선공사,110817,1,02863,서울특별시 성북구 삼선동3가,서울특별시 성북구 보문로29길,1129011300,1129055500,11,...,1,452102,유리 및 창호 공사업,2018-12-28,,,5,1703700,5,2
497454,2019-01,대선이엔씨(주)-(일용)요진건설 이태원 호텔캐피탈 리모델링 전기공사,202810,1,04392,서울특별시 용산구 이태원동,서울특별시 용산구 장문로,1117013000,1117065000,11,...,1,452104,배관 및 냉ㆍ난방 공사업,2019-01-01,,,3,819900,3,1
497455,2019-01,주원종합건설（주）/(일용)상명리창조적마을만들기사업노인회관리모델링및포제단건축공사,616813,1,695-930,제주특별자치도 제주시 한림읍,,5011025030,5011025030,50,...,1,451200,기타 토목 시설물 건설업,2018-10-24,,,7,1532700,7,0
