# Library

In [1]:
import pandas as pd
import numpy as np
import os
from tqdm import tqdm

In [2]:
# ODS 폴더 경로
ods_fold = 'D:/data/big2/ODS'

## 배출가스인증정보

### columns

In [8]:
name = 'CEG_EMIS_CERTI_MIG'
file_name = f'[정제]{name}.xlsx'
col_exc = pd.read_excel(f'analysis/ODSvsSTD/{file_name}', sheet_name='ODS_col')
col_exc.shape

(23, 2)

In [9]:
col_exc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23 entries, 0 to 22
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   컬럼      23 non-null     object
 1   내용      23 non-null     object
dtypes: object(2)
memory usage: 496.0+ bytes


In [10]:
# 필요한 컬럼만 추출
col = col_exc['컬럼'].to_list()
col_dict = {a:b for a, b in zip(col_exc['컬럼'], col_exc['내용'])}
col_dict

{'STRE_DE': '저장 일자',
 'MKR_NM': '제작사 명',
 'FUEL': '연료',
 'EMIS_CRTC_DE': '배출가스 인증 일자',
 'EMIS_CRTCNO': '배출가스인증번호',
 'EMIS_PERM_STDR_CD': '배출가스 허용 기준 코드',
 'EMIS_VHCTY': '배출가스 차종',
 'EMIS_CRTC_UNAVBL_RESN': '배출가스 인증 무효 사유',
 'EMIS_CRTC_2_SE': '배출가스 인증 2 구분',
 'EMIS_CRTC_STUS': '배출가스 인증 상태',
 'EMIS_CRTC_SNO': '배출가스 인증 일련번호',
 'EMIS_CRTC_UNAVBL_DE': '배출가스 인증 무효 일자',
 'EMIS_CRTC_1_SE': '배출가스 인증 1 구분',
 'EMIS_GRD': '배출가스 등급',
 'SAME_VHCTY_TY': '동일 차종 유형',
 'REPCAR_VIN': '대표차 차대번호',
 'REPCAR_EMIS_CRTCNO': '대표차 배출가스 인증번호',
 'ORGCAR_SRCMNNO': '기본차 제원관리번호',
 'DMSTC_INCM_MKR_SE': '국내 수입 제작사 구분',
 'MNFCT_NM': '제조사 명',
 'PLOR_NM': '원산지 명',
 'RECP_FILE_NM': '미정',
 'SRCMNNO': '미정'}

### [로드] 배출가스인증정보

In [4]:
# about 14
file_name = f'ODS_{name}.csv'
ins = pd.read_csv(os.path.join(ods_fold, file_name), usecols=col, low_memory=False)
ins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 810777 entries, 0 to 810776
Data columns (total 39 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   ERP_REG_NO                    810777 non-null  int64  
 1   SIDO                          810777 non-null  object 
 2   SIGUNGU                       810661 non-null  object 
 3   CAR_REG_NO                    810777 non-null  object 
 4   CURR_CAR_REG_NO               77466 non-null   object 
 5   CAR_SER_NO                    810777 non-null  object 
 6   CAR_TYPE_NM                   810777 non-null  object 
 7   USAGE                         810774 non-null  object 
 8   CAR_YEAR                      810777 non-null  int64  
 9   FIRST_REG_DATE                775578 non-null  float64
 10  CAR_OWNER_NM                  808532 non-null  object 
 11  USER_CONTACT_TEL_NO           792453 non-null  object 
 12  ATT_ORG_NM                    801632 non-nul

In [5]:
ins = ins[col]
ins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 810777 entries, 0 to 810776
Data columns (total 39 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   EMI_RED_TYPE2                 586898 non-null  object 
 1   PM_EFF_VAL                    84460 non-null   float64
 2   TDMS_YN                       204951 non-null  object 
 3   CONF_CHG_DATE                 810777 non-null  int64  
 4   ATT_ORG_NM                    801632 non-null  object 
 5   ATT_DATE                      810775 non-null  float64
 6   T_CHK_DATE                    178 non-null     float64
 7   CAR_REG_NO                    810777 non-null  object 
 8   CAR_SER_NO                    810777 non-null  object 
 9   CAR_MILE                      796828 non-null  float64
 10  EMI_RED_REMOVE_YN             326030 non-null  object 
 11  EMI_RED_TYPE1                 810777 non-null  object 
 12  ERP_REG_NO                    810777 non-nul

In [6]:
ins.columns = [col_dict[x] for x in ins.columns]

In [7]:
ins.columns

Index(['저감장치종류', 'PM최종저감효율', 'TDMS부착여부', '구조변경일자', '부착업체명', '부착일자', '탈거승인일',
       '차량번호', '차대번호', '주행거리', '저감장치반납여부', '저감장치구분', '저감등록번호', '재장착확인일자',
       '장치일련번호', '삼원촉매장치반납여부', '미정', '미정', '미정', '미정', '미정', '미정', '미정', '미정',
       '미정', '미정', '미정', '미정', '미정', '미정', '미정', '미정', '미정', '미정', '미정', '미정',
       '미정', '미정', '미정'],
      dtype='object')

In [8]:
ins = ins[['저감장치종류', 'PM최종저감효율', 'TDMS부착여부', '구조변경일자', '부착업체명', '부착일자', '탈거승인일',
       '차량번호', '차대번호', '주행거리', '저감장치반납여부', '저감장치구분', '저감등록번호', '재장착확인일자',
       '장치일련번호', '삼원촉매장치반납여부',]]

### [출력] 배출가스인증정보

In [9]:
# about 5s
ins.to_csv(os.path.join(ods_fold, f'[ODS]배출가스인증정보(2022.12.29).csv'), index=False)

# 코드 마지막