# Library

In [1]:
import pandas as pd
import numpy as np
import os
from tqdm import tqdm

In [2]:
# ODS 폴더 경로
ods_fold = 'D:/data/big2/ODS'

## 배출가스인증정보

### columns

In [8]:
name = 'CEG_EMIS_CERTI_MIG'
file_name = f'[정제]{name}.xlsx'
col_exc = pd.read_excel(f'analysis/ODSvsSTD/{file_name}', sheet_name='ODS_col')
col_exc.shape

(23, 2)

In [9]:
col_exc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23 entries, 0 to 22
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   컬럼      23 non-null     object
 1   내용      23 non-null     object
dtypes: object(2)
memory usage: 496.0+ bytes


In [10]:
# 필요한 컬럼만 추출
col = col_exc['컬럼'].to_list()
col_dict = {a:b for a, b in zip(col_exc['컬럼'], col_exc['내용'])}
col_dict

{'STRE_DE': '저장 일자',
 'MKR_NM': '제작사 명',
 'FUEL': '연료',
 'EMIS_CRTC_DE': '배출가스 인증 일자',
 'EMIS_CRTCNO': '배출가스인증번호',
 'EMIS_PERM_STDR_CD': '배출가스 허용 기준 코드',
 'EMIS_VHCTY': '배출가스 차종',
 'EMIS_CRTC_UNAVBL_RESN': '배출가스 인증 무효 사유',
 'EMIS_CRTC_2_SE': '배출가스 인증 2 구분',
 'EMIS_CRTC_STUS': '배출가스 인증 상태',
 'EMIS_CRTC_SNO': '배출가스 인증 일련번호',
 'EMIS_CRTC_UNAVBL_DE': '배출가스 인증 무효 일자',
 'EMIS_CRTC_1_SE': '배출가스 인증 1 구분',
 'EMIS_GRD': '배출가스 등급',
 'SAME_VHCTY_TY': '동일 차종 유형',
 'REPCAR_VIN': '대표차 차대번호',
 'REPCAR_EMIS_CRTCNO': '대표차 배출가스 인증번호',
 'ORGCAR_SRCMNNO': '기본차 제원관리번호',
 'DMSTC_INCM_MKR_SE': '국내 수입 제작사 구분',
 'MNFCT_NM': '제조사 명',
 'PLOR_NM': '원산지 명',
 'RECP_FILE_NM': '미정',
 'SRCMNNO': '미정'}

### [로드] 배출가스인증정보

In [11]:
# about 1s
file_name = f'ODS_{name}.csv'
ins = pd.read_csv(os.path.join(ods_fold, file_name), usecols=col, low_memory=False)
ins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 79725 entries, 0 to 79724
Data columns (total 23 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   EMIS_CRTCNO            79725 non-null  object 
 1   EMIS_CRTC_SNO          79725 non-null  int64  
 2   EMIS_CRTC_1_SE         79725 non-null  object 
 3   EMIS_CRTC_2_SE         79436 non-null  object 
 4   DMSTC_INCM_MKR_SE      79038 non-null  object 
 5   EMIS_VHCTY             79519 non-null  object 
 6   FUEL                   79493 non-null  object 
 7   SAME_VHCTY_TY          9155 non-null   object 
 8   EMIS_CRTC_DE           79670 non-null  float64
 9   MKR_NM                 78956 non-null  object 
 10  MNFCT_NM               79554 non-null  object 
 11  PLOR_NM                29928 non-null  object 
 12  EMIS_CRTC_STUS         79681 non-null  float64
 13  EMIS_CRTC_UNAVBL_DE    361 non-null    float64
 14  EMIS_CRTC_UNAVBL_RESN  45 non-null     object 
 15  OR

In [12]:
ins = ins[col]
ins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 79725 entries, 0 to 79724
Data columns (total 23 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   STRE_DE                79715 non-null  object 
 1   MKR_NM                 78956 non-null  object 
 2   FUEL                   79493 non-null  object 
 3   EMIS_CRTC_DE           79670 non-null  float64
 4   EMIS_CRTCNO            79725 non-null  object 
 5   EMIS_PERM_STDR_CD      17746 non-null  object 
 6   EMIS_VHCTY             79519 non-null  object 
 7   EMIS_CRTC_UNAVBL_RESN  45 non-null     object 
 8   EMIS_CRTC_2_SE         79436 non-null  object 
 9   EMIS_CRTC_STUS         79681 non-null  float64
 10  EMIS_CRTC_SNO          79725 non-null  int64  
 11  EMIS_CRTC_UNAVBL_DE    361 non-null    float64
 12  EMIS_CRTC_1_SE         79725 non-null  object 
 13  EMIS_GRD               23923 non-null  object 
 14  SAME_VHCTY_TY          9155 non-null   object 
 15  RE

In [13]:
ins.columns = [col_dict[x] for x in ins.columns]

In [14]:
ins.columns

Index(['저장 일자', '제작사 명', '연료', '배출가스 인증 일자', '배출가스인증번호', '배출가스 허용 기준 코드',
       '배출가스 차종', '배출가스 인증 무효 사유', '배출가스 인증 2 구분', '배출가스 인증 상태',
       '배출가스 인증 일련번호', '배출가스 인증 무효 일자', '배출가스 인증 1 구분', '배출가스 등급', '동일 차종 유형',
       '대표차 차대번호', '대표차 배출가스 인증번호', '기본차 제원관리번호', '국내 수입 제작사 구분', '제조사 명',
       '원산지 명', '미정', '미정'],
      dtype='object')

In [15]:
ins = ins[['저장 일자', '제작사 명', '연료', '배출가스 인증 일자', '배출가스인증번호', '배출가스 허용 기준 코드',
       '배출가스 차종', '배출가스 인증 무효 사유', '배출가스 인증 2 구분', '배출가스 인증 상태',
       '배출가스 인증 일련번호', '배출가스 인증 무효 일자', '배출가스 인증 1 구분', '배출가스 등급', '동일 차종 유형',
       '대표차 차대번호', '대표차 배출가스 인증번호', '기본차 제원관리번호', '국내 수입 제작사 구분', '제조사 명',
       '원산지 명']]

In [16]:
ins.columns = ['저장일자', '제작사명', '연료', '배출가스인증일자', '배출가스인증번호', '배출가스허용기준코드',
       '배출가스차종', '배출가스인증무효사유', '배출가스인증2구분', '배출가스인증상태',
       '배출가스인증일련번호', '배출가스인증무효일자', '배출가스인증1구분', '배출가스등급', '동일차종유형',
       '대표차차대번호', '대표차배출가스인증번호', '기본차제원관리번호', '국내수입제작사구분', '제조사명',
       '원산지명']

### [출력] 배출가스인증정보

In [17]:
# about 1s
ins.to_csv(os.path.join(ods_fold, f'[ODS]배출가스인증정보(2022.12.29).csv'), index=False)

# 코드 마지막