# Library

In [1]:
import pandas as pd
import numpy as np
import os
from tqdm import tqdm

In [2]:
# ODS 폴더 경로
ods_fold = 'D:/data/big2/ODS'

## 배출가스인증시험

### columns

In [3]:
name = 'CEG_EMIS_CERTI_TEST_MIG'
file_name = f'[정제]{name}.xlsx'
col_exc = pd.read_excel(f'analysis/ODSvsSTD/{file_name}', sheet_name='ODS_col')
col_exc.shape

(23, 2)

In [4]:
col_exc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23 entries, 0 to 22
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   컬럼      23 non-null     object
 1   내용      23 non-null     object
dtypes: object(2)
memory usage: 496.0+ bytes


In [5]:
# 필요한 컬럼만 추출
col = col_exc['컬럼'].to_list()
col_dict = {a:b for a, b in zip(col_exc['컬럼'], col_exc['내용'])}
col_dict

{'PN_PERM_STDR_VAL': '입자개수 허용 기준 값',
 'NOX_PERM_STDR_VAL': '질소산화물 허용 기준 값',
 'PM_PERM_STDR_VAL': '입자상물질 허용 기준 값',
 'NOX_TEST_RSLT': '질소산화물 시험 결과',
 'PN_TEST_RSLT': '입자개수 시험 결과',
 'CO_PERM_STDR_VAL': '일산화탄소 허용 기준 값',
 'CO_TEST_RSLT': '일산화탄소 시험 결과',
 'EMIS_CRTCNO': '배출가스 인증번호',
 'EMIS_CRTC_SNO': '배출가스 인증 일련번호',
 'EMIS_TEST_MOD_VAL': '배출가스 시험 모드 값',
 'HC_PERM_STDR_VAL': '탄화수소3 허용 기준 값',
 'HC_NOX_PERM_STDR_VAL': '탄화수소3 질소산화물 허용 기준 값',
 'HC_NOX_TEST_RSLT': '탄화수소3 질소산화물 시험 결과',
 'HC_TEST_RSLT': '탄화수소3 시험 결과',
 'NMHC_PERM_STDR_VAL': '탄화수소2 허용 기준 값',
 'NMHC_TEST_RSLT': '탄화수소2 시험 결과',
 'NMOG_PERM_STDR_VAL': '탄화수소1 허용 기준 값',
 'NMOG_NOX_PERM_STDR_VAL': '탄화수소1 질소산화물 허용 기준 값',
 'NMOG_NOX_TEST_RSLT': '탄화수소1 질소산화물 시험 결과',
 'NMOG_TEST_RSLT': '탄화수소1 시험 결과',
 'PM_TEST_RSLT': '입자상물질 시험 결과',
 'RECP_FILE_NM': '미정',
 'STRE_DE': '미정'}

### [로드] 배출가스인증시험

In [6]:
# about 1s
file_name = f'ODS_{name}.csv'
ins = pd.read_csv(os.path.join(ods_fold, file_name), usecols=col, low_memory=False)
ins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86406 entries, 0 to 86405
Data columns (total 23 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   EMIS_CRTCNO             86406 non-null  object 
 1   EMIS_CRTC_SNO           86406 non-null  int64  
 2   EMIS_TEST_MOD_VAL       85442 non-null  object 
 3   CO_PERM_STDR_VAL        16761 non-null  float64
 4   CO_TEST_RSLT            17868 non-null  float64
 5   NMOG_PERM_STDR_VAL      43 non-null     float64
 6   NMOG_TEST_RSLT          3116 non-null   float64
 7   NMHC_PERM_STDR_VAL      20 non-null     float64
 8   NMHC_TEST_RSLT          268 non-null    float64
 9   HC_PERM_STDR_VAL        12176 non-null  float64
 10  HC_TEST_RSLT            12236 non-null  float64
 11  NOX_PERM_STDR_VAL       13893 non-null  float64
 12  NOX_TEST_RSLT           16856 non-null  float64
 13  NMOG_NOX_PERM_STDR_VAL  4229 non-null   float64
 14  NMOG_NOX_TEST_RSLT      4783 non-null 

In [7]:
ins = ins[col]
ins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86406 entries, 0 to 86405
Data columns (total 23 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   PN_PERM_STDR_VAL        1978 non-null   float64
 1   NOX_PERM_STDR_VAL       13893 non-null  float64
 2   PM_PERM_STDR_VAL        2770 non-null   float64
 3   NOX_TEST_RSLT           16856 non-null  float64
 4   PN_TEST_RSLT            0 non-null      float64
 5   CO_PERM_STDR_VAL        16761 non-null  float64
 6   CO_TEST_RSLT            17868 non-null  float64
 7   EMIS_CRTCNO             86406 non-null  object 
 8   EMIS_CRTC_SNO           86406 non-null  int64  
 9   EMIS_TEST_MOD_VAL       85442 non-null  object 
 10  HC_PERM_STDR_VAL        12176 non-null  float64
 11  HC_NOX_PERM_STDR_VAL    8513 non-null   float64
 12  HC_NOX_TEST_RSLT        8548 non-null   float64
 13  HC_TEST_RSLT            12236 non-null  float64
 14  NMHC_PERM_STDR_VAL      20 non-null   

In [8]:
ins.columns = [col_dict[x] for x in ins.columns]

In [9]:
ins.columns

Index(['입자개수 허용 기준 값', '질소산화물 허용 기준 값', '입자상물질 허용 기준 값', '질소산화물 시험 결과',
       '입자개수 시험 결과', '일산화탄소 허용 기준 값', '일산화탄소 시험 결과', '배출가스 인증번호',
       '배출가스 인증 일련번호', '배출가스 시험 모드 값', '탄화수소3 허용 기준 값', '탄화수소3 질소산화물 허용 기준 값',
       '탄화수소3 질소산화물 시험 결과', '탄화수소3 시험 결과', '탄화수소2 허용 기준 값', '탄화수소2 시험 결과',
       '탄화수소1 허용 기준 값', '탄화수소1 질소산화물 허용 기준 값', '탄화수소1 질소산화물 시험 결과',
       '탄화수소1 시험 결과', '입자상물질 시험 결과', '미정', '미정'],
      dtype='object')

In [10]:
ins = ins[['입자개수 허용 기준 값', '질소산화물 허용 기준 값', '입자상물질 허용 기준 값', '질소산화물 시험 결과',
       '입자개수 시험 결과', '일산화탄소 허용 기준 값', '일산화탄소 시험 결과', '배출가스 인증번호',
       '배출가스 인증 일련번호', '배출가스 시험 모드 값', '탄화수소3 허용 기준 값', '탄화수소3 질소산화물 허용 기준 값',
       '탄화수소3 질소산화물 시험 결과', '탄화수소3 시험 결과', '탄화수소2 허용 기준 값', '탄화수소2 시험 결과',
       '탄화수소1 허용 기준 값', '탄화수소1 질소산화물 허용 기준 값', '탄화수소1 질소산화물 시험 결과',
       '탄화수소1 시험 결과', '입자상물질 시험 결과']]

In [11]:
ins.columns = ['입자개수허용기준값', '질소산화물허용기준값', '입자상물질허용기준값', '질소산화물시험결과',
       '입자개수시험결과', '일산화탄소허용기준값', '일산화탄소시험결과', '배출가스인증번호',
       '배출가스인증일련번호', '배출가스시험모드값', '탄화수소3허용기준값', '탄화수소3질소산화물허용기준값',
       '탄화수소3질소산화물시험결과', '탄화수소3시험결과', '탄화수소2허용기준값', '탄화수소2시험결과',
       '탄화수소1허용기준값', '탄화수소1질소산화물허용기준값', '탄화수소1질소산화물시험결과',
       '탄화수소1시험결과', '입자상물질시험결과']

### [출력] 배출가스인증시험

In [12]:
# about 1s
ins.to_csv(os.path.join(ods_fold, f'[ODS]배출가스인증시험(2022.12.29).csv'), index=False)

# 코드 마지막