# Library

In [1]:
import pandas as pd
import os
import numpy as np
from tqdm import tqdm

# [로드]

In [2]:
ods_fold = 'D:/data/big2/ODS'

## [로드] 검증요청 파일
- [❌] ODS_CEG_EMIS_CERTI_VEH_MIG(배출가스 인증 자동차정보)
- [⭕] ODS_CEG_EMIS_CERTI_TEST_MIG(배출가스 인증시험)

In [4]:
name = 'CEG_EMIS_CERTI_TEST_MIG'
file_name = f'ODS_{name}.csv'
path = os.path.join(ods_fold, file_name)
df = pd.read_csv(path, low_memory=False)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1212 entries, 0 to 1211
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   EMIS_PERM_STDR_CD       1212 non-null   int64  
 1   EMIS_PERM_STDR_SML_SE   1212 non-null   object 
 2   FUEL_GRP                1212 non-null   int64  
 3   EMIS_VHCTY              1212 non-null   object 
 4   TEST_BGIN_WGHT          1212 non-null   object 
 5   TEST_END_WGHT           1212 non-null   object 
 6   APLI_DE                 1212 non-null   object 
 7   EMIS_TEST_MOD_VAL       1212 non-null   object 
 8   CO_PERM_STDR_VAL        1182 non-null   float64
 9   NMOG_PERM_STDR_VAL      212 non-null    float64
 10  NMHC_PERM_STDR_VAL      374 non-null    float64
 11  HC_PERM_STDR_VAL        125 non-null    float64
 12  NOX_PERM_STDR_VAL       884 non-null    float64
 13  NMOG_NOX_PERM_STDR_VAL  328 non-null    float64
 14  HC_NOX_PERM_STDR_VAL    151 non-null    

## 컬럼명

In [6]:
fold = 'analysis/ODSvsSTD'
file_name = f'[정제]{name}.xlsx'
path = os.path.join(fold, file_name)
col = pd.read_excel(path, sheet_name='ODS_col')
col.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   컬럼      21 non-null     object
 1   내용      21 non-null     object
dtypes: object(2)
memory usage: 464.0+ bytes


In [7]:
col_dict = {a:b for a, b in zip(col['컬럼'], col['내용'])}
col_dict

{'APLI_DE': '적용 일자',
 'TEST_END_WGHT': '시험 끝 중량',
 'TEST_BGIN_WGHT': '시험 시작 중량',
 'PN_PERM_STDR_VAL': '입자개수 허용 기준 값',
 'PM_PERM_STDR_VAL': '입자상물질 허용 기준 값',
 'CO_PERM_STDR_VAL': '일산화탄소 허용 기준 값',
 'NMOG_PERM_STDR_VAL': '탄화수소1 허용 기준 값',
 'NOX_PERM_STDR_VAL': '질소산화물 허용 기준 값',
 'EMIS_GRD': '배출가스 등급',
 'EMIS_GRD_USE_YN': '배출가스 등급 사용 YN',
 'EMIS_PERM_STDR_CD': '배출가스 허용 기준 코드',
 'EMIS_PERM_STDR_LEVL': '배출가스 허용 기준 수준',
 'EMIS_PERM_STDR_SE': '배출가스 허용 기준 구분',
 'EMIS_VHCTY': '배출가스 차종',
 'EMIS_TEST_MOD_VAL': '배출가스 시험 모드 값',
 'EMIS_PERM_STDR_SML_SE': '배출가스 허용 기준 소 구분',
 'FUEL_GRP': '연료 그룹',
 'HC_NOX_PERM_STDR_VAL': '탄화수소3 질소산화물 허용 기준 값',
 'HC_PERM_STDR_VAL': '탄화수소3 허용기준 값',
 'NMHC_PERM_STDR_VAL': '탄화수소2 허용 기준 값',
 'NMOG_NOX_PERM_STDR_VAL': '탄화수소1 질소산화물 허용 기준 값'}

In [8]:
df.columns = [col_dict[x] for x in df.columns]
df.columns

Index(['배출가스 허용 기준 코드', '배출가스 허용 기준 소 구분', '연료 그룹', '배출가스 차종', '시험 시작 중량',
       '시험 끝 중량', '적용 일자', '배출가스 시험 모드 값', '일산화탄소 허용 기준 값', '탄화수소1 허용 기준 값',
       '탄화수소2 허용 기준 값', '탄화수소3 허용기준 값', '질소산화물 허용 기준 값', '탄화수소1 질소산화물 허용 기준 값',
       '탄화수소3 질소산화물 허용 기준 값', '입자상물질 허용 기준 값', '입자개수 허용 기준 값', '배출가스 허용 기준 구분',
       '배출가스 등급 사용 YN', '배출가스 등급', '배출가스 허용 기준 수준'],
      dtype='object')

In [10]:
df['배출가스 허용 기준 코드'].unique()

array([44, 29, 16,  8, 46, 33, 34, 35, 49, 50, 20, 12,  4,  2,  1, 30, 31,
       32, 21, 22, 23, 13, 14, 15,  9, 10, 11,  5,  6,  7, 47, 48,  3, 17,
       18, 19, 45, 37, 38, 39, 40, 41, 42, 43, 36, 25, 26, 27, 28, 24],
      dtype=int64)

In [8]:
idx = []
for i, one in enumerate(df['배출가스 인증번호']):
    if ('CMY-VTK-14' in one) or ('FMY-VTK-14' in one):
        idx.append(i)
len(idx)

171

In [9]:
sort_df = df.loc[idx]
sort_df.shape

(171, 23)

In [10]:
sort_df.head()

Unnamed: 0,배출가스 인증번호,배출가스 인증 일련번호,배출가스 시험 모드 값,일산화탄소 허용 기준 값,일산화탄소 시험 결과,탄화수소1 허용 기준 값,탄화수소1 시험 결과,탄화수소2 허용 기준 값,탄화수소2 시험 결과,탄화수소3 허용 기준 값,...,탄화수소1 질소산화물 허용 기준 값,탄화수소1 질소산화물 시험 결과,탄화수소3 질소산화물 허용 기준 값,탄화수소3 질소산화물 시험 결과,입자상물질 허용 기준 값,입자상물질 시험 결과,입자개수 허용 기준 값,입자개수 시험 결과,미정,미정.1
5547,FMY-VTK-14-1,19,WHSC,,,,,,,,...,,,,,,,,,EmisCertiTest_20190919.txt,20190919
5548,FMY-VTK-14-1,19,WHTC,,,,,,,,...,,,,,,,,,EmisCertiTest_20190919.txt,20190919
5549,FMY-VTK-14-1,20,WHSC,,,,,,,,...,,,,,,,,,EmisCertiTest_20190919.txt,20190919
5550,FMY-VTK-14-1,20,WHTC,,,,,,,,...,,,,,,,,,EmisCertiTest_20190919.txt,20190919
5551,FMY-VTK-14-1,22,WHSC,,,,,,,,...,,,,,,,,,EmisCertiTest_20190919.txt,20190919


In [11]:
sort_df.tail()

Unnamed: 0,배출가스 인증번호,배출가스 인증 일련번호,배출가스 시험 모드 값,일산화탄소 허용 기준 값,일산화탄소 시험 결과,탄화수소1 허용 기준 값,탄화수소1 시험 결과,탄화수소2 허용 기준 값,탄화수소2 시험 결과,탄화수소3 허용 기준 값,...,탄화수소1 질소산화물 허용 기준 값,탄화수소1 질소산화물 시험 결과,탄화수소3 질소산화물 허용 기준 값,탄화수소3 질소산화물 시험 결과,입자상물질 허용 기준 값,입자상물질 시험 결과,입자개수 허용 기준 값,입자개수 시험 결과,미정,미정.1
59982,FMY-VTK-14-2,8,WHSC,,,,,,,,...,,,,,,,,,EmisCertiTest_20190919.txt,20190919
59983,FMY-VTK-14-2,8,WHTC,,,,,,,,...,,,,,,,,,EmisCertiTest_20190919.txt,20190919
59984,FMY-VTK-14-2,9,ETC,,,,,,,,...,,,,,,,,,EmisCertiTest_20190919.txt,20190919
59985,FMY-VTK-14-2,9,ND-13,,,,,,,,...,,,,,,,,,EmisCertiTest_20190919.txt,20190919
60710,FMY-VTK-14-3,18,WHSC,1.5,0.0,,,,,0.13,...,,,,,0.01,0.0,800.0,,20220725_수기자료추가,20220725


In [12]:
sort_df.columns

Index(['배출가스 인증번호', '배출가스 인증 일련번호', '배출가스 시험 모드 값', '일산화탄소 허용 기준 값',
       '일산화탄소 시험 결과', '탄화수소1 허용 기준 값', '탄화수소1 시험 결과', '탄화수소2 허용 기준 값',
       '탄화수소2 시험 결과', '탄화수소3 허용 기준 값', '탄화수소3 시험 결과', '질소산화물 허용 기준 값',
       '질소산화물 시험 결과', '탄화수소1 질소산화물 허용 기준 값', '탄화수소1 질소산화물 시험 결과',
       '탄화수소3 질소산화물 허용 기준 값', '탄화수소3 질소산화물 시험 결과', '입자상물질 허용 기준 값',
       '입자상물질 시험 결과', '입자개수 허용 기준 값', '입자개수 시험 결과', '미정', '미정'],
      dtype='object')

In [13]:
sort_df = sort_df.sort_values('배출가스 인증번호')

In [14]:
sort_df.shape

(171, 23)

In [15]:
sort_df.to_csv('analysis2/[BD1][샘플]CMY_FMY.csv', index=False, encoding='cp949')

# 코드 마지막