# Library

In [1]:
import pandas as pd
import numpy as np
import os
from tqdm import tqdm

In [2]:
# ODS 폴더 경로
ods_fold = 'D:/data/big2/ODS'

## 배출가스인증자동차정보

### columns

In [5]:
name = 'CEG_EMIS_CERTI_VEH_MIG'
file_name = f'[정제]{name}.xlsx'
col_exc = pd.read_excel(f'analysis/ODSvsSTD/{file_name}', sheet_name='ODS_col')
col_exc.shape

(25, 2)

In [6]:
col_exc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   컬럼      25 non-null     object
 1   내용      25 non-null     object
dtypes: object(2)
memory usage: 528.0+ bytes


In [7]:
# 필요한 컬럼만 추출
col = col_exc['컬럼'].to_list()
col_dict = {a:b for a, b in zip(col_exc['컬럼'], col_exc['내용'])}
col_dict

{'EMIS_VHCTY': '배출가스 차종',
 'EMPV_WGHT': '공차중량',
 'PURPS': '용도',
 'EMIS_CRTCNO': '배출가스 인증번호',
 'EMIS_CRTC_SNO': '배출가스 인증 일련번호',
 'DSPLVL': '배기량',
 'DRV_FRM': '구동 형식',
 'FUEL': '연료',
 'EGINTY': '엔진형식',
 'EGINPWR': '엔진출력',
 'VIN': '차대번호',
 'TKCAR_NMPR_INFO': '승차 인원 정보',
 'GEARBOX_KND': '변속기 종류',
 'STRE_DE': '저장 일자',
 'VHCL_LT_INFO': '차량 길이 정보',
 'VHCL_WH_INFO': '차량 너비 정보',
 'VHCL_HG_INFO': '차량 높이 정보',
 'VHCL_YRIDNW': '차량 연식',
 'VHCL_SNO': '차량 일련번호',
 'VHCNM': '차명',
 'TOT_WGHT': '총 중량',
 'CAR_FRM': '자동차 형식',
 'TIRE_MG_PRE_DTL': '미정',
 'TIRE_MG_RR_DTL': '미정',
 'RECP_FILE_NM': '미정'}

### [로드] 배출가스인증자동차정보

In [8]:
# about 1s
file_name = f'ODS_{name}.csv'
ins = pd.read_csv(os.path.join(ods_fold, file_name), usecols=col, low_memory=False)
ins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 109269 entries, 0 to 109268
Data columns (total 25 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   EMIS_CRTCNO      109269 non-null  object 
 1   EMIS_CRTC_SNO    109269 non-null  int64  
 2   VHCL_SNO         109269 non-null  object 
 3   VHCNM            109241 non-null  object 
 4   CAR_FRM          109181 non-null  object 
 5   VIN              72498 non-null   object 
 6   EMIS_VHCTY       84041 non-null   object 
 7   VHCL_YRIDNW      104332 non-null  float64
 8   DRV_FRM          91142 non-null   object 
 9   PURPS            96950 non-null   object 
 10  GEARBOX_KND      108853 non-null  object 
 11  EMPV_WGHT        109166 non-null  object 
 12  TOT_WGHT         109027 non-null  object 
 13  EGINTY           108279 non-null  object 
 14  DSPLVL           108249 non-null  float64
 15  FUEL             108746 non-null  object 
 16  EGINPWR          99675 non-null   obje

In [9]:
ins = ins[col]
ins.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 109269 entries, 0 to 109268
Data columns (total 25 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   EMIS_VHCTY       84041 non-null   object 
 1   EMPV_WGHT        109166 non-null  object 
 2   PURPS            96950 non-null   object 
 3   EMIS_CRTCNO      109269 non-null  object 
 4   EMIS_CRTC_SNO    109269 non-null  int64  
 5   DSPLVL           108249 non-null  float64
 6   DRV_FRM          91142 non-null   object 
 7   FUEL             108746 non-null  object 
 8   EGINTY           108279 non-null  object 
 9   EGINPWR          99675 non-null   object 
 10  VIN              72498 non-null   object 
 11  TKCAR_NMPR_INFO  82499 non-null   object 
 12  GEARBOX_KND      108853 non-null  object 
 13  STRE_DE          109265 non-null  object 
 14  VHCL_LT_INFO     102659 non-null  object 
 15  VHCL_WH_INFO     102662 non-null  object 
 16  VHCL_HG_INFO     102660 non-null  obje

In [10]:
ins.columns = [col_dict[x] for x in ins.columns]

In [11]:
ins.columns

Index(['배출가스 차종', '공차중량', '용도', '배출가스 인증번호', '배출가스 인증 일련번호', '배기량', '구동 형식',
       '연료', '엔진형식', '엔진출력', '차대번호', '승차 인원 정보', '변속기 종류', '저장 일자', '차량 길이 정보',
       '차량 너비 정보', '차량 높이 정보', '차량 연식', '차량 일련번호', '차명', '총 중량', '자동차 형식',
       '미정', '미정', '미정'],
      dtype='object')

In [12]:
ins = ins[['배출가스 차종', '공차중량', '용도', '배출가스 인증번호', '배출가스 인증 일련번호', '배기량', '구동 형식',
       '연료', '엔진형식', '엔진출력', '차대번호', '승차 인원 정보', '변속기 종류', '저장 일자', '차량 길이 정보',
       '차량 너비 정보', '차량 높이 정보', '차량 연식', '차량 일련번호', '차명', '총 중량', '자동차 형식',]]

In [13]:
ins.columns = ['배출가스차종', '공차중량', '용도', '배출가스인증번호', '배출가스인증일련번호', '배기량', '구동형식',
       '연료', '엔진형식', '엔진출력', '차대번호', '승차인원정보', '변속기종류', '저장일자', '차량길이정보',
       '차량너비정보', '차량높이정보', '차량연식', '차량일련번호', '차명', '총중량', '자동차형식',]

### [출력] 배출가스인증자동차정보

In [14]:
# about 1s
ins.to_csv(os.path.join(ods_fold, f'[ODS]배출가스인증자동차정보(2022.12.29).csv'), index=False)

# 코드 마지막