In [1]:
import numpy as np
import pandas as pd

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

### 자동차부품 산업 데이터셋 구성

- 컬럼 : 시기, 수출액, 수입액, 환율, 소비자물가지수, 기준금리, 유가지수(DUBAI), SCFI, 고용률, 가동률지수(원지수)

In [3]:
# 시기, 수출액, 수입액 불러오기
df1 = pd.read_csv('../Raw 데이터/자동차부품(742)_수출입통계(2015~2021).csv')

df1 = df1.loc[1:] # 1행부터 출력

df1.rename(columns=df1.iloc[0], inplace=True) # 컬럼명은 0행에 있는 값
df1 = df1.drop(df1.index[0])                  # 기존에 있던 0번째 행 제거
df1 = df1[['년월', '수출 금액', '수입 금액']] # 필요한 열만 사용

df1.columns = ['시점', '수출액', '수입액']
df1.reset_index(drop=True, inplace=True)
df1

Unnamed: 0,시점,수출액,수입액
0,2015.01,2262441,410713
1,2015.02,1963200,347320
2,2015.03,2371707,459833
3,2015.04,2493058,464552
4,2015.05,2168130,424571
...,...,...,...
79,2021.08,1579116,507368
80,2021.09,1853552,500444
81,2021.1,1784922,495623
82,2021.11,1841532,477131


In [4]:
# 환율 데이터 불러오기 (시점 바로 옆이 원/달러 기준)
df2 = pd.read_csv('../Raw 데이터/환율 (2015~2021).csv')

# 필요한 데이터만 남기기
df2 = df2.loc[:, ['원/달러']]
df2.rename(columns=df2.iloc[0], inplace=True)
df2 = df2.drop(df2.index[0])
df2.reset_index(drop=True, inplace=True)

df2

Unnamed: 0,환율
0,1093.50
1,1098.40
2,1109.50
3,1072.40
4,1108.20
...,...
79,1159.50
80,1184.00
81,1168.60
82,1187.90


In [5]:
# 소비자 물가지수 데이터 불러오기
df3 = pd.read_csv('../Raw 데이터/소비자 물가지수 (2015~2021).csv', encoding='cp949')

# 필요한 데이터만 남기기
df3 = df3.loc[:, ['전국']]
df3.columns = ['소비자 물가지수']
df3

Unnamed: 0,소비자 물가지수
0,94.643
1,94.587
2,94.596
3,94.625
4,94.890
...,...
79,102.750
80,103.170
81,103.350
82,103.870


In [6]:
# 한국은행 기준금리 데이터 불러오기
df4 = pd.read_csv('../Raw 데이터/한국은행_기준금리(2015.01_2021.12).csv', encoding='cp949')

# 필요한 데이터만 남기기
df4 = df4.loc[:, ['금리(연%)']]
df4.columns = ['기준금리(연%)']
df4

Unnamed: 0,기준금리(연%)
0,2.00
1,2.00
2,1.75
3,1.75
4,1.75
...,...
79,0.75
80,0.75
81,0.75
82,1.00


In [7]:
# 국제 원유가격 (DUBAI 기준) 데이터 불러오기
df5 = pd.read_csv('../Raw 데이터/국제원유가격 (2015_2021).csv')

# 필요한 데이터만 남기기
df5 = df5.loc[:, ['Dubai']]
df5.columns = ['국제유가']
df5

Unnamed: 0,국제유가
0,45.77
1,55.69
2,54.69
3,57.72
4,63.02
...,...
79,69.50
80,72.63
81,81.61
82,80.30


In [8]:
# 상하이 컨테이너 운임지수 SCFI 데이터 불러오기
df6 = pd.read_csv('../Raw 데이터/상하이 컨테이너 운임지수 SCFI (2015~2021).csv')

# 필요한 데이터만 남기기
df6 = df6.loc[:, ['SCFI']]
df6

Unnamed: 0,SCFI
0,1051.18
1,1071.73
2,868.47
3,748.39
4,731.35
...,...
79,4308.30
80,4590.24
81,4596.59
82,4561.78


In [9]:
# 고용률 데이터 불러오기
df7 = pd.read_csv('../Raw 데이터/고용률 (2015~2021).csv', encoding='cp949')

# 필요한 데이터만 남기기
df7 = df7.loc[1:84, ['계']]
df7.columns = ['고용률(%)']
df7.reset_index(drop=True, inplace=True)

df7

Unnamed: 0,고용률(%)
0,59
1,59.1
2,59.8
3,60.6
4,61.2
...,...
79,61.2
80,61.3
81,61.4
82,61.5


In [10]:
# 제조업 중 자동차부품 산업의 가동률지수(원지수) 데이터 불러오기
df8 = pd.read_csv('../Raw 데이터/자동차부품_가동률지수 (2015~2021).csv', encoding='cp949')

# 필요한 데이터만 남기기
df8 = df8.loc[1:84, ['자동차 부품 제조업']]
df8.columns = ['가동률지수(원지수)']
df8.reset_index(drop=True, inplace=True)

df8

Unnamed: 0,가동률지수(원지수)
0,105.8
1,90.5
2,107.8
3,106.7
4,97.2
...,...
79,77.2
80,78.3
81,85.5
82,93.9


In [11]:
# 데이터 합치기 (df1 ~ df8)
final = pd.concat([df1, df2, df3, df4, df5, df6, df7, df8], axis=1)
final

Unnamed: 0,시점,수출액,수입액,환율,소비자 물가지수,기준금리(연%),국제유가,SCFI,고용률(%),가동률지수(원지수)
0,2015.01,2262441,410713,1093.50,94.643,2.00,45.77,1051.18,59,105.8
1,2015.02,1963200,347320,1098.40,94.587,2.00,55.69,1071.73,59.1,90.5
2,2015.03,2371707,459833,1109.50,94.596,1.75,54.69,868.47,59.8,107.8
3,2015.04,2493058,464552,1072.40,94.625,1.75,57.72,748.39,60.6,106.7
4,2015.05,2168130,424571,1108.20,94.890,1.75,63.02,731.35,61.2,97.2
...,...,...,...,...,...,...,...,...,...,...
79,2021.08,1579116,507368,1159.50,102.750,0.75,69.50,4308.30,61.2,77.2
80,2021.09,1853552,500444,1184.00,103.170,0.75,72.63,4590.24,61.3,78.3
81,2021.1,1784922,495623,1168.60,103.350,0.75,81.61,4596.59,61.4,85.5
82,2021.11,1841532,477131,1187.90,103.870,1.00,80.30,4561.78,61.5,93.9


In [12]:
# 전처리 데이터 저장
final.to_csv('자동차부품 데이터셋.csv', encoding='cp949')