# 2012-2023년 수출입실적 & 품목명-품목코드 매핑 데이터

In [1]:
import os
import pickle
import numpy as np
import pandas as pd
from IPython.display import display
from tqdm import tqdm
tqdm.pandas()

import warnings
warnings.filterwarnings('ignore')

In [16]:
# 수출 실적 데이터 불러오기
performance = pd.DataFrame()
df_type = {'수출중량': 'float64', '수입중량': 'float64',
           '수출금액': 'float64', '수입금액': 'float64', '무역수지': 'float64'}

for file in tqdm(os.listdir('../data/품목별 국가별 수출입실적_2012-2023')):
    if file.endswith('.xls') or file.endswith('.xlsx'):
        try:
            data = pd.read_excel('../data/품목별 국가별 수출입실적_2012-2023/' + file,
                                 thousands=',', dtype=df_type)
            performance = pd.concat([performance, data])
        except Exception as e:
            print(f"Error reading file: {file}. Error message: {str(e)}")

100%|██████████| 105/105 [00:08<00:00, 12.69it/s]


In [17]:
display(performance.shape)
display(performance.head())

(148648, 9)

Unnamed: 0,기간,품목명,품목코드,국가명,수출중량,수입중량,수출금액,수입금액,무역수지
0,2014,살아 있는 동물,1.0,세이쉘,0.0,0.0,0.0,0.0,0.0
1,2014,어류ㆍ갑각류ㆍ연체동물과 그 밖의 수생(水生) 무척추동물,3.0,세이쉘,2578.9,521.8,3926.0,3043.0,883.0
2,2014,식용의 채소ㆍ뿌리ㆍ괴경(塊莖),7.0,세르비아,0.0,0.2,0.0,1.0,-1.0
3,2014,"식용의 과실과 견과류, 감귤류ㆍ멜론의 껍질",8.0,세르비아,0.0,77.3,0.0,741.0,-741.0
4,2014,커피ㆍ차ㆍ마테(maté)ㆍ향신료,9.0,세르비아,0.0,0.0,0.0,0.0,0.0


In [18]:
performance.info()

<class 'pandas.core.frame.DataFrame'>
Index: 148648 entries, 0 to 603
Data columns (total 9 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   기간      148648 non-null  object 
 1   품목명     148647 non-null  object 
 2   품목코드    148647 non-null  float64
 3   국가명     148647 non-null  object 
 4   수출중량    148648 non-null  float64
 5   수입중량    148648 non-null  float64
 6   수출금액    148648 non-null  float64
 7   수입금액    148648 non-null  float64
 8   무역수지    148648 non-null  float64
dtypes: float64(6), object(3)
memory usage: 11.3+ MB


In [19]:
performance['기간'].unique()

array([2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023, 2013,
       2012, '총계', '2019', '2020', '2021', '2022', '2023'], dtype=object)

In [20]:
# 총계 데이터 제거
performance = performance.query('기간 != "총계"')
performance['기간'] = performance['기간'].astype('int64')

In [21]:
performance.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
기간,148647.0,,,,2017.521403,3.395141,2012.0,2015.0,2018.0,2020.0,2023.0
품목명,148647.0,96.0,"전기기기와 그 부분품, 녹음기ㆍ음성 재생기ㆍ텔레비전의 영상과 음성의 기록기ㆍ재생기와...",2821.0,,,,,,,
품목코드,148647.0,,,,51.155207,27.342033,1.0,28.0,52.0,74.0,99.0
국가명,148647.0,253.0,홍콩,1618.0,,,,,,,
수출중량,148647.0,,,,15433.732577,232793.773518,0.0,0.1,10.1,296.8,18728239.2
수입중량,148647.0,,,,47718.237855,1141072.808278,0.0,0.0,0.1,67.5,73468591.8
수출금액,148647.0,,,,45731.265542,716609.576789,0.0,2.0,90.0,1784.0,72444995.0
수입금액,148647.0,,,,41281.780224,588507.58314,0.0,0.0,3.0,637.0,56044458.0
무역수지,148647.0,,,,4449.480117,592144.287789,-39864815.0,-14.0,11.0,607.0,33302901.0


In [22]:
print(sorted(performance['기간'].unique()))
print(sorted(performance['품목명'].unique()))
print(sorted(performance['품목코드'].unique()))
print(sorted(performance['국가명'].unique()))

[2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023]
['가구, 침구ㆍ매트리스ㆍ매트리스 서포트(mattress support)ㆍ쿠션과 이와 유사한 물품, 다른 류로 분류되지 않은 조명기구, 조명용 사인ㆍ조명용 네임플레이트(name-plate)와 이와 유사한 물품, 조립식 건축물', '가죽제품, 마구, 여행용구ㆍ핸드백과 이와 유사한 용기, 동물 거트(gut)[누에의 거트(gut)는 제외한다]의 제품', '각종 조제 식료품', '각종 화학공업 생산품', '견', '고무와 그 제품', '곡물', '곡물ㆍ고운 가루ㆍ전분ㆍ밀크의 조제품과 베이커리 제품', '광(鑛)ㆍ슬래그(slag)ㆍ회(灰)', '광물성 연료ㆍ광물유(鑛物油)와 이들의 증류물, 역청(瀝靑)물질, 광물성 왁스', '광학기기ㆍ사진용 기기ㆍ영화용 기기ㆍ측정기기ㆍ검사기기ㆍ정밀기기ㆍ의료용 기기, 이들의 부분품과 부속품', '구리와 그 제품', '그 밖의 비금속(卑金屬), 서멧(cermet), 이들의 제품', '그 밖의 식물성 방직용 섬유, 종이실(paper yarn)과 종이실로 만든 직물', '낙농품, 새의 알, 천연꿀, 다른 류로 분류되지 않은 식용인 동물성 생산품', '납과 그 제품', '니켈과 그 제품', '다른 류로 분류되지 않은 동물성 생산품', '단백질계 물질, 변성전분, 글루(glue), 효소', '담배와 제조한 담배 대용물, 연소시키지 않고흡입하도록 만들어진 물품(니코틴을 함유하였는지에 상관없다), 니코틴을 함유한 그 밖의 물품으로 인체 내에 니코틴을 흡수시키도록 만들어진 것', '당류(糖類)와 설탕과자', '도자제품', '돌ㆍ플라스터(plaster)ㆍ시멘트ㆍ석면ㆍ운모나 이와 유사한 재료의 제품', '동물성ㆍ식물성ㆍ미생물성 지방과 기름 및이들의 분해생산물, 조제한 식용 지방과 동물성ㆍ식물성 왁스', '락(lac), 검ㆍ수지ㆍ그 밖의 식물성 수액과 추출물(extract)', '메리야스 편물과 뜨개질 편물', '면', '모자류

In [23]:
print('총 국가 수:', len(performance['국가명'].unique()))
print('총 품목 수:', len(performance['품목코드'].unique()))

총 국가 수: 253
총 품목 수: 96


In [24]:
# 2023년은 아직 1년이 다 차지 않았기 때문에 제외
performance = performance.query('기간 != 2023')
sorted(performance['기간'].unique())

[2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022]

In [25]:
# 기간, 국가명, 품목코드 순으로 정렬
performance.sort_values(by=['기간', '국가명', '품목코드'], inplace=True)
performance.head()

Unnamed: 0,기간,품목명,품목코드,국가명,수출중량,수입중량,수출금액,수입금액,무역수지
1,2012,살아 있는 동물,1.0,가나,0.0,0.0,0.0,3.0,-3.0
3,2012,육과 식용 설육(屑肉),2.0,가나,1.5,0.0,30.0,0.0,30.0
6,2012,어류ㆍ갑각류ㆍ연체동물과 그 밖의 수생(水生) 무척추동물,3.0,가나,2449.7,1775.9,2334.0,6202.0,-3868.0
10,2012,다른 류로 분류되지 않은 동물성 생산품,5.0,가나,0.0,0.0,0.0,9.0,-9.0
16,2012,커피ㆍ차ㆍ마테(maté)ㆍ향신료,9.0,가나,0.1,0.0,11.0,0.0,11.0


In [26]:
# performance 피클 파일로 압축 저장
with open('../processed/performance_2012-2023.pkl', 'wb') as f:
    pickle.dump(performance, f, pickle.HIGHEST_PROTOCOL)

In [27]:
item_name_code = performance[['품목명', '품목코드']].drop_duplicates().sort_values(by='품목코드')
item_name_code

Unnamed: 0,품목명,품목코드
1,살아 있는 동물,1.0
3,육과 식용 설육(屑肉),2.0
6,어류ㆍ갑각류ㆍ연체동물과 그 밖의 수생(水生) 무척추동물,3.0
9,"낙농품, 새의 알, 천연꿀, 다른 류로 분류되지 않은 식용인 동물성 생산품",4.0
10,다른 류로 분류되지 않은 동물성 생산품,5.0
...,...,...
294,"가구, 침구ㆍ매트리스ㆍ매트리스 서포트(mattress support)ㆍ쿠션과 이와 ...",94.0
302,완구ㆍ게임용구ㆍ운동용구와 이들의 부분품과 부속품,95.0
306,잡품,96.0
307,예술품ㆍ수집품ㆍ골동품,97.0


In [28]:
# 품목명-품목코드 매핑 데이터 따로 저장
item_name_code.to_csv('../processed/item_name-code.csv', index=False)