In [7]:
import os
import numpy as np
import pandas as pd
import glob
import zipfile
import joblib
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score
from sklearn.preprocessing import StandardScaler, RobustScaler, MinMaxScaler
from tqdm import tqdm
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_score
from sklearn.preprocessing import LabelEncoder
from collections import Counter
from sklearn.model_selection import StratifiedKFold
from tqdm import tqdm
import sys


os.getcwd()

'/opt/conda/jupyter/notebooks/지사화 수출유망도 모델'

# 수출 확률 계산을 위해 추출할 데이터는 다음과 같습니다.
-------------------------

## o 수출 데이터를 보유하고 있는 전체 기업들

> 수출국가, 품목, 해당 기업의 2개년 (22년,23년) 수출액, 수출품목수, 수출국가수 등의 정보 

----------------
##  o 만약 기업이 특정 품목, 국가에 대해
##     22년도에 수출 후 23년도에 수출하지 않거나, 23년도부터 새로 수출한 경우
> 수출 데이터가 없는 해당 년도의 정보들만 0으로 입력됩니다
-------------

# 1. 수출 데이터 보유 기업 데이터 추출
-----------------------

### 각 기업별 22,23년도에 수출한 적이 있는 품목들에 대해
### 전체 기업 기준으로 해당 품목들이 22,23년도에 수출된 모든 국가들을 고려했습니다.
-------------------
### 기업번호-품목번호-국가코드 로 각 행이 생성되고
### 각 기업이 특정 품목을 해당 국가에 수출한 적이 있으면 해당 값 조회 후 입력,
### 수출한 적이 없다면 해당 국가 수출 데이터를 0으로 입력했습니다.

In [8]:
trade_file_list = './데이터셋/수출통계'
trade_files = glob.glob(os.path.join(trade_file_list, "*.csv"))

column_types1 = {
    'YEAR' : 'int64',
    'BSNO' : 'category',
    'COUNTRYCD' : 'category',
    'HSCD' : 'category',
    'EXIMAMT' : 'int64'
}

trade_list = [pd.read_csv(file, dtype = column_types1, na_filter=False) for file in trade_files]
combined_trade = pd.concat(trade_list, ignore_index = True)

# 3) 데이터 전처리
## countryname 컬럼삭제 (추후 다시 붙일 예정)
#combined_trade = combined_trade.drop(columns=['COUNTRYNAME'])

# bsno 없는 것 삭제
combined_trade = combined_trade.dropna(subset=['BSNO'])

# 데이터 범위 설정
combined_trade = combined_trade[(combined_trade['YEAR'] >= 2019) & (combined_trade['YEAR'] <= 2024)]

# 나미비아 NA로 바꿔주기
combined_trade.loc[:,'COUNTRYCD'] = combined_trade['COUNTRYCD'].fillna('NA')

# 수출액이 0인 경우 모두 삭제
combined_trade = combined_trade[combined_trade['EXIMAMT'] !=0]

# 특정 사업자번호 삭제
combined_trade = combined_trade[combined_trade['BSNO'] != '1000000000'] # 6243241

In [9]:
# 20~24년까지 개별 데이터프레임 만들기
for year in range(2020, 2024):
    df_c = combined_trade[combined_trade['YEAR'] == year].copy()

    # 1) 파생변수 생성
    df_c['전세계_해당품목_수출액'] = df_c.groupby(['BSNO', 'HSCD'])['EXIMAMT'].transform('sum')
    df_c['전세계_전체품목_수출액'] = df_c.groupby('BSNO')['EXIMAMT'].transform('sum')
    df_c['해당국_전체품목_수출액'] = df_c.groupby(['BSNO', 'COUNTRYCD'])['EXIMAMT'].transform('sum')
    df_c['수출품목수_전세계'] = df_c.groupby('BSNO')['HSCD'].transform('nunique')
    df_c['수출국가수_전체품목'] = df_c.groupby('BSNO')['COUNTRYCD'].transform('nunique')
    df_c['수출품목수_해당국'] = df_c.groupby(['BSNO', 'COUNTRYCD'])['HSCD'].transform('nunique')
    df_c['수출국가수_해당품목'] = df_c.groupby(['BSNO', 'HSCD'])['COUNTRYCD'].transform('nunique')

    df_c = df_c.rename(columns= {'EXIMAMT': '해당국_해당품목_수출액'}) # 컬럼명 변경

    # 2) 내년 수출액 추가 (Y값 생성)
    y = combined_trade[combined_trade['YEAR'] == year+1] # 1033511
    y = y.drop(columns=['YEAR'])
    y = y.rename(columns= {'EXIMAMT': 'NEXT_EXIMAMT'})

    df_c = pd.merge(df_c, y, on =['COUNTRYCD', 'HSCD', 'BSNO'], how='left') # y값 병합
    df_c['NEXT_EXIMAMT'] = df_c['NEXT_EXIMAMT'].fillna(0) # 내년 수출액 없는 경우 0으로 치환
    df_c['RESULT'] = df_c['NEXT_EXIMAMT'].apply(lambda x: 1 if x > 0 else 0 ) # 내년에 수출액이 있으면 1, 없으면 0
    df_c = df_c.drop(columns=['NEXT_EXIMAMT']) # 내년 수출액 컬럼 삭제

    # 3) 작년 수출액 추가
    y_pre = combined_trade[combined_trade['YEAR'] == year-1] # 1033511
    y_pre = y_pre.drop(columns=['YEAR'])
    y_pre = y_pre.rename(columns= {'EXIMAMT': 'PRE_EXIMAMT'})

    df_c = pd.merge(df_c, y_pre, on =['COUNTRYCD', 'HSCD', 'BSNO'], how='left')
    df_c['PRE_EXIMAMT'] = df_c['PRE_EXIMAMT'].fillna(0)
    # 작년에 수출액이 있으면 1 없으면 0
    #df_c['PRE_EXIMAMT'] = df_c['PRE_EXIMAMT'].apply(lambda x: 1 if x > 0 else 0 )

    # 4) HSCD 2단위 / 4단위 컬럼 생성
    df_c['HSCD_2'] =  df_c['HSCD'].astype(str).str[:2]  
    df_c['HSCD_4'] =  df_c['HSCD'].astype(str).str[:4]
    
    # 6) 문자열로 변환하여 통일
    df_c['HSCD'] = df_c['HSCD'].astype(str)
    df_c['HSCD_2'] = df_c['HSCD_2'].astype(str)
    df_c['HSCD_4'] = df_c['HSCD_4'].astype(str)
    df_c['COUNTRYCD'] = df_c['COUNTRYCD'].astype(str)
    df_c['BSNO'] = df_c['BSNO'].astype(str)

    # 7) COUNTRYCD 100건 미만의 적은 국가 제거
    COUNTRYCD_CNT = df_c['COUNTRYCD'].value_counts()
    valid_COUNTRYCD = COUNTRYCD_CNT[COUNTRYCD_CNT >= 100].index
    df_c = df_c[df_c['COUNTRYCD'].isin(valid_COUNTRYCD)]

    
    # 8) 데이터 추가
    df_c.to_csv(f'./전처리데이터/stack_value_{year-2000}_test.csv', index=False)
    


In [10]:
df_test_22=pd.read_csv('./전처리데이터/stack_value_22_test.csv', dtype={'BSNO' : str, 'HSCD' : str}, na_filter=False)
df_test_23=pd.read_csv('./전처리데이터/stack_value_23_test.csv', dtype={'BSNO' : str, 'HSCD' : str}, na_filter=False)

df_test=pd.concat([df_test_22, df_test_23], axis=0)
df_test.drop(columns=['RESULT', 'PRE_EXIMAMT', 'HSCD_2', 'HSCD_4'], inplace=True)

bsno_all=df_test['BSNO'].unique()

In [11]:
df_test

Unnamed: 0,YEAR,COUNTRYCD,HSCD,BSNO,해당국_해당품목_수출액,전세계_해당품목_수출액,전세계_전체품목_수출액,해당국_전체품목_수출액,수출품목수_전세계,수출국가수_전체품목,수출품목수_해당국,수출국가수_해당품목
0,2022,AE,010619,4728600892,318,15005,15005,318,1,15,1,15
1,2022,AE,010619,5418101760,80666,214913,214913,80666,1,5,1,5
2,2022,AE,010619,7617600319,252,50306,50306,252,1,4,1,4
3,2022,AE,020321,6168624854,19661,19661,2294827,319761,97,16,51,1
4,2022,AE,020322,6168624854,4837,4837,2294827,319761,97,16,51,1
...,...,...,...,...,...,...,...,...,...,...,...,...
1121773,2023,ZZ,950300,3210401603,150,160665,2192683,345,137,127,2,51
1121774,2023,ZZ,950590,1208771116,46,108156,33427621,84,115,89,2,36
1121775,2023,ZZ,950639,3210401603,195,3559,2192683,345,137,127,2,7
1121776,2023,ZZ,950824,3148618854,329728,4863801,9119956,449728,72,55,5,46


# 22,23년도 전체에서 수출한 데이터가 하나라도 존재하는 기업 개수 : 121844

In [4]:
len(bsno_all)

121844

## 전체 수출 데이터 (22,23년) 에서 '수출 품목별 수출 국가 명단'을 저장합니다.
> 이후 데이터에서 기업의 특정 수출 품목에 대해, 

> 수출한 적이 있는 국가들 뿐만 아니라, 다른 국가들의 예측 확률도 구해 **유망 국가 리스트**를 보여주기 위해 필요합니다. 

In [5]:
df_test_hscd_cty=df_test[['HSCD', 'COUNTRYCD']]
df_test_hscd_cty.drop_duplicates(inplace=True)

hscd_cty_dict={}

for _, row in tqdm(df_test_hscd_cty.iterrows()):
    key=row['HSCD']
    value=row['COUNTRYCD']
    if key not in hscd_cty_dict:
        hscd_cty_dict[key]=[]
    if value not in hscd_cty_dict[key]:
        hscd_cty_dict[key].append(value)  
        
print('22,23년도 데이터의 총 수출 품목 개수 : ', len(hscd_cty_dict))

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return func(*args, **kwargs)
178499it [00:06, 29187.80it/s]

22,23년도 데이터의 총 수출 품목 개수 :  5122





## 22, 23년도 각각의 수출 데이터 에서 '기업의 수출 품목별 데이터'를 저장합니다.
> 이후 데이터에서 기업의 수출 품목별 해당되는 

> **'전세계_해당품목_수출액', '수출국가수_해당품목' 값**을 입력하기 위해 필요합니다. 

In [6]:
bsno_hscd_agg_22_dict={}

for _, row in tqdm(df_test_22.iterrows()):
    key=row['BSNO']+'_'+row['HSCD']
    value=[row['전세계_해당품목_수출액'], row['수출국가수_해당품목']]
    if key not in bsno_hscd_agg_22_dict:
        bsno_hscd_agg_22_dict[key]=[]
        bsno_hscd_agg_22_dict[key].extend(value)  

1060590it [00:41, 25765.88it/s]


In [7]:
bsno_hscd_agg_23_dict={}

for _, row in tqdm(df_test_23.iterrows()):
    key=row['BSNO']+'_'+row['HSCD']
    value=[row['전세계_해당품목_수출액'], row['수출국가수_해당품목']]
    if key not in bsno_hscd_agg_23_dict:
        bsno_hscd_agg_23_dict[key]=[]
        bsno_hscd_agg_23_dict[key].extend(value)  

1121778it [00:44, 25494.55it/s]


## 22, 23년도 각각의 수출 데이터 에서 '기업의 수출 국가별 데이터'를 저장합니다.
> 이후 데이터에서 기업의 수출 국가별 해당되는

> **'해당국_전체품목_수출액', '수출품목수_해당국'**을 입력하기 위해 필요합니다. 

In [8]:
bsno_cty_agg_22_dict={}

for _, row in tqdm(df_test_22.iterrows()):
    key=str(row['BSNO'])+'_'+str(row['COUNTRYCD'])
    value=[row['해당국_전체품목_수출액'], row['수출품목수_해당국']]
    if key not in bsno_cty_agg_22_dict:
        bsno_cty_agg_22_dict[key]=[]
        bsno_cty_agg_22_dict[key].extend(value)  

1060590it [00:41, 25577.31it/s]


In [9]:
bsno_cty_agg_23_dict={}

for _, row in tqdm(df_test_23.iterrows()):
    key=row['BSNO']+'_'+row['COUNTRYCD']
    value=[row['해당국_전체품목_수출액'], row['수출품목수_해당국']]
    if key not in bsno_cty_agg_23_dict:
        bsno_cty_agg_23_dict[key]=[]
        bsno_cty_agg_23_dict[key].extend(value)  

1121778it [00:44, 25484.73it/s]


## 22, 23년도 각각의 수출 데이터 에서 '기업별 데이터'를 저장합니다.
> 이후 데이터에서 기업별 해당되는 

> **'전세계_전체품목_수출액', '수출품목수_전세계', '수출국가수_전체품목'** 을 입력하기 위해 필요합니다. 

In [10]:
bsno_agg_22_dict={}

for _, row in tqdm(df_test_22.iterrows()):
    key=row['BSNO']
    value=[row['전세계_전체품목_수출액'], row['수출품목수_전세계'], row['수출국가수_전체품목']]
    if key not in bsno_agg_22_dict:
        bsno_agg_22_dict[key]=[]
        bsno_agg_22_dict[key].extend(value)  

1060590it [00:40, 26391.52it/s]


In [11]:
bsno_agg_23_dict={}

for _, row in tqdm(df_test_23.iterrows()):
    key=row['BSNO']
    value=[row['전세계_전체품목_수출액'], row['수출품목수_전세계'], row['수출국가수_전체품목']]
    if key not in bsno_agg_23_dict:
        bsno_agg_23_dict[key]=[]
        bsno_agg_23_dict[key].extend(value)  

1121778it [00:42, 26411.58it/s]


## 22, 23년도 각각의 수출 데이터 에서 '기업의 수출 품목별 수출 국가 명단'을 저장합니다.
> 이후 데이터에서 기업의 수출 품목별 해당되는 **수출 국가를 제외한 국가에 대해서만 새로운 행**을 추가해, 

> 수출하지 않은 다른 국가들의 예측 확률을 구해 **유망 국가 리스트**를 만들기 위해 필요합니다.

In [12]:
bsno_hscd_cty_dup_22_dict={}


for _, row in tqdm(df_test_22.iterrows()):
    key=row['BSNO']+'_'+row['HSCD']
    value=row['COUNTRYCD']
    if key not in bsno_hscd_cty_dup_22_dict:
        bsno_hscd_cty_dup_22_dict[key]=[value]
    if value not in bsno_hscd_cty_dup_22_dict[key]:
        bsno_hscd_cty_dup_22_dict[key].append(value)   

1060590it [00:40, 26497.45it/s]


In [13]:
bsno_hscd_cty_dup_23_dict={}


for _, row in tqdm(df_test_23.iterrows()):
    key=str(row['BSNO'])+'_'+str(row['HSCD'])
    value=row['COUNTRYCD']
    if key not in bsno_hscd_cty_dup_23_dict:
        bsno_hscd_cty_dup_23_dict[key]=[value]
    if value not in bsno_hscd_cty_dup_23_dict[key]:
        bsno_hscd_cty_dup_23_dict[key].append(value)   

1121778it [00:43, 26061.03it/s]


## 데이터가 있는 기업들에 대해서만, 22, 23년도 각각의 수출 데이터를 만듭니다.


In [14]:
def create_export_data(year):
    
    # 입력된 연도의 테스트 데이터를 불러와 추론에 필요한 열만 남기고 제거
    
    df_test_new=globals()[f'df_test_{year}'].copy()
    df_test_new.drop(columns=['RESULT', 'PRE_EXIMAMT', 'HSCD_4'], inplace=True)
    
    # 해당 년도에서, 특정 기업이 수출하고 있는 품목의 명단을 정리 
    
    df_test_hscd_bsno=df_test_new[['HSCD', 'BSNO']]
    df_test_hscd_bsno.drop_duplicates(inplace=True)

    bsno_hscd_dict={}

    for _, row in tqdm(df_test_hscd_bsno.iterrows()):
        key=row['BSNO']
        value=row['HSCD']
        if key not in bsno_hscd_dict:
            bsno_hscd_dict[key]=[]
        if value not in bsno_hscd_dict[key]:
            bsno_hscd_dict[key].append(value)

    new_df=pd.DataFrame()
    j=0
    
    # 각 기업과 그 기업이 수출하고 있는 품목의 명단으로 반복해 실행
    
    for i, (bsno, hscds) in tqdm(enumerate(bsno_hscd_dict.items())):

        all_hscd_world_list=[]
        all_hscd_cty_list=[]
        cnt_hscd_world_list=[]
        cnt_cty_all_hscd_list=[]
        hscd_world_list=[]
        cnt_cty_hscd_list=[]
        cnt_hscd_cty_list=[]
        hscd_list=[]
        cty_list=[]

        # 특정 기업이 해당 년도에 같은 값을 가지는 값들
        # '전세계_전체품목_수출액', '수출품목수_전세계', '수출국가수_전체품목'
        
        all_hscd_world=globals()[f'bsno_agg_{year}_dict'][f'{bsno}'][0] # bsno 같으면 동일값
        cnt_hscd_world=globals()[f'bsno_agg_{year}_dict'][f'{bsno}'][1] # bsno 같으면 동일값
        cnt_cty_all_hscd=globals()[f'bsno_agg_{year}_dict'][f'{bsno}'][2] # bsno 같으면 동일값
        
        
        for hscd in hscds:

            # 특정 기업의 특정 수출 품목이 해당 년도에 같은 값을 가지는 값들
            # '전세계_해당품목_수출액', '수출국가수_해당품목'
            
            hscd_world=globals()[f'bsno_hscd_agg_{year}_dict'][f'{bsno}_{hscd}'][0] # bsno, hscd 같으면 동일값
            cnt_cty_hscd=globals()[f'bsno_hscd_agg_{year}_dict'][f'{bsno}_{hscd}'][1] # bsno, hscd 같으면 동일값

            cty_len=0
            
            # 특정 품목이 수출되고 있는 국가들 중, 
            # 해당 기업이 이미 수출한 국가가 아닌 다른 국가 (유망 수출국 후보지) 들에 대해 반복
            
            for cty in [c for c in hscd_cty_dict[hscd] if c not in globals()[f'bsno_hscd_cty_dup_{year}_dict'][f'{bsno}_{hscd}']]:
                
                # 만약, 기업이 해당 년도, 해당 국가에 수출한 품목이 한개라도 있다면
                # '해당국_전체품목_수출액', '수출품목수_해당국' 값을 찾아 넣어줌
                
                try:
                    cnt_hscd_cty=globals()[f'bsno_cty_agg_{year}_dict'][f'{bsno}_{cty}'][1]  # bsno, hscd, cty 같으면 동일값
                    all_hscd_cty=globals()[f'bsno_cty_agg_{year}_dict'][f'{bsno}_{cty}'][0] # bsno, hscd, cty 같으면 동일값


                    all_hscd_cty_list.append(all_hscd_cty)
                    cnt_cty_hscd_list.append(cnt_cty_hscd)
                    cnt_hscd_cty_list.append(cnt_hscd_cty)
                    cty_list.append(cty)
                    cty_len+=1
                    
                # 만약, 기업이 해당 년도, 해당 국가에 수출한 품목이 한 개도 없다면
                # 해당국_전체품목_수출액', '수출품목수_해당국' 값은 모두 0
                
                except:
                    cnt_hscd_cty=0
                    all_hscd_cty=0


                    all_hscd_cty_list.append(all_hscd_cty)
                    cnt_cty_hscd_list.append(cnt_cty_hscd)
                    cnt_hscd_cty_list.append(cnt_hscd_cty)
                    cty_list.append(cty)
                    cty_len+=1
                    continue

            hscd_world_list.extend([hscd_world]*cty_len)
            hscd_list.extend([hscd]*cty_len)

        all_hscd_world_list=[all_hscd_world]*len(cty_list)
        cnt_hscd_world_list=[cnt_hscd_world]*len(cty_list)
        cnt_cty_all_hscd_list=[cnt_cty_all_hscd]*len(cty_list)

        # 각 기업에서 해당 년도에 수출하고 있는 (모든 품목 * 각 품목이 수출되는 모든 국가) 조합에 대해
        # 가지고 있는 데이터의 값을 입력하고, 없으면 0으로 둔 데이터프레임 생성
        
        ## 데이터 추가 속도를 향상시키기 위해, 행을 하나하나 붙이지 않고
        ## 각 기업단위로 데이터프레임을 만들되 , list를 이용해 열 데이터를 한번에 할당시킴
        
        append_df = pd.DataFrame({'COUNTRYCD': cty_list, 
                                   'HSCD':hscd_list, 
                                   'BSNO' : [bsno]*len(cty_list),
                                    '해당국_해당품목_수출액' : [0]*len(cty_list), 
                                   '전세계_해당품목_수출액' : hscd_world_list, 
                                   '전세계_전체품목_수출액' : all_hscd_world_list,
                                    '해당국_전체품목_수출액' : all_hscd_cty_list, 
                                   '수출품목수_전세계' : cnt_hscd_world_list, 
                                   '수출국가수_전체품목' : cnt_cty_all_hscd_list,
                                    '수출품목수_해당국' : cnt_hscd_cty_list, 
                                   '수출국가수_해당품목': cnt_cty_hscd_list })

        new_df=pd.concat([new_df,append_df] , axis=0)

        # 각 기업의 데이터를 모은 데이터프레임을 합치는 도중
        # 합쳐진 데이터프레임의 크기가 너무 큰 경우 concat 계산 속도를 위해 초기화
        ## 데이터프레임의 크기가 100MB 이상일 경우 concat 속도가 현저히 느려져 csv로 저장 후 초기화
        
        if sys.getsizeof(new_df)>100*1024*1024:
            new_df.to_csv(f'./전처리데이터/test_set/test_{year}_all_{j}.csv', index=False)
            new_df=pd.DataFrame()
            print('new_df refreshed!')
            j+=1

        if i%1000==0:
            print('current data size :',  sys.getsizeof(new_df))  
            
    new_df.to_csv(f'./전처리데이터/test_set/test_{year}_all_{j}.csv', index=False)
    df_test_new=pd.concat([df_test_new] +[pd.read_csv(f'./전처리데이터/test_set/test_{year}_all_{k}.csv') for k in range(j+1)], axis=0)
    df_test_new.to_csv(f'./전처리데이터/stack_value_{year}_test_all.csv', index=False)

In [15]:
create_export_data(22)
create_export_data(23)

550061it [00:18, 29604.31it/s]
10it [00:00, 98.86it/s]

current data size : 3686


163it [00:09, 15.65it/s]

new_df refreshed!


320it [00:17, 11.42it/s]

new_df refreshed!


616it [00:34, 18.74it/s]

new_df refreshed!


854it [00:48, 23.76it/s]

new_df refreshed!


1006it [00:52, 28.30it/s]

current data size : 37766194


1233it [01:06, 15.59it/s]

new_df refreshed!


1475it [01:18, 17.45it/s]

new_df refreshed!


1749it [01:34, 13.43it/s]

new_df refreshed!


1924it [01:43, 17.91it/s]

new_df refreshed!


2003it [01:46, 19.04it/s]

current data size : 54871351


2105it [01:54,  4.61it/s]

new_df refreshed!


2466it [02:19, 10.85it/s]

new_df refreshed!


2740it [02:35, 23.56it/s]

new_df refreshed!


3004it [02:44, 13.96it/s]

current data size : 78150202


3134it [02:54, 19.80it/s]

new_df refreshed!


3414it [03:09, 32.85it/s]

new_df refreshed!


3855it [03:27, 15.42it/s]

new_df refreshed!


4003it [03:31, 18.27it/s]

current data size : 57397570


4206it [03:45, 25.00it/s]

new_df refreshed!


4616it [04:04, 17.72it/s]

new_df refreshed!


5003it [04:19, 13.58it/s]

current data size : 81606886


5115it [04:27, 27.12it/s]

new_df refreshed!


5504it [04:45, 19.79it/s]

new_df refreshed!


5856it [05:03, 21.26it/s]

new_df refreshed!


6003it [05:07, 19.16it/s]

current data size : 54609307


6199it [05:21, 21.93it/s]

new_df refreshed!


6595it [05:40, 24.79it/s]

new_df refreshed!


7002it [05:58, 12.10it/s]

current data size : 86661934


7154it [06:10, 23.05it/s]

new_df refreshed!


7703it [06:34, 20.60it/s]

new_df refreshed!


8003it [06:44, 16.09it/s]

current data size : 67701067


8141it [06:54, 19.20it/s]

new_df refreshed!


8436it [07:12, 13.70it/s]

new_df refreshed!


8681it [07:27, 10.88it/s]

new_df refreshed!


8946it [07:43, 12.52it/s]

new_df refreshed!


9006it [07:45, 28.13it/s]

current data size : 35303659


9181it [07:55, 15.95it/s]

new_df refreshed!


9434it [08:10, 25.80it/s]

new_df refreshed!


9716it [08:27, 30.13it/s]

new_df refreshed!


10004it [08:33, 28.04it/s]

current data size : 40219333


10288it [08:50, 19.26it/s]

new_df refreshed!


10753it [09:11, 22.13it/s]

new_df refreshed!


11003it [09:18, 19.15it/s]

current data size : 56421430


11149it [09:29, 21.16it/s]

new_df refreshed!


11500it [09:49, 34.21it/s]

new_df refreshed!


11997it [10:16, 32.00it/s]

new_df refreshed!
current data size : 3716395


12514it [10:39, 28.72it/s]

new_df refreshed!


13002it [11:01,  9.62it/s]

current data size : 103534018


13037it [11:02, 28.49it/s]

new_df refreshed!


13657it [11:31, 29.96it/s]

new_df refreshed!


14003it [11:39, 19.08it/s]

current data size : 57703723


14230it [11:55, 26.30it/s]

new_df refreshed!


14732it [12:21, 27.45it/s]

new_df refreshed!


15007it [12:26, 29.63it/s]

current data size : 37880251


15272it [12:43, 24.40it/s]

new_df refreshed!


15861it [13:12, 22.91it/s]

new_df refreshed!


16006it [13:15, 30.15it/s]

current data size : 37923055


16274it [13:31, 16.82it/s]

new_df refreshed!


16485it [13:42, 11.55it/s]

new_df refreshed!


16831it [13:59, 14.67it/s]

new_df refreshed!


17005it [14:03, 25.88it/s]

current data size : 43550998


17239it [14:18, 25.15it/s]

new_df refreshed!


17739it [14:44, 28.54it/s]

new_df refreshed!


18004it [14:51, 24.29it/s]

current data size : 46227292


18367it [15:14, 26.89it/s]

new_df refreshed!


19003it [15:44, 10.27it/s]

current data size : 95081011


19120it [15:54, 24.99it/s]

new_df refreshed!


19757it [16:22, 37.24it/s]

new_df refreshed!


20006it [16:27, 27.97it/s]

current data size : 39374737


20445it [16:54, 26.00it/s]

new_df refreshed!


21002it [17:19,  9.99it/s]

current data size : 102227452


21044it [17:22, 27.02it/s]

new_df refreshed!


21822it [18:02, 20.09it/s]

new_df refreshed!


22009it [18:05, 42.26it/s]

current data size : 26069479


22595it [18:40, 19.54it/s]

new_df refreshed!


23004it [18:49, 21.68it/s]

current data size : 50361532


23217it [19:04, 19.00it/s]

new_df refreshed!


24002it [19:38, 11.72it/s]

current data size : 88909144


24162it [19:50, 33.13it/s]

new_df refreshed!


24825it [20:27, 33.68it/s]

new_df refreshed!


25006it [20:29, 64.57it/s]

current data size : 18153088


25720it [21:04, 17.83it/s]

new_df refreshed!


26004it [21:13, 16.06it/s]

current data size : 63268765


26338it [21:35, 44.97it/s]

new_df refreshed!


27002it [22:00, 13.02it/s]

current data size : 78745543


27177it [22:14, 17.31it/s]

new_df refreshed!


27689it [22:34, 18.60it/s]

new_df refreshed!


28003it [22:49, 12.59it/s]

current data size : 86714395


28144it [22:59, 31.16it/s]

new_df refreshed!


28839it [23:31, 28.96it/s]

new_df refreshed!


29008it [23:34, 38.27it/s]

current data size : 28912813


29278it [23:50, 11.30it/s]

new_df refreshed!


29720it [24:15, 18.87it/s]

new_df refreshed!


30005it [24:24, 19.40it/s]

current data size : 56329558


30272it [24:43, 24.36it/s]

new_df refreshed!


31003it [25:09, 14.61it/s]

current data size : 74194747


31540it [25:52, 18.80it/s]

new_df refreshed!


32007it [26:01, 29.23it/s]

current data size : 39102253


32573it [26:35, 46.28it/s]

new_df refreshed!


33005it [26:43, 28.84it/s] 

current data size : 38628277


33611it [27:19, 14.81it/s]

new_df refreshed!


34004it [27:32, 15.41it/s]

current data size : 69906256


34241it [27:49, 26.90it/s]

new_df refreshed!


35003it [28:15, 14.68it/s]

current data size : 74032405


35304it [28:37, 34.41it/s]

new_df refreshed!


36002it [29:06, 11.69it/s]

current data size : 90076597


36202it [29:22, 32.00it/s]

new_df refreshed!


37002it [29:49, 12.94it/s]

current data size : 79651213


37294it [30:11, 30.34it/s]

new_df refreshed!


38003it [30:38, 13.43it/s]

current data size : 80477800


38418it [31:09, 43.83it/s]

new_df refreshed!


39003it [31:23, 17.29it/s] 

current data size : 63085543


39373it [31:47, 42.47it/s]

new_df refreshed!


40003it [32:04, 15.88it/s] 

current data size : 68047675


40436it [32:36, 33.51it/s]

new_df refreshed!


41007it [32:45, 32.42it/s] 

current data size : 35145493


41853it [33:37, 37.60it/s]

new_df refreshed!


42010it [33:38, 78.46it/s] 

current data size : 14788276


43003it [34:24, 12.01it/s]

current data size : 92117095


43110it [34:33, 27.29it/s]

new_df refreshed!


43900it [35:10, 28.02it/s]

new_df refreshed!


44010it [35:11, 52.15it/s]

current data size : 22251049


44912it [36:01, 35.22it/s]

new_df refreshed!


45020it [36:02, 103.25it/s]

current data size : 8382553


45869it [36:37, 30.13it/s] 

new_df refreshed!


46009it [36:39, 56.14it/s]

current data size : 20784490


46594it [37:11, 28.91it/s]

new_df refreshed!


47004it [37:20, 23.28it/s]

current data size : 49095943


47432it [37:52, 16.81it/s]

new_df refreshed!


48003it [38:07, 18.00it/s]

current data size : 59610589


48689it [38:56, 14.69it/s]

new_df refreshed!


49004it [39:07, 16.81it/s]

current data size : 64581595


49276it [39:26, 21.96it/s]

new_df refreshed!


50002it [40:00, 10.38it/s]

current data size : 98302273


50079it [40:07, 14.45it/s]

new_df refreshed!


51003it [40:55, 10.32it/s]

current data size : 101823163


51085it [41:01, 36.72it/s]

new_df refreshed!


52004it [41:33, 16.26it/s]

current data size : 67107814


52379it [41:59, 16.07it/s]

new_df refreshed!


52973it [42:26, 18.79it/s]

new_df refreshed!


53012it [42:26, 56.30it/s]

current data size : 11407543


53579it [42:54, 20.63it/s]

new_df refreshed!


54003it [43:06, 22.48it/s]

current data size : 48768910


54581it [43:43, 34.16it/s]

new_df refreshed!


55005it [43:51, 27.81it/s]

current data size : 41173810


55746it [44:36, 13.54it/s]

new_df refreshed!


56005it [44:41, 29.58it/s]

current data size : 36934387


56714it [45:26, 41.33it/s]

new_df refreshed!


57008it [45:29, 50.65it/s] 

current data size : 21859027


57905it [46:18, 20.94it/s]

new_df refreshed!


58010it [46:19, 70.45it/s]

current data size : 14850655


59021it [47:05, 25.79it/s]

new_df refreshed!
current data size : 750130


59877it [47:48, 22.03it/s]

new_df refreshed!


60004it [47:50, 50.99it/s]

current data size : 25036963


60715it [48:31, 29.89it/s]

new_df refreshed!


61004it [48:36, 31.61it/s]

current data size : 33995527


61478it [49:04, 26.49it/s]

new_df refreshed!


62004it [49:22, 14.67it/s]

current data size : 72016963


62265it [49:40, 28.83it/s]

new_df refreshed!


63003it [50:10, 14.65it/s]

current data size : 74600341


63260it [50:29, 15.80it/s]

new_df refreshed!


64003it [50:54, 17.79it/s]

current data size : 60535573


64901it [51:54, 32.41it/s]

new_df refreshed!


65010it [51:55, 95.73it/s] 

current data size : 10517533


66003it [52:33, 14.06it/s]

current data size : 75809032


66626it [53:20, 43.49it/s]

new_df refreshed!


67008it [53:23, 68.34it/s] 

current data size : 16337833


68004it [54:05, 13.93it/s]

current data size : 77927830


68736it [55:02, 47.20it/s]

new_df refreshed!


69005it [55:06, 23.46it/s] 

current data size : 46300633


69293it [55:27, 15.68it/s]

new_df refreshed!


69938it [55:56, 27.64it/s]

new_df refreshed!


70015it [55:56, 75.48it/s]

current data size : 12280327


70783it [56:34, 33.82it/s]

new_df refreshed!


71005it [56:38, 35.45it/s]

current data size : 31662187


71616it [57:13, 21.88it/s]

new_df refreshed!


71994it [57:35, 23.28it/s]

new_df refreshed!
current data size : 5216884


72800it [58:09, 21.68it/s]

new_df refreshed!


73009it [58:12, 42.14it/s]

current data size : 26492821


73804it [58:53, 17.64it/s]

new_df refreshed!


74006it [58:55, 45.91it/s]

current data size : 25334503


75003it [59:54, 10.26it/s]

current data size : 100293964


75054it [59:58, 14.44it/s]

new_df refreshed!


76003it [1:00:41, 10.36it/s]

current data size : 93868927


76090it [1:00:48, 16.63it/s]

new_df refreshed!


76622it [1:01:15, 27.75it/s]

new_df refreshed!


77007it [1:01:22, 31.07it/s]

current data size : 36164437


77920it [1:02:13, 25.19it/s]

new_df refreshed!


78015it [1:02:13, 88.91it/s]

current data size : 10393036


78925it [1:02:57, 38.86it/s]

new_df refreshed!


79016it [1:02:58, 102.06it/s]

current data size : 8210032


80002it [1:03:45,  9.91it/s] 

current data size : 101584870


80073it [1:03:49, 39.67it/s]

new_df refreshed!


81004it [1:04:11, 21.07it/s] 

current data size : 52228987


81458it [1:04:41, 36.18it/s]

new_df refreshed!


82005it [1:04:55, 22.74it/s]

current data size : 50289496


83003it [1:06:00, 10.43it/s]

current data size : 103438492


83053it [1:06:03, 26.38it/s]

new_df refreshed!


84003it [1:06:37, 15.75it/s]

current data size : 69419491


84403it [1:07:02, 14.08it/s]

## 전체 수출 데이터 (22,23년) 에서 각 기업이 해당 품목에 대해 
## 기존에 수출하지 않은 국가들에 대한 행도 추가한 데이터셋입니다.

In [None]:
# 2022, 2023 데이터를 열 방향으로 이어붙임
df_p=pd.read_csv('./전처리데이터/stack_value_22_test_all.csv')
df_n=pd.read_csv('./전처리데이터/stack_value_23_test_all.csv')

# 학습시킨 데이터와 동일한 형태로 자료형 변환
df_n['BSNO']=df_n['BSNO'].astype(float).astype(int).astype(str)
df_n['HSCD']=df_n['HSCD'].astype(float).astype(int).astype(str)
df_p['BSNO']=df_p['BSNO'].astype(float).astype(int).astype(str)
df_p['HSCD']=df_p['HSCD'].astype(float).astype(int).astype(str)


# 데이터 합산
df_combined = pd.merge(df_n, df_p, on = ['BSNO', 'HSCD', 'COUNTRYCD'], how= 'outer', suffixes = ('_n', '_p')) # 1139264


# 22년에 수출이 없었던 값 or 23년에 수출하지 않는 품목은 값을 0으로 채우기
df_combined = df_combined.fillna(0)
df_combined.to_csv('./전처리데이터/stack_value_test_all.csv', index=False)

In [3]:
df_combined

Unnamed: 0,YEAR_n,COUNTRYCD,HSCD,BSNO,해당국_해당품목_수출액_n,전세계_해당품목_수출액_n,전세계_전체품목_수출액_n,해당국_전체품목_수출액_n,수출품목수_전세계_n,수출국가수_전체품목_n,...,YEAR_p,해당국_해당품목_수출액_p,전세계_해당품목_수출액_p,전세계_전체품목_수출액_p,해당국_전체품목_수출액_p,수출품목수_전세계_p,수출국가수_전체품목_p,수출품목수_해당국_p,수출국가수_해당품목_p,HSCD_2_p
0,2023.0,AE,10619,4728600892,739.0,22524.0,22524.0,739.0,1.0,13.0,...,2022.0,318.0,15005.0,15005.0,318.0,1.0,15.0,1.0,15.0,1.0
1,2023.0,AE,10619,5418101760,8790.0,127951.0,127951.0,8790.0,1.0,10.0,...,2022.0,80666.0,214913.0,214913.0,80666.0,1.0,5.0,1.0,5.0,1.0
2,2023.0,AE,10619,8212001739,1000.0,70012.0,70012.0,1000.0,1.0,7.0,...,0.0,0.0,55117.0,55117.0,0.0,1.0,7.0,0.0,7.0,0.0
3,2023.0,AE,20322,6168624854,3531.0,4841.0,2172627.0,151874.0,76.0,19.0,...,2022.0,4837.0,4837.0,2294827.0,319761.0,97.0,16.0,51.0,1.0,2.0
4,2023.0,AE,20329,6168624854,50899.0,93590.0,2172627.0,151874.0,76.0,19.0,...,2022.0,58984.0,58984.0,2294827.0,319761.0,97.0,16.0,51.0,1.0,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75360856,0.0,SG,730519,6048108837,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,37700.0,37700.0,0.0,1.0,1.0,0.0,1.0,0.0
75360857,0.0,TH,730519,6048108837,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,37700.0,37700.0,0.0,1.0,1.0,0.0,1.0,0.0
75360858,0.0,VN,730519,6048108837,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,37700.0,37700.0,0.0,1.0,1.0,0.0,1.0,0.0
75360859,0.0,CN,730519,6048108837,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,37700.0,37700.0,0.0,1.0,1.0,0.0,1.0,0.0


# 모델 학습 (기존에 학습시킨 모델이 있다면 실행하지 않아도 됨)

In [None]:
# 수출통계 데이터 합산
trade_file_list = './데이터셋/수출통계'
trade_files = glob.glob(os.path.join(trade_file_list, "*.csv"))

column_types1 = {
    'YEAR' : 'int64',
    'BSNO' : 'category',
    'COUNTRYCD' : 'category',
    'HSCD' : 'category',
    'EXIMAMT' : 'int64'
}

trade_list = [pd.read_csv(file, dtype = column_types1) for file in trade_files]
combined_trade = pd.concat(trade_list, ignore_index = True)

# bsno 없는 것 삭제
combined_trade = combined_trade.dropna(subset=['BSNO'])

# 데이터 범위 설정
combined_trade = combined_trade[(combined_trade['YEAR'] >= 2020) & (combined_trade['YEAR'] <= 2024)]

# 나미비아 NA로 바꿔주기
combined_trade.loc[:,'COUNTRYCD'] = combined_trade['COUNTRYCD'].fillna('NA')

# 수출액이 0인 경우 모두 삭제
combined_trade = combined_trade[combined_trade['EXIMAMT'] !=0]

# 특정 사업자번호 삭제
combined_trade = combined_trade[combined_trade['BSNO'] != '1000000000'] # 5215219

# 2개년 수출기업/수출품목 리스트
yr22 = combined_trade[combined_trade['YEAR'] == 2022]
yr21 = combined_trade[combined_trade['YEAR'] == 2021]

yr22 = yr22.drop(columns = ['YEAR', 'EXIMAMT']).drop_duplicates()
yr21 = yr21.drop(columns = ['YEAR', 'EXIMAMT']).drop_duplicates()

yr_total = pd.merge(yr22, yr21, on = ['BSNO', 'HSCD', 'COUNTRYCD'], how= 'outer') # 1575467

# 연도별 데이터 생성
yr = 2022

for year in range(yr-1, yr+1):
    df_c = combined_trade[combined_trade['YEAR'] == year].copy() # 1033511
    df_c = pd.merge(yr_total, df_c, on = ['BSNO', 'HSCD', 'COUNTRYCD'], how = 'left')

    df_c['YEAR'] = df_c['YEAR'].fillna(year)
    df_c['EXIMAMT'] = df_c['EXIMAMT'].fillna(0)

    # 파생변수 생성
    df_c['전세계_해당품목_수출액'] = df_c.groupby(['BSNO', 'HSCD'])['EXIMAMT'].transform('sum')
    df_c['전세계_전체품목_수출액'] = df_c.groupby('BSNO')['EXIMAMT'].transform('sum')
    df_c['해당국_전체품목_수출액'] = df_c.groupby(['BSNO', 'COUNTRYCD'])['EXIMAMT'].transform('sum')
    df_c['수출품목수_전세계'] = df_c.groupby('BSNO')['HSCD'].transform('nunique')
    df_c['수출국가수_전체품목'] = df_c.groupby('BSNO')['COUNTRYCD'].transform('nunique')
    df_c['수출품목수_해당국'] = df_c.groupby(['BSNO', 'COUNTRYCD'])['HSCD'].transform('nunique')
    df_c['수출국가수_해당품목'] = df_c.groupby(['BSNO', 'HSCD'])['COUNTRYCD'].transform('nunique')
    
    # 동적으로 변수 이름 생성
    sh_yr = str(year)[-2:]
    globals()[f'df_{sh_yr}'] = df_c
    
# 데이터 합산
df_n = globals()[f'df_{str(yr)[-2:]}'] # 22년 (now)
df_p = globals()[f'df_{str(yr-1)[-2:]}'] # 21년 (previous)

# YEAR 삭제
df_n = df_n.drop(columns = 'YEAR') # 1575467
df_p = df_p.drop(columns = 'YEAR') # 1575467

# 컬럼명 변경
df_n = df_n.rename(columns= {'EXIMAMT': '해당국_해당품목_수출액'}) 
df_p = df_p.rename(columns= {'EXIMAMT': '해당국_해당품목_수출액'}) 

# 데이터 합산
df_combined = pd.merge(df_n, df_p, on = ['BSNO', 'HSCD', 'COUNTRYCD'], how= 'outer', suffixes = ('_n', '_p')) # 1551620

# 작년에 수출이 없었던 값 0으로 채우기
df_combined = df_combined.fillna(0)

# Y값 생성
y = combined_trade[combined_trade['YEAR'] == yr+1] # 1033511
y = y.drop(columns=['YEAR'])
y = y.rename(columns= {'EXIMAMT': 'NEXT_EXIMAMT'})

# y값 병합
df_combined = pd.merge(df_combined, y, on =['COUNTRYCD', 'HSCD', 'BSNO'], how='left')

# 내년 수출액 없는 경우 0으로 치환
df_combined['NEXT_EXIMAMT'] = df_combined['NEXT_EXIMAMT'].fillna(0)

# 내년에 수출액이 있으면 1, 없으면 0
df_combined['RESULT'] = df_combined['NEXT_EXIMAMT'].apply(lambda x: 1 if x > 0 else 0 )
df_combined = df_combined.drop(columns=['NEXT_EXIMAMT']) #1551620

# COUNTRYCD 100건 미만의 적은 국가 제거 (1054594)
COUNTRYCD_CNT = df_combined['COUNTRYCD'].value_counts()
valid_COUNTRYCD = COUNTRYCD_CNT[COUNTRYCD_CNT >= 100].index
df_sorted = df_combined[df_combined['COUNTRYCD'].isin(valid_COUNTRYCD)]

# 문자열로 변환하여 통일
df_sorted['HSCD'] = df_sorted['HSCD'].astype(str)
df_sorted['COUNTRYCD'] = df_sorted['COUNTRYCD'].astype(str)
df_sorted['BSNO'] = df_sorted['BSNO'].astype(str)

# 최종 데이터셋
fin_train = df_sorted # 1573454

# BSNO 삭제 
fin_train = fin_train.drop(columns = ['BSNO'])

###################
# 학습데이터
###################
# 입력 데이터와 타겟 변수 설정 
X_train = fin_train.drop(columns=['RESULT'])
y_train = fin_train['RESULT']


# 로그 스케일링 (수출액만 log변환 / 국가수 및 품목수는 scaling 제외)
cols_to_scale = X_train.columns[[2, 3, 4, 5, 10, 11, 12, 13]] # BSNO 삭제
X_train[cols_to_scale] = X_train[cols_to_scale].apply(lambda x:np.log1p(x))


# CatBoost 모델 정의 
# [참고] 확률 0.5이상이면 1, 미만이면 0
model = CatBoostClassifier(iterations=1000, learning_rate=0.1, depth=6,
                           cat_features=[0, 1], # BSNO 삭제
                           verbose=False)

# 학습
model.fit(X_train, y_train)

joblib.dump(model, './final_model.pkl')



# 미리 학습된 모델에 데이터를 넣고 확률을 계산합니다.

In [6]:
# 미리 학습된 모델 불러오기

model=joblib.load('./final_model.pkl')

final_test=pd.read_csv('./전처리데이터/stack_value_test_all.csv')

# 사업자 번호 데이터는 추후 대시보드 조회시 필요하므로 따로 저장

final_test_bsno=final_test['BSNO'].copy()
final_test['HSCD']=final_test['HSCD'].apply(str)

# 추론에 필요없는 데이터 열은 제거

final_test.drop(columns=['BSNO','HSCD_2_n', 'YEAR_p', 'YEAR_n', 'HSCD_2_p'], inplace=True)
cols_to_scale = final_test.columns[[2, 3, 4, 5, 10, 11, 12, 13]] # BSNO 삭제

# 학습시와 동일한 방법으로 데이터 스케일링 (np.log1p)
final_test[cols_to_scale] = final_test[cols_to_scale].apply(lambda x:np.log1p(x))

y_pred_proba=model.predict_proba(final_test)
y_pred_proba

array([[0.44013877, 0.55986123],
       [0.39554754, 0.60445246],
       [0.71561148, 0.28438852],
       ...,
       [0.97130706, 0.02869294],
       [0.97445252, 0.02554748],
       [0.98499074, 0.01500926]])

In [7]:
final_test.columns

Index(['COUNTRYCD', 'HSCD', '해당국_해당품목_수출액_n', '전세계_해당품목_수출액_n',
       '전세계_전체품목_수출액_n', '해당국_전체품목_수출액_n', '수출품목수_전세계_n', '수출국가수_전체품목_n',
       '수출품목수_해당국_n', '수출국가수_해당품목_n', '해당국_해당품목_수출액_p', '전세계_해당품목_수출액_p',
       '전세계_전체품목_수출액_p', '해당국_전체품목_수출액_p', '수출품목수_전세계_p', '수출국가수_전체품목_p',
       '수출품목수_해당국_p', '수출국가수_해당품목_p'],
      dtype='object')

In [8]:
# (수출 실패 확률, 수출 성공 확률)로 이루어진 데이터 중
# 수출 성공 확률만 추출해 최종 데이터셋에 concat

pred_proba=pd.DataFrame({'Success' : [y for (n,y) in y_pred_proba]})
final_df=pd.concat([final_test[['COUNTRYCD', 'HSCD']], final_test_bsno, pred_proba], axis=1)

In [9]:
final_df

Unnamed: 0,COUNTRYCD,HSCD,BSNO,Success
0,AE,10619,4728600892,0.559861
1,AE,10619,5418101760,0.604452
2,AE,10619,8212001739,0.284389
3,AE,20322,6168624854,0.455069
4,AE,20329,6168624854,0.635991
...,...,...,...,...
75360856,SG,730519,6048108837,0.029268
75360857,TH,730519,6048108837,0.028897
75360858,VN,730519,6048108837,0.028693
75360859,CN,730519,6048108837,0.025547


In [10]:
final_df.to_csv('./전처리데이터/final_proba_all.csv', index=False)