In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, RobustScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.model_selection import KFold, StratifiedKFold

In [None]:
# 학습 데이터 불러오기
df_org = pd.read_csv("train.csv", encoding="cp949")

In [None]:
df_org.head()

# 범주형 변수 수치화

In [None]:
# Nan 값 처리
df_org = df_org.fillna('없음')

In [None]:
## 범주형 변수를 수치형 변수로 바꾸기 위한 작업 
# 범주형 변수의 고유값 별 개수를 df_z로 따로 저장
df_z = df_org['특송업체부호'].value_counts(normalize=True).rename_axis('unique').reset_index(name='counts')
# df_z에서 각각의 cloumns을 분리해서 별도로 저장 
df_un = df_z['unique']
df_co = df_z['counts'].round(decimals=6)
du = df_un.tolist()
dc = df_co.tolist()
# 본래 데이터에 새롭게 추가
for i in range(df_z.shape[0]):
    df_org.loc[df_org['특송업체부호'] == du[i] , '특송업체부호비율'] = dc[i]
# 수치형 변수 타입 변경 
df_org['특송업체부호비율'] = df_org['특송업체부호비율'].apply(lambda x: np.log1p(x))

In [None]:
df_z = df_org['통관지세관부호'].value_counts(normalize=True).rename_axis('unique').reset_index(name='counts')
df_un = df_z['unique']
df_co = df_z['counts'].round(decimals=6)
du = df_un.tolist()
dc = df_co.tolist()
for i in range(df_z.shape[0]):
    df_org.loc[df_org['통관지세관부호'] == du[i] , '통관지세관부호비율'] = dc[i]
df_org['통관지세관부호비율'] = df_org['통관지세관부호비율'].apply(lambda x: np.log1p(x))

In [None]:
df_z = df_org['해외거래처부호'].value_counts(normalize=True).rename_axis('unique').reset_index(name='counts')
df_un = df_z['unique']
df_co = df_z['counts'].round(decimals=6)
du = df_un.tolist()
dc = df_co.tolist()
for i in range(df_z.shape[0]):
    df_org.loc[df_org['해외거래처부호'] == du[i] , '해외거래처부호비율'] = dc[i]
df_org['해외거래처부호비율'] = df_org['해외거래처부호비율'].apply(lambda x: np.log1p(x))

In [None]:
df_z = df_org['운송수단유형코드'].value_counts(normalize=True).rename_axis('unique').reset_index(name='counts')
df_un = df_z['unique']
df_co = df_z['counts'].round(decimals=6)
du = df_un.tolist()
dc = df_co.tolist()
for i in range(df_z.shape[0]):
    df_org.loc[df_org['운송수단유형코드'] == du[i] , '운송수단유형코드비율'] = dc[i]
df_org['운송수단유형코드비율'] = df_org['운송수단유형코드비율'].apply(lambda x: np.log1p(x))

In [None]:
#추가된 수치형 변수 확인 
df_org.head(5)

# 변수 Drop

In [None]:
# 필요없다고 생각하는 column 삭제
del df_org['통관지세관부호']
del df_org['특송업체부호']
del df_org['해외거래처부호']
del df_org['운송수단유형코드']
del df_org['신고일자']
del df_org['검사결과코드']
del df_org['핵심적발']
del df_org['신고인부호']
del df_org['신고번호']
del df_org['원산지국가코드']
del df_org['관세율']

In [None]:
#삭제후 데이터셋의 column 확인 
df_org.columns

In [None]:
# 범주형 변수 지정
discrete_columns = ['수입자부호', '수입통관계획코드', 
       '수입신고구분코드', '수입거래구분코드',
       '수입종류코드', '징수형태코드', 
       '반입보세구역부호', 
       'HS10단위부호', '적출국가코드', '관세율구분코드']

# 범주형 변수들을 문자열로 지정 ('object' -> 'string')
for var in discrete_columns:
    df_org[var] = df_org[var].astype(str)

# 레이블 인코딩

In [None]:
# 범주형 변수 전처리 1단계: label encoding --> 각 범주형 변수가 갖는 클래스에 고유의 식별번호 부여
# 예) 수입자 상호: AAABB -> 1, 가나다라 -> 2, ...

label_encoding_ref = {}
for var in discrete_columns:
    label_encoding_ref[var] = {code: i+1 for i, code in enumerate(df_org[var].unique())}
    print(label_encoding_ref[var])
    df_org[var] = [label_encoding_ref[var][x] for x in df_org[var]]

In [None]:
df_org.head()

In [None]:
# 수치형 변수 지정
numeric_columns = ['신고중량(KG)', '과세가격원화금액', '특송업체부호비율', 
                   '통관지세관부호비율', '해외거래처부호비율', '운송수단유형코드비율']

In [None]:
# 수치형 변수, 범주형 변수 분리
numeric = df_org[numeric_columns]

In [None]:
# 수치형 변수 정규화
from sklearn.preprocessing import StandardScaler, RobustScaler
std_scaler = StandardScaler()
rob_scaler = RobustScaler()

numeric['신고중량(KG)'] = rob_scaler.fit_transform(numeric['신고중량(KG)'].values.reshape(-1,1))
numeric['과세가격원화금액'] = rob_scaler.fit_transform(numeric['과세가격원화금액'].values.reshape(-1,1))
numeric['특송업체부호비율'] = rob_scaler.fit_transform(numeric['특송업체부호비율'].values.reshape(-1,1))
numeric['통관지세관부호비율'] = rob_scaler.fit_transform(numeric['통관지세관부호비율'].values.reshape(-1,1))
numeric['해외거래처부호비율'] = rob_scaler.fit_transform(numeric['해외거래처부호비율'].values.reshape(-1,1))
numeric['운송수단유형코드비율'] = rob_scaler.fit_transform(numeric['운송수단유형코드비율'].values.reshape(-1,1))

In [None]:
df_org.head()

# 수치형 PCA

In [None]:
from sklearn import decomposition
#주성분 갯수 5개  생성 
pca = decomposition.PCA(n_components=5).fit(numeric)

reduced_numeric = pca.transform(numeric)

In [None]:
pca.explained_variance_ratio_

In [None]:
#수치형 변수에 대해서 PCA 계산
df_org['신고중량(KG)']  = reduced_numeric[:, 0]
df_org['과세가격원화금액']  = reduced_numeric[:, 1]
df_org['특송업체부호비율']  = reduced_numeric[:, 2]
df_org['통관지세관부호비율']  = reduced_numeric[:, 2]
df_org['해외거래처부호비율']  = reduced_numeric[:, 3]
df_org['운송수단유형코드비율']  = reduced_numeric[:, 4]

# 데이터셋 확인

In [None]:
# PCA 처리 제대로 되었는지 확인
df_org.head(5)

# 훈련/시험 데이터셋 분할

In [None]:
# 데이터 셋 라벨 분리
y = df_org['우범여부']
x = df_org.drop(columns = '우범여부')
type(x), type(y)

In [None]:
# train, test data split
df_org_train, df_org_test, org_train_y, org_test_y = train_test_split(x,y, test_size = 0.3, stratify = y, random_state =3)

# 원핫인코딩 데이터셋 프로세스

In [None]:
# train, test data 원핫인코딩 전 마킹
df_org_train['label'] = 'train'
df_org_test['label'] = 'test'
# train, test data 결합
concat_df = pd.concat([df_org_train,df_org_test])

# dummies함수를 통해 범주형 변수 원핫인코딩
df_org_trains = pd.get_dummies(concat_df, columns = discrete_columns)

# 마킹값을 통해 train, test data 복구
df_train =  df_org_trains[df_org_trains['label'] == 'train']
df_test =  df_org_trains[df_org_trains['label'] == 'test']

In [None]:
# 마킹 라벨 제거
df_train = df_train.drop('label', axis=1)
df_test = df_test.drop('label', axis=1)

In [None]:
# 데이터 사이즈 확인
print(df_train.shape, df_test.shape)
print(org_train_y.shape, org_test_y.shape)

# Imbalanced Sampling
# * SMOTE *

In [None]:
from imblearn.over_sampling import *

In [None]:
# SMOTE를 진행할 train data 확인
df_train.info()

In [None]:
# SMOTE를 통해 train data 클래스 불균형 해결
smote = SMOTE(random_state=11, sampling_strategy='all')
df_train_over_x, df_train_over_y = smote.fit_resample(df_train, org_train_y)
df_train_over_x.info(), df_train_over_y

# 모델 생성 / 학습 / 평가

In [None]:
# XGBoost 모델 생성
from xgboost import XGBClassifier
from sklearn.metrics import f1_score,roc_auc_score
import warnings
warnings.filterwarnings("ignore")

In [None]:
# xgb 모델 생성
xgb_clf = XGBClassifier(n_estimators=50, max_depth=4, n_jobs=-1, reg_lambda=1)
# evaluation Set 생성
eval_set = [(df_train_over_x, df_train_over_y), (df_test, org_test_y)]
# 모델 학습
xgb_clf.fit(df_train_over_x, df_train_over_y, eval_metric=["logloss"],
            eval_set=eval_set, verbose=True)

In [None]:
# 모델 성능 시각화

from matplotlib import pyplot
# retrieve performance metrics
results = xgb_clf.evals_result()
epochs = len(results['validation_0']['logloss'])
x_axis = range(0, epochs)
# plot log loss
fig, ax = pyplot.subplots()
ax.plot(x_axis, results['validation_0']['logloss'], label='Train')
ax.plot(x_axis, results['validation_1']['logloss'], label='Test')
ax.legend()
pyplot.ylabel('Log Loss')
pyplot.title('XGBoost Log Loss')

In [None]:
# evaluate xgboost model
print("------Evaluating xgboost model------")
# Predict
test_pred = xgb_clf.predict_proba(df_test)[:,1]
# Calculate auc
xgb_auc = roc_auc_score(org_test_y, test_pred)
print(xgb_auc)

In [None]:
# inspection 검사 함수
def inspection_performance(predicted_fraud, test_fraud):
        
    Inspect_Rate=[]
    Precision=[]
    Recall=[]
    
    for i in range(0,101,1):
        
        threshold = np.percentile(predicted_fraud, i)
        # Precision = number of frauds / number of inspection
        precision = np.mean(test_fraud[predicted_fraud >= threshold])
        # Recall = number of inspected frauds / number of frauds
        recall = sum(test_fraud[predicted_fraud >= threshold])/sum(test_fraud)
        # Save values
        Inspect_Rate.append(100-i)
        Precision.append(precision)
        Recall.append(recall)
        
    
    compiled_conf_matrix = pd.DataFrame({
        'Inspect_Rate':Inspect_Rate,
        'Precision':Precision,
        'Recall':Recall
    })

    return compiled_conf_matrix

In [None]:
# inspection 계산
basic_performance = inspection_performance(test_pred, org_test_y.astype(float))

In [None]:
# 검사율 1~10% 지정 시 Precision 및 Recall 분석
# Precision (적중률) = (검사선별된 우범건수)/(검사선별 건수)
# Recall (적발률) = (검사선별된 우범건수) / (전체 우범건수)
basic_performance.iloc[range(99,89,-1),:]

In [None]:
# 계산한 결과 시각화
data = pd.melt(basic_performance, 
               id_vars = ['Inspect_Rate'],
               value_vars = ['Recall','Precision'])

sns.relplot(data=data,
            kind='line',
            x="Inspect_Rate", 
            y="value", 
            hue='variable',
            col="variable")

In [None]:
# 모델에 기여도가 높은 변수 시각화
from xgboost import plot_importance
plt.rcParams["font.family"] = 'Malgun Gothic'
plt.rcParams["figure.figsize"] = (15,10)
plot_importance(xgb_clf, max_num_features=30)
plt.show()

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
# test 예측 label 값 
y_preds = xgb_clf.predict(df_test)

In [None]:
print("accuracy score for trained data",accuracy_score(df_train_over_y,xgb_clf.predict(df_train_over_x)))
print("accuracy score is",accuracy_score(org_test_y,y_preds))
print("Confusion matrix",confusion_matrix(org_test_y,y_preds))
print("Report",classification_report(org_test_y,y_preds))

# Submission 값 추출

### Submission 용 Test 데이터셋 추출

In [None]:
# df_org를 불러올 때 기존 train + test 셋을 합쳐서 불러옴
# 불러온 후 기존에 있던 데이터 전처리 모두 시행

In [None]:
# Train + Test의 데이터를 전부 One Hot encoding 시행
df_onehot = pd.get_dummies(df_org, columns = discrete_columns)
df_onehot.tail()

In [None]:
# 인코딩한 데이터프레임을 분리하여 'test' 데이터프레임은 유지
# 분리한 이후 남은 train 셋은 기존에 인코딩 프로세스로 진행

test = df_onehot.iloc[76837:, :]
test.shape

In [None]:
# 분리한 테스트셋의 레이블 삭제

test_x = real_test.drop(columns='우범여부')

In [None]:
# 학습시킨 기존 모델에 'test' 데이터프레임 대상으로 predict 시행

y_preds = xgb_clf.predict(test_x)
y_preds

In [None]:
# 예측결과 데이터프레임 변환 

pred_df = pd.DataFrame(y_preds, columns=['우범여부'])
pred_df

In [None]:
# 예측결과 데이터프레임 csv파일 변환

pred_df.to_csv('C:\\Users\\CEO\\result.csv', index = None)