In [1]:
import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

## 다시 경제 지표 부분을 넣어서 돌린 결과가 가장 높게 나와 최종적으로 이 모델을 선택하였음

In [2]:
f=pd.read_csv('f_with_e2.csv', encoding='euc_kr')

#상승과 하락을 각각 1. 0으로 변환
for i in range(f.shape[0]):
    if f.iloc[i,-1]=='상승':
        f.iloc[i,-1]=1
    else:
        f.iloc[i,-1]=0


In [3]:
f[f['날짜']=='2016-12-29']

Unnamed: 0,날짜,지수종가,거래대금,상장주식수,시가총액,외국인보유주식수,외국인보유시가총액,신용거래종목수,신용자료일자,회사수,...,실업률(NSA)[미국],외환보유액,재고율[미국],제조업내수출하지수(원지수),제조업생산-제조업,제조업생산출하-제조업,코스피지수(1980.1.4=100)(선행),필라델피아연준지수[미국],후행종합지수(2015=100),Y
3801,2016-12-29,2026.46,3009199,41031721,1308440373,6648261,460632479,1282.0,20161227.0,779,...,,334029.2529,1.35,114.4,117.2,116.6,2013.2,19.7,122.8,1


In [4]:
X_train=f.iloc[0:3802,1:-1]
X_test=f.iloc[3802:,1:-1]
y_train=f.iloc[0:3802,-1]
y_test=f.iloc[3802:,-1]

In [5]:
from sklearn.preprocessing import StandardScaler
sc= StandardScaler()

X_train=sc.fit_transform(X_train)
X_test=sc.transform(X_test)

#스케일링 중 발생한 널값에 대해 0(평균)으로 메꿔줌
X_train=np.where(np.isnan(X_train), 0, X_train)
X_test=np.where(np.isnan(X_test), 0, X_test)

In [52]:
# 개별 ML 모델을 위한 Classifier 생성.
knn_clf  = KNeighborsClassifier(n_neighbors=4)
rf_clf = RandomForestClassifier(n_estimators=100, random_state=0)
dt_clf = DecisionTreeClassifier()
ada_clf = AdaBoostClassifier(n_estimators=100, learning_rate=0.5)

# 최종 Stacking 모델을 위한 Classifier생성. 
#lr_final = LogisticRegression(C=10)
rf_final=RandomForestClassifier(random_state=154)

In [53]:
# 개별 모델들을 학습. 
knn_clf.fit(X_train, y_train)
rf_clf.fit(X_train , y_train)
dt_clf.fit(X_train , y_train)
ada_clf.fit(X_train, y_train)

AdaBoostClassifier(algorithm='SAMME.R', base_estimator=None, learning_rate=0.5,
                   n_estimators=100, random_state=None)

In [54]:
# 학습된 개별 모델들이 각자 반환하는 예측 데이터 셋을 생성하고 개별 모델의 정확도 측정. 
knn_pred = knn_clf.predict(X_test)
rf_pred = rf_clf.predict(X_test)
dt_pred = dt_clf.predict(X_test)
ada_pred = ada_clf.predict(X_test)

print('KNN 정확도: {0:.4f}'.format(accuracy_score(y_test, knn_pred)))
print('랜덤 포레스트 정확도: {0:.4f}'.format(accuracy_score(y_test, rf_pred)))
print('결정 트리 정확도: {0:.4f}'.format(accuracy_score(y_test, dt_pred)))
print('에이다부스트 정확도: {0:.4f} :'.format(accuracy_score(y_test, ada_pred)))

KNN 정확도: 0.5443
랜덤 포레스트 정확도: 0.5591
결정 트리 정확도: 0.5886
에이다부스트 정확도: 0.6013 :


In [55]:
pred = np.array([knn_pred, rf_pred, dt_pred, ada_pred])
print(pred.shape)

# transpose를 이용해 행과 열의 위치 교환. 컬럼 레벨로 각 알고리즘의 예측 결과를 피처로 만듦. 
pred = np.transpose(pred)
print(pred.shape)

(4, 474)
(474, 4)


In [56]:
rf_final.fit(pred, y_test)
final = rf_final.predict(pred)

print('최종 메타 모델의 예측 정확도: {0:.4f}'.format(accuracy_score(y_test , final)))

최종 메타 모델의 예측 정확도: 0.6181




In [18]:
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import f1_score, roc_auc_score

def get_clf_eval(y_test , pred):
    confusion = confusion_matrix( y_test, pred)
    accuracy = accuracy_score(y_test , pred)
    precision = precision_score(y_test , pred)
    recall = recall_score(y_test , pred)
    f1 = f1_score(y_test,pred)
    roc_auc = roc_auc_score(y_test, pred)
    print('오차 행렬')
    print(confusion)
    print('정확도: {0:.4f}, 정밀도: {1:.4f}, 재현율: {2:.4f},\
    F1: {3:.4f}, AUC:{4:.4f}'.format(accuracy, precision, recall, f1, roc_auc))

In [57]:
get_clf_eval(y_test, final)

오차 행렬
[[ 54 155]
 [ 26 239]]
정확도: 0.6181, 정밀도: 0.6066, 재현율: 0.9019,    F1: 0.7253, AUC:0.5801
