# 통계적 검정력 (Statistical Power)
통계적 검정력을 달성한다는 의미는 아주 단순한 모델보다 성능이 개선된 모델을 개발한다는 의미입니다.  
MNIST 숫자 이미지 분류에서는 10%보다 높은 정확도를 보여주는 모델이 통계적 검정력을 가졌다고 말 할 수 있습니다.  
IMDB 영화 리뷰 분류에서는 50%보다 높은 정확도를 보여주는 모델이 통계적 검정력을 가졌다고 말 할 수 있습니다.  
  
검정력은 우리가 세운 가설이 참일 때 이를 채택할 확률을 말합니다.  
여기에서는 적어도 데이터셋에 있는 클래스별 분포보다 모델의 정확도가 높아야 우리가 세운 가설이 옳다고 말할 수 있습니다.  
우리의 가설은 주어진 입력으로 출력을 예측할 수 있다는 가설입니다.   
유튜브: https://youtu.be/tXkaj5XC7RU

# 드롭아웃(Dropout)
토론토 대회의 제프리 힌튼은 과대적합을 해소하는 드롭아웃을 개발했습니다.  
힌튼은 은행에서 사용하는 부정 방지 메커니즘에서 드롭아웃을 착안했습니다.  
힌튼이 은행에 갔을 때 행원들이 계속 바뀌길래 왜 그런지를 물었습니다.  
자신들도 이유는 모르지만 자주 업무가 바뀐다고 했습니다.  
힌튼은 은행에서 부정 행위를 하려면 직원들 사이의 유대가 필요하기 때문이라고 판단했습니다.  
그래서 딥러닝 모델에서도 뉴런의 부정한 협업을 방지하고 과대적합을 감소시키기 위해 각 샘플에 대해 뉴런의 일부를 무작위하게 제거했습니다. 

In [112]:
import pandas as pd
import numpy as np

from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout
from keras.optimizers import Adagrad

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn import metrics

from matplotlib import pyplot as plt
%matplotlib inline

In [113]:
df = pd.read_csv('data.csv')

df['매수시간(분)'] = pd.to_datetime(df['매수시간'])
df['매수시간(분)'] = df['매수시간(분)'].apply(lambda x : x.time())
df['매수시간(분)'] = df['매수시간(분)'].apply(lambda x : x.hour*60 + x.minute)

df['주문일자'] = pd.to_datetime(df['주문일자'])
df['매수시간(초)'] = pd.to_datetime(df['매수시간'])
df['매수시간(초)'] = df['매수시간(초)'].apply(lambda x : x.time().second)

df['매수시간'] = pd.to_datetime(df['매수시간'])
df['최대거래대금 시간'] = pd.to_datetime(df['최대거래대금 시간'])
df['최대거래대금 시차(초)'] = df['매수시간'] - df['최대거래대금 시간']
df['최대거래대금 시차(초)'] = df['최대거래대금 시차(초)'].apply(lambda x : x.total_seconds())

df['수익률'] = df['수익률'].apply(lambda x : 1 if x > 0 else 0 )

X = df[['매매순서','최대거래대금','직전 거래대금','양봉개수','10이격도','20이격도','60이격도','매수등락률','시가등락률','매수시간(분)','매수시간(초)','분봉전고점','특징주','SEN','강세 토픽', '테마 리포트', '지정예고', '최대거래대금 시차(초)']]
y = df['수익률']

X = X.to_numpy()
y = y.to_numpy()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

In [114]:
model = Sequential()
model.add(Dense(8, input_dim=18, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(4, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(1, activation='sigmoid'))
optimizer = Adagrad(lr=0.1)

model.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['accuracy'])

In [115]:
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_34 (Dense)             (None, 8)                 152       
_________________________________________________________________
dropout_21 (Dropout)         (None, 8)                 0         
_________________________________________________________________
dense_35 (Dense)             (None, 4)                 36        
_________________________________________________________________
dropout_22 (Dropout)         (None, 4)                 0         
_________________________________________________________________
dense_36 (Dense)             (None, 1)                 5         
Total params: 193
Trainable params: 193
Non-trainable params: 0
_________________________________________________________________


In [116]:
model.fit(X_train, y_train, epochs=160, batch_size=40)

Epoch 1/160
Epoch 2/160
Epoch 3/160
Epoch 4/160
Epoch 5/160
Epoch 6/160
Epoch 7/160
Epoch 8/160
Epoch 9/160
Epoch 10/160
Epoch 11/160
Epoch 12/160
Epoch 13/160
Epoch 14/160
Epoch 15/160
Epoch 16/160
Epoch 17/160
Epoch 18/160
Epoch 19/160
Epoch 20/160
Epoch 21/160
Epoch 22/160
Epoch 23/160
Epoch 24/160
Epoch 25/160
Epoch 26/160
Epoch 27/160
Epoch 28/160
Epoch 29/160
Epoch 30/160
Epoch 31/160
Epoch 32/160
Epoch 33/160
Epoch 34/160
Epoch 35/160
Epoch 36/160
Epoch 37/160
Epoch 38/160
Epoch 39/160
Epoch 40/160
Epoch 41/160
Epoch 42/160
Epoch 43/160
Epoch 44/160
Epoch 45/160
Epoch 46/160
Epoch 47/160
Epoch 48/160
Epoch 49/160
Epoch 50/160
Epoch 51/160
Epoch 52/160
Epoch 53/160
Epoch 54/160
Epoch 55/160
Epoch 56/160
Epoch 57/160
Epoch 58/160
Epoch 59/160
Epoch 60/160
Epoch 61/160
Epoch 62/160
Epoch 63/160
Epoch 64/160
Epoch 65/160
Epoch 66/160
Epoch 67/160
Epoch 68/160
Epoch 69/160
Epoch 70/160
Epoch 71/160
Epoch 72/160
Epoch 73/160
Epoch 74/160
Epoch 75/160
Epoch 76/160
Epoch 77/160
Epoch 78

Epoch 85/160
Epoch 86/160
Epoch 87/160
Epoch 88/160
Epoch 89/160
Epoch 90/160
Epoch 91/160
Epoch 92/160
Epoch 93/160
Epoch 94/160
Epoch 95/160
Epoch 96/160
Epoch 97/160
Epoch 98/160
Epoch 99/160
Epoch 100/160
Epoch 101/160
Epoch 102/160
Epoch 103/160
Epoch 104/160
Epoch 105/160
Epoch 106/160
Epoch 107/160
Epoch 108/160
Epoch 109/160
Epoch 110/160
Epoch 111/160
Epoch 112/160
Epoch 113/160
Epoch 114/160
Epoch 115/160
Epoch 116/160
Epoch 117/160
Epoch 118/160
Epoch 119/160
Epoch 120/160
Epoch 121/160
Epoch 122/160
Epoch 123/160
Epoch 124/160
Epoch 125/160
Epoch 126/160
Epoch 127/160
Epoch 128/160
Epoch 129/160
Epoch 130/160
Epoch 131/160
Epoch 132/160
Epoch 133/160
Epoch 134/160
Epoch 135/160
Epoch 136/160
Epoch 137/160
Epoch 138/160
Epoch 139/160
Epoch 140/160
Epoch 141/160
Epoch 142/160
Epoch 143/160
Epoch 144/160
Epoch 145/160
Epoch 146/160
Epoch 147/160
Epoch 148/160
Epoch 149/160
Epoch 150/160
Epoch 151/160
Epoch 152/160
Epoch 153/160
Epoch 154/160
Epoch 155/160
Epoch 156/160
Epoch 1

<keras.callbacks.History at 0x1fd5795a4a8>

In [117]:
_, accuracy = model.evaluate(X_test, y_test)
print(accuracy)

0.7199999928474426


In [118]:
y_pred = model.predict(X_test)
confusion_matrix = metrics.confusion_matrix(y_test, np.rint(y_pred))
confusion_matrix

array([[31,  3],
       [11,  5]], dtype=int64)

# 한 쪽 방향으로만 맞추는 아주 단순한 모델의 정확도
34/50=0.68

In [119]:
len(y_test)

50

In [120]:
len(y_test[y_test == 1])

16

In [110]:
len(y_test[y_test == 0])

34

In [111]:
34/50

0.68