### 신경망 모델을 활용한 이진 분류

### 학습 내용 
 * 데이터의 사전 준비
 * 신경망 모델의 구현
 * 신경망 모델의 학습
 * Early Stopping을 적용한 신경망 모델의 학습

In [1]:
import numpy as np
import pandas as pd

# train_x는 학습 데이터, train_y는 목적 변수, test_x는 테스트 데이터
# pandas의 DataFrame, Series로 유지합니다.(numpy의 array로 유지하기도 합니다)
# one-hot encoding된 것을 읽어오기

train = pd.read_csv('../input/sample-data/train_preprocessed_onehot.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('../input/sample-data/test_preprocessed_onehot.csv')

In [2]:
train_x.shape, train_y.shape, test_x.shape

((10000, 59), (10000,), (10000, 59))

### 데이터 나누기

In [3]:
# 학습 데이터를 학습 데이터와 검증 데이터로 나눕니다.
from sklearn.model_selection import KFold

kf = KFold(n_splits=4, shuffle=True, random_state=71)
tr_idx, va_idx = list(kf.split(train_x))[0]
tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

In [4]:
tr_x.shape, va_x.shape, tr_y.shape, va_y.shape

((7500, 59), (2500, 59), (7500,), (2500,))

```
# tensorflow의 경고 억제
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '1'
import tensorflow as tf
tf.compat.v1.logging.set_verbosity(tf.compat.v1.logging.ERROR)
```

```
TensorFlow 2.x 버전부터는 tf.compat.v1.logging 모듈이 없어졌으며, 대신 Python의 logging 모듈을 사용하여 경고를 억제
이 코드는 TensorFlow의 경고를 억제하기 위해 os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'를 설정합니다. 이 설정은 TensorFlow에서 출력하는 로그 메시지의 레벨을 변경하는 것입니다. '2'로 설정하면 INFO 레벨의 로그 메시지는 출력되지 않고, 경고 메시지만 억제
```

In [5]:
import os
import logging
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
logging.getLogger('tensorflow').setLevel(logging.ERROR)

In [7]:
# -----------------------------------
# 신경망의 구현
# -----------------------------------
from keras.layers import Dense, Dropout
from keras.models import Sequential
from sklearn.metrics import log_loss
from sklearn.preprocessing import StandardScaler

In [8]:
# 데이터 스케일링
scaler = StandardScaler()
tr_x = scaler.fit_transform(tr_x)
va_x = scaler.transform(va_x)
test_x = scaler.transform(test_x)

# 신경망 모델 구축
model = Sequential()
model.add(Dense(256, activation='relu', input_shape=(train_x.shape[1],)))
model.add(Dropout(0.2))
model.add(Dense(256, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(1, activation='sigmoid'))
model.summary()  # 23/06 추가

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 256)               15360     
                                                                 
 dropout (Dropout)           (None, 256)               0         
                                                                 
 dense_1 (Dense)             (None, 256)               65792     
                                                                 
 dropout_1 (Dropout)         (None, 256)               0         
                                                                 
 dense_2 (Dense)             (None, 1)                 257       
                                                                 
Total params: 81,409
Trainable params: 81,409
Non-trainable params: 0
_________________________________________________________________


### 신경망 모델의 구현 및 학습

In [9]:
model.compile(loss='binary_crossentropy', 
              optimizer='adam', metrics=['accuracy'])

# 학습의 실행
# 검증 데이터도 모델에 제공하여 학습 진행과 함께 점수가 어떻게 달라지는지 모니터링
batch_size = 128
epochs = 10
history = model.fit(tr_x, tr_y,
                    batch_size=batch_size, epochs=epochs,
                    verbose=1, validation_data=(va_x, va_y))

# 검증 데이터의 점수를 확인
va_pred = model.predict(va_x)
score = log_loss(va_y, va_pred, eps=1e-7)
print(f'logloss: {score:.4f}')

# 예측
pred = model.predict(test_x)
pred[0:10]

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
logloss: 0.2854


array([[7.6245654e-01],
       [6.3832283e-02],
       [8.8009369e-03],
       [3.7750293e-04],
       [1.6229979e-03],
       [1.0890779e-01],
       [5.0249416e-01],
       [5.7870322e-01],
       [6.1341643e-01],
       [6.7704946e-02]], dtype=float32)

### Early Stopping을 적용한 신경망 모델의 학습

In [10]:
# -----------------------------------
# early stopping
# -----------------------------------
from keras.callbacks import EarlyStopping

# early stopping의 round를 20으로 설정
# restore_best_weights을 설정하므로 최적의 압축 모델을 사용
epochs = 50
early_stopping = EarlyStopping(monitor='val_loss', patience=20, restore_best_weights=True)

history = model.fit(tr_x, tr_y,
                    batch_size=batch_size, epochs=epochs,
                    verbose=1, validation_data=(va_x, va_y), 
                    callbacks=[early_stopping])

pred = model.predict(test_x)
pred[0:10]

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50


array([[8.1061959e-01],
       [3.7775788e-02],
       [4.9157324e-03],
       [4.6264890e-05],
       [9.2667971e-05],
       [1.0623911e-01],
       [4.9746808e-01],
       [3.2566047e-01],
       [4.6828613e-01],
       [6.1984509e-02]], dtype=float32)