### Baseline model (Plus)에 있는 기능

- binary_load_dataset 메서드

데이터 비율 조정을 위한 파라미터 값을 기반으로 데이터를 로드하는 메서드로

주어진 binary_classification_data.csv 파일을 열고 데이터를 읽습니다. 데이터의 마지막 열에 종속 변수가 있으며, 해당 열의 값에 따라서 '1'인 pulsar 데이터와 '0'인 star 데이터를 각각 별도의 리스트에 저장합니다.

그 후, 실험에 사용될 데이터와 신경망의 입력 및 출력 크기를 전역 변수로 선언합니다. pulsar와 star 데이터는 하나의 변수 data에 그룹화됩니다. pulsar 데이터의 수를 star 데이터의 수에 맞추기 위해 데이터의 수를 조정할 수 있습니다.

adjust_ratio 매개변수가 True인 경우, pulsar 데이터의 비율을 증가시킵니다. pulsar 데이터와 star 데이터를 하나의 변수에 할당하고, 데이터의 크기는 star 데이터의 배수로 저장됩니다.

adjust_ratio 값이 True인 경우 star 데이터를 data 변수에 할당한 후, pulsar 데이터를 star 데이터의 수만큼 반복하여 추가합니다. 이를 위해 % 연산자를 사용하여 pulsar 데이터의 인덱스를 순차적으로 추출합니다.

adjust_ratio 값이 False인 경우, 기존 데이터를 그대로 data 변수에 할당합니다. star 데이터를 먼저 할당하고, 그 다음에 pulsar 데이터를 할당합니다.

### 데이터 불러오기

In [1]:
import time
import tensorflow as tf
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from keras.callbacks import EarlyStopping
from sklearn.preprocessing import StandardScaler
from keras.layers import BatchNormalization
from keras.layers import Dropout
from imblearn.over_sampling import SMOTE
from sklearn.metrics import f1_score, roc_auc_score, precision_score, recall_score

### 데이터 불균형 처리
- 데이터 처리

1. oversampling :

   SMOTE, ADASYN

2. undersampling

- 평가지표 처리

1. accurcacy :

   대부분의 예측이 다수 클래스에 속하게 되어 별로

2. F1-score :

   Baseline model에서 사용한 평가지표로 불균형한 데이터에서 평가지표로 사용

- 모델 구현시 처리

1. 클래스 가중치 설정 :

   소수 클래스에 더 큰 가중치 부여


In [2]:
# 새로운 데이터 (EDA)과정 진행 후 데이터
X_train_smote = pd.read_csv('csv/Binary_to_share/Binary_to_share/Normal+Standard/X_train_NS_smote.csv')
X_train_adasyn = pd.read_csv('csv/Binary_to_share/Binary_to_share/Normal+Standard/X_train_NS_adasyn.csv')
X_test = pd.read_csv('csv/Binary_to_share/Binary_to_share/Normal+Standard/X_test_NS.csv')
X_val = pd.read_csv('csv/Binary_to_share/Binary_to_share/Normal+Standard/X_val_NS.csv')
y_train_smote = pd.read_csv('csv/Binary_to_share/Binary_to_share/Normal+Standard/y_train_NS_smote.csv')
y_train_adasyn = pd.read_csv('csv/Binary_to_share/Binary_to_share/Normal+Standard/y_train_NS_adasyn.csv')
y_test = pd.read_csv('csv/Binary_to_share/Binary_to_share/Normal+Standard/y_test.csv')
y_val = pd.read_csv('csv/Binary_to_share/Binary_to_share/Normal+Standard/y_val.csv')

In [3]:
# 클래스 가중치 계산
class_weight1 = {0: 1., 1: (len(y_train_smote) / y_train_smote['target_class'].sum())}
class_weight2 = {0: 1., 1: (len(y_train_adasyn) / y_train_adasyn['target_class'].sum())}

### 모델 구현 
- 최적의 파라미터를 반복문을 통해 찾기

- 이진 분류 모델에서는 대표적으로 Adam optimizer를 사용하는 것이 일반적입니다. 다른 optimizer로는 SGD, RMSprop 등이 있으며, 이들 중에서도 데이터셋의 크기와 모델의 복잡도에 따라 적합한 optimizer를 선택해야 합니다. 하지만 대체로 Adam optimizer가 다른 optimizer보다 성능이 좋은 편입니다.

- 모델에 배치 정규화 레이어를 추가하면 모델이 더 안정적으로 수렴할 수 있습니다. 

In [5]:
# 복습한 내용으로 추가적인 진행 - adam 사용, adasyn
def custom_opt(n):
    opt = tf.keras.optimizers.Adam(learning_rate=n)
    return opt


# 변수 리스트 생성
act_func = ['relu', 'tanh', 'sigmoid', 'elu']
batch_lst =[32, 64, 128, 256]
best_accuracy = 0.0
best_hyperparams = {}
lr_lst = [0.009, 0.006, 0.003, 0.001, 0.0005]
best_time = 11111.0
time_hyper = {}

train_lst = [X_train_adasyn, X_train_smote]

best_metric = 0.0
metric_hyper = {}


# dropout, 배치 정규화 추가
# 모델 구현
for func in act_func:
    for i in lr_lst:
        for batch in batch_lst:
            metrics_lst = []

            # model구현
            model = Sequential()
            model.add(Dense(256, activation=func, input_shape=(X_train_adasyn.shape[1],)))
            model.add(BatchNormalization()) # 배치 정규화 추가
            model.add(Dropout(0.2))  # Dropout 추가
            model.add(Dense(128, activation=func))
            model.add(BatchNormalization()) # 배치 정규화 추가
            model.add(Dropout(0.2))  # Dropout 추가              
            model.add(Dense(64, activation=func))
            model.add(Dense(32, activation=func))
            model.add(Dense(16, activation=func))
            model.add(Dense(8, activation=func))
            model.add(Dense(8, activation=func))
            model.add(Dense(1, activation=func))

            # 모델 컴파일
            model.compile(optimizer=custom_opt(i), loss='binary_crossentropy', metrics=['accuracy'])

            # Early stopping 기능 추가
            early_stopping = EarlyStopping(patience=10, monitor='val_accuracy')
            start_time = time.time()

            # 모델 학습
           
            model.fit(X_train_adasyn, y_train_adasyn, epochs=1000, batch_size=batch, validation_data=(X_val, y_val), callbacks=[early_stopping], class_weight=class_weight2)
            tmp = class_weight2
            

            end_time = time.time()
            long_time = end_time - start_time
            if long_time < best_time:
                best_time = long_time
                time_hyper = {'activation': func, 'learning_rate': i, 'X_train': tmp, 'batch': batch}


            # 모델 평가
            y_pred = model.predict(X_val)
            y_pred_binary = [1 if pred > 0.5 else 0 for pred in y_pred]
            metrics_lst.append(f1_score(y_val, y_pred_binary))
            metrics_lst.append(precision_score(y_val, y_pred_binary))
            metrics_lst.append(recall_score(y_val, y_pred_binary))
            mean_met = np.mean(metrics_lst)

            if mean_met > best_metric:
                best_metric = mean_met
                metric_hyper = {'activation': func, 'learning_rate': i, 'X_train': tmp, 'batch': batch}

            loss, acc = model.evaluate(X_val, y_val, verbose = 2)

            if acc > best_accuracy:
                best_accuracy = acc
                best_hyperparams = {'activation': func, 'learning_rate': i, 'X_train': tmp, 'batch': batch}

print('Best hyperparameters:', best_hyperparams)
print('Best validation accuracy:', best_accuracy)
print('Best time:', best_time)
print('Best time_hyperparams:', time_hyper)
print('Best metric:', best_metric)
print('Best metric_hyperparams:', metric_hyper)


Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000
Epoch 17/1000
Epoch 18/1000
Epoch 19/1000
85/85 - 0s - loss: 0.8000 - accuracy: 0.4544 - 151ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000
Epoch 17/1000
Epoch 18/1000
85/85 - 0s - loss: 0.9366 - accuracy: 0.8687 - 216ms/epoch - 3ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000


  _warn_prf(average, modifier, msg_start, len(result))


85/85 - 0s - loss: 1.4801 - accuracy: 0.9040 - 206ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
85/85 - 0s - loss: 0.6011 - accuracy: 0.7221 - 235ms/epoch - 3ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
85/85 - 0s - loss: 1.0613 - accuracy: 0.0960 - 164ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
85/85 - 0s - loss: 0.6792 - accuracy: 0.6493 - 271ms/epoch - 3ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
85/85 - 0s - loss: 0.4860 - accuracy: 0.7783 - 235ms/epoch - 3ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoc

  _warn_prf(average, modifier, msg_start, len(result))


85/85 - 0s - loss: 1.4801 - accuracy: 0.9040 - 186ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
85/85 - 0s - loss: 0.6034 - accuracy: 0.7121 - 151ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
85/85 - 0s - loss: 0.6517 - accuracy: 0.7353 - 185ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
85/85 - 0s - loss: 0.6885 - accuracy: 0.7305 - 176ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
85/85 - 0s - loss: 0.6551 - accuracy: 0.7588 - 212ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoc

  _warn_prf(average, modifier, msg_start, len(result))


85/85 - 0s - loss: 1.4801 - accuracy: 0.9040 - 201ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
85/85 - 0s - loss: 13.7860 - accuracy: 0.0960 - 327ms/epoch - 4ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000
Epoch 17/1000
Epoch 18/1000
Epoch 19/1000
Epoch 20/1000
Epoch 21/1000
Epoch 22/1000
85/85 - 0s - loss: 0.9712 - accuracy: 0.6033 - 309ms/epoch - 4ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
85/85 - 0s - loss: 3.1827 - accuracy: 0.7901 - 300ms/epoch - 4ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/100

In [6]:
# 복습한 내용으로 추가적인 진행 - adam 사용, smote
def custom_opt(n):
    opt = tf.keras.optimizers.Adam(learning_rate=n)
    return opt


# 변수 리스트 생성
act_func = ['relu', 'tanh', 'sigmoid', 'elu']
batch_lst =[32, 64, 128, 256]
best_accuracy = 0.0
best_hyperparams = {}
lr_lst = [0.009, 0.006, 0.003, 0.001, 0.0005]
best_time = 11111.0
time_hyper = {}


best_metric = 0.0
metric_hyper = {}


# dropout, 배치 정규화 추가
# 모델 구현
for func in act_func:
    for i in lr_lst:
        for batch in batch_lst:
            metrics_lst = []

            # model구현
            model = Sequential()
            model.add(Dense(256, activation=func, input_shape=(X_train_smote.shape[1],)))
            model.add(BatchNormalization()) # 배치 정규화 추가
            model.add(Dropout(0.2))  # Dropout 추가
            model.add(Dense(128, activation=func))
            model.add(BatchNormalization()) # 배치 정규화 추가
            model.add(Dropout(0.2))  # Dropout 추가              
            model.add(Dense(64, activation=func))
            model.add(Dense(32, activation=func))
            model.add(Dense(16, activation=func))
            model.add(Dense(8, activation=func))
            model.add(Dense(8, activation=func))
            model.add(Dense(1, activation=func))

            # 모델 컴파일
            model.compile(optimizer=custom_opt(i), loss='binary_crossentropy', metrics=['accuracy'])

            # Early stopping 기능 추가
            early_stopping = EarlyStopping(patience=10, monitor='val_accuracy')
            start_time = time.time()

        
            model.fit(X_train_smote, y_train_smote, epochs=1000, batch_size=batch, validation_data=(X_val, y_val), callbacks=[early_stopping], class_weight=class_weight1)
            tmp = class_weight1
         


            end_time = time.time()
            long_time = end_time - start_time
            if long_time < best_time:
                best_time = long_time
                time_hyper = {'activation': func, 'learning_rate': i, 'X_train': tmp, 'batch': batch}


            # 모델 평가
            y_pred = model.predict(X_val)
            y_pred_binary = [1 if pred > 0.5 else 0 for pred in y_pred]
            metrics_lst.append(f1_score(y_val, y_pred_binary))
            metrics_lst.append(precision_score(y_val, y_pred_binary))
            metrics_lst.append(recall_score(y_val, y_pred_binary))
            mean_met = np.mean(metrics_lst)

            if mean_met > best_metric:
                best_metric = mean_met
                metric_hyper = {'activation': func, 'learning_rate': i, 'X_train': tmp, 'batch': batch}

            loss, acc = model.evaluate(X_val, y_val, verbose = 2)

            if acc > best_accuracy:
                best_accuracy = acc
                best_hyperparams = {'activation': func, 'learning_rate': i, 'X_train': tmp, 'batch': batch}

print('Best hyperparameters:', best_hyperparams)
print('Best validation accuracy:', best_accuracy)
print('Best time:', best_time)
print('Best time_hyperparams:', time_hyper)
print('Best metric:', best_metric)
print('Best metric_hyperparams:', metric_hyper)


Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
85/85 - 0s - loss: 1.9955 - accuracy: 0.8710 - 158ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000
Epoch 17/1000
Epoch 18/1000
Epoch 19/1000
Epoch 20/1000
Epoch 21/1000
Epoch 22/1000
Epoch 23/1000
Epoch 24/1000
Epoch 25/1000
Epoch 26/1000
Epoch 27/1000
85/85 - 0s - loss: 0.6969 - accuracy: 0.9540 - 216ms/epoch - 3ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000
Epoch 17/1000
Epoch 18/1000
Epoch 19/1000
Epoch 20/1000
Epoch 21/1000
Epoch 22/1000
Epoch 23/1000
Epoch 24/1000
Epoch

  _warn_prf(average, modifier, msg_start, len(result))


85/85 - 0s - loss: 1.4801 - accuracy: 0.9040 - 162ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000


  _warn_prf(average, modifier, msg_start, len(result))


85/85 - 0s - loss: 1.4801 - accuracy: 0.9040 - 174ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000
Epoch 17/1000
Epoch 18/1000
Epoch 19/1000
Epoch 20/1000
Epoch 21/1000
Epoch 22/1000
Epoch 23/1000
Epoch 24/1000
Epoch 25/1000
Epoch 26/1000
Epoch 27/1000
Epoch 28/1000
Epoch 29/1000
Epoch 30/1000
Epoch 31/1000
Epoch 32/1000
Epoch 33/1000
Epoch 34/1000
Epoch 35/1000
Epoch 36/1000
Epoch 37/1000
Epoch 38/1000
Epoch 39/1000
Epoch 40/1000
Epoch 41/1000
Epoch 42/1000
Epoch 43/1000
Epoch 44/1000
85/85 - 0s - loss: 0.5288 - accuracy: 0.9335 - 165ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
85/85 - 0s - loss: 0.2367 - accuracy: 0.9669 - 145ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000

  _warn_prf(average, modifier, msg_start, len(result))


85/85 - 0s - loss: 1.4801 - accuracy: 0.9040 - 172ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
85/85 - 0s - loss: 0.2993 - accuracy: 0.9445 - 159ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
85/85 - 0s - loss: 0.2787 - accuracy: 0.9364 - 158ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000
Epoch 17/1000
Epoch 18/1000
Epoch 19/1000
Epoch 20/1000
Epoch 21/1000
85/85 - 0s - loss: 0.2720 - accuracy: 0.9518 - 155ms/epoch - 2ms/step
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
