In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, f1_score
from sklearn.preprocessing import StandardScaler

data = pd.read_csv('mon.csv')

#Neural Networks

##데이터 정규화

In [6]:
X = data.drop(columns=['Label'])
y = data['Label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

정규화 안하면 accuacy 0.03 이렇게 나옴

##MLP

**1. MLP (Multi-Layer Perceptron)**
MLP는 주로 은닉층이 적은 신경망으로, 비교적 간단한 데이터나 구조에서 효율적이며, 과적합을 방지하면서도 좋은 성능을 낼 수 있습니다.

- 구조적 간결성: MLP는 일반적으로 1~2개의 은닉층을 사용하기 때문에, 데이터가 복잡하지 않거나 패턴이 명확한 경우 적합합니다. 이 데이터셋이 아주 고차원적이거나 복잡한 구조를 가지지 않았다면, 적은 수의 층과 뉴런만으로도 충분한 성능을 낼 수 있습니다.
- 모델 학습의 효율성: MLP는 구조가 단순해 학습 속도가 상대적으로 빠르며, 과적합 방지 기술(예: 정규화)만으로도 안정적인 성능을 낼 수 있습니다. 복잡한 신경망이 필요 없을 때 적은 자원으로 효율적인 성능을 낼 수 있습니다.
- 비교적 쉬운 튜닝: DNN에 비해 하이퍼파라미터 튜닝이 비교적 간단하여, 기본 모델로 빠르게 테스트하기에 좋습니다. 예를 들어 은닉층의 개수나 뉴런 수를 큰 조정 없이도 좋은 성능을 기대할 수 있습니다.

In [8]:
from sklearn.neural_network import MLPClassifier

# MLP 모델 정의 및 학습
mlp_model = MLPClassifier(hidden_layer_sizes=(128, 64), activation='relu', solver='adam', max_iter=500, random_state=42)
mlp_model.fit(X_train, y_train)

y_pred = mlp_model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
f1_weighted = f1_score(y_test, y_pred, average='weighted')  # weighted 방식으로 F1 점수 계산
classification_rep = classification_report(y_test, y_pred)

print("Accuracy:", accuracy)
print("Weighted F1 Score:", f1_weighted)
print("MLP 분류 보고서:\n", classification_report(y_test, y_pred))


Accuracy: 0.714561403508772
Weighted F1 Score: 0.7148283868216511
MLP 분류 보고서:
               precision    recall  f1-score   support

           0       0.50      0.48      0.49        62
           1       0.70      0.73      0.72        59
           2       0.73      0.93      0.82        55
           3       0.54      0.70      0.61        46
           4       0.66      0.79      0.72        53
           5       0.83      0.78      0.80        63
           6       0.73      0.88      0.80        65
           7       0.58      0.52      0.55        64
           8       0.81      0.58      0.67        59
           9       0.58      0.62      0.60        47
          10       0.70      0.67      0.68        66
          11       0.80      0.72      0.76        57
          12       0.85      0.68      0.75        59
          13       0.48      0.50      0.49        54
          14       0.69      0.66      0.67        58
          15       0.58      0.71      0.64        59
  



##DNN

**2. DNN (Deep Neural Network)**
DNN은 MLP보다 깊은 은닉층을 여러 개 사용하며, 더 복잡한 데이터나 패턴을 학습할 수 있는 모델입니다.

-  복잡한 데이터 패턴 학습: DNN은 다수의 은닉층을 사용하여 데이터 내에 존재할 수 있는 비선형적인 패턴을 잘 학습합니다. 예를 들어, 특성 간의 복잡한 상호작용이나 고차원적인 관계가 있을 때 DNN은 MLP보다 더 우수한 성능을 발휘할 수 있습니다.
- 특성 추출력 강화: DNN의 여러 층을 거치면서 데이터에서 **중요한 특징(feature)**들을 점진적으로 추출할 수 있습니다. 이는 데이터의 패턴이 간단하지 않고 복합적일 때, 층이 많아질수록 더 나은 예측 성능을 기대할 수 있다는 점에서 유리합니다.
- 과적합 방지 및 정규화 기법 활용: DNN은 드롭아웃(dropout), 배치 정규화(batch normalization) 등의 다양한 정규화 기법을 적용할 수 있어, 모델이 깊어질수록 발생할 수 있는 과적합 문제를 줄일 수 있습니다.
확장 가능성: DNN은 더 깊은 층과 다양한 뉴런 수로 확장할 수 있어, MLP로 충분한 성능을 얻지 못할 때 모델의 성능을 지속적으로 향상할 수 있는 여지가 많습니다.

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, BatchNormalization
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.utils import to_categorical
from sklearn.metrics import accuracy_score, classification_report
import numpy as np
from sklearn.metrics import accuracy_score, f1_score, classification_report

In [11]:
### 2. DNN 모델 학습 ###

#레이블 원-핫 인코딩 (Keras에서 필요)
num_classes = len(y.unique())
y_train_categorical = to_categorical(y_train, num_classes)
y_test_categorical = to_categorical(y_test, num_classes)

# DNN 모델 정의
dnn_model = Sequential([
    Dense(128, activation='relu', input_shape=(X_train.shape[1],)),
    BatchNormalization(),
    Dropout(0.3),
    Dense(64, activation='relu'),
    BatchNormalization(),
    Dropout(0.3),
    Dense(num_classes, activation='softmax')  # 다중 클래스 분류
])

# 모델 컴파일
dnn_model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 모델 학습
dnn_model.fit(X_train, y_train_categorical, epochs=100, batch_size=32, validation_split=0.2, verbose=1)

# 모델 평가
y_pred_proba = dnn_model.predict(X_test)  # 클래스 확률 예측
y_pred = y_pred_proba.argmax(axis=1)  # 확률이 가장 높은 클래스 선택

# 성능 평가
accuracy = accuracy_score(y_test, y_pred)
f1_weighted = f1_score(y_test, y_pred, average='weighted')
classification_rep = classification_report(y_test, y_pred)

# 결과 출력
print("Accuracy:", accuracy)
print("Weighted F1 Score:", f1_weighted)
print("Classification Report:\n", classification_rep)

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Epoch 1/100
[1m333/333[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 9ms/step - accuracy: 0.0574 - loss: 4.3958 - val_accuracy: 0.2090 - val_loss: 3.5559
Epoch 2/100
[1m333/333[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 6ms/step - accuracy: 0.1755 - loss: 3.4769 - val_accuracy: 0.2944 - val_loss: 3.0306
Epoch 3/100
[1m333/333[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 7ms/step - accuracy: 0.2203 - loss: 3.2087 - val_accuracy: 0.3538 - val_loss: 2.8047
Epoch 4/100
[1m333/333[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 6ms/step - accuracy: 0.2732 - loss: 3.0163 - val_accuracy: 0.3850 - val_loss: 2.6206
Epoch 5/100
[1m333/333[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - accuracy: 0.2840 - loss: 2.9048 - val_accuracy: 0.4086 - val_loss: 2.4889
Epoch 6/100
[1m333/333[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.3151 - loss: 2.7531 - val_accuracy: 0.4346 - val_loss: 2.3543
Epoch 7/100
[1m333/33