In [9]:
import numpy as np  # 넘파이 라이브러리를 가져옵니다. 수치 계산에 사용됩니다.
import pandas as pd  # 판다스 라이브러리를 가져옵니다. 데이터 조작 및 분석에 사용됩니다.
from sklearn.preprocessing import StandardScaler  # 데이터 전처리를 위해 StandardScaler를 가져옵니다. 특성 스케일링에 사용됩니다.
from sklearn.metrics import accuracy_score  # 모델의 정확도 평가를 위해 accuracy_score를 가져옵니다.
from sklearn.neural_network import MLPClassifier  # 사이킷런의 MLPClassifier를 가져옵니다. 다층 퍼셉트론(MLP) 분류 모델을 생성할


In [10]:
# 훈련 및 테스트 데이터 파일 경로 설정
train_data_path = 'training.dat'  # 훈련 데이터 파일 경로
test_data_path = 'testing.dat'    # 테스트 데이터 파일 경로

# 파일에서 데이터 로드
train_data = pd.read_csv(train_data_path, header=None, delim_whitespace=True)  # 훈련 데이터를 DataFrame으로 로드
test_data = pd.read_csv(test_data_path, header=None, delim_whitespace=True)    # 테스트 데이터를 DataFrame으로 로드

In [11]:
# 특성과 레이블 분리
X_train = train_data.iloc[:, :-1].values  # 훈련 데이터에서 마지막 열을 제외한 모든 열을 특성으로 설정
y_train = train_data.iloc[:, -1].values   # 훈련 데이터의 마지막 열을 레이블로 설정
X_test = test_data.iloc[:, :-1].values    # 테스트 데이터에서 마지막 열을 제외한 모든 열을 특성으로 설정
y_test = test_data.iloc[:, -1].values     # 테스트 데이터의 마지막 열을 레이블로 설정

# 데이터 표준화
scaler = StandardScaler()                 # StandardScaler 인스턴스 생성
X_train = scaler.fit_transform(X_train)   # 훈련 데이터를 표준화 (평균 0, 표준편차 1)
X_test = scaler.transform(X_test)         # 테스트 데이터를 같은 스케일로 표준화 (훈련 데이터 기준)

In [12]:
# 레이블을 정수 클래스로 매핑하는 함수 정의
def map_labels_to_classes(labels):
    classes = np.zeros_like(labels, dtype=int)  # 레이블과 같은 크기의 정수 배열 초기화
    classes[(labels >= 1.1) & (labels <= 2.0)] = 1  # 레이블이 1.1에서 2.0 사이인 경우 클래스를 1로 설정
    classes[(labels >= 2.1) & (labels <= 2.5)] = 2  # 레이블이 2.1에서 2.5 사이인 경우 클래스를 2로 설정
    return classes

# 훈련 및 테스트 데이터의 레이블을 정수 클래스로 매핑
y_train = map_labels_to_classes(y_train)
y_test = map_labels_to_classes(y_test)

# 다층 퍼셉트론 분류기 생성
mlp = MLPClassifier(hidden_layer_sizes=(100,), max_iter=1000, alpha=1e-4,
                    solver='sgd', verbose=10, random_state=1,
                    learning_rate_init=.1)  # 다층 퍼셉트론 분류기 설정: 한 개의 은닉층(100 노드), 최대 반복 횟수 1000, L2 규제 알파값 1e-4,
                                            # 확률적 경사 하강법(sgd) 솔버 사용, 학습 과정 출력, 난수 시드 1, 초기 학습률 0.1

In [13]:
# 모델 학습
mlp.fit(X_train, y_train)  # 훈련 데이터(X_train)와 해당 레이블(y_train)을 사용하여 MLP 분류기 모델 학습

Iteration 1, loss = 1.07347114
Iteration 2, loss = 0.93477345
Iteration 3, loss = 0.79294741
Iteration 4, loss = 0.67422556
Iteration 5, loss = 0.58524163
Iteration 6, loss = 0.52173701
Iteration 7, loss = 0.47554985
Iteration 8, loss = 0.44108871
Iteration 9, loss = 0.41511182
Iteration 10, loss = 0.39685742
Iteration 11, loss = 0.38466228
Iteration 12, loss = 0.37539426
Iteration 13, loss = 0.36675872
Iteration 14, loss = 0.35767273
Iteration 15, loss = 0.34860488
Iteration 16, loss = 0.34018997
Iteration 17, loss = 0.33308342
Iteration 18, loss = 0.32725128
Iteration 19, loss = 0.32227529
Iteration 20, loss = 0.31780498
Iteration 21, loss = 0.31357028
Iteration 22, loss = 0.30944995
Iteration 23, loss = 0.30545575
Iteration 24, loss = 0.30152281
Iteration 25, loss = 0.29772515
Iteration 26, loss = 0.29417138
Iteration 27, loss = 0.29074942
Iteration 28, loss = 0.28750643
Iteration 29, loss = 0.28446025
Iteration 30, loss = 0.28158982
Iteration 31, loss = 0.27885853
Iteration 32, los



In [14]:
# 테스트 세트 결과 예측
y_pred = mlp.predict(X_test)  # MLP 분류기를 사용하여 테스트 데이터(X_test)에 대한 예측 수행

In [15]:
# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)  # 실제 레이블(y_test)와 예측 레이블(y_pred)을 비교하여 정확도 계산
accuracy

0.8533333333333334