# **성능평가**
학습이 완료되면 모델의 성능을 평가하여 모델이 좋은지 나쁜지 확인해야 한다. 모델의 성능을 평가하기 위한 기준은 몇 가지가 있다.

### **정확도(Accuracy)**
정확도(accuracy)는 가장 많이 사용되는 성능 평가 기준이다.

`정확도 = (올바르게 분류한 샘플 수) / (전체 샘플 수)`

정확도는 가장 많이 사용되지만 절대적인 것은 아니며, 한 클래스가 다른 클래스에 비해 항상 월등하게 많다면 문제가 된다.

### **혼동 행렬(Confusion Matrix)** -> 2 * 2 도표 추가!!
혼동 행렬(Confusion Matrix)은 모델이 예측을 하면서 얼마나 혼동하고 있는지를 나타내는 행렬이다.

혼동 행렬을 알기 위해 필요한 네 가지 개념이 있다.
- TP(True Positive) - 긍정을 긍정으로 올바르게 예측한 것
- FN(False Negative) - 긍정을 부정으로 잘못 예측한 것
- FP(False Positive) - 부정을 긍정으로 잘못 예측한 것
- TN(True Negative) - 부정을 부정으로 올바르게 예측한 것

혼동 행렬 표로부터 모델의 성능을 측정하는 4가지 지표가 있다.
1. `정확도(Accuracy) = (TP + TN) / (TP + FN + FP + TN)`
2. `재현도(Recall) = (TP) / (TP + FN)`
3. `정밀도(Precision) = (TP) / (TP + FP)`
4. `F1 score = 2 / {(1 / Recall) + (1 / Precision)} = 2 * (Recall * Precision) / (Recall + Precision)`

예를 들어, 관심 범주가 질병이 있는 환자라면, 정확도는 전체 중에서 환자를 환자로, 정상인을 정상인으로 진단한 비율이다. 

재현도는 실제 질병이 있는 사람을 환자라고 진단한 비율이다. 정밀도는 질병이 있다고 진단한 사람 중 실제 환자의 비율이다. 

F1 score는 재현도와 정밀도의 성능을 동시에 고려하기 위해 사용하는 지표이다. 재현도와 정밀도의 조화 평균이며, 0과 1 사이의 값을 가지며 1에 가까울수록 성능이 좋음을 나타낸다.

우리가 사용할 지표는 F1 score인데, 이 지표는 클래스 간 데이터의 불균형이 심할 때 유용하다. 우리가 사용할 데이터는 클래스 간 불균형이 심하기 때문에 이 지표를 사용한다.

다음 예시를 통해 Recall과 Precision을 이용해서 F1_score를 계산해보고, 이를 f1_score 함수로 계산한 값과 비교해보자.

Recall, Precision, F1_score를 계산하는 함수를 사용하기 위해 sckit-learn 모듈의 metrics 클래스에서 recall_score, precision_score, f1_score 함수를 import한다.

In [1]:
from sklearn.metrics import (
	recall_score,
	precision_score,
	f1_score
)

In [2]:
y_true = [0, 1, 1, 0, 1, 0, 0, 1, 0]
y_predict = [0, 1, 1, 0, 1, 1, 0, 1, 1]

rec_score = recall_score(y_true, y_predict)
print("recall score:", rec_score)
prec_score = precision_score(y_true, y_predict)
print("precision score:", prec_score)

my_f1_score = 2 * (rec_score * prec_score) / (rec_score + prec_score)
print("my_f1_score:", my_f1_score)
print("f1_score:",f1_score(y_true, y_predict))

recall score: 1.0
precision score: 0.6666666666666666
my_f1_score: 0.8
f1_score: 0.8


## **Train/Test 관련**
모델의 성능을 평가하기 위해 데이터를 두 부분으로 나눠야 한다. 

데이터의 일부는 모델의 학습에 사용되고 이를 훈련(train) 데이터라고 한다. 데이터의 나머지 부분은 훈련된 모델의 성능을 평가하는 데 사용되고 이를 테스트(test) 데이터라고 한다.

이렇게 데이터를 두 부분으로 나눠서 훈련에 사용되지 않은 데이터로 평가를 하는 이유는 모델이 과적합이 되지 않고 일반화 되었는지 평가하기 위함이다. 

과적합(overfitting)이란 훈련 데이터에 너무 많이 학습되어 훈련 데이터에 대해서는 높은 성능을 보이지만, 새로운 데이터에 대해서는 성능이 저하되는 현상을 의미한다. 

즉, 훈련 데이터에 대해서 과하게 학습되지 않고 일반화된 성능을 평가하기 위해 데이터를 두 부분으로 나누어 사용한다.

## **Cross Validation**
교차 검증(Cross Validation)이란 모델을 학습시킬 때 훈련 데이터를 또 다시 훈련 데이터와 검증(validation) 데이터로 나누어 훈련 데이터로 학습한 후, 검증 데이터를 통해 모델의 성능을 평가하는 방법이다.

교차 검증의 장점은 특정 데이터에 대한 과적합을 방지하고, 일반화된 모델을 만들 수 있게 해주는 것 등이 있다.

교차 검증의 단점은 모델에 대한 훈련 및 평가에 소요되는 시간이 증가한다는 점이다.

### **K-fold Cross Validation(K-fold 사진 추가)**
K-fold Cross Validation은 모델의 성능을 평가하는 기법 중 하나로, 데이터를 K개의 fold로 나누고 K번의 실험을 통해 모델의 성능을 평가한다.

각 실험에서 하나의 fold를 테스트 데이터로 사용하고, 나머지 K-1개의 fold를 훈련 데이터로 사용한다.

테스트 데이터로 사용할 fold를 바꿔가며 총 K번 실험을 진행하여 얻은 성능 지표의 평균을 최종 성능 지표로 사용한다.

K-fold Cross Validation을 사용하면 데이터가 적더라도 신뢰성을 확보할 수 있다.

다음은 K-fold Cross Validation을 하는 예시이다.

K-fold CV의 실습을 하기 전에 여기서 사용할 데이터에 대해 알아보자.

이번 예시에서 사용할 데이터는 tox21 데이터이다.

tox21 데이터는 총 166개의 속성(maccs_1, ..., maccs166)과 1개의 라벨(NR-AR)으로 구성되어 있다.

In [3]:
# 표 형식의 데이터 등 다양한 데이터를 쉽게 다룰 수 있도록(데이터 결합 등) 해주는 모듈
import pandas as pd

import numpy as np

### **Data 불러오기**

In [54]:
# 사용할 데이터가 들어있는 폴더
folder = '../chem2401/0.Data'
# 사용할 데이터의 파일명
train_data_file = 'tox21_train.csv'
# /chem2401/Data/tox21_dataset.csv과 같이 파일 경로로 만듦
train_file_path = f'{folder}/{train_data_file}'

# 파일 경로에 해당하는 csv 파일 불러오기
# csv 파일이란 comma-separated values로, 쉼표로 구분된 데이터 파일임
df = pd.read_csv(train_file_path)
print(df.shape)

(11130, 167)


In [55]:
# data에서 feature 부분과 label 부분 분리
feature = df.iloc[:, :166]
label = df.iloc[:, 166]

In [49]:
# Import

# 범주형 변수 예측에 사용되는 모델 중 하나
# 분류 문제(0인지 1인지 분류처럼)에 사용되는 기계학습 알고리즘 중 하나
# 현재 예시에서 사용할 모델
from sklearn.linear_model import LogisticRegression

# scikit-learn에서 제공하는 K-Fold
from sklearn.model_selection import KFold

In [50]:
# ================My K-fold================

# k-fold에서 데이터를 몇 개의 fold로 나눌 지 정함
k = 5

# feature의 데이터 개수를 저장
size = len(feature)

# feature를 k개의 fold로 나누기 위해 몇 개의 데이터 단위로 끊어야 하는 지 계산
fold_size = (int)(size / k)

# 각 실험에 대한 accuracy를 저장하기 위한 배열
accuracies = np.empty(k)

# fold 개수만큼 실험 반복
for i in range(k):
	# [arange 함수 참고]
	# numpy 모듈의 arange 함수는 인자로 들어온 범위만큼의 등차수열 배열을 반환
	# 사용 -> np.arange(start, end, step) (start와 step을 지정해주지 않으면 각각 0, 1이 기본값으로 적용)
	# ex. np.arange(0, 10, 1) -> [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
	# ex. np.arange(10) -> [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

	# [concatenate 함수 참고]
	# numpy 모듈의 concatenate 함수는 인자로 들어온 배열을 합쳐서 새로운 배열을 반환
	# ex. np.concatenate((np.array([1, 2, 3]), np.array([4, 5, 6]))) -> [1, 2, 3, 4, 5, 6]

	# 분할할 test data & train data의 index 저장
		# feature 중에서 test data로 사용할 부분의 index 저장
		# 즉, test data로 사용할 fold의 index를 저장
	test_indexs = np.arange(i * fold_size, (i + 1) * fold_size)
		# test data로 사용할 부분을 제외한 부분의 index를 합쳐서 저장
		# train data로 사용할 부분의 index임
	train_indexs = np.concatenate((np.arange(i * fold_size), np.arange((i + 1) * fold_size, size)))

	# test data & train data 생성
	# X 중에서 위에서 지정한 index에 해당하는 값을 train과 test에 나누어 저장
	feature_test = feature.iloc[test_indexs]
	label_test = label.iloc[test_indexs]
	feature_train = feature.iloc[train_indexs]
	label_train = label.iloc[train_indexs]

	# 사용할 모델 지정(Logistic Regression 모델 사용)
	model = LogisticRegression()

	# 모델에 학습
	model.fit(feature_train, label_train)

	# 매 실험마다 계산한 정확도를 accuracies 배열에 하나씩 저장
	# feature_test의 test data에 대해 위에서 학습한 모델이 추측한 결과와 실제 정답인 label_test를 비교하여 accuracy 계산
	accuracies[i] = model.score(feature_test, label_test)

# 위에서 계산한 전체 accuracy 출력
print("My K-fold Accuracies:", accuracies)

# 모든 accuracy의 평균을 계산하여 최종 accuracy 출력
print("My K-fold Mean Accuracy:", accuracies.mean())

My K-fold Accuracies: [0.82659479 0.82749326 0.89218329 0.84141959 0.83468104]
My K-fold Mean Accuracy: 0.8444743935309973


In [None]:
# ================Scikit K-fold================

In [51]:
# [방법 1]

# k-fold에서 데이터를 몇 개의 fold로 나눌 지 정함
k = 5

# k개의 fold로 cross validation하는 K-Fold 객체 생성
kfold = KFold(n_splits = k)

# 사용할 모델 지정(Logistic Regression 모델 사용)
model = LogisticRegression()

# 각 실험에 대한 accuracy를 저장하기 위한 배열
accuracies = np.empty(k)

# k번 만큼 실험을 반복하며, 매 회차마다의 train 데이터를 다시 train과 validation data 범위의 index를 각각 train_index와 test_index에 저장
for train_index, test_index in kfold.split(feature, label):
	# index 범위 출력해서 확인
	print(train_index, test_index)
	
	# train data & test data 생성
	# feature 중에서 위에서 지정한 index에 해당하는 값을 train과 test 나누어 저장
	feature_train, feature_test = feature.iloc[train_index], feature.iloc[test_index]
	label_train, label_test = label.iloc[train_index], label.iloc[test_index]

	# 모델에 학습
	model.fit(feature_train, label_train)

	# 매 실험마다 계산한 정확도를 accuracies 배열에 하나씩 저장
	# X_test의 test data에 대해 위에서 학습한 모델이 추측한 결과와 실제 정답인 y_test를 비교하여 accuracy 계산
	accuracies[i] = model.score(feature_test, label_test)


# 위에서 계산한 전체 accuracy 출력
print("Scikit-learn K-fold Accuracies:", accuracies)

# 모든 accuracy의 평균을 계산하여 최종 accuracy 출력
print("Scikit-learn K-fold Mean Accuracy:", accuracies.mean())

[ 2226  2227  2228 ... 11127 11128 11129] [   0    1    2 ... 2223 2224 2225]
[    0     1     2 ... 11127 11128 11129] [2226 2227 2228 ... 4449 4450 4451]
[    0     1     2 ... 11127 11128 11129] [4452 4453 4454 ... 6675 6676 6677]
[    0     1     2 ... 11127 11128 11129] [6678 6679 6680 ... 8901 8902 8903]
[   0    1    2 ... 8901 8902 8903] [ 8904  8905  8906 ... 11127 11128 11129]
Scikit-learn K-fold Accuracies: [0.82659479 0.82749326 0.89218329 0.84141959 0.83468104]
Scikit-learn K-fold Mean Accuracy: 0.8444743935309973


In [52]:
# [방법 2]

# cross validation에서 score를 계산하는 함수
from sklearn.model_selection import cross_val_score

# k-fold에서 데이터를 몇 개의 fold로 나눌 지 정함
k = 5

# k개의 fold로 cross validation하는 K-Fold 객체 생성
kfold = KFold(n_splits = k)

# 사용할 모델 지정(Logistic Regression 모델 사용)
model = LogisticRegression()

# 사용할 model, X, y, 사용할 cross validation 객체로 cross validation 했을 때의 accuracy 배열을 results에 저장
results = cross_val_score(model, feature, label, cv = kfold)

# 전체 accuracy 출력
print("Scikit-Learn K-fold Accuracies:", results)

# 모든 accuracy의 평균을 계산하여 최종 accuracy 출력
print("Scikit-Learn K-fold Mean Accuracy:", results.mean())

Scikit-Learn K-fold Accuracies: [0.82659479 0.82749326 0.89218329 0.84141959 0.83468104]
Scikit-Learn K-fold Mean Accuracy: 0.8444743935309973


위와 같이 K-fold CV를 직접 구현한 결과와 Scikit-Learn의 K-fold를 사용한 결과 모두 동일함을 알 수 있다.


하지만, 데이터가 불균형한 경우 K-fold는 효과적이지 않을 수 있다.

예를 들어, true가 100000개 있고 false가 50개라고 했을 때, K-fold를 적용하게 된다면 false가 없는 부분만 학습을 하고 false를 분류할 수 없는 상황이 발생할 수 있다.

이와 같이, 데이터가 불균형한 경우에 사용할 수 있는 방법이 Stratified K-fold Cross Validation이다.

이러한 K-fold Cross Validation의 문제를 해결하기 위해 Stratified K-fold Cross Validation을 배워보자.

### **Stratified K-fold Cross Validation**

Stratified K-fold Cross Validation이란 K-fold CV의 target의 비율을 균일하게 유지 못한다는 문제점을 해결하여 target의 비율을 균일하게 해주는 방식이다.

우리가 추후 사용할 데이터는 불균형 데이터이기 때문에 Stratified K-fold Cross Validation을 사용할 예정이다.

In [57]:
# Stratified K-Fold
from sklearn.model_selection import StratifiedKFold

# k-fold에서 데이터를 몇 개의 fold로 나눌 지 정함
k = 5

# k개의 fold로 cross validation하는 Stratified K-Fold 객체 생성
strkfold = StratifiedKFold(n_splits = k)

# 사용할 모델 지정(Logistic Regression 모델 사용)
model = LogisticRegression(max_iter=1000)

# 각 실험에 대한 accuracy를 저장하기 위한 배열
accuracies = np.empty(k)

# 반복문이 돌아가면서 accuracies 배열에 값을 저장하기 위한 index 변수
i = 0

# k번 만큼 실험을 반복하며, 매 회차마다의 train과 test data 범위의 index를 각각 train_index와 test_index에 저장
for train_index, test_index in strkfold.split(feature, label):
	# test data & train data 생성
	# X 중에서 위에서 지정한 index에 해당하는 값을 train과 test에 나누어 저장
	feature_train, feature_test = feature.iloc[train_index], feature.iloc[test_index]
	label_train, label_test = label.iloc[train_index], label.iloc[test_index]

	# 모델에 학습
	model.fit(feature_train, label_train)

	# 매 실험마다 계산한 정확도를 accuracies 배열에 하나씩 저장
	# X_test의 test data에 대해 위에서 학습한 모델이 추측한 결과와 실제 정답인 y_test를 비교하여 accuracy 계산
	accuracies[i] = model.score(feature_test, label_test)
	
	i = i + 1


# 위에서 계산한 전체 accuracy 출력
print("Stratified K-fold Accuracies:", accuracies)

# 모든 accuracy의 평균을 계산하여 최종 accuracy 출력
print("Stratified K-fold Mean Accuracy:", accuracies.mean())

Stratified K-fold Accuracies: [0.88140162 0.88005391 0.89892183 0.89308176 0.88993711]
Stratified K-fold Mean Accuracy: 0.8886792452830189


# **Evaluation 시작**

In [19]:
import numpy as np

# 표 형식의 데이터 등 다양한 데이터를 쉽게 다룰 수 있도록(데이터 결합 등) 해주는 모듈
import pandas as pd

# Stratified K-Fold
from sklearn.model_selection import StratifiedKFold

from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

from tqdm import tqdm

from itertools import product
from collections.abc import Iterable

import warnings
warnings.filterwarnings('ignore')

### **Data 불러오기**

In [20]:
# 사용할 데이터가 들어있는 폴더
folder = '../chem2401/0.Data'
# 사용할 데이터의 파일명
train_data_file = 'tox21_train.csv'
test_data_file = 'tox21_test.csv'
# /chem2401/Data/tox21_dataset.csv과 같이 파일 경로로 만듦
train_file_path = f'{folder}/{train_data_file}'
test_file_path = f'{folder}/{test_data_file}'

# 파일 경로에 해당하는 csv 파일 불러오기
# csv 파일이란 comma-separated values로, 쉼표로 구분된 데이터 파일임
train_data = pd.read_csv(train_file_path)
test_data = pd.read_csv(test_file_path)
print(train_data.shape)
print(test_data.shape)

(11130, 167)
(1453, 167)


In [21]:
# train_data와 test_data에서 feature 부분과 label 부분 분리
feature_train = train_data.iloc[:, :166]
feature_test = test_data.iloc[:, :166]
label_train = train_data.iloc[:, 166]
label_test = test_data.iloc[:, 166]

In [22]:
# 반복 시행 시 같은 난수를 추출하기 위해 seed값 지정
seed = 42

# **1. Logistic Regression 모델 사용**
### **Logistic Regression 튜닝**

logistic 모델의 hyperparameter

In [23]:
logistic_params_dictionary = {
	# 
	'C': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1, 2, 3, 4, 5, 7, 9, 11, 15, 20, 25, 30, 35, 40, 50, 100],
	#
	'penalty': ['l1', 'l2'],
	#
	'solver': ['liblinear', 'saga']
}

### **Logistic Regression 모델에서 위 hyperparameter로 만들 수 있는 가능한 모든 조합 만들기**

In [24]:
# logistic_param_dict가 dictionary인지 확인
if not isinstance(logistic_params_dictionary, dict):
	raise TypeError('Parameter grid is not a dict ({!r})'.format(logistic_params_dictionary))

if isinstance(logistic_params_dictionary, dict):
	# logistic_param_dict가 반복 가능(iterable)한지 확인
	for key in logistic_params_dictionary:
		if not isinstance(logistic_params_dictionary[key], Iterable):
			raise TypeError('Parameter grid value is not iterable '
							'(key={!r}, value={!r})'.format(key, logistic_params_dictionary[key]))

In [25]:
# dictionary를 key의 알파벳 순으로 정렬
items = sorted(logistic_params_dictionary.items())

# 다음과 같이 key는 key끼리, value는 value끼리 모아서 저장
# ('C', 'penalty', 'solver')
# ([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1, 2, 3, 4, 5, 7, 9, 11, 15, 20, 25, 30, 35, 40, 50, 100], ['l1', 'l2'], ['liblinear', 'saga'])
keys, values = zip(*items)

logistic_params_grid = []

# product(*value)에서 value들의 가능한 모든 조합 생성
# (0.1, 'l1', 'liblinear')처럼...
for v in product(*values):
	# {'C': 0.1, 'penalty': 'l1', 'solver': 'liblinear'} 이런 식으로 만들어서 하나씩 추가
	logistic_params_grid.append(dict(zip(keys, v))) 

In [26]:
# parameter 조합 출력
print(logistic_params_grid)

[{'C': 0.1, 'penalty': 'l1', 'solver': 'liblinear'}, {'C': 0.1, 'penalty': 'l1', 'solver': 'saga'}, {'C': 0.1, 'penalty': 'l2', 'solver': 'liblinear'}, {'C': 0.1, 'penalty': 'l2', 'solver': 'saga'}, {'C': 0.2, 'penalty': 'l1', 'solver': 'liblinear'}, {'C': 0.2, 'penalty': 'l1', 'solver': 'saga'}, {'C': 0.2, 'penalty': 'l2', 'solver': 'liblinear'}, {'C': 0.2, 'penalty': 'l2', 'solver': 'saga'}, {'C': 0.3, 'penalty': 'l1', 'solver': 'liblinear'}, {'C': 0.3, 'penalty': 'l1', 'solver': 'saga'}, {'C': 0.3, 'penalty': 'l2', 'solver': 'liblinear'}, {'C': 0.3, 'penalty': 'l2', 'solver': 'saga'}, {'C': 0.4, 'penalty': 'l1', 'solver': 'liblinear'}, {'C': 0.4, 'penalty': 'l1', 'solver': 'saga'}, {'C': 0.4, 'penalty': 'l2', 'solver': 'liblinear'}, {'C': 0.4, 'penalty': 'l2', 'solver': 'saga'}, {'C': 0.5, 'penalty': 'l1', 'solver': 'liblinear'}, {'C': 0.5, 'penalty': 'l1', 'solver': 'saga'}, {'C': 0.5, 'penalty': 'l2', 'solver': 'liblinear'}, {'C': 0.5, 'penalty': 'l2', 'solver': 'saga'}, {'C': 0.6

In [27]:
# 가능한 parameter 조합 개수 출력
print(len(logistic_params_grid))

100


### **Logistic 평가 시작**

In [28]:
# 결과 딕셔너리 만들기
result = {}
result['model'] = {}
result['f1'] = {}

inhalation-main/module/common.py

binary_cross_validation 함수 참고했음.

### Logistic의 parameter의 모든 경우의 수에 대해 f1_score 계산

In [29]:
for p in tqdm(range(len(logistic_params_grid))):
	result['model']['model'+str(p)] = logistic_params_grid[p]
	result['f1']['model'+str(p)] = []
	
	# logistic_params_grid[p] 딕셔너리를 인자로 넘겨줄 때 ** 사용
	# ex. LogisticRegression(random_state=seed, C=1.0, penalty='l2', solver='lbfgs')
	model = LogisticRegression(random_state = seed, **logistic_params_grid[p])
	skf = StratifiedKFold(n_splits = 5, shuffle = True, random_state = seed)
    
	metrics = ['f1']

	train_metrics = list(map(lambda x: 'train_' + x, metrics))
	val_metrics = list(map(lambda x: 'val_' + x, metrics))

	train_f1 = []
	val_f1 = []

	for train_idx, val_idx in skf.split(feature_train, label_train):
		splited_train_x, splited_train_y = feature_train.iloc[train_idx], label_train.iloc[train_idx]
		splited_val_x, splited_val_y = feature_train.iloc[val_idx], label_train.iloc[val_idx]

		model.fit(splited_train_x, splited_train_y)
		train_pred = model.predict(splited_train_x)
		val_pred = model.predict(splited_val_x)
		
		train_f1.append(f1_score(splited_train_y, train_pred))
		val_f1.append(f1_score(splited_val_y, val_pred))

	cv_result = dict(zip(train_metrics + val_metrics, [np.mean(train_f1), np.mean(val_f1)]))

	result['f1']['model'+str(p)].append(cv_result['val_f1'])

100%|██████████| 100/100 [04:54<00:00,  2.94s/it]


In [30]:
# best parameter 찾기
mean_list = list(map(lambda x: np.mean(x[1]), result['f1'].items()))
max_idx = mean_list.index(max(mean_list))
 
best_param = result['model'][f'model{max_idx}']

In [31]:
# best_param이 위치한 index 찾기
m = list(result['model'].keys())[list(result['model'].values()).index(best_param)]

In [32]:
# val result 출력
f1 = result['f1'][m]

print(f"best param: {best_param} \
		\n=====validation result===== \
		\nf1: {np.mean(f1):.3f}({np.std(f1):.3f})")

best param: {'C': 15, 'penalty': 'l1', 'solver': 'liblinear'} 		
=====validation result===== 		
f1: 0.896(0.000)


In [33]:
# test result 출력

# 최종으로 나온 best parameter 넣고 test 해야될듯! 수정 필요!
model = LogisticRegression(random_state = seed, **logistic_params_grid[p])

model.fit(feature_train, label_train)

pred = model.predict(feature_test)
pred_score = model.predict_proba(feature_test)[:, 1]
	
print(f'=====test result===== \
		\nbest param: {best_param} \
		\nf1: {f1_score(label_test, pred):.3f}')

=====test result===== 		
best param: {'C': 15, 'penalty': 'l1', 'solver': 'liblinear'} 		
f1: 0.252


# **2. MLP 모델 사용**
### **MLP hyperparameter 튜닝**

In [34]:
# MLP의 hyperparameter
params_dict = {
	# 
	'hidden_layer_sizes': [(50), (100, 50, 10)],
	# 
	'activation': ['relu', 'tanh'],
	# 
	'solver': ['adam', 'sgd'],
	# 
	'alpha': [0.0001, 0.001],
	# 
	'learning_rate_init': [0.001, 0.01],
	# 
	'max_iter': [50, 100]
}

### **MLP 모델에서 위 hyperparameter로 만들 수 있는 가능한 모든 조합 만들기**

In [35]:
# param_dict가 dictionary인지 확인
if not isinstance(params_dict, dict):
	raise TypeError('Parameter grid is not a dict ({!r})'.format(params_dict))

# params_dict가 dictionary라면
if isinstance(params_dict, dict):
	# param_dict가 반복 가능(iterable)한지 확인
	for key in params_dict:
		if not isinstance(params_dict[key], Iterable):
			raise TypeError('Parameter grid value is not iterable '
							'(key={!r}, value={!r})'.format(key, params_dict[key]))

In [36]:
# dictionary를 key의 알파벳 순으로 정렬
items = sorted(params_dict.items())

# 다음과 같이 key는 key끼리, value는 value끼리 모아서 저장
# ('activation', 'alpha', 'hidden_layer_sizes', 'learning_rate_init', 'max_iter', 'solver')
# (['relu', 'tanh'], [0.0001, 0.001], [50, (100, 50, 10)], [0.001, 0.01], [50, 100], ['adam', 'sgd'])
keys, values = zip(*items)

# 조합된 parameter를 담을 list 선언
params_grid = []

# product(*value)에서 value들의 가능한 모든 조합 생성
# ('relu', 0.0001, 50, 0.001, 50, 'adam')처럼...
for v in product(*values):
	# {'activation': 'relu', 'alpha': 0.0001, 'hidden_layer_sizes': 50, 'learning_rate_init': 0.001, 'max_iter': 50, 'solver': 'adam'}
	# 이런 식으로 만들어서 하나씩 추가
	params_grid.append(dict(zip(keys, v))) 

In [37]:
# parameter 조합 출력
print(params_grid)

[{'activation': 'relu', 'alpha': 0.0001, 'hidden_layer_sizes': 50, 'learning_rate_init': 0.001, 'max_iter': 50, 'solver': 'adam'}, {'activation': 'relu', 'alpha': 0.0001, 'hidden_layer_sizes': 50, 'learning_rate_init': 0.001, 'max_iter': 50, 'solver': 'sgd'}, {'activation': 'relu', 'alpha': 0.0001, 'hidden_layer_sizes': 50, 'learning_rate_init': 0.001, 'max_iter': 100, 'solver': 'adam'}, {'activation': 'relu', 'alpha': 0.0001, 'hidden_layer_sizes': 50, 'learning_rate_init': 0.001, 'max_iter': 100, 'solver': 'sgd'}, {'activation': 'relu', 'alpha': 0.0001, 'hidden_layer_sizes': 50, 'learning_rate_init': 0.01, 'max_iter': 50, 'solver': 'adam'}, {'activation': 'relu', 'alpha': 0.0001, 'hidden_layer_sizes': 50, 'learning_rate_init': 0.01, 'max_iter': 50, 'solver': 'sgd'}, {'activation': 'relu', 'alpha': 0.0001, 'hidden_layer_sizes': 50, 'learning_rate_init': 0.01, 'max_iter': 100, 'solver': 'adam'}, {'activation': 'relu', 'alpha': 0.0001, 'hidden_layer_sizes': 50, 'learning_rate_init': 0.01

In [38]:
# 가능한 parameter 조합 개수 출력
print(len(params_grid))

64


In [39]:
# 결과 딕셔너리 만들기
result = {}
result['model'] = {}
result['f1'] = {}

In [40]:
for p in tqdm(range(len(params_grid))):
	result['model']['model'+str(p)] = params_grid[p]
	result['f1']['model'+str(p)] = []

	# params_grid[p] 딕셔너리를 인자로 넘겨줄 때 ** 사용
	# ex. LogisticRegression(random_state=seed, C=1.0, penalty='l2', solver='lbfgs')
	# load_model() 부분
	model = MLPClassifier(random_state = seed, **params_grid[p])
	skf = StratifiedKFold(n_splits = 5, shuffle = True, random_state = seed)
    
	metrics = ['f1']

	train_metrics = list(map(lambda x: 'train_' + x, metrics))
	val_metrics = list(map(lambda x: 'val_' + x, metrics))

	train_f1 = []
	val_f1 = []

	for train_idx, val_idx in skf.split(feature_train, label_train):
		train_x, train_y = feature_train.iloc[train_idx], label_train.iloc[train_idx]
		val_x, val_y = feature_train.iloc[val_idx], label_train.iloc[val_idx]

		model.fit(train_x, train_y)
		train_pred = model.predict(train_x)
		train_pred_score = model.predict_proba(train_x)[:, 1]
		val_pred = model.predict(val_x)
		val_pred_score = model.predict_proba(val_x)[:, 1]
		
		train_f1.append(f1_score(train_y, train_pred))
		val_f1.append(f1_score(val_y, val_pred))

	cv_result = dict(zip(train_metrics + val_metrics, [np.mean(train_f1), np.mean(val_f1)]))

	result['f1']['model'+str(p)].append(cv_result['val_f1'])

100%|██████████| 64/64 [21:16<00:00, 19.94s/it]


In [None]:
# best parameter 찾기
mean_list = list(map(lambda x: np.mean(x[1]), result['f1'].items()))
max_idx = mean_list.index(max(mean_list))
 
best_param = result['model'][f'model{max_idx}']

In [None]:
# best_param이 위치한 index 찾기
m = list(result['model'].keys())[list(result['model'].values()).index(best_param)]

In [None]:
# val result 출력
f1 = result['f1'][m]

print(f"best param: {best_param} \
		\n=====validation result===== \
		\nf1: {np.mean(f1):.3f}({np.std(f1):.3f})")

In [None]:
# 이 모델이 아니라 best parameter를 넣어야함! 수정 필요!
model = MLPClassifier(random_state = seed, **params_grid[p])

model.fit(feature_train, label_train)

pred = model.predict(label_test)
pred_score = model.predict_proba(label_test)[:, 1]
	
print(f'=====test result===== \
		\nbest param: {best_param} \
		\nf1: {f1_score(label_test, pred):.3f}')