# 모델 평가와 성능 향상 - Evaluation

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [1]:
from sklearn.datasets import make_blobs
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

### 정확도

In [3]:
X, y = make_blobs(random_state=0) # 인위적인 데이터셋 생성

# 데이터와 타깃 레이블을 훈련 세트와 테스트 세트로 나눕니다
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

logreg = LogisticRegression(solver='lbfgs', max_iter=10000) #모델 생성

logreg = logreg.fit(X_train, y_train) # 훈련 세트로 학습

print("테스트 세트 점수: {:.2f}".format(logreg.score(X_test, y_test))) # 평가


테스트 세트 점수: 0.88


### 교차검증 - k-fold cross validation

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

iris = load_iris()

logreg = LogisticRegression(max_iter=1000)

scores = cross_val_score(logreg, iris.data, iris.target, cv=5)  # cross_val_score:교차검증함수, cv=5 반복 수

print("교차 검증 점수: {}".format(scores))
print("교차 검증 평균 점수: {:.2f}".format(scores.mean()))

교차 검증 점수: [0.96666667 1.         0.93333333 0.96666667 1.        ]
교차 검증 평균 점수: 0.97


In [6]:
# KFold 제어
from sklearn.model_selection import KFold

kfold = KFold(n_splits=3)
scores = cross_val_score(logreg, iris.data, iris.target, cv=kfold)
print("교차 검증 점수:{}".format(scores))

교차 검증 점수:[0. 0. 0.]


In [7]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [None]:
kfold = KFold(n_splits=3, shuffle=True, random_state=0)
scores = cross_val_score(logreg, iris.data, iris.target, cv=kfold) 
# cv=kfold로 지정하거나, 직접 숫자도 됨, 숫자 넣으면 알아서 셔플됨
print("교차 검증 점수:{}".format(scores))

교차 검증 점수:[0.98 0.96 0.96]


### LOOCV

In [10]:
from sklearn.model_selection import LeaveOneOut

loo = LeaveOneOut()

scores = cross_val_score(logreg, iris.data, iris.target, cv=loo)
print("교차 검증 분할 횟수: ", len(scores))
print("평균 정확도: {:.2f}".format(scores.mean()))
# 데이터가 150개라 150개로 분할

교차 검증 분할 횟수:  150
평균 정확도: 0.97


### shuffle-split cross-validation

In [13]:
from sklearn.model_selection import ShuffleSplit

shuffle_split = ShuffleSplit(test_size=.5, train_size=.5, n_splits=10)
# 훈련 데이터 세트 50%, 테스트 데이터 세트 50 %, 반복 10회
scores = cross_val_score(logreg, iris.data, iris.target, cv=shuffle_split)

print("교차 검증 점수:\n{}".format(scores))
print("교차 검증 점수 평균:\n{}".format(scores.mean()))


교차 검증 점수:
[0.96       0.93333333 0.97333333 0.94666667 0.94666667 0.97333333
 0.94666667 0.96       0.97333333 0.97333333]
교차 검증 점수 평균:
0.9586666666666666


### 그룹별 교차 검증

In [15]:
from sklearn.model_selection import GroupKFold

# 인위적 데이터셋 생성
X, y = make_blobs(n_samples=12, random_state=0)

# 처음 세 개의 샘플은 같은 그룹에 속하고, 다음은 네 개의 샘플이 같습니다.
groups = [0, 0, 0, 1, 1, 1, 1, 2, 2, 3, 3, 3]
scores = cross_val_score(logreg, X, y, groups=groups, cv=GroupKFold(n_splits=3))

print("교차 검증 점수:\n{}".format(scores))

교차 검증 점수:
[0.75       0.6        0.66666667]
