## 완전 탐색을 사용해 최선의 모델 선택하기

In [1]:
import numpy as np
from sklearn import linear_model, datasets
from sklearn.model_selection import GridSearchCV

In [2]:
# 데이터 로드

iris=datasets.load_iris()
features=iris.data
target=iris.target

In [3]:
# 로지스틱 회귀모델 생성

logit=linear_model.LogisticRegression()

In [4]:
# 패널티 하이퍼 파라미터 값의 후보 생성

penalty=['l1','l2'] # L1 규제, L2 규제

In [5]:
# 규제 하이퍼파라미터 값의 후보 범위 생성

C=np.logspace(0,4,10)

In [6]:
# 하이퍼파라미터 후보 딕셔너리 생성

h_param=dict(C=C, penalty=penalty)

In [14]:
# 그리드서치 객체 생성
gridSearch=GridSearchCV(logit, h_param, cv=5, verbose=0) # C 값 10개, penalty 2개, 폴드 값 5개 : 10*2*5 = 100 개의 모델 생성

'''verbose 매개변수 탐색과정에서 출력되는 메시지'''

'verbose 매개변수 탐색과정에서 출력되는 메시지'

In [15]:
# 그리드서치 수행

best_model=gridSearch.fit(features,target)

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/mo

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative so

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logist

GridSearchCV 는 교차검증을 사용하여 모델을 선택하는 브루트포스(brute-force)한 방법이다.

GridSearchCV 는 모든 값의 조합에 대해 모델을 훈련하고, 최고 성능을 내는 모델이 최선의 모델로 선택된다.

In [16]:
# 최선의 파라미터 확인

print('가장 좋은 패널티: ',best_model.best_estimator_.get_params()['penalty'])
print('가장 좋은 C값: ',best_model.best_estimator_.get_params()['C'])

가장 좋은 패널티:  l2
가장 좋은 C값:  7.742636826811269


기본적으로 GridSearchCV는 최선의 하이퍼파라미터를 확인한 후에 전체 데이터셋에서 최선의 하이퍼파라미터를 사용하여 모델을 재훈련한다.

In [17]:
# 타깃벡터 예측

best_model.predict(features)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

## 랜덤 탐색을 사용해 최선의 모델 선택하기
### 완전 탐색보다 최선의 모델을 선택하는데 계산 비용이 적게드는 방법

In [18]:
from scipy.stats import uniform
from sklearn import linear_model, datasets
from sklearn.model_selection import RandomizedSearchCV

In [19]:
# 데이터 로드

iris=datasets.load_iris()
features=iris.data
target=iris.target

In [20]:
# 로지스틱 회귀모형 생성

logit=linear_model.LogisticRegression()

In [21]:
# 패널티 하이퍼 파라미터 생성

penalty=['l1','l2']

In [22]:
# 규제 하이퍼 파라미터 생성

C=uniform(loc=0, scale=4)

In [23]:
# 하이퍼 파라미터 옵션 생성

h_params=dict(C=C, penalty=penalty)

In [29]:
# 랜덤 탐색 객체 생성

randomSearch=RandomizedSearchCV(logit,h_params,random_state=1, n_iter=100, cv=5, verbose=0, n_jobs=-1)

''' n_iter 훈련할 후보 모델 개수'''

' n_iter 훈련할 후보 모델 개수'

In [30]:
# 랜덤 탐색 수행

best_model=randomSearch.fit(features, target)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


GridSearchCv 는 사용자가 지정한 하이퍼파라미터 값을 통해 모델을 찾았다면

RandomizedSearchCV 는 사용자가 지정한 분포에서 랜덤한 하이퍼파라미터 조합을 추출하여 조사한다.

RandomizedSearchCV 에 분포를 지정하면 이 분포에서 중복을 허용하지 않도록 하이퍼파라미터 값을 랜덤하게 추출한다.

In [31]:
# 0~4 사이의 균등분포를 정하고, 10개의 값을 랜덤으로 추출하는 모습

uniform(loc=0, scale=4).rvs(10)

array([2.06640327, 1.7864586 , 0.83410871, 3.06639048, 0.79142959,
       0.44668872, 2.39243198, 3.65106993, 3.07219301, 1.25619845])

In [32]:
# 최선의 하이퍼파라미터 확인

print('가장 좋은 패널티 : ',best_model.best_estimator_.get_params()['penalty'])
print('가장 좋은 C값 : ',best_model.best_estimator_.get_params()['C'])

가장 좋은 패널티 :  l2
가장 좋은 C값 :  3.730229437354635


GridSearch 와 마찬가지로 탐색이 완료된 후에 RandomizedSearchCV 는 전체 데이터셋에서

최선의 하이퍼파라미터를 사용해 새로운 모델을 훈련한다.

In [33]:
# 타깃 벡터 예측

best_model.predict(features)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

## 여러 학습 알고리즘에서 최선의 모델 선택하기
### 후보 학습 알고리즘과 이에 해당하는 하이퍼파라미터의 딕셔너리 생성

In [34]:
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline

In [35]:
# 랜덤 시드 설정
np.random.seed(0)

In [36]:
# 데이터 로드

iris=datasets.load_iris()
features=iris.data
target=iris.target

In [41]:
# 파이프라인 생성

pipe=Pipeline([("classifier",RandomForestClassifier())])

In [42]:
# 후보 학습 알고리즘과 하이퍼파라미터로 딕셔너리 생성

search_space=[{"classifier":[LogisticRegression()],
              "classifier__penalty":['l1','l2'],
              "classifier__C":np.logspace(0,4,10)},
             {"classifier":[RandomForestClassifier()],
             "classifier__n_estimators":[10,100,1000],
             "classifier__max_features":[1,2,3]}]

In [43]:
# 그리드 서치 객체생성

grid=GridSearchCV(pipe, search_space, cv=5, verbose=0)

In [44]:
# 그리드 서치 수행

best_model=grid.fit(features,target)

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/mo

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logist

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative so

In [45]:
# 최선의 모델 확인

best_model.best_estimator_.get_params()['classifier']

LogisticRegression(C=7.742636826811269, class_weight=None, dual=False,
                   fit_intercept=True, intercept_scaling=1, l1_ratio=None,
                   max_iter=100, multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [46]:
# 모델 선택이 완료되면 best_model 객체 사용 가능

best_model.predict(features)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

## 전처리와 함께 최선의 모델 선택하기

In [48]:
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

In [49]:
# 랜덤 시드 설정

np.random.seed(0)

In [59]:
# 데이터 로드

iris=datasets.load_iris()
features=iris.data
target=iris.target

In [60]:
# StandardScaler 와 PCA를 포함한 전처리 객체 생성

preprocess=FeatureUnion([("std",StandardScaler()),("pca",PCA())])

In [61]:
# 파이프라인 생성

pipe=Pipeline([("preprocess",preprocess),("classifier",LogisticRegression())])

In [62]:
# 후보 값 정의

search_space=[{"preprocess__pca__n_components":[1,2,3],
              "classifier__penalty":['l1','l2'],
              "classifier__C":np.logspace(0,4,10)}]

In [63]:
# 그리드 서치 객체 생성

grid=GridSearchCV(pipe,search_space,cv=5,verbose=0, n_jobs=-1)

In [65]:
# 그리드 서치 수행

best_model=grid.fit(features,target)

### - 주의할점

GridSearchCV는 교차검증을 사용하여 가장 높은 성능을 내는 모델을 고른다.

교차검증에서 제외된 폴드는 본 적 없는 테스트 세트와 같은 역할을 하므로, 어떤 전처리 단계에도 포함되어서는 안된다.

그러므로 전처리단계를 GridSearchCV가 수행하는 일련의 작업으로 포함시켜야 한다.

##### FeatureUnion 을 사용하면 여러 전처리단계를 적절하게 연결할 수 있다.

In [66]:
# 최선의 주성분 개수 확인 (preprocess__pca__n_components 값)

best_model.best_estimator_.get_params()['preprocess__pca__n_components']

2

In [68]:
# 교차검증의 최고 성능 점수는 socre에 저장되어 있다.

grid.best_score_

0.9800000000000001

In [69]:
# preprocess 단계에서 어떻게 특성을 변환하는지 확인

grid.best_estimator_.named_steps['preprocess'].transform(features[0:1])

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 , -2.68412563,
         0.31939725]])

일반적으로 주성분은 원본 특성의 차원을 줄이는 역할로 사용한다.

Pipeline 클래스는 여러 특성을 연달아 변환할 수 있다. 또한 memory 매개변수에 전처리 데이터를 임시 저장할

디렉토리 이름을 전달하면 하이퍼파라미터 탐색 과정에서 중복으로 전처리 과정을 수행하지 않는다.

In [74]:
pipe=Pipeline([("std",StandardScaler()),
              ("pca",PCA()),
              ("classifier",LogisticRegression())],
             memory="cache")

훈련할떄는 StandardScaler와 PCA 클래스의 fit 메소드와 transform 메소드가 호출되고, LogisticRegression의 fit 메소드가 호출된다.

예측을 만들때는 StandardScaler와 PCA 클래스의 transform 메소드만 호출되고 LogisticRegression 클래스의 predict 메소드가 호출된다.

FeatureUnion 을 사용하지 않았으므로 search_space에서 preprocess__ 접두사를 제거하고 훈련한다.

In [75]:
# 후보값 정의

search_space=[{"pca__n_components":[1,2,3],
              "classifier__penalty":['l1','l2'],
              "classifier__C":np.logspace(0,4,10)}]

In [76]:
# 그리드 서치 객체 생성

grid=GridSearchCV(pipe,search_space,cv=5,verbose=0,n_jobs=-1)

In [77]:
best_model=grid.fit(features,target)

In [78]:
# 교차검증 점수 확인

grid.best_score_

0.9733333333333334

In [80]:
# 주성분 개수 확인

grid.best_estimator_.get_params()['pca__n_components']

3

In [82]:
# named_staps 속성으로 PCA 단계에서 데이터 변환의 모습 확인

grid.best_estimator_.named_steps['pca'].transform(features[0:1])

array([[ 2.64026976,  5.2040413 , -2.48862071]])

## 병렬화로 모델 선택 속도 높이기

In [83]:
import numpy as np
from sklearn import linear_model, datasets
from sklearn.model_selection import GridSearchCV

In [84]:
# 데이터 로드

iris=datasets.load_iris()
features=iris.data
target=iris.target

In [85]:
# 로지스틱 회귀모델 생성

logistic=linear_model.LogisticRegression()

In [86]:
# 규제 패널티 후보 생성

penalty=['l1','l2']

In [87]:
# C 값의 후보 범위 생성

C=np.logspace(0,4,1000)

In [89]:
# 하이퍼 파라미터 옵션 생성

h_params=dict(C=C,penalty=penalty)

In [90]:
# 그리드 서치 객체 생성

grid=GridSearchCV(logistic,h_params,cv=5,n_jobs=-1, verbose=1)

In [91]:
# 그리드 서치 수행

best_model=grid.fit(features,target)

Fitting 5 folds for each of 2000 candidates, totalling 10000 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done  56 tasks      | elapsed:    4.5s
[Parallel(n_jobs=-1)]: Done 1232 tasks      | elapsed:   12.6s
[Parallel(n_jobs=-1)]: Done 3232 tasks      | elapsed:   26.7s
[Parallel(n_jobs=-1)]: Done 6032 tasks      | elapsed:   46.6s
[Parallel(n_jobs=-1)]: Done 9632 tasks      | elapsed:  1.2min
[Parallel(n_jobs=-1)]: Done 10000 out of 10000 | elapsed:  1.3min finished
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


## 알고리즘에 특화된 기법을 사용하여 모델 선택 수행 속도 높이기

In [92]:
from sklearn import linear_model, datasets

In [93]:
iris=datasets.load_iris()
features=iris.data
target=iris.target

In [94]:
# 교차검증 로지스틱 회귀 모델을 만든다.

logit=linear_model.LogisticRegressionCV(Cs=100)

In [95]:
logit.fit(features,target)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logist

LogisticRegressionCV(Cs=100, class_weight=None, cv=None, dual=False,
                     fit_intercept=True, intercept_scaling=1.0, l1_ratios=None,
                     max_iter=100, multi_class='auto', n_jobs=None,
                     penalty='l2', random_state=None, refit=True, scoring=None,
                     solver='lbfgs', tol=0.0001, verbose=0)

사이킷런의 많은 학습 알고리즘은 알고리즘에 특화된 교차검증 방식을 가지고 있다.

Cs 매개변수에 리스트를 전달하면 후보 하이퍼파라미터 값으로 사용한다.

정수값을 전달하면 정수 개수만큼 후보 리스트를 생성한다. 후보값은 0.00001 과 10000 사이에서 로그스케일로 선택된다.



LogisticRegressionCV의 주된 단점은 매개변수 C에 대해서만 탐색할 수 있다는 것이다.

## 모델 선택 후 성능 평가하기
### 모델 선택 과정을 통해 찾은 모델의 성능을 평가하기

In [96]:
import numpy as np
from sklearn import linear_model, datasets
from sklearn.model_selection import GridSearchCV, cross_val_score

In [107]:
iris=datasets.load_iris()
features=iris.data
target=iris.target

In [108]:
logit=linear_model.LogisticRegression(solver='liblinear', multi_class='auto')

In [109]:
# Create range of 20 candidate values for C

C=np.logspace(0,4,20)

In [110]:
# 하이퍼 파라미터 옵션 생성

h_params=dict(C=C)

In [111]:
# 그리스서치 객체 생성

grid=GridSearchCV(logit,h_params,cv=5, n_jobs=-1, verbose=0, iid=False)

In [112]:
# 중첩 교차검증을 수행하고 평균 점수 출력
cross_val_score(grid,features,target, cv=3).mean()



0.9733333333333333

iid 매개변수가 True 이면 독립 동일분포라고 가정하고 테스트 세트의 샘플 수로 폴드의 점수를 가중 평균한다.

False로 지정하면 단순한 폴드 점수의 평균을 뽑는다.