## Отбор  наилучшей модели с помощью исчерпывающего поиска 

In [1]:
import numpy as np
from sklearn import linear_model, datasets
from sklearn.model_selection import GridSearchCV

iris = datasets.load_iris()
features = iris.data
target = iris.target

# Создать объект логистической регрессии
logostic = linear_model.LogisticRegression(max_iter=1000, solver = 'liblinear')

# Создать диапазон вариантов значений штрафного гиперпараметра
penalty = ['l1','l2']

# Создать диапазон вариантов значений регуляризационного гиперпараметра
C = np.logspace(0,4,10)

# Создать словарь вариантов гиперпараметров
hyperparameters = dict(C=C, penalty=penalty)

# Создать объект решеточного поиска
gridsearch = GridSearchCV(logostic,hyperparameters, cv=5,verbose=0)

best_model = gridsearch.fit(features, target)
best_model

In [2]:
# Взглянуть на наилучшие гиперпараметры
print('Лучший штраф: ', best_model.best_estimator_.get_params()['penalty'])
print('Лучший C: ', best_model.best_estimator_.get_params()['C'])

Лучший штраф:  l1
Лучший C:  7.742636826811269


In [3]:
gridsearch.cv_results_


{'mean_fit_time': array([0.00499516, 0.00039048, 0.00623531, 0.00040936, 0.0067028 ,
        0.00043025, 0.00707054, 0.00044322, 0.00820265, 0.00046892,
        0.00975199, 0.00047269, 0.00997305, 0.00048113, 0.01048088,
        0.00049882, 0.01040993, 0.00049567, 0.01064858, 0.00051432]),
 'std_fit_time': array([3.77749945e-04, 2.07072541e-05, 1.20946098e-03, 2.38246856e-05,
        1.35679024e-03, 1.64385072e-05, 1.73139797e-03, 1.73826602e-05,
        2.05993383e-03, 4.57906204e-05, 2.47754139e-03, 1.17340702e-05,
        2.20940660e-03, 1.66388157e-05, 2.50121563e-03, 1.19698474e-05,
        2.54027135e-03, 1.34987875e-05, 2.84714618e-03, 1.76296957e-05]),
 'mean_score_time': array([0.00018353, 0.00014234, 0.00015287, 0.00013957, 0.0001904 ,
        0.00013766, 0.00013318, 0.00012951, 0.00012975, 0.00012822,
        0.0001286 , 0.00013351, 0.0001296 , 0.00012789, 0.00012841,
        0.00012894, 0.00012808, 0.00012946, 0.00012865, 0.00012851]),
 'std_score_time': array([4.61969820e-

In [4]:
print(best_model.predict(features))


[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1
 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


## Отбор наилучших моделей с помощью рандомизированного поиска

In [5]:
# Используем класс RandomizedSearchCV
from scipy.stats import uniform
from sklearn import linear_model, datasets
from sklearn.model_selection import  RandomizedSearchCV

iris = datasets.load_iris()
features = iris.data
target = iris.target

logistic = linear_model.LogisticRegression()

penalty = ['l1','l2']

C = uniform(loc=0,scale=4)

hyperparameters = dict(C=C, penalty=penalty)

randomizedsearch = RandomizedSearchCV(logostic, hyperparameters, random_state=1,n_iter=100, cv=5,verbose=0,n_jobs=-1)

best_model = randomizedsearch.fit(features, target)

In [6]:
randomizedsearch.cv_results_

{'mean_fit_time': array([0.0069725 , 0.00079598, 0.00046372, 0.0004107 , 0.00038161,
        0.00098748, 0.00660243, 0.00608096, 0.00522704, 0.00521588,
        0.00073867, 0.00058532, 0.00432892, 0.00059042, 0.00059085,
        0.00048709, 0.00614319, 0.00671186, 0.0003901 , 0.00238652,
        0.0004508 , 0.00069442, 0.00705338, 0.00039816, 0.0062088 ,
        0.00071645, 0.00046306, 0.00095468, 0.00041695, 0.00040846,
        0.00038443, 0.00384202, 0.0062922 , 0.00039396, 0.00924077,
        0.00650706, 0.00038595, 0.00038681, 0.00446815, 0.00491357,
        0.00070577, 0.00043087, 0.005339  , 0.00732188, 0.00754986,
        0.00039759, 0.00040884, 0.00038095, 0.00509672, 0.00062928,
        0.00416083, 0.0070251 , 0.00049248, 0.00480518, 0.00041513,
        0.00579114, 0.00535684, 0.00620174, 0.00804772, 0.00766525,
        0.00038466, 0.00312572, 0.00722785, 0.00569644, 0.00664825,
        0.00056968, 0.00600991, 0.0072638 , 0.00073853, 0.00070248,
        0.00697064, 0.00697422,

In [7]:
print('Лучший штраф: ', best_model.best_estimator_.get_params()['penalty'])
print('Лучший C: ', best_model.best_estimator_.get_params()['C'])

Лучший штраф:  l1
Лучший C:  1.668088018810296


In [11]:
import pandas as pd
pd.DataFrame(randomizedsearch.cv_results_['params']).assign(mean_score=randomizedsearch.cv_results_['mean_test_score'])

Unnamed: 0,C,penalty,mean_score
0,1.668088,l1,0.966667
1,3.730229,l2,0.960000
2,1.209330,l2,0.953333
3,0.944356,l2,0.960000
4,0.745041,l2,0.953333
...,...,...,...
95,0.613354,l1,0.946667
96,0.178208,l1,0.853333
97,3.127834,l2,0.960000
98,2.851956,l2,0.960000


## Отбор наилучших моделей из нескольких обучающихся алгоритмов

In [None]:
# Тоже самое но разные виды моделей в качестве параметров

## Отбор наилучшей модели во время предобработки 

In [19]:
import numpy as np 
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

np.random.seed(0)

iris = datasets.load_iris()
features = iris.data
target = iris.target

# Создать объект предобработки
preprocess = FeatureUnion([("std", StandardScaler()), ("pca", PCA())])

# СОздать конвейер
pipe = Pipeline([("preprocess", preprocess), ("classifier", LogisticRegression(solver='liblinear'))])

# Создать пространство вариантов значений
search_space = [{"preprocess__pca__n_components": [1,2,3],
                "classifier__penalty": ['l1','l2'],
                "classifier__C": np.logspace(0,4,10)}]

# Создать объект решетчатого поиска
clf = GridSearchCV(pipe, search_space, cv=5, verbose=0, n_jobs=-1)

best_model = clf.fit(features, target)



In [20]:
pd.DataFrame(clf.cv_results_['params']).assign(mean_score=clf.cv_results_['mean_test_score'])

Unnamed: 0,classifier__C,classifier__penalty,preprocess__pca__n_components,mean_score
0,1.0,l1,1,0.926667
1,1.0,l1,2,0.926667
2,1.0,l1,3,0.926667
3,1.0,l2,1,0.906667
4,1.0,l2,2,0.906667
5,1.0,l2,3,0.906667
6,2.782559,l1,1,0.946667
7,2.782559,l1,2,0.946667
8,2.782559,l1,3,0.946667
9,2.782559,l2,1,0.913333


In [21]:
pipe

In [22]:
preprocess

## Ускорение отбора моделей с помощью специализированных методов

## Оценивание результативности после отбора модели