# Глава 12. 
## Отбор модели
> <b>12.1 Отбор наилучшей модели с помощью исчерпывающего поиска

In [1]:
# Загрузить библиотеки
import numpy as np
from sklearn import linear_model, datasets
from sklearn.model_selection import GridSearchCV

# Загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

# Создать объект логистической регрессии
logistic = linear_model.LogisticRegression()

# Создать диапазон вариантов значений 
# штрафного гиперпараметра
penalty = ['l1', 'l2']

# Создать диапазон вариантов значений 
# регуляризационного гиперпараметра
C = np.logspace(0, 4, 10)

# Создать словарь вариантов гиперпараметров
hyperparameters = dict(C=C, penalty=penalty)

# Создать объект решеточного поиска
gridsearch = GridSearchCV(logistic, hyperparameters, cv=5, verbose=0)

# Выполнить подгонку объекта решеточного поиска
best_model = gridsearch.fit(features, target)

In [2]:
np.logspace(0, 4, 10)

array([1.00000000e+00, 2.78255940e+00, 7.74263683e+00, 2.15443469e+01,
       5.99484250e+01, 1.66810054e+02, 4.64158883e+02, 1.29154967e+03,
       3.59381366e+03, 1.00000000e+04])

In [3]:
# Взглянуть на наилучшие гиперпараметры
print('Лучший штраф:', best_model.best_estimator_.get_params()['penalty'])
print('Лучший C:', best_model.best_estimator_.get_params()['C'])

Лучший штраф: l1
Лучший C: 7.742636826811269


In [4]:
# Предсказать вектор целей
best_model.predict(features)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

> <b>12.2 Отбор наилучших моделей с помощью рандомизированного поиска

In [5]:
# Загрузить библиотеки
from scipy.stats import uniform
from sklearn import linear_model, datasets
from sklearn.model_selection import RandomizedSearchCV

# Загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

# Создать объект логистической регрессии
logistic = linear_model.LogisticRegression()

# Создать диапазон вариантов значений 
# штрафного гиперпараметра
penalty = ['l1', 'l2']

# Создать диапазон вариантов значений 
# регуляризационного гиперпараметра
C = uniform(loc=0, scale=4)

# Создать словарь вариантов гиперпараметров
hyperparameters = dict(C=C, penalty=penalty)

# Создать объект рандомизированного поиска
randomizedsearch = RandomizedSearchCV(
    logistic, hyperparameters, random_state=1, n_iter=100, cv=5, verbose=0,
    n_jobs=-1)

# Выполнить подгонку объекта рандомизированного поиска
best_model = randomizedsearch.fit(features, target)

In [6]:
# Определить равномерное распределение между 0 и 4, 
# отобрать 10 значений
uniform(loc=0, scale=4).rvs(10)

array([0.93050861, 1.80860785, 1.31748985, 3.52128795, 3.639449  ,
       2.42981975, 3.1098117 , 2.56694891, 0.36913549, 3.73275217])

In [7]:
# Взглянуть на самые лучшие гиперпараметры
print('Лучший штраф:', best_model.best_estimator_.get_params()['penalty'])
print('Лучший C:', best_model.best_estimator_.get_params()['C'])

Лучший штраф: l1
Лучший C: 1.668088018810296


In [8]:
# Предсказать вектор целей
best_model.predict(features)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2,
       2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

> <b>12.3 Отбор наилучших моделей из нескольких обучающихся алгоритмов

In [9]:
# Загрузить библиотеки
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline

# Задать начальное число для генератора псевдослучайных чисел
np.random.seed(0)

# Згрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

# Создать конвейер
pipe = Pipeline([("classifier", RandomForestClassifier())])

# Создать словарь вариантов обучающихся алгоритмов и их гиперпараметров
search_space = [{"classifier": [LogisticRegression()],
                 "classifier__penalty": ['l1', 'l2'],
                 "classifier__C": np.logspace(0, 4, 10)},
                {"classifier": [RandomForestClassifier()],
                 "classifier__n_estimators": [10, 100, 1000],
                 "classifier__max_features": [1, 2, 3]}]

# Создать объект решеточного поиска
gridsearch = GridSearchCV(pipe, search_space, cv=5, verbose=0)

# Выполнить подгонку объекта решеточного поиска
best_model = gridsearch.fit(features, target)

In [10]:
# Взгялнуть на самую лучшую модель
best_model.best_estimator_.get_params()["classifier"]

LogisticRegression(C=7.742636826811269, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='ovr', n_jobs=1, penalty='l1', random_state=None,
          solver='liblinear', tol=0.0001, verbose=0, warm_start=False)

In [11]:
# Предсказать вектор целей
best_model.predict(features)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

> <b>12.4 Отбор наилучших моделей во время предобработки

In [12]:
# Загрузить библиотеки
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Задать начальное число для генератора случайных чисел
np.random.seed(0)

# Згрузить данные 
iris = datasets.load_iris()
features = iris.data
target = iris.target

# Создать объект предобработки, который включает
# признаки стандартного шкалировщика StandardScaler и объект PCA
preprocess = FeatureUnion([("std", StandardScaler()), ("pca", PCA())])

# Создать конвейер
pipe = Pipeline([("preprocess", preprocess),
("classifier", LogisticRegression())])

# Создать пространство вариантов значений
search_space = [{"preprocess__pca__n_components": [1, 2, 3],
                 "classifier__penalty": ["l1", "l2"],
                 "classifier__C": np.logspace(0, 4, 10)}]

# Создать объект решеточного поиска
clf = GridSearchCV(pipe, search_space, cv=5, verbose=0, n_jobs=-1)

# Выполнить подгонку объекта решеточного поиска
best_model = clf.fit(features, target)

In [13]:
# Взглянуть на самую лучшую модель
best_model.best_estimator_.get_params()['preprocess__pca__n_components']

1

> <b>12.5 Ускорение отбора модели с помощию распараллеливания

In [14]:
# Загрузить библиотеки
import numpy as np
from sklearn import linear_model, datasets
from sklearn.model_selection import GridSearchCV

# Загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

# Создать объект логистической регрессии
logistic = linear_model.LogisticRegression()

# Создать диапазон вариантов значений 
# штрафного гиперпараметра
penalty = ["l1", "l2"]

# Создать диапазон вариантов значений 
# регуляризационного гиперпараметра
C = np.logspace(0, 4, 1000)

# Создать словарь вариантов гиперпараметров
hyperparameters = dict(C=C, penalty=penalty)

# Создать объект решеточного поиска
gridsearch = GridSearchCV(logistic, hyperparameters, cv=5, n_jobs=-1, verbose=1)

# Выполнить подгонку объекта решеточного поиска
best_model = gridsearch.fit(features, target)

Fitting 5 folds for each of 2000 candidates, totalling 10000 fits


[Parallel(n_jobs=-1)]: Done 255 tasks      | elapsed:    3.7s
[Parallel(n_jobs=-1)]: Done 3855 tasks      | elapsed:   22.2s
[Parallel(n_jobs=-1)]: Done 9855 tasks      | elapsed:  1.1min
[Parallel(n_jobs=-1)]: Done 10000 out of 10000 | elapsed:  1.1min finished


In [15]:
# Создать объект решеточного поиска с использованием одного ядра
clf = GridSearchCV(logistic, hyperparameters, cv=5, n_jobs=1, verbose=1)

# Выполнить подгонку объекта решеточного поиска
best_model = clf.fit(features, target)

Fitting 5 folds for each of 2000 candidates, totalling 10000 fits


[Parallel(n_jobs=1)]: Done 10000 out of 10000 | elapsed:  2.6min finished


> <b>12.6 Ускорение отбора модели с помощью алгоритмически специализированных методов

In [16]:
# Загрузить библиотеку
from sklearn import linear_model, datasets

# Загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

# Создать объект перекрестно-проверяемой логистической регрессии
logit = linear_model.LogisticRegressionCV(Cs=100)

# Натренировать модель
logit.fit(features, target)

LogisticRegressionCV(Cs=100, class_weight=None, cv=None, dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=100,
           multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
           refit=True, scoring=None, solver='lbfgs', tol=0.0001, verbose=0)

> <b>12.7 Оценивание результативности после отбора модели

In [17]:
# Загрузить библиотеки
import numpy as np
from sklearn import linear_model, datasets
from sklearn.model_selection import GridSearchCV, cross_val_score

# Загрузить данные
iris = datasets.load_iris()
features = iris.data
target = iris.target

# Создать объект логистической регрессии
logistic = linear_model.LogisticRegression()

# Создать диапазон из 20 вариантов значений для C
C = np.logspace(0, 4, 20)

# Создать словарь вариантов гиперпараметров
hyperparameters = dict(C=C)

# Создать объект решеточного поиска
gridsearch = GridSearchCV(logistic, hyperparameters, cv=5, n_jobs=-1, verbose=0)

# Выполнить вложенную перекрестную проверку и выдать среднюю оценку
cross_val_score(gridsearch, features, target).mean()

0.9534313725490197

In [18]:
gridsearch = GridSearchCV(logistic, hyperparameters, cv=5, verbose=1)

In [19]:
best_model = gridsearch.fit(features, target)

Fitting 5 folds for each of 20 candidates, totalling 100 fits


[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.3s finished


In [20]:
scores = cross_val_score(gridsearch, features, target)

Fitting 5 folds for each of 20 candidates, totalling 100 fits


[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.3s finished


Fitting 5 folds for each of 20 candidates, totalling 100 fits


[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.2s finished


Fitting 5 folds for each of 20 candidates, totalling 100 fits


[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.3s finished
