### Melhore o desempenho com algoritmo Afinação

Os modelos de aprendizado de máquina são parametrizados para que seu comportamento possa ser ajustado para um determinado
problema. Os modelos podem ter muitos parâmetros e encontrar a melhor combinação de parâmetros pode
ser tratado como um problema de pesquisa. Neste capítulo, você descobrirá como ajustar os parâmetros de
algoritmos de aprendizado de máquina em Python usando o scikit-learn. Depois de concluir esta lição, você
saberá:

1. A importância do ajuste dos parâmetros do algoritmo para melhorar o desempenho do algoritmo.
2. Como usar uma estratégia de ajuste do algoritmo de busca em grade.
3. Como usar uma estratégia de ajuste de algoritmo de busca aleatória.

#### Parâmetros do algoritmo de aprendizado de máquina

O ajuste de algoritmo é uma etapa final no processo de aprendizado de máquina aplicado antes de nalizar seu
modelo. Às vezes é chamado de otimização de hiperparâmetros, onde os parâmetros do algoritmo
são referidos como hiperparâmetros, enquanto os coeficientes encontrados pelo aprendizado de máquina
algoritmo em si são referidos como parâmetros. A otimização sugere a natureza de busca do
problema. Formulado como um problema de busca, você pode usar diferentes estratégias de busca para encontrar um bom e
parâmetro robusto ou conjunto de parâmetros para um algoritmo em um determinado problema. Python scikit-learn
fornece dois métodos simples para ajuste de parâmetros de algoritmo:
.Ajuste dos Parâmetros de Busca da Grade.
.Ajuste de Parâmetros de Busca Aleatória.

#### Ajuste de Parâmetros de Pesquisa de Grade

A pesquisa em grade é uma abordagem para o ajuste de parâmetros que irá construir e avaliar metodicamente um
modelo para cada combinação de parâmetros de algoritmo especificados em uma grade. Você pode executar uma grade pesquisa usando o GridSearchCV class1. O exemplo abaixo avalia diferentes valores alfa para
o algoritmo Ridge Regression no conjunto de dados padrão de diabetes. Isso é unidimensional
pesquisa em grade.

In [1]:
# Grid Search for Algorithm Tuning
import numpy
from pandas import read_csv
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

import warnings
warnings.filterwarnings('ignore')

filename = 'datasets/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres',
         'skin', 'test', 'mass',
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
alphas = numpy.array([1,0.1,0.01,0.001,0.0001,0])
param_grid = dict(alpha=alphas)
model = Ridge()
grid = GridSearchCV(estimator=model, param_grid=param_grid)
grid.fit(X, Y)
print(grid.best_score_)
print(grid.best_estimator_.alpha)

0.2761084412929244
1.0


A execução do exemplo lista a pontuação ideal alcançada e o conjunto de parâmetros no
grade que alcançou essa pontuação. Neste caso, o valor alfa de 1,0.

#### Ajuste de Parâmetro de Pesquisa Aleatória

A busca aleatória é uma abordagem para ajuste de parâmetros que irá amostrar parâmetros de algoritmo de
uma distribuição aleatória (ou seja, uniforme) para um número fixo de iterações. Um modelo é construído
e avaliados para cada combinação de parâmetros escolhida. Você pode realizar uma pesquisa aleatória
para parâmetros de algoritmo usando RandomizedSearchCV class2. O exemplo abaixo avalia
diferentes valores alfa aleatórios entre 0 e 1 para o algoritmo Ridge Regression no
conjunto de dados padrão de diabetes. Um total de 100 iterações são realizadas com alfa uniformemente aleatório
valores selecionados no intervalo entre 0 e 1 (o intervalo que os valores alfa podem assumir).

In [2]:
# Randomized for Algorithm Tuning
import numpy
from pandas import read_csv
from scipy.stats import uniform
from sklearn.linear_model import Ridge
from sklearn.model_selection import RandomizedSearchCV
import warnings
warnings.filterwarnings('ignore')

filename = 'datasets/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres',
         'skin', 'test', 'mass',
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
param_grid = {'alpha': uniform()}
model = Ridge()
rsearch = RandomizedSearchCV(estimator=model, 
                             param_distributions=param_grid, 
                             n_iter=100,
                             random_state=7)
rsearch.fit(X, Y)
print(rsearch.best_score_)
print(rsearch.best_estimator_.alpha)

0.27610755734028547
0.9779895119966027


A execução do exemplo produz resultados muito parecidos com os do exemplo de pesquisa em grade acima. Um
o valor alfa ideal próximo a 1,0 é descoberto.

In [3]:
%reload_ext watermark
%watermark -gu "caiquemiranda" -iv

Github username: caiquemiranda

numpy: 1.23.0



### End.