### Algoritmos de regressão de verificação pontual

A verificação pontual é uma maneira de descobrir quais algoritmos funcionam bem em seu aprendizado de máquina
problema. Você não pode saber quais algoritmos são mais adequados para o seu problema de antemão. Você
deve experimentar uma série de métodos e focar a atenção naqueles que provam ser os mais
promissor. Neste capítulo, você descobrirá seis algoritmos de aprendizado de máquina que você pode usar
ao verificar seu problema de regressão no Python com o scikit-learn. Depois de concluir isso
lição que você vai saber:

1. Como verificar algoritmos de aprendizado de máquina em um problema de regressão.
2. Como verificar quatro algoritmos de regressão linear.
3. Como verificar três algoritmos de regressão não linear.
Vamos começar.

#### Visão geral dos algoritmos

Nesta lição, vamos dar uma olhada em sete algoritmos de regressão que você pode verificar
em seu conjunto de dados. Começando com quatro algoritmos de aprendizado de máquina linear:

Regressão linear.
Regressão Ridge.
Regressão Linear LASSO.
Regressão Líquida Elástica.

Em seguida, analisando três algoritmos de aprendizado de máquina não lineares:

k-vizinhos mais próximos.
Árvores de classificação e regressão.
Máquinas de vetores de suporte.

Cada receita é demonstrada no conjunto de dados Boston House Price. Isso é uma regressão
problema em que todos os atributos são numéricos. Um arnês de teste com validação cruzada de 10 vezes é usado
para demonstrar como verificar cada algoritmo de aprendizado de máquina e erro quadrático médio
as medidas são usadas para indicar o desempenho do algoritmo. Observe que os valores de erro quadrático médio são
invertido (negativo). Esta é uma peculiaridade da função cross val score() usada que requer todos
métricas de algoritmo a serem classificadas em ordem crescente (valor maior é melhor). As receitas assumem
que você conhece cada algoritmo de aprendizado de máquina e como usá-los. nós não vamos
na API ou parametrização de cada algoritmo.

#### Algoritmos de aprendizado de máquina linear

Esta seção fornece exemplos de como usar quatro algoritmos de aprendizado de máquina linear diferentes
para regressão em Python com scikit-learn.

##### Regressão linear

A regressão linear assume que as variáveis de entrada têm uma distribuição gaussiana. Isso é também
assumiu que as variáveis de entrada são relevantes para a variável de saída e que não são altamente
correlacionadas umas com as outras (um problema chamado colinearidade). Você pode construir uma regressão linear
modelo usando a classe LinearRegression1.

In [None]:
# Linear Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
kfold = KFold(n_splits=10, random_state=7)
model = LinearRegression()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

##### Regressão Ridge

A regressão Ridge é uma extensão da regressão linear onde a função de perda é modificada para
minimizar a complexidade do modelo medido como o valor da soma ao quadrado do coeficiente
(também chamada de norma L2). Você pode construir um modelo de regressão de cume usando o Ridge
classe2.

In [None]:
# Ridge Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Ridge
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
num_folds = 10
kfold = KFold(n_splits=10, random_state=7)
model = Ridge()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

##### Regressão LASSO

O menor encolhimento absoluto e operador de seleção (ou LASSO para abreviar) é uma modificação
de regressão linear, como a regressão ridge, onde a função de perda é modificada para minimizar o
complexidade do modelo medido como a soma do valor absoluto dos valores coe cientes (também chamado
a norma L1). Você pode construir um modelo LASSO usando o Lasso class3.

In [None]:
# Lasso Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Lasso
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
kfold = KFold(n_splits=10, random_state=7)
model = Lasso()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

##### Regressão ElasticNet

ElasticNet é uma forma de regressão de regularização que combina as propriedades de Ridge
Regressão e regressão LASSO. Procura minimizar a complexidade do modelo de regressão
(magnitude e número de coeficientes de regressão) penalizando o modelo usando ambos os
Norma L2 (soma dos valores dos coeficientes ao quadrado) e norma L1 (soma dos valores dos coeficientes absolutos).
Você pode construir um modelo ElasticNet usando a classe ElasticNet4.

In [None]:
# ElasticNet Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import ElasticNet
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
kfold = KFold(n_splits=10, random_state=7)
model = ElasticNet()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

#### Algoritmos de aprendizado de máquina não linear

Esta seção fornece exemplos de como usar três algoritmos de aprendizado de máquina não linear diferentes
para regressão em Python com scikit-learn.

##### K-vizinhos mais próximos

O algoritmo k-Nearest Neighbors (ou KNN) localiza as k instâncias mais semelhantes no
conjunto de dados de treinamento para uma nova instância de dados. Dos vizinhos k, uma saída média ou mediana
variável é tomada como a previsão. Digno de nota é a métrica de distância usada (o argumento métrico).
A distância de Minkowski é usada por padrão, que é uma generalização tanto da distância euclidiana
distância (usada quando todas as entradas têm a mesma escala) e distância de Manhattan (para quando o
escalas das variáveis de entrada diferem). Você pode construir um modelo KNN para regressão usando o
KNeighborsRegressor class5.

In [None]:
# KNN Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsRegressor
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
kfold = KFold(n_splits=10, random_state=7)
model = KNeighborsRegressor()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

##### Árvores de classificação e regressão

Árvores de decisão ou Árvores de Classificação e Regressão (CART como são conhecidas) usam o treinamento
dados para selecionar os melhores pontos para dividir os dados a fim de minimizar uma métrica de custo. O padrão
métrica de custo para árvores de decisão de regressão é o erro médio quadrado, especificado no critério
parâmetro. Você pode criar um modelo CART para regressão usando o DecisionTreeRegressor
classe6.

In [None]:
# Decision Tree Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeRegressor
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
kfold = KFold(n_splits=10, random_state=7)
model = DecisionTreeRegressor()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

##### Máquinas de vetores de suporte

As Support Vector Machines (SVM) foram desenvolvidas para classificação binária. A técnica tem
foi estendido para a predição de problemas de valores reais chamados Support Vector Regression (SVR).
Como o exemplo de classificação, o SVR é construído sobre a biblioteca LIBSVM. Você pode criar um SVM
modelo de regressão usando a classe SVR7.

In [None]:
# SVM Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.svm import SVR
filename = 'housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO',
'B', 'LSTAT', 'MEDV']
dataframe = read_csv(filename, delim_whitespace=True, names=names)
array = dataframe.values
X = array[:,0:13]
Y = array[:,13]
num_folds = 10
kfold = KFold(n_splits=10, random_state=7)
model = SVR()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

In [None]:
%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

### End.