### Melhore o desempenho com conjuntos

Os conjuntos podem aumentar a precisão do seu conjunto de dados. Neste capítulo você descobrirá
como você pode criar alguns dos tipos mais poderosos de ensembles em Python usando o scikit-learn.
Esta lição irá guiá-lo através de Boosting, Bagging e Votação da Maioria e mostrará como você pode
pode continuar aumentando a precisão dos modelos em seus próprios conjuntos de dados. Depois de completar
nesta lição você saberá:
 
1. Como usar métodos bagging ensemble, como árvores de decisão ensacadas, floresta aleatória e
árvores extras.
2. Como usar métodos de conjunto de reforço, como AdaBoost e aumento de gradiente estocástico.
3. Como usar métodos de combinação de votação para combinar as previsões de vários algoritmos.

#### Combine modelos em previsões de conjunto

Os três métodos mais populares para combinar as previsões de diferentes modelos são:
Ensacamento. Construir vários modelos (normalmente do mesmo tipo) a partir de diferentes subamostras
do conjunto de dados de treinamento.
Impulsionando. Construir vários modelos (normalmente do mesmo tipo), cada um dos quais aprende a
x os erros de previsão de um modelo anterior na sequência de modelos.
Votação. Construindo modelos múltiplos (normalmente de tipos diferentes) e estatísticas simples (como
cálculo da média) são usados para combinar previsões.
Isso pressupõe que você geralmente esteja familiarizado com algoritmos e ensemble de aprendizado de máquina
métodos e não entrará em detalhes de como os algoritmos funcionam ou seus parâmetros.
O conjunto de dados do início do diabetes dos índios Pima é usado para demonstrar cada algoritmo. Cada
algoritmo de conjunto é demonstrado usando validação cruzada de 10 vezes e a precisão de classificação
métrica de desempenho.

#### Algoritmos de ensacamento(Bagging )

Bootstrap Aggregation (ou Bagging) envolve a coleta de várias amostras de seu conjunto de dados de treinamento
(com reposição) e treinando um modelo para cada amostra. A previsão de saída nal é calculada em média
através das previsões de todos os sub-modelos. Os três modelos de ensacamento abordados nesta seção
são como segue:

Árvores de Decisão Bagged.
Floresta Aleatória.
Árvores extras.

##### Árvores de Decisão Bagged

O ensacamento funciona melhor com algoritmos que possuem alta variância. Um exemplo popular são
árvores de decisão, muitas vezes construídas sem poda. No exemplo abaixo está um exemplo
de usar o BaggingClassifier com o algoritmo Classi cation and Regression Trees
(DecisionTreeClassifier1). Um total de 100 árvores são criadas.

In [1]:
# Bagged Decision Trees for Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
filename = 'datasets/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 
         'skin', 'test', 'mass',
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
seed = 7
kfold = KFold(n_splits=10, random_state=seed, shuffle=True)
cart = DecisionTreeClassifier()
num_trees = 100
model = BaggingClassifier(base_estimator=cart, n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7578263841421736


Executando o exemplo, obtemos uma estimativa robusta da precisão do modelo.

In [2]:
print(results.mean())

0.7578263841421736


##### Random Forest

Random Forests é uma extensão das árvores de decisão ensacadas. As amostras do conjunto de dados de treinamento são
tomadas com reposição, mas as árvores são construídas de forma a reduzir a correlação
entre classificadores individuais. Especificamente, em vez de escolher avidamente o melhor ponto de divisão em
Na construção de cada árvore, apenas um subconjunto aleatório de recursos é considerado para cada divisão. Você
pode construir um modelo Random Forest para classificação usando o RandomForestClassifier
classe2. O exemplo abaixo demonstra o uso de Random Forest para classificação com 100 árvores
e pontos de divisão escolhidos de uma seleção aleatória de 3 recursos.

In [3]:
# Random Forest Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

filename = 'datasets/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres',
         'skin', 'test', 'mass',
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_trees = 100
max_features = 3
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7708646616541354


A execução do exemplo fornece uma estimativa média da precisão da classificação.

In [4]:
print(results.mean())

0.7708646616541354


##### Extra Trees

Extra Trees são outra modificação de bagging onde árvores aleatórias são construídas a partir de
amostras do conjunto de dados de treinamento. Você pode construir um modelo Extra Trees para classificação usando
a classe ExtraTreesClassifier3. O exemplo abaixo fornece uma demonstração de árvores extras
com o número de árvores definido como 100 e divisões escolhidas entre 7 recursos aleatórios.

In [5]:
# Extra Trees Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import ExtraTreesClassifier

filename = 'datasets/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres',
         'skin', 'test', 'mass',
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_trees = 100
max_features = 7
kfold = KFold(n_splits=10, random_state=7, shuffle=True)
model = ExtraTreesClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7630382775119617


A execução do exemplo fornece uma estimativa média da precisão da classificação.

In [6]:
print(results.mean())

0.7630382775119617


#### Boosting Algorithms

O reforço de algoritmos de conjunto cria uma sequência de modelos que tentam corrigir os erros
dos modelos antes deles na sequência. Uma vez criados, os modelos fazem previsões que
podem ser ponderados por sua precisão demonstrada e os resultados são combinados para criar um resultado final
previsão de saída. Os dois algoritmos de aprendizado de máquina de conjunto de reforço mais comuns são:
AdaBoost.
Reforço de gradiente estocástico.

##### AdaBoost

AdaBoost foi talvez o primeiro algoritmo de conjunto de boosting bem-sucedido. geralmente funciona
ponderando as instâncias no conjunto de dados pela facilidade ou dificuldade de classificá-las, permitindo
o algoritmo para prestar ou menos atenção a eles na construção de modelos subsequentes. Você
pode construir um modelo AdaBoost para classificação usando o AdaBoostClassifier class4. O
exemplo abaixo demonstra a construção de 30 árvores de decisão em sequência usando o AdaBoost
algoritmo.

In [7]:
# AdaBoost Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier

filename = 'datasets/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 
         'skin', 'test', 'mass',
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_trees = 30
seed=7
kfold = KFold(n_splits=10, random_state=seed, shuffle=True)
model = AdaBoostClassifier(n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7552802460697198


A execução do exemplo fornece uma estimativa média da precisão da classificação.

In [8]:
print(results.mean())

0.7552802460697198


##### Stochastic Gradient Boosting

O Stochastic Gradient Boosting (também chamado de Gradient Boosting Machines) é um dos métodos mais
técnicas sofisticadas de ensemble. É também uma técnica que está a revelar-se talvez uma das
as melhores técnicas disponíveis para melhorar o desempenho através de ensembles. Você pode construir um
Modelo Gradient Boosting para classi cação usando a classe GradientBoostingClassifier5. O
O exemplo abaixo demonstra o Stochastic Gradient Boosting para classificação com 100 árvores.

In [9]:
# Stochastic Gradient Boosting Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier

filename = 'datasets/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres',
         'skin', 'test', 'mass',
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
seed = 7
num_trees = 100
kfold = KFold(n_splits=10, random_state=seed, shuffle=True)
model = GradientBoostingClassifier(n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7591934381408066


A execução do exemplo fornece uma estimativa média da precisão da classificação.

In [10]:
print(results.mean())

0.7591934381408066


#### Voting Ensemble

A votação é uma das maneiras mais simples de combinar as previsões de vários aprendizados de máquina
algoritmos. Ele funciona primeiro criando dois ou mais modelos autônomos de seu conjunto de dados de treinamento.
Um classificador de votação pode então ser usado para agrupar seus modelos e calcular a média das previsões do
submodelos quando solicitado a fazer previsões para novos dados. As previsões dos sub-modelos podem
ser ponderados, mas especificar os pesos para classificadores manualmente ou mesmo heuristicamente é difícil.
Métodos mais avançados podem aprender como ponderar melhor as previsões de submodelos, mas isso
é chamado de empilhamento (agregação empilhada) e atualmente não é fornecido no scikit-learn.

Você pode criar um modelo de conjunto de votação para classificação usando o VotingClassifier
classe6. O código abaixo fornece um exemplo de combinação das previsões de regressão logística,
árvores de classificação e regressão e máquinas de vetores de suporte juntas para uma classificação
problema.

In [11]:
# Voting Ensemble for Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import VotingClassifier

import warnings
warnings.filterwarnings('ignore')

filename = 'datasets/pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres',
         'skin', 'test', 'mass',
         'pedi', 'age', 'class']

dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7, shuffle=True)

# create the sub models
estimators = []
model1 = LogisticRegression()
estimators.append(('logistic', model1))
model2 = DecisionTreeClassifier()
estimators.append(('cart', model2))
model3 = SVC()
estimators.append(('svm', model3))

# create the ensemble model
ensemble = VotingClassifier(estimators)
results = cross_val_score(ensemble, X, Y, cv=kfold)
print(results.mean())

0.769583048530417


A execução do exemplo fornece uma estimativa média da precisão da classificação.

In [12]:
print(results.mean())

0.769583048530417


In [13]:
%reload_ext watermark
%watermark -gu "caiquemiranda" -iv

Github username: caiquemiranda



### End.