### conceito

Um conjunto de previsores é chamado de esemble. Parte do princípio que diferentes previsores formam uma decisão mais robusta que um individual. Os esembles funcionam melhor quando os previsores são o mais independente dos outros quanto possível pois, desta forma, aumenta a chance de cometerem tipos de erros diferentes, meelhorando o desempenho do esemble.

**Bagging:** Cada preditor é feito em cima de uma base diferente obtida por meio de bootstrap e o resultado é o conjunto dos preditores, aumentando a variabilidade. Bagging vem de bootstrap aggregate. Normalmente, os preditores são modelos/algoritmos iguais. Quando a amostragem é realizada sem substituição, é chamada de **pasting**.

**Boosting:** Cada iteração repondera os dados, dando mais peso para os exemplos (instâncias) errados. Normalmente, os preditores são modelos/algoritmos iguais. Os métodos mais populares são AdaBoost e Gradient Boosting.

**Stacking:** O modelo final (blender) é alimentado com os resultados dos outros modelos. Normalmente, os preditores/algoritmos são diferentes, isto é, são usados diferentes modelos para construir o metamodelo que será responsável pelo resultado final.

In [1]:
from sklearn.datasets import make_moons
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

In [2]:
# inicializando algoritmos

log_clf = LogisticRegression()
rnd_clf = RandomForestClassifier()
svm_clf = SVC()

In [3]:
# criar dataset
X, y = make_moons(n_samples = 10000, noise =.5, random_state = 0)

# separação entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [4]:
# rodar algoritmo

voting_clf = VotingClassifier(estimators = [('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)], voting = 'hard')

voting_clf.fit(X_train, y_train)

VotingClassifier(estimators=[('lr', LogisticRegression()),
                             ('rf', RandomForestClassifier()), ('svc', SVC())])

In [5]:
for clf in (log_clf, rnd_clf, svm_clf, voting_clf):
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))
    

# neste caso, o classificador de votação não supera o SVC individualmente

LogisticRegression 0.812
RandomForestClassifier 0.795
SVC 0.833
VotingClassifier 0.8245


**Random Forest:** É um esemble de árvores de decisão que utiliza bagging como método. As árvores são construídas a partir de um bootstrap dataset e apenas um conjunto aleatório específico de variáveis é selecionado em cada etapa.

In [6]:
# rodar algoritmo

clf = RandomForestClassifier(n_estimators = 100, max_features = "auto", random_state = 0)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
accuracy_score(y_test, y_pred)

0.7965

**Adaptive Boosting (AdaBoost):** É um esemble de previsores que utiliza boosting como método. Os previsores são construídos a partir de um bootstrap dataset, mas a cada previsor é treinado com pesos ponderados pelo previsor anterior, onde as instâncias de classificações erradas recebem maior peso para serem corrigidas no próximo previsor. Ao final, quando menos a taxa de erro do previsor, mais "influência" na decisão ele tem.

In [7]:
from sklearn.ensemble import AdaBoostClassifier

In [8]:
clf = AdaBoostClassifier(n_estimators = 100)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
accuracy_score(y_test, y_pred)

0.833

**Gradient Boosting:** Assim como o AdaBoost, adiciona previsores sequencialmente a um conjunto, cada um corrigindo seu antecessor. No entanto, em vez de ajustar os pesos da instância a cada iteração, tenta ajustar o novo previsor aos erros residuais feitos pelo anterior.

In [9]:
from sklearn.ensemble import GradientBoostingClassifier

In [10]:
clf = GradientBoostingClassifier(n_estimators = 100)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
accuracy_score(y_test, y_pred)

0.8335