### Ada Boost, o que é?

O Ada Boost é uma técnica de aprendizado de máquina, que constitui-se da utilização de várias árvores de decisão para, combinando-as, deliberar sobre a natureza de uma determinada variável dependente com base em dados sobre variáveis independentes. Assim sendo, o Ada Boost lembra em muitos aspectos o Random Forest.

### Quais as diferenças entre o Ada Boost e o Random Forest, então?

### Várias diferenças podem ser listadas entre o Ada Boost e o Random Forest, entre elas:
-  O Random Forest utiliza-se de árvores com profundidades diversas, o Ada Boost utiliza apenas árvores de profundidade 1 (Stumps)
-  O Random Forest atribui o mesmo peso à decisão de todas as árvores, enquanto, no Ada Boost, é atribuído um "peso" ao palpite de cada árvore com base em seu índice de acertos. Ou seja, a opinião de árvores que "erram mais" é menos relevante.
-  No Ada Boost, uma árvore construída, influencia nas árvores que serão construídas subsequentemente, o que, no Random Forest, não acontece
-  O adaboost se adapta (como o nome sugere - Adaptative Boosting) para aumentar o esforço de se prever especificamente os valores que as árvores anteriores não conseguiram prever. Isso, no entanto, torna o Ada Boost mais sujeito à overfiting.
-  O Adaboost, quando realizado com um parametro n-estimators baixo, possui eficiência muito baixa, sendo pouco melhor do que um palpite aleatório. Isso se deve à profundidade das árvores de decisão ser fixada em 1.
-  Comparado com o Random Forest, o Ada Boost tende a demorar mais para ser treinado, devido à característica de que os modelos são inter-dependentes.

### Implementando o Ada Boost:

### Carregando bibliotecas:

In [21]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score

In [39]:
### Carregando dados:
X, y = load_iris(return_X_y=True)

### Treinando a árvore
clf = AdaBoostClassifier(n_estimators=100, algorithm="SAMME")

### Avaliando o resultado:
scores = cross_val_score(clf, X, y, cv=5)
scores.mean()



0.9533333333333334

In [33]:
# Vamos ver se obtemos um resultado melhor aumentando o número de n_estimators:

clf2 = AdaBoostClassifier(n_estimators=500, algorithm="SAMME")

### Avaliando o resultado:
scores2 = cross_val_score(clf2, X, y, cv=5)
scores2.mean()

# Nossos resultados não melhoram! Provavelmente, o que está acontecendo é que ao realizar o treinamento com mais estimadores, o nosso modelo está
# capturando ruídos, aumentando sua efetividade na base de treino, mas derrubando sua efetividade na base de testes. Ou seja, aumentar indiscriminada-
# mente o número de árvores estimadoras não é sempre uma forma efetiva de melhorar o nosso modelo...

0.9466666666666667

### O Ada Boost e seus hiper-parâmetros ###

Assim como a maioria das funções de qualquer biblioteca do python, a implementação do Ada Boost via Scikit-learn aceita diversos hiper-parâmetros que customizam a execução da técnica. Os hiper-parâmetros especificam para o software de implementação determinadas características que queremos que a execução da técnica implementada possui. Alguns hiper-parâmetros do Ada Boost são:
* n_estimators: este hiper-parâmetro especifica quantos stumps a nossa regressão Ada Boost terá. Ou seja, quantas árvores serão utilizadas (visto que todas as árvores utilizadas são stumps)
* algorythm: especifica qual métodologia será usada, entre  "SAMME" e "SAMME.R". Por padrão, é SAMME. Se for SAMME, o modelo calculará as probabilidades de cada classe. Se for SAMME.R, ou seja, a probabilidade de cada classe é calculada, do contrário, não. O método SAMME.R está sinalizado como ultrapassado, e será removido em atualização futura, dada sua baixa eficiência em comparação com o método SAMME
* learning_rate: este parâmetro especifica o quanto será exigido mais estimadores para gerar uma convergência, ou seja, diminui o "peso" individual de cada estimador conforme se aproxima de 0.
* random_state: é uma espécie de "semente de aleatoriedade". Ou seja, ao especificarmos um random_state, tornamos possível que os nossos resultados possam ser replicados em outra máquina, embora os algoritmos envolvidos envolvam um alto grau de aleatoriedade
* estimator: define qual algoritmo e quais características terá, o algoritmo que será utilizado na criação dos stumps. Por padrão, é o DecisionTreeClassifier.
  