<h1 style='font-size:40px'> Ensemble Learning and Random Forests</h1>
<div>
    <ul style='font-size:20px'> 
        <li> 
            O aprendizado Ensemble consiste em fazer previsões embasadas em um conjunto de modelos, ao invés de um único. Essa técnica é inspirada no conceito de <em> sabedoria da multidão</em>.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Voting Classifiers</h2>
<div>
    <ul style='font-size:20px'> 
        <li> 
            Um classificador por voto é um conjunto de classificadores diferentes que operam como um só. A previsão final é a mais recorrente entre cada um dos algoritmos individuais.
        </li>
    </ul>
</div>

In [15]:
from warnings import filterwarnings
filterwarnings('ignore')

In [44]:
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import recall_score
from sklearn.ensemble import VotingClassifier

X, y = load_breast_cancer(return_X_y=True)

log_reg = LogisticRegression()
knn = KNeighborsClassifier()
naive_bayes = GaussianNB()

voting_clf = VotingClassifier([
    ('log_reg', log_reg),
    ('knn', knn),
    ('naive_bayes', naive_bayes)
], voting='hard')

for clf in (log_reg, knn, naive_bayes, voting_clf):
    y_pred = clf.fit(X,y)
    y_pred = clf.predict(X)
    print(clf.__class__.__name__, recall_score(y, y_pred))

LogisticRegression 0.969187675070028
KNeighborsClassifier 0.9747899159663865
GaussianNB 0.9719887955182073
VotingClassifier 0.9859943977591037


<div>
    <ul style='font-size:20px'> 
        <li> 
            Podemos definir o valor do argumento "voting" como soft, caso todos os algoritmos usados possam retornar as probabilidades de classe para cada instância. Isso faz com que as probabilidades de cada classe entre os algoritmos tenham as suas médias calculadas. Ao final, a categoria com a maior probabilidade média será aquela prevista.
        </li>
        <li> 
            Alguns classificadores, como o SVC, retornam as probabilidades apenas se o argumento "probability" estiver como True. 
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Bagging and Pasting</h2>
<div>
    <ul style='font-size:20px'> 
        <li> 
            Bagging e Pasting representam dois tipos de aprendizado em conjunto. Nos seus casos, várias instâncias de um mesmo algoritmo são treinadas em partições aleatórias do dataset.
        </li>
        <li> 
            No Bagging, a repetição de uma dada instância do conjunto de treino é substituída por outra. Em pasting, duplicatas são permitidas.
        </li>
        <li> 
            Em classificação, os ensembles elegem a classe mais prevista entre os modelos individuais. Em regressão, a média das previsões é computada.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Out-of-Bag Evaluation</h3>
<div>
    <ul style='font-size:20px'> 
        <li> 
            Cada previsor que compõe um ensemble é treinado em uma porção restrita do dataset de treino. As instâncias que não o alimentam são denominadas de instâncias out-of-bag (oob). 
        </li>
        <li> 
            O objeto BaggingClassifier nos permite que cada previsor seja avaliado entre suas oob (oob_score=True), nos fornecendo assim uma validação antecipada do ensemble. Ao final, poderemos extrair a acurácia média obtida.
        </li>
    </ul>
</div>

In [45]:
# O oob Evaluation é apenas possível em classificações 'bagging'. Por isso, sette o argumento 'bootstrap' como True.
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

tree_clf = DecisionTreeClassifier()
#n_jobs informa ao Python o número de cores do CPU para serem usados no treinamento e previsões.
bag_clf = BaggingClassifier(tree_clf, n_estimators=500, bootstrap=True, oob_score=True, n_jobs=-1)
bag_clf.fit(X,y)

# A acurácia média do Bagging Classifier foi de 96.3%
bag_clf.oob_score_

0.9666080843585237

In [46]:
# 'oob_decision_function' neste caso retorna as probabilidades de classe para cada instância.
bag_clf.oob_decision_function_

array([[0.88823529, 0.11176471],
       [0.97938144, 0.02061856],
       [1.        , 0.        ],
       ...,
       [0.97      , 0.03      ],
       [1.        , 0.        ],
       [0.01666667, 0.98333333]])

<h3 style='font-size:30px;font-style:italic'>Random Patches and Random Subspaces </h3>
<div>
    <ul style='font-size:20px'> 
        <li> 
            Assim como em Random Forest, podemos definir uma quantidade máxima de features que cada estimador poderá analisar. Dessa maneira, obteremos uma diversidade ainda maior em nosso ensemble. 
        </li>
    </ul>
</div>

In [47]:
# Para fazer isso, sette 'max_features' como um float ou int e 'bootstrap_features' como True.
bag_clf_features = BaggingClassifier(tree_clf, n_estimators=250, max_features=2, bootstrap_features=True, oob_score=True)
bag_clf_features.fit(X,y)

# Infelizmente, essa estratégia foi um pouco pior do que a anterior. Mas vale a pena a considerarmos em nossos projetos!
bag_clf_features.oob_score_

0.9507908611599297

<h2 style='font-size:30px'> Random Forests</h2>
<div>
    <ul style='font-size:20px'> 
        <li> 
            O Random Forests é um algoritmo de Bagging voltado às Árvores de Decisão. A necessidade de se ter um objeto próprio surgiu da aleatoriedade de formação das árvores e de sua tendência a se viciarem ao dataset de treino.
        </li>
    </ul>
</div>

In [48]:
from sklearn.ensemble import RandomForestClassifier

# O objeto RandomForestClassfier possui tanto argumentos do DecisionTreeClassifier, quanto do BaggingClassifier.
rnd_clf = RandomForestClassifier(n_estimators = 1000, min_impurity_decrease=0.05, max_features=3,n_jobs=-1)
rnd_clf.fit(X,y)
rnd_clf.score(X,y)

0.945518453427065

<h2 style='font-size:30px'> Extra-Trees</h2>
<div>
    <ul style='font-size:20px'> 
        <li> 
           O algoritmo de Extra-Trees confere ainda mais aleatoriedade ao ensemble. Dessa vez, os thresholds utilizados na criação dos nós também são escolhidos de maneira aleatória. Isso torna o modelo mais rápido do que o Random Forests, já que ele não precisa perder tempo computando o melhor threshold para os splits.
        </li>
        <li> 
            Vale lembrar que os Extra-Trees funcionam tanto para classificação, quanto para regressão.
        </li>
    </ul>
</div>

In [49]:
from sklearn.ensemble import ExtraTreesClassifier
extra_clf = ExtraTreesClassifier(n_estimators=1000,max_features=3, max_leaf_nodes=7)
extra_clf.fit(X,y)

# E veja! Obtivemos um score ainda melhor do que o último Random Forest criado.
extra_clf.score(X,y)

0.9525483304042179

<h2 style='font-size:30px'> Feature Importance</h2>
<div>
    <ul style='font-size:20px'> 
        <li> 
           Outra enorme qualidade dos objetos de ensemble com Árvores de Decisão é a existência do atributo "feature_importances_". Ele apresenta o grau de relevância de cada feature do dataset para o algoritmo. Isso, por sua vez, é calculado com base na redução do grau de impureza que o uso de tal feature acarreta.
        </li>
        <li> 
            O uso desse atributo pode ser útil em tarefas de limpeza dos DataFrames.
        </li>
    </ul>
</div>

In [50]:
# Observando o 'feature_importances_' do Extra-Trees feito.
extra_clf.feature_importances_

array([0.06035907, 0.0174541 , 0.07361051, 0.0624011 , 0.00837459,
       0.03097108, 0.0675814 , 0.09423887, 0.00662938, 0.00209498,
       0.02771771, 0.00038206, 0.02903179, 0.03064096, 0.00060547,
       0.00562876, 0.00706598, 0.01053226, 0.00096648, 0.00136401,
       0.0713237 , 0.02699531, 0.08079771, 0.06790419, 0.01466226,
       0.03370015, 0.04694028, 0.09776072, 0.0147883 , 0.00747681])

<h2 style='font-size:30px'> Boosting</h2>
<div>
    <ul style='font-size:20px'> 
        <li> 
           Os algoritmos de Boosting representam uma outra natureza de ensemble. Nela, os previsores são treinados em sequência, com um tentando corrigir os defeitos de seu antecessor.                                                                              
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> AdaBoost</h3>
<div>
    <ul style='font-size:20px'> 
        <li> 
           O foco de um ensemble AdaBoost é o de fazer o previsor melhorar as previsões em instâncias que o seu antecessor errou.          
        </li>
        <li> 
            Como todo algoritmo de Boosting, ele possui uma learning rate, que pode ser alterada.
        </li>
        <li> 
            Em caso de overfitting, tente reduzir o número de estimadores ou regularize o modelo-base.
        </li>
    </ul>
</div>

In [58]:
# O algoritmo-padrão de montagem de um Adaboost é o SAMME.R. Utilize-o se o algoritmo-base poder retornar probabilidades de classe.
# Caso o contrário, sette 'algorithm' como 'SAMME'.
from sklearn.ensemble import AdaBoostClassifier
ada_clf = AdaBoostClassifier(DecisionTreeClassifier(max_depth=1), n_estimators=500,
                            algorithm='SAMME.R', learning_rate=.5)

# Há um overfitting! Em um projeto real, deveríamos buscar soluções como as mencionadas.
ada_clf.fit(X,y)
ada_clf.score(X,y)

1.0

<h3 style='font-size:30px;font-style:italic'> Gradient Boosting</h3>
<div>
    <ul style='font-size:20px'> 
        <li> 
           A estratégia do Gradient Boosting é focar nos erros residuais produzidos pelos estimadores. Em regressão, para cada instância, o valor retornado pelo ensemble é a soma das previsões de cada estimador.       
        </li>
        <li> 
            Suponha que o valor-alvo de uma instância seja 100, mas o seu primeiro previsor tenha estimado um valor de 95. Nesse contexto, há uma diferença de 5 unidades entre o verdadeiro número e a previsão. O segundo modelo será treinado tendo agora, para aquela instância, um valor-alvo de 5 (valor_alvo_real - estimativa_ultimo_algoritmo). Caso o algoritmo acerte a previsão, a estimativa geral do ensemble será de 95+5=100, ou seja, o valor que buscávamos chegar!
        </li>
    </ul>
</div>

In [2]:
# Um Gradient Boosting caseiro.
from sklearn.datasets import make_regression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

X,y = make_regression(n_features=2)

# Primeiro algoritmo do ensemble e sua previsão.
tree1 = DecisionTreeRegressor(max_depth=2)
y2 = y - tree1.fit(X,y).predict(X)

# Segundo algoritmo, agora treinado sobre os erros do primeiro.
tree2 = DecisionTreeRegressor(max_depth=2)
y3 = y2 - tree2.fit(X,y2).predict(X)

# Último modelo.
tree3 = DecisionTreeRegressor(max_depth=2)
tree3.fit(X,y3)

# Fazendo uma previsão para uma certa instância do dataset.
y_pred = sum(tree.predict(X[0].reshape(1, -1)) for tree in (tree1, tree2, tree3))

# Por quanto o ensemble errou?
y[0] - y_pred

array([-18.10766436])

In [4]:
# Mas, como é de se esperar, o sklearn já possui uma classe de Gradient Boosting. Mais precisamente, essa consiste em um ensemble
# de árvores de decisão.
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error
gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=50, learning_rate=1.0)
gbrt.fit(X,y)

mean_squared_error(y, gbrt.predict(X))

0.3099716666509157

In [17]:
# Você pode fazer com que cada árvore seja treinada em um pedaço aleatório do dataset de treino com 'subsample'.
gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=5000, learning_rate=0.05, subsample=0.15)
gbrt.fit(X,y)

mean_squared_error(y, gbrt.predict(X))

0.005180717412484529

<div>
    <ul style='font-size:20px'> 
        <li> 
           Os objetos de Gradient Boosting também contam com o método 'stage_predict', que mostra as previsões feitas pelas árvores de cada iteração. Pode ser bastante útil em implementações de early stopping.      
        </li>
        <li>
            Lembre-se, assim como em modelos de regressão, os de Gradient Boosting podem não nos oferecer a solução ótima, pois o seu treinamento é interrompido apenas quando a taxa de erro do algoritmo começa a subir. Dessa maneira, é interessante pensar em fazer um early stopping a fim de buscarmos o melhor modelo o possível.
        </li>
    </ul>
</div>

In [10]:
# Pegando apenas o primeiro round de previsões.
a= 0
for i in gbrt.staged_predict(X):
    if a<1:
        print(i)
        a+=1
    else:
        break

[ 43.52422393  43.52422393 -41.35910897  43.52422393 -41.35910897
   0.13613748  43.52422393   0.13613748   0.13613748 113.08344214
   0.13613748   0.13613748   0.13613748 113.08344214   0.13613748
 -41.35910897   0.13613748   0.13613748  43.52422393 113.08344214
 -41.35910897 -41.35910897   0.13613748  43.52422393   0.13613748
   0.13613748  43.52422393 -41.35910897  43.52422393   0.13613748
  43.52422393 -41.35910897  43.52422393 -41.35910897 -41.35910897
 113.08344214  43.52422393   0.13613748  43.52422393  43.52422393
 -41.35910897   0.13613748 -41.35910897  43.52422393   0.13613748
   0.13613748 -41.35910897 113.08344214  43.52422393 -41.35910897
  43.52422393   0.13613748 -41.35910897 -41.35910897 -41.35910897
 -41.35910897  43.52422393 -41.35910897  43.52422393  43.52422393
 -41.35910897 -41.35910897  43.52422393 -41.35910897   0.13613748
 -41.35910897 -41.35910897 -41.35910897  43.52422393   0.13613748
  43.52422393 -41.35910897  43.52422393 -41.35910897 -41.35910897
  43.52422

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> XGBoost</h4>
<div>
    <ul style='font-size:20px'> 
        <li> 
           A biblioteca XGBoost é bastante recomendável em implementações de Gradient Boostings. Suas vantagens são a sua velocidade, escalabilidade e a existência da opção de fazermos early stoppings.
        </li>
    </ul>
</div>

In [18]:
from xgboost import XGBRegressor
xgb_reg = XGBRegressor(max_depth=2, n_estimators=5000, learning_rate=0.05, subsample=0.15).fit(X,y)
mean_squared_error(y, xgb_reg.predict(X))

0.014715955498924103

In [19]:
# Hpa muitas similaridades entre os objetos do XGBoost e do sklearn!
xgb_reg.feature_importances_

array([0.84587985, 0.15412016], dtype=float32)

In [11]:
pip install xgboost

Collecting xgboost
  Downloading xgboost-1.6.1-py3-none-manylinux2014_x86_64.whl (192.9 MB)
[K     |████████████████████████████████| 192.9 MB 85 kB/s  eta 0:00:01    |█▍                              | 8.4 MB 145 kB/s eta 0:21:06     |███████▌                        | 45.5 MB 39 kB/s eta 1:02:49     |█████████████▋                  | 82.0 MB 251 kB/s eta 0:07:22     |█████████████▋                  | 82.0 MB 153 kB/s eta 0:12:03     |████████████████▊               | 100.9 MB 330 kB/s eta 0:04:39     |█████████████████               | 101.8 MB 210 kB/s eta 0:07:12     |█████████████████▏              | 103.6 MB 324 kB/s eta 0:04:35     |█████████████████▋              | 106.0 MB 76 kB/s eta 0:18:50     |████████████████████            | 120.0 MB 166 kB/s eta 0:07:19     |████████████████████            | 121.1 MB 247 kB/s eta 0:04:50     |█████████████████████▎          | 128.4 MB 2.7 MB/s eta 0:00:25     |█████████████████████▋          | 130.1 MB 251 kB/s eta 0:04:10     |██████████

<p style='color:red'> Gradient Boosting