<h1 style='font-size:40px'> Ensemble Learning and Random Forests</h1>
<div>
    <ul style='font-size:20px'> 
        <li> 
            O aprendizado Ensemble consiste em fazer previsões embasadas em um conjunto de modelos, ao invés de um único. Essa técnica é inspirada no conceito de <em> sabedoria da multidão</em>.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Voting Classifiers</h2>
<div>
    <ul style='font-size:20px'> 
        <li> 
            Um classificador por voto é um conjunto de classificadores diferentes que operam como um só. A previsão final é a mais recorrente entre cada um dos algoritmos individuais.
        </li>
    </ul>
</div>

In [15]:
from warnings import filterwarnings
filterwarnings('ignore')

In [20]:
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import recall_score
from sklearn.ensemble import VotingClassifier

X, y = load_breast_cancer(return_X_y=True)

log_reg = LogisticRegression()
knn = KNeighborsClassifier()
naive_bayes = GaussianNB()

voting_clf = VotingClassifier([
    ('log_reg', log_reg),
    ('knn', knn),
    ('naive_bayes', naive_bayes)
], voting='hard')

for clf in (log_reg, knn, naive_bayes, voting_clf):
    clf.fit(X,y)
    y_pred = clf.predict(X)
    print(clf.__class__.__name__, recall_score(y, y_pred))

LogisticRegression 0.969187675070028
KNeighborsClassifier 0.9747899159663865
GaussianNB 0.9719887955182073
VotingClassifier 0.9859943977591037


<div>
    <ul style='font-size:20px'> 
        <li> 
            Podemos definir o valor do argumento "voting" como soft, caso todos os algoritmos usados possam retornar as probabilidades de classe para cada instância. Isso faz com que as probabilidades de cada classe entre os algoritmos tenham as suas médias calculadas. Ao final, a categoria com a maior probabilidade média será aquela prevista.
        </li>
        <li> 
            Alguns classificadores, como o SVC, retornam as probabilidades apenas se o argumento "probability" estiver como True. 
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Bagging and Pasting</h2>
<div>
    <ul style='font-size:20px'> 
        <li> 
            Bagging e Pasting representam dois tipos de aprendizado em conjunto. Nos seus casos, várias instâncias de um mesmo algoritmo são treinadas em partições aleatórias do dataset.
        </li>
        <li> 
            No Bagging, a repetição de uma dada instância do conjunto de treino é substituída por outra. Em pasting, duplicatas são permitidas.
        </li>
    </ul>
</div>

<p style='color:red'> Página 195 (trecho grifado)