# Ensemble

Principais algoritmos simples de classificação para um Data Science:
#### KNN (K-Nearest Neighbors)

#### Logistic Regression
 - __[Artigo do Datacamp](https://www.datacamp.com/community/tutorials/understanding-logistic-regression-python)__
 - __[Tutorial do Andrew Ng](https://www.youtube.com/watch?v=-la3q9d7AKQ)__
 - __[Tutorial StatsQuest](https://www.youtube.com/watch?v=yIYKR4sgzI8)__

#### Naive Bayes
 - __[Artigo do Datacamp](https://www.datacamp.com/community/tutorials/naive-bayes-scikit-learn)__
 - __[Teoria de Probabilidade](https://www.youtube.com/watch?v=PrkiRVcrxOs)__
 - __[Video Tutorial](https://www.youtube.com/watch?v=CPqOCI0ahss&t=236s)__

#### SVM (Support Vector Machine)
 - __[Artigo do Datacamp](https://www.datacamp.com/community/tutorials/svm-classification-scikit-learn-python)__
 - __[Tutorial Codebasics](https://www.youtube.com/watch?v=FB5EdxAGxQg)__

#### Decision Tree
 - __[Artigo Datacamp](https://www.datacamp.com/community/tutorials/decision-tree-classification-python)__
 - __[Tutorial StatQuest](https://datahackers.com.br/blog)__
 - __[Google Devs from zero](https://www.youtube.com/watch?v=LDRbO9a6XPU)__



Ensembles são agrupamentos de algoritmos treinados para a realização de uma mesma tarefa.

Os ensembles podem ser homogênios, utilizando vários modelos gerados a partir do mesmo método (por exemplo, contendo apenas regressões lineares) ou heterogênios (utilizando vários tipos de modelos diferentes para chegar em um resultado). Todos eles partem do princípio que serão usados *weak learners* para atingir o objetivo final

Existem essencialmente três tipos de ensembles:
    
    - Bagging
    - Boosting
    - Stacking
    
Para o *Bagging* e para a *Random Forest*, pode-se agregar o resultado de algumas maneiras diferentes: Fazendo uma média dos valores, quando se está referindo à resultados de valores contínuos; fazendo a moda dos valores (votação) quando se está falando de classificações  ou ainda atribuindo um peso a cada modelo e fazendo uma média ponderada dos seus resultados. Todos esses modelos podem ser feitos de forma paralela (ao mesmo tempo).

Um exemplo de obtenção do resultado por votação:

<img src="img/votacao.jpg" align="center" width="50%">

### Bagging ensemble 

A palavra *Bagging* é a abreviação de *Bootstrap Aggregation*, onde a primeira palavra indica a criação de um sample com reposição e a segunda palavra a agregação dos resultados obtidos por modelos treinados a partir dessas diferentes samples. Ou seja, primeiramente temos a etapa de *resampling* para cada modelo, para então fazermos seus treinos e por fim agregar suas respostas da maneira mais adequada.  

Na criação das novas samples a partir da sample original, todos os exemplos da sample original, nesse caso, tem a mesma chance de aparecer na nova sample. Cada exemplo que é selecionado para entrar na nova sample sempre retorna ao "banco de exemplos" existentes na sample original, podendo assim ser escolhido novamente. As novas samples podem ser de tamahos menores ou do mesmo tamanho da sample original. 

<img src="img/Bagging_1.png" align="center" width="50%">

Com todas as novas samples geradas, pode-se então treinar cada um dos seus respectivos modelos, como é ilustrado na imagem abaixo:
<img src="img/Bagging_2.png" align="center" width="50%">

Dessa forma, formamos os várias *weak learners* (modelos que podem ser de quaisquer algoritmos como regressões logísticas, árvores de decisão, KNN; geralmente escolhe-se um deles, onde o mais comum é o de Árvore de Decisão pelo fato de ser mais facilmente interpretável), que irão gerar os seus "chutes" (previsões) para cada um dos exemplos de validação/teste, que serão agregados da forma mais adequada para cada tipo de problema.

<img src="img/bagging_2.png" align="center" width="80%">

Usar bootstrap (criação de sample com reposição) para construir as samples faz com que a probabilidade de se usar na nova seleção um exemplo já escolhido anteriormente ou um ainda não existente na sample que está sendo construída seja exatamente a mesma, já que após cada seleção há o retorno do exemplo selecionado de volta para a "bag" de exemplos. Isso faz com que a variância dos modelos que serão treinados seja menor do que sem usar o boostrap. No final desse algoritmo, os resultados são agregados usando uma média simples. 

Pegando um exemplo de uma variável e verificando como fica a entropia e o ganho (greedy) dessa feature em relação à variável resposta em duas situações diferentes, resultados:

Exemplo 1:

<img src="img/Exemplo_DT_1.png" align="center" width="80%">

Exemplo 2:

<img src="img/Exemplo_DT_2.png" align="center" width="80%">

### Random Forests

O algoritmo *Random Forests* pode ser considerado uma evolução do método de *bagging*. Suas árvores podem ser geradas com ou sem resample dos examplos da base de dados~, e caso seja optado por não fazer o *bagging* com os exemplos, todas as árvores serão testadas com o mesmo sample. A novidade aqui está na escolha dos preditores (features, características...) da base de dados. O hiperparâmetro ou o número de preditores que cada árvore terá pode ser determinado dependendo do tipo de resultado que se pretende obter, sendo esta a sugestão do criador, mas também de diversos outras maneiras como usando o log:
    - Quando uma regressão: teremos que o número de parâmetros de cada árvore será o número total de preditores sobre 3 (p/3)
    - Quando uma classificação: teremos que o número de parâmetros de cada árvore será a raiz quadrada do número total de preditores (sqrt(p))
    
   
A partir dessa determinação, cada árvore terá seus parâmetros selecionados randomicamente do total (por exemplo, se queremos resolver um problema de classificação e temos um total de 9 parâmetros, cada árvore terá 3 parâmetros, os quais serão selecionados aleatóriamente para cada uma). 

### Boosting

Imagine que estamos construindo um classificador. Ele terá um erro, correto? E se ao invés de treinar nossos modelos e cada um tivesse seu erro, nós treinássemos modelos especializados em corrigir os erros anteriores? Diferente dos ensembles anteriores, que são ensembles em paralelo, boosting é um ensemble sequencial.

<img src="img/boosting_0.png" align="left" width="20%">
1) Primeiramente, criamos um classificador base. Ele vai conter erros, e precisamos corrigí-los

<img src="img/boosting_1.png" align="left" width="20%">
2) Criamos um segundo classificador, mas que opera em cima dos erros do primeiro (wrong predictions).

<img src="img/boosting_2.jpeg" align="left" width="20%">
3) Continuamos esse loop até chegar na performance desejada (um threshold específico, acurácia,...). No momento de definir este *trashold* precisamos tomar cuidado para não overfitarmos os nossos dados. O output final é dado pela Weighted Average dos sub-modelos

<img src="img/boosting_3.png" align="left" width="20%">
4) Nosso modelo final é uma combinação de todos os outros

O Gradient Boosting e o XGBoost são os modelos de boosting mais utilizados por diversas razões, entretanto, entre os dois citados, o XGBoost costuma ter um desempenho melhor por ter uma regularização diferenciada. 

Algoritmos baseados em boosting:
 - Adaboost
 - GBM (Gradient Boosting Machine)
 - XGBoost (Extreme Gradient Boost)
 - LightGBM
 - CatBoost

### 2 - Stacking

A ideia por trás do stacking se divide em 2 partes. Treinar diversos algoritmos nos dados, e que as visões deles sobre os algoritmos sejam complementares, ou seja, cada algoritmo aprenda algo a partir do anterior. Desse modo, o stacking se dá por 2 loops:
 - loop externo: treino de cada algoritmo de modo independente.
 - loop interno: dividir o dataset de treino em 10 partes, serão, portanto, 10 combinações de 9:1. Treinar cada algoritmo em cada uma dessas 10 combinações. Os outputs de cada algoritmo no dataset de teste servirão de features para o próximo algoritmo no loop externo
De modo visual, o stacking se parece com isso:

<img src="img/stacking_77.png" align="center" width="80%">

Exemplo:

<img src="img/stacking_0.png" align="left" width="20%">
1) Após ter feito o `train_test_split`, quebrar o dataset de treino em 10 partes

<img src="img/stacking_1.png" align="left" width="20%"> 
2) Fazendo combinações de 9:1 partes, treinar o algoritmo (por ex, uma Decision Tree) nas 9 partes e usar a décima parte com pré-teste. Repitir isso para todas as combinações. Isso ajuda o algoritmo a entender pontos de vista diferentes sobre o dataset. O nome disso é **K-Fold Cross Validation**

<img src="img/stacking_2.png" align="left" width="20%">
3) Após o treino do primeiro algoritmo em seu loop interno, faça as predictions no dataset de teste. Esse output será utilizado como *feature* para os próximos algoritmos

<img src="img/stacking_3.png" align="left" width="20%">
4) Repitir o passo desse loop externo com os próximos algoritmos, até alcançar a performance desejada

O bom do Stacking é que se pode criar as features que desejar com esse método! Por exemplo, antes de fazer um regressor para prever a quantidade de vendas de um determinado produto na próxima semana, pode-se antes fazer um classificador que preveja se as vendas irão aumentar ou diminuir, para então passar esse output como nova feature :D

Algoritmos de Stacking:
- quaisquer

<img src="img/stacking_5.png" align="left">

Esse método é amplamente utilizado nas competições do Kaggle!

De um modo geral, os métodos de ensemble citados acima diminuem a variância do modelo único, já que eles combinam as estimativas dos diversos modelos. Isso faz com que o resultado seja mais estável (faça uma analogia com a Sabedoria da multidão). Se o problema do modelo único for baixa performance, o bagging será capaz de dar um bias melhor mas provavelmente a abordagem de boosting fará isso melhor. Entretando, se o modelo singular está overfitando, o bagging se torna a abordagem mais interessante. 

Por fim, alguns códigos base para guardar:

In [None]:
# Voting Classifier
model1 = tree.DecisionTreeClassifier()
model2 = KNeighborsClassifier()
model3= LogisticRegression()

model1.fit(x_train,y_train)
model2.fit(x_train,y_train)
model3.fit(x_train,y_train)

pred1=model1.predict(x_test)
pred2=model2.predict(x_test)
pred3=model3.predict(x_test)

final_pred = np.array([])
for i in range(0,len(x_test)):
    final_pred = np.append(final_pred, mode([pred1[i], pred2[i], pred3[i]]))
    
from sklearn.ensemble import VotingClassifier
model1 = LogisticRegression(random_state=1)
model2 = tree.DecisionTreeClassifier(random_state=1)
model = VotingClassifier(estimators=[('lr', model1), ('dt', model2)], voting='hard')
model.fit(x_train,y_train)
model.score(x_test,y_test)

In [None]:
# Stacking
def Stacking(model,train,y,test,n_fold):
    folds=StratifiedKFold(n_splits=n_fold,random_state=1)
    test_pred=np.empty((test.shape[0],1),float)
    train_pred=np.empty((0,1),float)
    for train_indices,val_indices in folds.split(train,y.values):
        x_train,x_val=train.iloc[train_indices],train.iloc[val_indices]
        y_train,y_val=y.iloc[train_indices],y.iloc[val_indices]

        model.fit(X=x_train,y=y_train)
        train_pred=np.append(train_pred,model.predict(x_val))
        test_pred=np.append(test_pred,model.predict(test))
    return test_pred.reshape(-1,1),train_pred

model1 = tree.DecisionTreeClassifier(random_state=1)
test_pred1 ,train_pred1=Stacking(model=model1,n_fold=10, train=x_train,test=x_test,y=y_train)
train_pred1=pd.DataFrame(train_pred1)
test_pred1=pd.DataFrame(test_pred1)

model2 = KNeighborsClassifier()
test_pred2 ,train_pred2=Stacking(model=model2,n_fold=10,train=x_train,test=x_test,y=y_train)
train_pred2=pd.DataFrame(train_pred2)
test_pred2=pd.DataFrame(test_pred2)

df = pd.concat([train_pred1, train_pred2], axis=1)
df_test = pd.concat([test_pred1, test_pred2], axis=1)
model = LogisticRegression(random_state=1)
model.fit(df,y_train)
model.score(df_test, y_test)

In [None]:
# Bagging
# Na real que a gente só usa RandomForest mesmo

In [None]:
# Boosting
# Usamos amplamente o XGBoost. Para isso, usamos a biblioteca xgb