# Método de Ensemble

<p align=center>
  <img src="https://t4.ftcdn.net/jpg/01/57/46/45/240_F_157464589_bbIjWhmU5DBNQqMhgZFeRx1fNr0n7mhZ.jpg" height="250px">
</p>

Método de ensemble é uma técnica de machine learning que combina diversos modelos para produzir um modelo preditivo melhor.

Cada um dos métodos utilizados em machine learning tem os seus preceitos por isso, acabam gerando resultados diferentes. Por isso, é recomendado que se utilize mais de um método a cada modelo criado, para que assim se consiga pegar o melhor resultado entre eles. Porém, imagina se pudesse juntar o melhor dos dois mundos e obter um resultado ainda melhor? É exatamente essa a premissa do método de ensemble, ele pegará os resultados de cada um dos modelos, analisar e encontrar o seu próprio resultado com base nos outros. Isso não garante que o resultado vai ser o melhor possível, mas já aumenta bastante as oportunidades.

Um ponto muito importante é que os métodos utilizados precisam ser bem diferentes uns dos outros, porque eles utilizarão a mesma base de dados, então se o método for semelhante o resultado também será semelhante, portanto, não terá porquê utilizar o método de ensemble.

Antes de se ver o método de ensemble, na prática, será necessário explicar cada um dos outros algoritmos que serão utilizados com o método de ensemble.

## Gradiente descendente

É um algoritmo de otimização cujo objetivo é encontrar o local mínimo de uma função diferencial. É utilizado em machine learning para encontrar os valores dos parâmetros (coeficientes) das funções que minimiza ao máximo a função custo.

Essa função propõe valor inicial aleatório para os coeficientes e, assim, calcula o valor da função de custo. A função custo, basicamente, mede o quanto as previsões do modelo estão distantes dos valores reais.

O ponto inicial é definir valores aleatórios e, a partir disso, o gradiente descente os utilizará para fazer cálculos interativos de modo a ajustar os valores até minimizar a função custo fornecida.

Gradiente mede quanto o valor de saída da função muda se mudar um pouco os valores de entrada. Pode-se pensar nele, também, como a inclinação da reta da função. Quanto maior o gradiente, menor será a inclinação e mais rápido o modelo aprenderá. Se a inclinação for igual a zero, o modelo parará de aprender. Em termos matemáticos, o gradiente é a derivada parcial em relação aos valores de entrada.

Para entender o método de gradiente descendente é necessário pensar em algo descendo um vale visando chegar na parte mais embaixo. Isso é o algoritmo de minimização que minimiza a função dada.

<p align=center>
  <img src="https://cdn.builtin.com/sites/www.builtin.com/files/styles/ckeditor_optimize/public/inline-images/national/gradient-descent-equation.png" height="50px">
</p>

Essa equação descreve o que o método faz. 

* b: A próxima posição da descida;
* a: Posição atual;
* -: Refere a parte de minimização do gradiente descendente;
* gamma: Fator de espera;
* Δf(a): A direção do gradiente.


Essa fórmula, basicamente, nos mostra qual o caminho que será seguido. 

<p align=center>
  <img src="https://cdn.builtin.com/sites/www.builtin.com/files/styles/ckeditor_optimize/public/inline-images/national/gradient-descent-convex-function.png" height="250px">
</p>

Esse é ponto que se quer alcançar, o ponto mínimo. 


[Referência](https://builtin.com/data-science/gradient-descent)

## Máquina de Vetores de Suporte (SVM)

É um algoritmo de aprendizado de máquina utilizado tanto para classificação quanto para regressão. O objetivo desse algoritmo é encontrar hiperplano em um espaço N-dimensional (onde N é o número de variáveis) que classifica os pontos distintos.

<p align=center>
  <img src="https://miro.medium.com/max/600/0*0o8xIA4k3gXUDCFU.png" height="250px">
</p>

Para separar as duas classes de pontos de dados, muitos hiperplanos podem ser escolhidos. O objetivo é encontrar o plano que tem a margem máxima. Maximizar a distância da margem fornece algum reforço para que os dados futuros possam ser classificados com mais confiança. 

Com um exemplo prático: Qual seria o melhor hiperplano para o conjunto de dados da imagem abaixo? De forma até intuitiva, sabe-se que realmente é o H1.

<p align=center>
  <img src="https://miro.medium.com/max/457/0*WhPF16WXTzkkGIal" height="250px">
</p>

O H1 se encontra no ponto médio entre os dois planos (sinalizados como + e -), a forma que ele separa faz com que seja possível ver as características de simetria de cada um dos dois conjuntos. 

<p align=center>
  <img src="https://miro.medium.com/max/441/0*IUBPxDwaCa8-WiAR" height="250px">
</p>


Na figura acima temos os pontos em verde, eles são os mais próximos do hiperplano. São conhecidos como **vetores de suporte**. Sabendo isso, também constata-se a origem do nome do algoritmo. A partir desses vetores o modelo é desenvolvido matematicamente, é treinado e otimizado. A distância entre esses vetores e o hiperplano é a **margem**.

É através do conceito de maximizar a distância da margem de modo a obter a melhor classificação que o SVM funciona e consegue obter diversos resultados aplicáveis no nosso dia a dia. Há diversas aplicações práticas, tais como: detecção facial, reconhecimento de textos, reconhecimento de imagens.

Se quiser saber mais sobre esse algoritmo recomendo a leitura[desse artigo](https://medium.com/@msremigio/m%C3%A1quinas-de-vetores-de-suporte-svm-77bb114d02fc)

## Árvore de Decisão

Esse algoritmo também pode ser utilizado tanto para classificação e regressão, mas ele é utilizado preferencialmente em modelos de classificação. 

A árvore de decisão pode ser explicada por duas entidades: nós de decisão e folhas. As folhas são decisões ou os resultados finais. Os nós de decisão são onde os dados se dividem. 

O objetivo desse algoritmo é criar um modelo que prediz o valor objetivo através de simples regras de decisão. Uma árvore de decisão pode ser vista como uma aproximação constante por partes.

<p align=center>
  <img src="https://static.javatpoint.com/tutorial/machine-learning/images/decision-tree-classification-algorithm.png" height="250px">
</p>

É chamado árvore de decisão, porque de forma similar a uma árvore, o algoritmo começa em um nó raiz e se expande em outros ramos, construindo, assim, uma estrutura como uma árvore. Uma árvore de decisão faz perguntas e com base nas respostas (sim/não) é feita a divisão em subárvores.

**Algumas vantagens**:

* Fácil de entender e interpretar. Elas podem ser bem visuais.
* Precisa de pouca preparação dos dados.
* Capaz de lidar com dados numéricos e categóricos. 
* Consegue lidar com diversas categorias de problemas.
* É possível validar o modelo utilizando testes estatísticos. 



## Utilizando os 3 modelos para o método de ensemble

Agora que os três modelos foram explicados é possível utilizar o método de ensemble como maior facilidade de entendimento. 

Aqui é importante ressaltar, mais uma vez, que os três modelos apresentados e serão utilizados são bem diferentes uns dos outros. Isso porque será utilizado o mesmo conjunto de dados, portanto se fosse utilizar algoritmos semelhantes não teria propósito utilizar o método de ensemble. 

Os dados utilizados para esse *notebook* são os famosos dados do Titanic, querendo saber de um passageiro sobreviveu ou não ao acidente. 

In [1]:
#Importar os pacotes necessários 
import pandas as pd
import numpy as np

In [2]:
#Importar o dataset
df = pd.read_csv('https://www.dropbox.com/s/s5yislxjxdw0uti/train.csv?dl=1')

#Criar uma cópia do conjunto de dados
df_copy = df.copy()

#Excluir as colunas "Name", "Ticket" (muitos valores únicos), "Cabin" (Muitos valores ausentes)
df_copy.drop(labels=['Name', 'Ticket', 'Cabin'], axis = 1, inplace=True)

#Preencher com a mediana
df_copy['Age'].fillna(df_copy['Age'].median(), inplace=True)

#Preencher com o valor mais comum
df_copy.fillna(df_copy['Embarked'].value_counts().sort_values(ascending=False).index[0], inplace=True)

#Substituir valores por categorias
df_copy['Pclass'] = df_copy['Pclass'].map({1: 'First', 2: 'Second', 3: 'Third'})

#Criação de variáveis familiares
df_copy['Family'] = df_copy['SibSp'] + df_copy['Parch']

#Excluir variáveis familiares
df_copy.drop(labels=['SibSp', 'Parch'], axis = 1, inplace=True)

#Transformar variáveis "object" (sex e embarked) em dummies (One-hot-encoding)
df_train_processed = pd.get_dummies(df_copy)

#Setando PassengerID como index
df_train_processed.set_index('PassengerId', inplace=True)

#Visualizando entradas
df_train_processed.head()

Unnamed: 0_level_0,Survived,Age,Fare,Family,Pclass_First,Pclass_Second,Pclass_Third,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,0,22.0,7.25,1,0,0,1,0,1,0,0,1
2,1,38.0,71.2833,1,1,0,0,1,0,1,0,0
3,1,26.0,7.925,0,0,0,1,1,0,0,0,1
4,1,35.0,53.1,1,1,0,0,1,0,0,0,1
5,0,35.0,8.05,0,0,0,1,0,1,0,0,1


In [3]:
#Separando em X para treino
X = df_train_processed.drop(labels=['Survived', 'Sex_male', 'Embarked_C', 'Pclass_Second'], axis=1)
y = df_train_processed['Survived']

In [4]:
#Separando entre treino e teste
from sklearn.model_selection import train_test_split

##Garantindo resultados iguais para repetição do notebook
SEED = 42
np.random.seed(SEED)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y)

In [5]:
#Estimando os modelos individuais
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_train)
X_scaled_test = scaler.transform(X_test)

model_sgd = SGDClassifier()
model_svc = SVC()
model_dt = DecisionTreeClassifier()

np.random.seed(SEED)
predict = pd.DataFrame(y_test)
for model in (model_sgd, model_svc, model_dt):
    model.fit(X_scaled, y_train)
    y_pred = model.predict(X_scaled_test)
    predict[model.__class__.__name__] = y_pred

predict

Unnamed: 0_level_0,Survived,SGDClassifier,SVC,DecisionTreeClassifier
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
566,0,0,0,0
161,0,0,0,0
554,1,1,0,0
861,0,0,0,0
242,1,1,1,1
...,...,...,...,...
881,1,1,1,1
92,0,0,0,0
884,0,0,0,0
474,1,1,1,1


In [6]:
#Obtendo os resultados para cinco diferentes passageiros
predict.iloc[[0, 2, 4, 7, 13]]

Unnamed: 0_level_0,Survived,SGDClassifier,SVC,DecisionTreeClassifier
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
566,0,0,0,0
554,1,1,0,0
242,1,1,1,1
537,0,0,0,1
818,0,1,0,0


Aqui é possível ver quais casos os algoritmos acertaram e quais não. 

Na primeira (ID = 566) e terceira (ID = 242) linha todos os algoritmos acertaram. Na segunda (ID = 554) linha apenas o SGDClassifier acertou. A quarta (ID = 537) tanto o SGDClassifier quanto o SVC acertaram. Já na última (ID = 818) linha apenas o SGDClassifier errou. 

In [7]:
#Utilizando o classificador de votação
from sklearn.ensemble import VotingClassifier
np.random.seed(SEED)
voting_clf = VotingClassifier(
    estimators= [('sgd', model_sgd), ('svc', model_svc), ('dt', model_dt)]
)

predict2 = pd.DataFrame(y_test)
for model in (model_sgd, model_svc, model_dt, voting_clf):
    model.fit(X_scaled, y_train)
    y_pred = model.predict(X_scaled_test)
    predict2[model.__class__.__name__] = y_pred

predict2

Unnamed: 0_level_0,Survived,SGDClassifier,SVC,DecisionTreeClassifier,VotingClassifier
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
566,0,0,0,0,0
161,0,0,0,0,0
554,1,1,0,0,0
861,0,0,0,0,0
242,1,1,1,1,1
...,...,...,...,...,...
881,1,1,1,1,1
92,0,0,0,0,0
884,0,0,0,0,0
474,1,1,1,1,1


In [8]:
#Obtendo os resultados para cinco diferentes passageiros
predict2.iloc[[0, 2, 4, 7, 13]]

Unnamed: 0_level_0,Survived,SGDClassifier,SVC,DecisionTreeClassifier,VotingClassifier
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
566,0,0,0,0,0
554,1,1,0,0,0
242,1,1,1,1,1
537,0,0,0,1,0
818,0,1,0,0,0


Aqui é possível ver como o método de ensemble funciona. Ele pegou as respostas mais comuns para cada um dos três métodos utilizados e assumiu como verdade. Isso fez com que ele errasse apenas uma vez, na segunda linha (ID = 554). Ele errou nessa linha porque foi justamente quando apenas um algoritmo acertou a resposta e como o método de ensemble, nesse caso, está assumindo a maior parte das respostas como verdadeira ele errou. 

In [9]:
#Obtendo as acurácias
from sklearn.metrics import accuracy_score
np.random.seed(SEED)
model = []
accuracy = []
for clf in (model_sgd, model_svc, model_dt, voting_clf):
    clf.fit(X_scaled, y_train)
    y_pred = clf.predict(X_scaled_test)
    model.append(clf.__class__.__name__)
    accuracy.append(accuracy_score(y_test, y_pred))

col = ['Acurácia']
ac = pd.DataFrame(data=accuracy, index = model, columns=col)
ac

Unnamed: 0,Acurácia
SGDClassifier,0.709497
SVC,0.810056
DecisionTreeClassifier,0.804469
VotingClassifier,0.826816


Como foi visto anteriormente o método de ensemble acabou obtendo a melhor resposta, com o cálculo da acurácia isso fica ainda mais comprovado. A acurácia do método de ensemble foi a maior. 

Um ponto importante aqui é ressaltar que não necessariamente esse método obterá a melhor resposta entre os algoritmos utilizados, mas a sua lógica tende a fazer com que ele obtenha a melhor resposta sim.