# Classificador Adaboost

Nos últimos anos, os algoritmos de reforço ganharam enorme popularidade nas competições de kaggle. Os vencedores dessas competições usam algoritmos de reforço para obter alto desempenho. Algoritmos de reforço como AdaBoost, Gradient Boosting e XGBoost são algoritmos de aprendizado de máquina amplamente usados. Neste kernel, discutiremos o algoritmo AdaBoost.

 ## Descrevendo AdaBoost

O Adaboost pertence aos métodos de aprendizado conjunto e imita o famoso principio da **"Sabedoria das Multidões"** ou seja modelos que individualmente apresentam desempenho ruins, porém quando combinados podem formar um modelo forte.

Um estudo do [MIT](https://news.mit.edu/2021/crowd-source-fact-checking-0901) publicado em 2021 descreve como as multidões são capazes de identificar as notícias falsas. Sem qualquer conhecimento prévio ou veracidade dos fatos, os indivíduos geralmente acham difícil identficar notícias falsas de maniera confiável. No entanto, com base em nossa experiência, geralmente somos capazes de fornecer pelo menos uma tendência ou um apontamento, que normalmente funciona melhor do que a adivinhação aleatória. Se quisermos saber a veracidade de uma determinada manchete, podemos simplesmente perguntar a 100 pessoas aleatórias. Se mais de 50% disserem que a manchete é falsa, podemos descarta-la e classificar como falsa.

A previsão de vários modelos de aprendizagem fracos combinados pode resultar em um modelo de aprendizagemforte, que será capaz de distinguir com alta precisão o falso e o verdadeiro.

## Com o Ensemble Learning, imitamos esse conceito


- **AdaBoost** significa Adaptive Boosting. Ele funciona na técnica de aprendizado de máquina de conjunto sequencial. A ideia geral de impulsionar algoritmos é tentar preditores sequencialmente, onde cada modelo subsequente tenta corrigir os erros de seu predecessor.


- **GBM** ou Gradient Boosting também funciona no modelo sequencial. O aumento de gradiente calcula o gradiente (derivado) da função de perda em relação à previsão (em vez dos recursos). O aumento de gradiente aumenta a precisão minimizando a função de perda (erro que é a diferença do valor real e previsto) e tendo essa perda como meta para a próxima iteração.

- O algoritmo de aumento de gradiente cria o primeiro aluno fraco e calcula a função de perda. Em seguida, ele cria um segundo aluno para prever a perda após a primeira etapa. A etapa continua para o terceiro aluno e depois para o quarto aluno e assim por diante até que um determinado limite seja alcançado. Portanto, surge a questão de como o AdaBoost é diferente do algoritmo Gradient Boosting, já que ambos funcionam na técnica Boosting.

- Tanto o AdaBoost quanto o Gradient Boosting constroem alunos fracos de maneira sequencial. Originalmente, o AdaBoost foi projetado de forma que, a cada passo, a distribuição da amostra fosse adaptada para colocar mais peso nas amostras mal classificadas e menos peso nas amostras classificadas corretamente. A previsão final é uma média ponderada de todos os alunos fracos, onde mais peso é colocado nos alunos mais fortes.

- Mais tarde, descobriu-se que o AdaBoost também pode ser expresso em termos de uma estrutura mais geral de modelos aditivos com uma função de perda específica (a perda exponencial).


### Portanto, as principais diferenças entre AdaBoost e GBM são as seguintes: 

- A principal diferença, portanto, é que o Gradient Boosting é um algoritmo genérico para encontrar soluções aproximadas para o problema de modelagem aditiva, enquanto o AdaBoost pode ser visto como um caso especial com uma função de perda específica (função de perda exponencial). Portanto, o aumento de gradiente é muito mais flexível.


- O AdaBoost pode ser interpretado de uma perspectiva muito mais intuitiva e pode ser implementado sem a referência a gradientes, reponderando as amostras de treinamento com base nas classificações de alunos anteriores.


- No Adaboost, as deficiências são identificadas por pontos de dados de alto peso, enquanto no Gradient Boosting, as deficiências dos alunos fracos existentes são identificadas por gradientes.


- Adaboost é mais sobre 'pesos de votação' e aumento de gradiente é mais sobre 'adicionar otimização de gradiente'.


- O Adaboost aumenta a precisão dando mais peso ao alvo que é classificado erroneamente pelo modelo. A cada iteração, o algoritmo Adaptive boosting altera a distribuição da amostra modificando os pesos anexados a cada uma das instâncias. Ele aumenta os pesos das instâncias preditas incorretamente e diminui os das instâncias preditas corretamente.

## Classificadores Fracos

Um classificador fraco é aquele que produzirá apenas resultados ligeiramente melhores do que jogar uma moeda (imparcial). Em outras palavras, se adivinhando aleatoriamente um rótulo binário estaríamos certos cerca de 50% das vezes, um classificador fraco estaria certo, digamos, 55% (ou qualquer outro número próximo a 50%).


## Classificação das bases de aprendizado (base-learns)

- Os aprendizes básicos são classificados em dois tipos.


- Com base no arranjo dos aprendizes básicos, os métodos de ensemble podem ser divididos em dois grupos.


- Em métodos de ensemble paralelos, os aprendizes básicos são gerados em paralelo, por exemplo - Random Forest.


- Nos métodos de conjunto sequencial, os aprendizes básicos são gerados sequencialmente, por exemplo, AdaBoost.


- Com base no tipo de aprendizes básicos, os métodos ensemble podem ser divididos em dois grupos.


- método de conjunto homogêneo usa o mesmo tipo de aprendiz base em cada iteração.


- método de conjunto heterogêneo usa o tipo diferente de aprendiz base em cada iteração.

### Importando Bibliotecas

In [29]:

import numpy as np

import pandas as pd 



# Importar função train_test_split 
from sklearn.model_selection import train_test_split

# Importa classificador AdaBoost
from sklearn.ensemble import AdaBoostClassifier

#importa métricas e modelo para acurácia scikit-learn
from sklearn.metrics import accuracy_score

# Importando classificador obrigatório
from sklearn.ensemble import AdaBoostClassifier

# Importando classificador de vetor de suporte
from sklearn.svm import SVC

from sklearn.preprocessing import LabelEncoder

### Importando Conjutno de dados (Dataset)

In [18]:
iris = pd.read_csv('iris.csv')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


### Pré-visualizando o conjunto de dados

In [19]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


### Visualizando o Súmario

In [20]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


#### Podemos ver que não há valores nulos no conjunto de dados.

### Declarando o vetor e a variável linear

In [21]:
X = iris[['sepal_length','sepal_width','petal_length','petal_width']]

X.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [22]:
y = iris['species']

y.head()

0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
Name: species, dtype: object

In [23]:

le=LabelEncoder()

y=le.fit_transform(y)

### Dividir o conjunto de dados em conjunto de treinamento e conjunto de teste

In [24]:

# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

### Construindo o modelo AdaBoost

In [25]:

# Create adaboost classifer object
abc = AdaBoostClassifier(n_estimators=50, learning_rate=1, random_state=0)

# Train Adaboost Classifer
model1 = abc.fit(X_train, y_train)


#Predict the response for test dataset
y_pred = model1.predict(X_test)

### Criando o classificador AdaBoost

- Os paramentros mais importantes para a criação de um classificador são: **base_estimator, n_estimator e learning_rate.**

####  base_estimator :

É o algoritmo de aprendizado a ser usado para treinar os modelos fracos. Isso quase sempre não precisará ser alterado porque, de longe, o aprendizado mais comum para usar com o AdaBoost é uma árvore de decisão - o argumento padrão desse parâmetro.

#### n_estimators:
É o numero de modelos de treinos interátivos

#### learning_rate:

É a contribuição de cada modelo para os pesos e o padrão é 1. Reduzir a taxa de aprendizado significa que os pesos serão aumentados ou diminuídos em um pequeno grau, forçando o modelo a treinar mais devagar (mas às vezes resultando em melhores pontuações de desempenho).

#### loss:

É exclusivo do AdaBoostRegressor e define a função de perda a ser usada ao atualizar os pesos. O padrão é uma função de perda linear, mas pode ser alterada para quadrada ou exponencial.

### Avaliando Modelo

In [26]:

# calculate and print model accuracy
print("AdaBoost Classifier Model Accuracy:", accuracy_score(y_test, y_pred))

AdaBoost Classifier Model Accuracy: 0.9555555555555556


#### Nesse caso, conseguimos 93% de acurácia, o que é considerado uma ótima acurácia



### Avaliação adicional com estimativa de base SVC

- Para uma avaliação mais aprofundada, usaremos o SVC como um estimador de base da seguinte forma:

In [27]:

svc=SVC(probability=True, kernel='linear')


# create adaboost classifer object
abc =AdaBoostClassifier(n_estimators=50, base_estimator=svc,learning_rate=1, random_state=0)


# train adaboost classifer
model2 = abc.fit(X_train, y_train)


# predict the response for test dataset
y_pred = model2.predict(X_test)


# calculate and print model accuracy
print("Model Accuracy with SVC Base Estimator:",accuracy_score(y_test, y_pred))



Model Accuracy with SVC Base Estimator: 0.9777777777777777


- Neste caso, obtivemos uma taxa de classificação de 97%, considerada uma precisão muito boa.
- Nesse caso, o estimador base SVC está obtendo melhor precisão do que o estimador base da árvore de decisão.

## Vantagens e desvantagens do AdaBoost

### Vantagens:

- AdaBoost é fácil de implementar.

- Ele corrige iterativamente os erros do classificador fraco e melhora a precisão combinando alunos fracos.

### Desvantagens :

- AdaBoost é sensível a dados de ruído.

- É altamente afetado por outliers porque tenta ajustar cada ponto perfeitamente.

- O AdaBoost é mais lento em comparação com o XGBoost.

## Resultados e Conclusões

- Neste kernel, discutimos o classificador AdaBoost.


- Discutimos como os aprendizes-base são classificados.



- Em seguida, passamos a discutir a intuição por trás do classificador AdaBoost.



- Também discutimos as diferenças entre o classificador AdaBoost e o GBM.


- Em seguida, apresentamos a implementação do classificador AdaBoost usando o conjunto de dados iris.



- Por fim, discutimos as vantagens e desvantagens do classificador AdaBoost.

