<a href="https://colab.research.google.com/github/V4lciJr/Ensemble-Learning/blob/main/Ensamble_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Boosting
Os métodos de Boosting compõem uma outra categoria de algoritmo de Ensemble Learning, focada principalmente em reduzir a bias dos modelos iniciais. Esse tipo de aprendizado se tornou muito popular no meio da Ciência de Dados nos últimos anos por obter ótimas performances em competições de Machine Learning, devido a sua grande adaptabilidade.

Neste trabalho utilizaremos o **Gradient Boosting** sua técnica se baseia em treinar novos modelos diretamente no erro dos modelos anteriores. Ou seja, os novos modelos tentam prever o erro dos modelos anteriores em vez de prever independentemente o target.Dessa forma, obtemos a predição final somando a predição de todos os weak learners.

A base utilizada será a Mushroom(Cogumelos) que pode ser encontrada atráves do link abaixo:
[Mushroom](http://archive.ics.uci.edu/ml/datasets/Mushroom)

In [None]:
# instalando o repositório da base de dados
!pip install ucimlrepo

Collecting ucimlrepo
  Downloading ucimlrepo-0.0.7-py3-none-any.whl (8.0 kB)
Installing collected packages: ucimlrepo
Successfully installed ucimlrepo-0.0.7


In [None]:
# importadando a base e as bibliotecas utilizadas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import LabelEncoder
from ucimlrepo import fetch_ucirepo

cogumelos = fetch_ucirepo(id=73)

df = pd.DataFrame(cogumelos.data.features)

df['targets'] = cogumelos.data.targets
df.head()


Unnamed: 0,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,...,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat,targets
0,x,s,n,t,p,f,c,n,k,e,...,w,w,p,w,o,p,k,s,u,p
1,x,s,y,t,a,f,c,b,k,e,...,w,w,p,w,o,p,n,n,g,e
2,b,s,w,t,l,f,c,b,n,e,...,w,w,p,w,o,p,n,n,m,e
3,x,y,w,t,p,f,c,n,n,e,...,w,w,p,w,o,p,k,s,u,p
4,x,s,g,f,n,f,w,b,k,t,...,w,w,p,w,o,e,n,a,g,e


In [None]:
# criando variáveis binárias de acordo com a variável alvo
dummies = [pd.get_dummies(df[c]) for c in df.drop('targets', axis=1).columns]

# concatenando os dados com as variáveis dummies
dados_binarios = pd.concat(dummies, axis=1)

X = dados_binarios.values
X

array([[False, False, False, ..., False,  True, False],
       [False, False, False, ..., False, False, False],
       [ True, False, False, ..., False, False, False],
       ...,
       [False, False,  True, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False]])

In [None]:
# Obtendo os rótulos
le = LabelEncoder()
y = le.fit_transform(df['targets'].values)
y

array([1, 0, 0, ..., 0, 1, 0])

In [None]:
# dividindo o conjunto de dados binários em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

In [None]:
# Criando um regressor de Gradient Boosting com 100 árvores de decisão de profundidade 3.
gradr = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# Treinando o modelo no dataset de treino
gradr.fit(X_train, y_train)

In [None]:
# Retorna o erro médio do nosso modelo no dataset de teste
score = -1*cross_val_score(gradr, X_test, y_test, cv = 10, scoring = 'neg_mean_absolute_error').mean()

score

0.004131222258566072

In [None]:
# Gerando as predições
gradr_preds = gradr.predict(X_test)

# Criando um dataframe para comparar o valor real com nossas predições
gradr_comparison = pd.DataFrame()
gradr_comparison['Valor Real'] = y_test
gradr_comparison['Predição'] = gradr_preds

gradr_comparison.head(15)

Unnamed: 0,Valor Real,Predição
0,1,0.995803
1,0,0.001413
2,0,-0.00328
3,0,0.001523
4,0,-6e-06
5,0,0.001413
6,1,0.995803
7,1,0.997895
8,0,0.000237
9,1,0.999854


# Referências
* http://archive.ics.uci.edu/ml/datasets/Mushroom
* https://medium.com/turing-talks/turing-talks-24-modelos-de-predi%C3%A7%C3%A3o-ensemble-learning-aa02ce01afda
* https://didatica.tech/metodos-ensemble/
* Aulas do Curso Superior em Tecnologia de Ciência dos Dados da UFMS
