<a href="https://colab.research.google.com/github/wallisonferreira/data-science-tce/blob/main/aula8_ex1_Ensemble_notes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Combinando predição com Ensemble

Nesta aula apresentarei os três métodos mais populares para combinação de diferentes modelos de predição

*   **Bagging**: Constrói vários modelos (normalmente do mesmo tipo) a partir de diferentes subamostras do conjunto de dados de treinamento.
*   **Boosting**: Constrói vários modelos (normalmente do mesmo tipo), cada um dos quais aprende a corrigir os erros de previsão de um modelo anterior na sequência de modelos.
*   **Voting**: Os vários modelos construídos (normalmente de diferentes tipos) e estatísticas simples (como calcular a média) são usadas para combinar previsões.



# Algoritmo Bagging

A agregação de bootstrap (ou Bagging) envolve a coleta de várias amostras do conjunto de dados de treinamento (com substituição) e o treinamento de um modelo para cada amostra.
A previsão de saída final é calculada em média entre as previsões de todos os submodelos. Os três modelos bagging abordados são:

*   Bagged Decision Trees
*   Random Forest
*   Extra Trees

## Bagged Decision Trees

In [1]:
# Classificação usando Bagged Decision Trees
# Load dataset
from pandas import read_csv
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

#filename = 'https://raw.githubusercontent.com/dr-riz/diabetes/master/diabetes.csv'
filename = 'https://raw.githubusercontent.com/npradaschnor/Pima-Indians-Diabetes-Dataset/master/diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
df = read_csv(filename, header=None, names=names)

#removendo a primeira linha que contém os cabeçalho no arquivo
df = df.drop(labels=0, axis=0)

array = df.values
print(df)



    preg plas pres skin test  mass   pedi age class
1      6  148   72   35    0  33.6  0.627  50     1
2      1   85   66   29    0  26.6  0.351  31     0
3      8  183   64    0    0  23.3  0.672  32     1
4      1   89   66   23   94  28.1  0.167  21     0
5      0  137   40   35  168  43.1  2.288  33     1
..   ...  ...  ...  ...  ...   ...    ...  ..   ...
764   10  101   76   48  180  32.9  0.171  63     0
765    2  122   70   27    0  36.8   0.34  27     0
766    5  121   72   23  112  26.2  0.245  30     0
767    1  126   60    0    0  30.1  0.349  47     1
768    1   93   70   31    0  30.4  0.315  23     0

[768 rows x 9 columns]


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 768 entries, 1 to 768
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   preg    768 non-null    object
 1   plas    768 non-null    object
 2   pres    768 non-null    object
 3   skin    768 non-null    object
 4   test    768 non-null    object
 5   mass    768 non-null    object
 6   pedi    768 non-null    object
 7   age     768 non-null    object
 8   class   768 non-null    object
dtypes: object(9)
memory usage: 60.0+ KB


In [None]:
df.describe()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
count,768,768,768,768,768,768,768.0,768,768
unique,17,136,47,51,186,248,517.0,52,2
top,1,99,70,0,0,32,0.258,22,0
freq,135,17,57,227,374,13,6.0,72,500


In [2]:
from sklearn.neighbors import KNeighborsClassifier

X = array[:,0:8]
Y = array[:,8]
seed = 7
kfold = StratifiedKFold(n_splits=10, random_state=None)
#cart = DecisionTreeClassifier()
knn = KNeighborsClassifier(n_neighbors=21)
num_trees = 200
model = BaggingClassifier(base_estimator=knn, n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())



0.7500683526999317


## Random Forest

Random Forest é uma extensão das árvores de decisão do tipo bagged. Amostras do conjunto de dados de treinamento são retiradas com substituição, mas as árvores são construídas de uma forma que reduz a correlação entre classificadores individuais. Especificamente, em vez de escolher gananciosamente o melhor ponto de divisão na construção de cada árvore, apenas um subconjunto aleatório das características é considerado para cada divisão.

In [3]:
# Random Forest Classification
from pandas import read_csv
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier


#filename = 'https://raw.githubusercontent.com/dr-riz/diabetes/master/diabetes.csv'
filename = 'https://raw.githubusercontent.com/npradaschnor/Pima-Indians-Diabetes-Dataset/master/diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
df = read_csv(filename, header=None, names=names)

#removendo a primeira linha que contém os cabeçalho no arquivo
df = df.drop(labels=0, axis=0)

array = df.values
X = array[:,0:8]
Y = array[:,8]
num_trees = 200
max_features = 4
kfold = StratifiedKFold(n_splits=10, random_state=None)
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.772095010252905


#Extra Trees

Extra Tree é outra modificação de bagged em que árvores aleatórias são construídas a partir de amostras do conjunto de dados de treinamento. Você pode construir um modelo. O exemplo abaixo fornece uma demonstração de Extra trees com o número de árvores definido como 100 e divisões escolhidas entre 7 características aleatórias.

In [5]:
# Extra Trees Classification
from pandas import read_csv
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import ExtraTreesClassifier


#filename = 'https://raw.githubusercontent.com/dr-riz/diabetes/master/diabetes.csv'
filename = 'https://raw.githubusercontent.com/npradaschnor/Pima-Indians-Diabetes-Dataset/master/diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
df = read_csv(filename, header=None, names=names)

#removendo a primeira linha que contém os cabeçalho no arquivo
df = df.drop(labels=0, axis=0)

array = df.values
X = array[:,0:8]
Y = array[:,8]
num_trees = 200
max_features = 7
kfold = StratifiedKFold(n_splits=10, random_state=None)
model = ExtraTreesClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7551606288448395


#Algoritmo Boosting

Algoritmos de Boosting criam uma sequência de modelos que tentam corrigir os erros dos modelos anteriores na sequência. Uma vez criados, os modelos fazem previsões que podem ser ponderados por sua precisão demonstrada e os resultados são combinados para criar uma previsão de saída final. Os dois algoritmos de aprendizado de máquina de Boosting Ensemble mais utilizados são:

* Adaboost
* Stochastic Gradient Boosting.


# Adaboost

O AdaBoost foi talvez o primeiro algoritmo de Boosting Esemble bem-sucedido. Geralmente, ele funciona ponderando as instâncias no conjunto de dados pela facilidade ou dificuldade de classificação, permitindo que o algoritmo preste atenção a elas na construção de modelos subsequentes. O exemplo abaixo demonstra a construção de 30 árvores de decisão em sequência usando o AdaBoost algoritmo.

In [6]:
# Adaboost Classification
from pandas import read_csv
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier


#filename = 'https://raw.githubusercontent.com/dr-riz/diabetes/master/diabetes.csv'
filename = 'https://raw.githubusercontent.com/npradaschnor/Pima-Indians-Diabetes-Dataset/master/diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
df = read_csv(filename, header=None, names=names)

#removendo a primeira linha que contém os cabeçalho no arquivo
df = df.drop(labels=0, axis=0)

array = df.values
X = array[:,0:8]
Y = array[:,8]
num_trees = 50
seed = 7
kfold = StratifiedKFold(n_splits=10, random_state=None)
model = AdaBoostClassifier(n_estimators=num_trees, learning_rate=1, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7552460697197538


# Stochastic Gradient Boosting

Stochastic Gradient Boosting (também chamado de Gradient Boosting) é uma das técnicas de conjunto mais sofisticadas. É também uma técnica que está provando ser talvez uma das melhores técnicas disponíveis para melhorar o desempenho por meio de esemble. O exemplo abaixo demonstra o Stochastic Gradient Boosting para classification com 50 árvores.

In [8]:
# Stochastic Gradient Boosting
from pandas import read_csv
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier


#filename = 'https://raw.githubusercontent.com/dr-riz/diabetes/master/diabetes.csv'
filename = 'https://raw.githubusercontent.com/npradaschnor/Pima-Indians-Diabetes-Dataset/master/diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
df = read_csv(filename, header=None, names=names)

#removendo a primeira linha que contém os cabeçalho no arquivo
df = df.drop(labels=0, axis=0)

array = df.values
X = array[:,0:8]
Y = array[:,8]
num_trees = 50
seed = 7
kfold = StratifiedKFold(n_splits=10, random_state=None)
model = GradientBoostingClassifier(n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7656015037593986


#Voting Ensemble

A votação é uma das estratégias mais simples de combinar as previsões de vários algoritmos de aprendizado de máquina. Ela funciona primeiro criando dois ou mais modelos independentes do seu conjunto de dados de treinamento. Um classificador de Voting pode ser usado para agrupar seus modelos e calcular a média das previsões dos submodelos quando solicitado a fazer previsões para novos dados. As previsões dos submodelos podem ser ponderadas, mas especificar os pesos para classificadores manualmente ou mesmo heuristicamente é difícil.
Métodos mais avançados podem aprender a melhor ponderar as previsões de submodelos, mas isso é chamado de stacking (stacked aggregation) e atualmente não é fornecido no scikit-learn.

O código abaixo fornece um exemplo de esambel das previsões de regressão logística, árvores de classificação e regressão e máquinas de vetor de suporte juntas para um problema de classificação.


In [9]:
# Voting Esemble for Classification
from pandas import read_csv
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier


#filename = 'https://raw.githubusercontent.com/dr-riz/diabetes/master/diabetes.csv'
filename = 'https://raw.githubusercontent.com/npradaschnor/Pima-Indians-Diabetes-Dataset/master/diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
df = read_csv(filename, header=None, names=names)

#removendo a primeira linha que contém os cabeçalho no arquivo
df = df.drop(labels=0, axis=0)

array = df.values
X = array[:,0:8]
Y = array[:,8]

kfold = StratifiedKFold(n_splits=10, random_state=None)

# criando os sub modelos
estimators = []

# Necessárioespecificar o número máximo de iterações que o algoritmo deve  realizar enquanto busca a solução de maneira iterativa:
#O algoritmo do lbgs é um método iterativa para resolver problemas de otimização
model1 = LogisticRegression(solver='lbfgs', max_iter=1000)
estimators.append(('logistic', model1))

model2 = DecisionTreeClassifier()
estimators.append(('cart', model2))

model3 = SVC()
estimators.append(('svm', model3))

model4 = KNeighborsClassifier()
estimators.append(('knn', model4))

model5 = ExtraTreesClassifier()
estimators.append(('ET', model5))

# criando o modelo ensemble
ensemble = VotingClassifier(estimators)

results = cross_val_score(ensemble, X, Y, cv=kfold)

print(results.mean())

0.7539302802460697
