# EXERCÍCIO N.1: Sistemas de Múltiplos Classificadores

# Questão 1:

Selecione cinco bases de dados públicas que contenham características diferentes e, para cada base, calcule o Oracle no conjunto de teste para:
* Bagging
* Adaboost 
* Random Subspace (50%)
* Random Oracles

variando o número de classificadores-base {10, 20, …, 100}. 

Use o Perceptron como classificador-base e divida os fold usando o 5-fold cross-validation. 

Analise os resultados. 

### Dados

1. Breast Cancer Wisconsin (Diagnostic) Data Set: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29

2. banknote authentication Data Set: http://archive.ics.uci.edu/ml/datasets/banknote+authentication

3. Connectionist Bench (Sonar) Data set: https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+%28Sonar%2C+Mines+vs.+Rocks%29

4. Climate Model Simulation Crashes Data Set: https://archive.ics.uci.edu/ml/datasets/climate+model+simulation+crashes

5. Fertility Data Set: https://archive.ics.uci.edu/ml/datasets/Fertility



In [None]:
# Importar bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import pickle

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import Perceptron
from sklearn.calibration import CalibratedClassifierCV
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score
from sklearn.ensemble import BaggingClassifier # servirá para o Bagging e para o Random Subspace
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import BaseEnsemble
from rlo import RLO

import oracle

In [None]:
import warnings
# warnings.filterwarnings(action='once')
warnings.filterwarnings(action='ignore')

In [None]:
# seed
np.random.seed(111)
n_classificadores = np.arange(10, 110, 10)

#### função que faz a Validação cruzada 5fold com o RLO
#### função avalia_L_modelos para o RLO 

In [None]:
# Criando os 5 folds e salvando em dicionário
def cria_folds(X, y, n=5, stratified=True):
    if stratified:
        kf = StratifiedKFold(n_splits=n)
    else:
        kf = KFold(n_splits=n)
        
    kfolds = dict()
    i = 1
    for train_index, test_index in kf.split(X, y):
        kfolds[f'fold{i}'] = (train_index, test_index)
        i += 1
    return kfolds

In [None]:
## função cv RLO
def cv_RLO(kfolds, RLO, X, y):
    '''
    Realiza a validação cruzada para um Random Linear Oracle.
    
    Retorna uma tupla com dois dicionários: modelos e resultados.
    '''
    modelos = dict.fromkeys(kfolds)
    resultados = dict.fromkeys(kfolds)
    
    for fold, (train_idx, test_idx) in kfolds.items():
        modelo = RLO
        _,_ = modelo.fit(X[train_idx], y[train_idx])
        modelos[fold] = modelo
        resultados[fold] = modelo.predict(X[train_idx], y[train_idx])
        
    return (modelos, resultados)
    

## função avalia_L_modelos_RLO
def avalia_cv_RLO(kfolds, modelos_cv, X, y):
    '''
    Realiza a avaliação dos resultados para os dados de teste para o Random Linear Oracle e computa o Oracle para o conjunto de teste
    
    Retorna uma tupla com dois dicionários: resultados, oracles
    '''
    
    resultados = dict.fromkeys(modelos_cv)
    oracles = dict.fromkeys(modelos_cv)
    for fold, (_, test_idx) in kfolds.items():
        resultados[fold] = modelos_cv[fold].predict(X[test_idx], y[test_idx])
        
        oracles[fold] = modelos_cv[fold].Oracle_score(X[test_idx], y[test_idx])
    return (resultados, oracles)

In [None]:
### Realizando o procedimento anterior variando agora a quantidade de classificadores do modelo

def RLO_L_modelos(classificador, n_classificadores, X, y, kfolds):
    rlo_classificadores_resultados_treinamento = dict.fromkeys(n_classificadores)
    rlo_classificadores_resultados_teste = dict.fromkeys(n_classificadores)

    for n in n_classificadores:
        print('Qtd. classificadores: ', n)
        while True:
            try:
                # treinamento
                modelos, resultados = cv_RLO(kfolds, RLO(base_estimator=classificador, n_estimators=n), X, y)
                rlo_classificadores_resultados_treinamento[n] = (modelos, resultados)
                # avalia cv
                resultados_teste, oracles_teste = avalia_cv_RLO(kfolds, modelos, X, y)
                break
            except:
                continue
            break
            
        rlo_classificadores_resultados_teste[n] = (resultados_teste, oracles_teste)
        
    return rlo_classificadores_resultados_treinamento, rlo_classificadores_resultados_teste

def RLO_avalia_oracles(n_classificadores, rlo_classificadores_resultados_teste):
    
    rlo_oracles = dict.fromkeys(n_classificadores)
    for n in n_classificadores:
        oracles_n = []
        for i in range(1,6):
            fold = f'fold{i}'
            oracle_i = rlo_classificadores_resultados_teste[n][1][fold]
            oracles_n.append(oracle_i)
        rlo_oracles[n] = oracles_n
    return rlo_oracles

### Implementar funções para os demais modelos (Bagging, Adaboost, Random Subspace)

In [None]:
# função para criar os classificadores com o Perceptron como classificador base
def L_modelos(classificador, kfolds,random_subspace=False):
    
    n_classificadores = np.arange(10, 110, 10)
    if random_subspace:
        max_features = 0.5 # 50% de features
        modelos = dict()
        for n in n_classificadores:
            modelos_folds = dict.fromkeys(kfolds.keys())
            for fold in kfolds.keys():
                modelos_folds[fold] = classificador(CalibratedClassifierCV(Perceptron()), 
                                                    n_estimators = n, 
                                                    max_features=max_features,
                                                    bootstrap = False,
                                                    bootstrap_features=False)
                
            modelos[str(n)] = modelos_folds
    else:
        max_features = 1.0
        modelos = dict()
        for n in n_classificadores:
            modelos_folds = dict.fromkeys(kfolds.keys())
            for fold in kfolds.keys():
                modelos_folds[fold] = classificador(CalibratedClassifierCV(Perceptron()), 
                                            n_estimators = n)
            
            modelos[str(n)] = modelos_folds
    return modelos

# função para realizar a validação cruzada dos classificadores 
def avalia_L_modelos(L_classificadores, X, y, kfolds):
    
    scores_L = dict.fromkeys(L_classificadores)
    
    for classificador in L_classificadores:
        print('Qtd. classificadores: ', classificador)
        scores_modelos = dict.fromkeys(kfolds.keys())
        for fold, (train_idx, test_idx) in kfolds.items():
            L_classificadores[classificador][fold].fit(X[train_idx], y[train_idx])
            pred = L_classificadores[classificador][fold].predict(X[test_idx])
            scores_modelos[fold] = {'acuracia': accuracy_score(y[test_idx], pred),
                           'modelo': L_classificadores[classificador][fold]}
            
        scores_L[classificador] = scores_modelos
    
    return scores_L
    

In [None]:
## Oracle
## Função que recebe os modelos cv e retorna Oracle
def avalia_oracle(classificador_cv, X, y, kfolds, random_subspace=False):
    
    classificador_oracles = dict.fromkeys(classificador_cv.keys())
    
    if random_subspace:
        # realizando as previsões
        X = pd.DataFrame(X)
        modelos_n_class = dict.fromkeys(classificador_oracles.keys())
        for n in classificador_oracles:
            print('Qtd. classificadores: ', n)
            modelos_folds_pred = dict.fromkeys(kfolds.keys()) 
            for fold, (_, test_id) in kfolds.items():
                modelo_i, modelo_features_i = classificador_cv[n][fold]['modelo'].estimators_, classificador_cv[n][fold]['modelo'].estimators_features_
                modelos_pred = []
                for i, modelo in enumerate(modelo_i):
                    pred_i = modelo.predict(X.iloc[test_id, modelo_features_i[i]])
                    modelos_pred.append(pred_i)
                    
                modelos_folds_pred[fold] = modelos_pred
            modelos_n_class[n] = modelos_folds_pred
    
        # calculando o oracles
        for n in classificador_oracles:
            print('Qtd. classificadores: ', n)
            oracles_folds = []
            for fold, (_, test_id) in kfolds.items():
                oracles = []
                for i in range(len(y[test_id])):
                    oracle_hit = 0
                    for j in range(len(modelos_n_class[n][fold])):
                        if modelos_n_class[n][fold][j][i] == y[test_id][i]:
                            oracle_hit = 1
                        break
                    oracles.append(oracle_hit)
                oracle_score = np.sum(oracles)/len(oracles)
                oracles_folds.append(oracle_score)
            classificador_oracles[n] = oracles_folds
        
        return classificador_oracles
    
    else:
        for n in classificador_oracles:
            print('Qtd. classificadores: ', n)
            oracles = []
            for fold, (_, test_id) in kfolds.items():
                oracle_i = oracle.Oracle(classificador_cv[n][fold]['modelo'])
                oracle_score = oracle_i.score(X[test_id], y[test_id])
                oracles.append(oracle_score)
            classificador_oracles[n] = oracles


        return classificador_oracles

# criar função para criar gráfico dos oracles
def cria_boxplot(classificador_oracles, nome_modelo, dataset):
    df = pd.DataFrame(classificador_oracles)
    display(df.describe())
    df.boxplot(figsize=(10,8), grid=False)
    plt.title(f'Boxplot: Oracle para o {nome_modelo} no conjunto de teste {dataset} data')
    plt.xlabel('Quantidade de classificadores')
    plt.ylabel('Acurácia')
    plt.show();
    

## DATASET N. 1: Breast Cancer Wisconsin (Diagnostic) Data Set
Data Set Information:

Features are computed from a digitized image of a fine needle aspirate (FNA) of a breast mass. They describe characteristics of the cell nuclei present in the image. A few of the images can be found at [Web Link]

Separating plane described above was obtained using Multisurface Method-Tree (MSM-T) [K. P. Bennett, "Decision Tree Construction Via Linear Programming." Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992], a classification method which uses linear programming to construct a decision tree. Relevant features were selected using an exhaustive search in the space of 1-4 features and 1-3 separating planes.

The actual linear program used to obtain the separating plane in the 3-dimensional space is that described in: [K. P. Bennett and O. L. Mangasarian: "Robust Linear Programming Discrimination of Two Linearly Inseparable Sets", Optimization Methods and Software 1, 1992, 23-34].

This database is also available through the UW CS ftp server:
ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WDBC/


Attribute Information:

1) ID number
2) Diagnosis (M = malignant, B = benign)
3-32)

Ten real-valued features are computed for each cell nucleus:

a) radius (mean of distances from center to points on the perimeter)
b) texture (standard deviation of gray-scale values)
c) perimeter
d) area
e) smoothness (local variation in radius lengths)
f) compactness (perimeter^2 / area - 1.0)
g) concavity (severity of concave portions of the contour)
h) concave points (number of concave portions of the contour)
i) symmetry
j) fractal dimension ("coastline approximation" - 1)

In [None]:
## importando Wine data set
wdbc = pd.read_csv("dados/wdbc.data", header=None, index_col=0)

In [None]:
# separando em y e X
y = wdbc[1]
X = wdbc.drop(columns=1)

# Scale the variables to have 0 mean and unit variance
scalar = StandardScaler()
X_norm = scalar.fit_transform(X)
# y_cat = pd.Categorical(y, categories=['M', 'B'])
y_cat_enc = LabelEncoder().fit_transform(y)

# criando os 5-folds
wdbc_kfolds = cria_folds(X_norm, y_cat_enc)
# salvando
with open('dados/wdbc_kfolds.pickle', 'wb') as handle:
    pickle.dump(wdbc_kfolds, handle, protocol=pickle.HIGHEST_PROTOCOL)

# quantidade de classificadores
n_classificadores = np.arange(10, 110, 10)

### RLO

In [None]:
## treinamento e teste para validação cruzada para RLO
wdbc_rlo_classificadores_resultados_treinamento, wdbc_rlo_classificadores_resultados_teste = RLO_L_modelos(Perceptron(), 
                                                                                                           n_classificadores, 
                                                                                                           X_norm, 
                                                                                                           y_cat_enc, 
                                                                                                           wdbc_kfolds)

print('Iniciar avaliação dos Oracles')
## avaliando os Oracles
wdbc_rlo_oracles = RLO_avalia_oracles(n_classificadores, wdbc_rlo_classificadores_resultados_teste)

In [None]:
## avlaliando o Oracle
cria_boxplot(wdbc_rlo_oracles, 'RLO', 'Breast Cancer Wisconsin')

### Bagging

In [None]:
wdbc_bagging_L_modelos = L_modelos(BaggingClassifier, wdbc_kfolds)
print('Iniciar avaliação da cv')
wdbc_bagging_classifier_cv = avalia_L_modelos(wdbc_bagging_L_modelos, X_norm, y_cat_enc, wdbc_kfolds)
print('Iniciar avaliação dos Oracles')
wdbc_bagging_oracles = avalia_oracle(wdbc_bagging_classifier_cv, X_norm, y_cat_enc, wdbc_kfolds)

In [None]:
# criar estatísticas e boxplot
cria_boxplot(wdbc_bagging_oracles, nome_modelo='Bagging', dataset='Breast Cancer Wisconsin (diagnostic)')

### Adaboost

In [None]:
wdbc_adaboost_L_modelos = L_modelos(AdaBoostClassifier, wdbc_kfolds)
print('Iniciar avaliação da cv')
wdbc_adaboost_classifier_cv = avalia_L_modelos(wdbc_adaboost_L_modelos, X_norm, y_cat_enc, wdbc_kfolds)
print('Iniciar avaliação dos Oracles')
wdbc_adaboost_oracles = avalia_oracle(wdbc_adaboost_classifier_cv, X_norm, y_cat_enc, wdbc_kfolds)

In [None]:
# criar estatísticas e boxplot
cria_boxplot(wdbc_adaboost_oracles, nome_modelo='Adaboost', dataset='Breast Cancer Wisconsin (diagnostic)')

### Random Subspace

In [None]:
wdbc_random_subspace_L_modelos = L_modelos(BaggingClassifier, wdbc_kfolds, True)
print('Iniciar avaliação da cv')
wdbc_random_subspace_classifier_cv = avalia_L_modelos(wdbc_random_subspace_L_modelos, X_norm, y_cat_enc, wdbc_kfolds)
print('Iniciar avaliação dos Oracles')
wdbc_random_subspace_oracles = avalia_oracle(wdbc_random_subspace_classifier_cv, X_norm, y_cat_enc, wdbc_kfolds, True)

In [None]:
cria_boxplot(wdbc_random_subspace_oracles, nome_modelo='Random Subspace', dataset=' Breast Cancer Wisconsin (diagnostic)')

## DATASET N. 2: Banknote authentication Data Set

Data Set Information:

Data were extracted from images that were taken from genuine and forged banknote-like specimens. For digitization, an industrial camera usually used for print inspection was used. The final images have 400x 400 pixels. Due to the object lens and distance to the investigated object gray-scale pictures with a resolution of about 660 dpi were gained. Wavelet Transform tool were used to extract features from images.


Attribute Information:

1. variance of Wavelet Transformed image (continuous)
2. skewness of Wavelet Transformed image (continuous)
3. curtosis of Wavelet Transformed image (continuous)
4. entropy of image (continuous)
5. class (integer)


In [None]:
## importação dos dados
bank = pd.read_csv('dados/data_banknote_authentication.txt', header=None)

bank.head()

In [None]:
# separando em y e X
y = bank.iloc[:, -1].values
X = bank.iloc[:, :-1].values

# Scale the variables to have 0 mean and unit variance
scalar = StandardScaler()
X_norm = scalar.fit_transform(X)

# criando os 5-folds
bank_kfolds = cria_folds(X_norm, y)
# salvar os folds em pickle
with open('dados/bank_kfolds.pickle', 'wb') as handle:
    pickle.dump(bank_kfolds, handle, protocol=pickle.HIGHEST_PROTOCOL)

### RLO

In [None]:
## treinamento e teste para validação cruzada para RLO
bank_rlo_classificadores_resultados_treinamento, bank_rlo_classificadores_resultados_teste = RLO_L_modelos(Perceptron(), 
                                                                                                           n_classificadores, 
                                                                                                           X_norm, 
                                                                                                           y, 
                                                                                                           bank_kfolds)

print('Iniciar avaliação dos Oracles')
## avaliando os Oracles
bank_rlo_oracles = RLO_avalia_oracles(n_classificadores, bank_rlo_classificadores_resultados_teste)

In [None]:
## avlaliando o Oracle
cria_boxplot(bank_rlo_oracles, 'RLO', 'Bank Data')

### Bagging

In [None]:
bank_bagging_L_modelos = L_modelos(BaggingClassifier, bank_kfolds)
print('Iniciar avaliação da cv')
bank_bagging_classifier_cv = avalia_L_modelos(bank_bagging_L_modelos, X_norm, y, bank_kfolds)
print('Iniciar avaliação dos Oracles')
bank_bagging_oracles = avalia_oracle(bank_bagging_classifier_cv, X_norm, y, bank_kfolds)

In [None]:
# criar estatísticas e boxplot
cria_boxplot(bank_bagging_oracles, nome_modelo='Bagging', dataset='Banknote authentication')

### Adaboost

In [None]:
bank_adaboost_L_modelos = L_modelos(AdaBoostClassifier, bank_kfolds)
print('Iniciar avaliação da cv')
bank_adaboost_classifier_cv = avalia_L_modelos(bank_adaboost_L_modelos, X_norm, y, bank_kfolds)
print('Iniciar avaliação dos Oracles')
bank_adaboost_oracles = avalia_oracle(bank_adaboost_classifier_cv, X_norm, y, bank_kfolds)

In [None]:
# criar estatísticas e boxplot
cria_boxplot(bank_adaboost_oracles, nome_modelo='Adaboost', dataset='Banknote authentication')

### Random Subspace

In [None]:
bank_random_subspace_L_modelos = L_modelos(BaggingClassifier, bank_kfolds, True)
print('Iniciar avaliação da cv')
bank_random_subspace_classifier_cv = avalia_L_modelos(bank_random_subspace_L_modelos, X_norm, y, bank_kfolds)
print('Iniciar avaliação dos Oracles')
bank_random_subspace_oracles = avalia_oracle(bank_random_subspace_classifier_cv, X_norm, y, bank_kfolds, True)

In [None]:
cria_boxplot(bank_random_subspace_oracles, nome_modelo='Random Subspace', dataset='Banknote authentication')

## DATASET N.3: Ionosphere Data Set

This radar data was collected by a system in Goose Bay, Labrador. This system consists of a phased array of 16 high-frequency antennas with a total transmitted power on the order of 6.4 kilowatts. See the paper for more details. The targets were free electrons in the ionosphere. "Good" radar returns are those showing evidence of some type of structure in the ionosphere. "Bad" returns are those that do not; their signals pass through the ionosphere.

Received signals were processed using an autocorrelation function whose arguments are the time of a pulse and the pulse number. There were 17 pulse numbers for the Goose Bay system. Instances in this databse are described by 2 attributes per pulse number, corresponding to the complex values returned by the function resulting from the complex electromagnetic signal.


Attribute Information:

-- All 34 are continuous
-- The 35th attribute is either "good" or "bad" according to the definition summarized above. This is a binary classification task.



In [None]:
ion = pd.read_csv('dados/ionosphere.data', header=None)

In [None]:
ion.head()

In [None]:
# separando em y e X
y = ion.iloc[:, -1].values
X = ion.iloc[:, 2:-1].values

# Encoding Categorical data
encoder = LabelEncoder()
y_cat = encoder.fit_transform(y)

# criando os 5-folds
ion_kfolds = cria_folds(X, y_cat)
# salvar os folds em pickle
with open('dados/ionsphere_kfolds.pickle', 'wb') as handle:
    pickle.dump(ion_kfolds, handle, protocol=pickle.HIGHEST_PROTOCOL)

### RLO

In [None]:
## treinamento e teste para validação cruzada para RLO
ion_rlo_classificadores_resultados_treinamento, ion_rlo_classificadores_resultados_teste = RLO_L_modelos(Perceptron(), 
                                                                                                           n_classificadores, 
                                                                                                           X, 
                                                                                                           y_cat, 
                                                                                                           ion_kfolds)

print('Iniciar avaliação dos Oracles')
## avaliando os Oracles
ion_rlo_oracles = RLO_avalia_oracles(n_classificadores, ion_rlo_classificadores_resultados_teste)

In [None]:
## avlaliando o Oracle
cria_boxplot(ion_rlo_oracles, 'RLO', 'Ionsphere')

### Bagging

In [None]:
ion_bagging_L_modelos = L_modelos(BaggingClassifier, ion_kfolds)
print('Iniciar avaliação da cv')
ion_bagging_classifier_cv = avalia_L_modelos(ion_bagging_L_modelos, X, y_cat, ion_kfolds)
print('Iniciar avaliação dos Oracles')
ion_bagging_oracles = avalia_oracle(ion_bagging_classifier_cv, X, y_cat, ion_kfolds)

In [None]:
# criar estatísticas e boxplot
cria_boxplot(ion_bagging_oracles, nome_modelo='Bagging', dataset='Ionsphere')

### Adaboost

In [None]:
ion_adaboost_L_modelos = L_modelos(AdaBoostClassifier, ion_kfolds)
print('Iniciar avaliação da cv')
ion_adaboost_classifier_cv = avalia_L_modelos(ion_adaboost_L_modelos, X, y_cat, ion_kfolds)
print('Iniciar avaliação dos Oracles')
ion_adaboost_oracles = avalia_oracle(ion_adaboost_classifier_cv, X, y_cat, ion_kfolds)

In [None]:
# criar estatísticas e boxplot
cria_boxplot(ion_adaboost_oracles, nome_modelo='Adaboost', dataset='Ionsphere')

### Random Subspace

In [None]:
ion_random_subspace_L_modelos = L_modelos(BaggingClassifier, ion_kfolds, True)
print('Iniciar avaliação da cv')
ion_random_subspace_classifier_cv = avalia_L_modelos(ion_random_subspace_L_modelos, X, y_cat, ion_kfolds)
print('Iniciar avaliação dos Oracles')
ion_random_subspace_oracles = avalia_oracle(ion_random_subspace_classifier_cv, X, y_cat, ion_kfolds, True)

In [None]:
cria_boxplot(ion_random_subspace_oracles, nome_modelo='Random Subspace', dataset='Ionsphere')

## DATASET N.4: Climate Model Simulation Crashes Data Set

Data Set Information:

This dataset contains records of simulation crashes encountered during climate model uncertainty quantification (UQ) ensembles.

Ensemble members were constructed using a Latin hypercube method in LLNL's UQ Pipeline software system to sample the uncertainties of 18 model parameters within the Parallel Ocean Program (POP2) component of the Community Climate System Model (CCSM4).

Three separate Latin hypercube ensembles were conducted, each containing 180 ensemble members. 46 out of the 540 simulations failed for numerical reasons at combinations of parameter values.

The goal is to use classification to predict simulation outcomes (fail or succeed) from input parameter values, and to use sensitivity analysis and feature selection to determine the causes of simulation crashes.

Further details about the data and methods are given in the publication 'Failure Analysis of Parameter-Induced Simulation Crashes in Climate Models,' Geoscientific Model Development ([Web Link]).


Attribute Information:

The goal is to predict climate model simulation outcomes (column 21, fail or succeed) given scaled values of climate model input parameters (columns 3-20).

Column 1: Latin hypercube study ID (study 1 to study 3)

Column 2: simulation ID (run 1 to run 180)

Columns 3-20: values of 18 climate model parameters scaled in the interval [0, 1]

Column 21: simulation outcome (0 = failure, 1 = success)



In [None]:
clima = pd.read_csv('dados/pop_failures.dat', delimiter="\s+")

clima.head()

In [None]:
# separando em y e X
y = clima.iloc[:, -1].values
X = clima.iloc[:, 2:-1].values

# criando os 5-folds
clima_kfolds = cria_folds(X, y)
# salvar os folds em pickle
with open('dados/clima_kfolds.pickle', 'wb') as handle:
    pickle.dump(clima_kfolds, handle, protocol=pickle.HIGHEST_PROTOCOL)

### RLO

In [None]:
## treinamento e teste para validação cruzada para RLO
clima_rlo_classificadores_resultados_treinamento, clima_rlo_classificadores_resultados_teste = RLO_L_modelos(Perceptron(), 
                                                                                                           n_classificadores, 
                                                                                                           X, 
                                                                                                           y, 
                                                                                                           clima_kfolds)

print('Iniciar avaliação dos Oracles')
## avaliando os Oracles
clima_rlo_oracles = RLO_avalia_oracles(n_classificadores, clima_rlo_classificadores_resultados_teste)

In [None]:
## avlaliando o Oracle
cria_boxplot(clima_rlo_oracles, 'RLO', 'Climate Model Simulation Crashes')

### Bagging

In [None]:
clima_bagging_L_modelos = L_modelos(BaggingClassifier, clima_kfolds)
print('Iniciar avaliação da cv')
clima_bagging_classifier_cv = avalia_L_modelos(clima_bagging_L_modelos, X, y, clima_kfolds)
print('Iniciar avaliação dos Oracles')
clima_bagging_oracles = avalia_oracle(clima_bagging_classifier_cv, X, y, clima_kfolds)

In [None]:
# criar estatísticas e boxplot
cria_boxplot(clima_bagging_oracles, nome_modelo='Bagging', dataset='Climate Model Simulation Crashes')

### Adaboost

In [None]:
clima_adaboost_L_modelos = L_modelos(AdaBoostClassifier, clima_kfolds)
print('Iniciar avaliação da cv')
clima_adaboost_classifier_cv = avalia_L_modelos(clima_adaboost_L_modelos, X, y, clima_kfolds)
print('Iniciar avaliação dos Oracles')
clima_adaboost_oracles = avalia_oracle(clima_adaboost_classifier_cv, X, y, clima_kfolds)

In [None]:
# criar estatísticas e boxplot
cria_boxplot(clima_adaboost_oracles, nome_modelo='Adaboost', dataset='Climate Model Simulation Crashes')

### Random Subspace

In [None]:
clima_random_subspace_L_modelos = L_modelos(BaggingClassifier, clima_kfolds, True)
print('Iniciar avaliação da cv')
clima_random_subspace_classifier_cv = avalia_L_modelos(clima_random_subspace_L_modelos, X, y, clima_kfolds)
print('Iniciar avaliação dos Oracles')
clima_random_subspace_oracles = avalia_oracle(clima_random_subspace_classifier_cv, X, y, clima_kfolds, True)

In [None]:
cria_boxplot(clima_random_subspace_oracles, nome_modelo='Random Subspace', dataset='Climate Model Simulation Crashes')

## DATASET N. 5: Fertility Data Set

Attribute Information:

Season in which the analysis was performed. 1) winter, 2) spring, 3) Summer, 4) fall. (-1, -0.33, 0.33, 1)

Age at the time of analysis. 18-36 (0, 1)

Childish diseases (ie , chicken pox, measles, mumps, polio) 1) yes, 2) no. (0, 1)

Accident or serious trauma 1) yes, 2) no. (0, 1)

Surgical intervention 1) yes, 2) no. (0, 1)

High fevers in the last year 1) less than three months ago, 2) more than three months ago, 3) no. (-1, 0, 1)

Frequency of alcohol consumption 1) several times a day, 2) every day, 3) several times a week, 4) once a week, 5) hardly ever or never (0, 1)

Smoking habit 1) never, 2) occasional 3) daily. (-1, 0, 1)

Number of hours spent sitting per day ene-16 (0, 1)

Output: Diagnosis normal (N), altered (O)

In [None]:
fert = pd.read_csv('dados/fertility_Diagnosis.txt', header=None)
fert.head()

In [None]:
# separando em y e X
y = fert.iloc[:, -1].values
X = fert.iloc[:, 2:-1].values

# Encoding Categorical data
encoder = LabelEncoder()
y_cat = encoder.fit_transform(y)

# criando os 5-folds
fert_kfolds = cria_folds(X, y_cat)
# salvar os folds em pickle
with open('dados/fertility_kfolds.pickle', 'wb') as handle:
    pickle.dump(fert_kfolds, handle, protocol=pickle.HIGHEST_PROTOCOL)

### RLO

In [None]:
## treinamento e teste para validação cruzada para RLO
fert_rlo_classificadores_resultados_treinamento, fert_rlo_classificadores_resultados_teste = RLO_L_modelos(Perceptron(), 
                                                                                                           n_classificadores, 
                                                                                                           X, 
                                                                                                           y_cat, 
                                                                                                           fert_kfolds)

print('Iniciar avaliação dos Oracles')
## avaliando os Oracles
fert_rlo_oracles = RLO_avalia_oracles(n_classificadores, fert_rlo_classificadores_resultados_teste)

In [None]:
## avlaliando o Oracle
cria_boxplot(clima_rlo_oracles, 'RLO', 'Fertility Data Set')

### Bagging

In [None]:
fert_bagging_L_modelos = L_modelos(BaggingClassifier, fert_kfolds)
print('Iniciar avaliação da cv')
fert_bagging_classifier_cv = avalia_L_modelos(fert_bagging_L_modelos, X, y_cat, fert_kfolds)
print('Iniciar avaliação dos Oracles')
fert_bagging_oracles = avalia_oracle(fert_bagging_classifier_cv, X, y_cat, fert_kfolds)

In [None]:
# criar estatísticas e boxplot
cria_boxplot(fert_bagging_oracles, nome_modelo='Bagging', dataset='Fertility Data Set')

### Adaboost

In [None]:
fert_adaboost_L_modelos = L_modelos(AdaBoostClassifier, fert_kfolds)
print('Iniciar avaliação da cv')
fert_adaboost_classifier_cv = avalia_L_modelos(fert_adaboost_L_modelos, X, y_cat, fert_kfolds)
print('Iniciar avaliação dos Oracles')
fert_adaboost_oracles = avalia_oracle(fert_adaboost_classifier_cv, X, y_cat, fert_kfolds)

In [None]:
# criar estatísticas e boxplot
cria_boxplot(fert_adaboost_oracles, nome_modelo='Adaboost', dataset='Fertility Data Set')

### Random Subspace

In [None]:
fert_random_subspace_L_modelos = L_modelos(BaggingClassifier, fert_kfolds, True)
print('Iniciar avaliação da cv')
fert_random_subspace_classifier_cv = avalia_L_modelos(fert_random_subspace_L_modelos, X, y_cat, fert_kfolds)
print('Iniciar avaliação dos Oracles')
fert_random_subspace_oracles = avalia_oracle(fert_random_subspace_classifier_cv, X, y_cat, fert_kfolds, True)

In [None]:
cria_boxplot(fert_random_subspace_oracles, nome_modelo='Random Subspace', dataset='Fertility Data Set')


# Questão 2:
Use as mesma bases de dados e os mesmos folds da questão anterior e, para cada base: 
- use o **SGH** para gerar o pool de classificadores no conjunto de treinamento; 

- calcule o Oracle do pool no conjunto de teste; 

- verifique quantas instâncias por classe foram incorretamente classificadas; 

- verifique quantos hiperplanos por classe foram gerados. 

Analise os resultados coletados. 

In [None]:
import sgh

### Função para criar os SGH e para Avaliar o Oracle

In [None]:
def sgh_modelos(kfolds):    
    classificadores_folds = dict.fromkeys(kfolds.keys())
    for fold in kfolds:
        classificadores_folds[fold] = sgh.SGH(base_estimator = Perceptron())

    return classificadores_folds

# função para realizar a validação cruzada dos classificadores 
def avalia_sgh_modelos(classificadores_folds, X, y, kfolds):
    
    predictions = []
    oracles = []
    qtd_estimadores = []
    
    for fold, (train_idx, test_idx) in kfolds.items():
        
        # treinamento
        classificadores_folds[fold].fit(X[train_idx], y[train_idx])
        qtd_estimadores.append(classificadores_folds[fold].n_estimators)
        
        # predictions
        predictions.append(classificadores_folds[fold].predict(X))
        
        # Oracle
        oracle_i = oracle.Oracle(classificadores_folds[fold]) 
        oracle_score = oracle_i.score(X[test_idx], y[test_idx])
        oracles.append(oracle_score)
        
    return qtd_estimadores, predictions, oracles
    

### 1. Breast Cancer Wisconsin (Diagnostic) Data Set

In [None]:
## importando Wine data set
wdbc = pd.read_csv("dados/wdbc.data", header=None, index_col=0)

# separando em y e X
y = wdbc[1]
X = wdbc.drop(columns=1)

# Scale the variables to have 0 mean and unit variance
scalar = StandardScaler()
X_norm = scalar.fit_transform(X)
y_cat_enc = LabelEncoder().fit_transform(y)

# os kfolds já foram cirados em wdbc_kfolds

In [None]:
wdbc_sgh_classificadores = sgh_modelos(wdbc_kfolds)
wdbc_sgh_qtd_classificadores, wdbc_sgh_predictions, wdbc_sgh_oracles_score = avalia_sgh_modelos(wdbc_sgh_classificadores, X_norm, y_cat_enc, wdbc_kfolds)

In [None]:
sgh_classificadores = sgh_modelos(fert_kfolds)
qtd_estimadores, oracles_score = avalia_sgh_modelos(sgh_classificadores, X, y_cat, fert_kfolds)

In [None]:
print(f'Qtd. de estimadores:   {qtd_estimadores}\n')
print(f'Oracle score por fold: {oracles_score}')

In [None]:
print(f'Média:         {np.mean(oracles_score)}')
print(f'Desvio padrão: {np.std(oracles_score, ddof=1)} ')

In [None]:
## Verificar quantas instâncias foram corretamente classificadas 
sgh_classificadores