# Projeto de Aprendizagem Automática II

## Procura de Exoplanetas no Espaço através da Emissão de Luz de Estrelas

### Importação de Bibliotecas 

In [1]:
import pandas as pd 
import numpy as np  

import matplotlib            
import matplotlib.pyplot as plt

import seaborn as sns        
color = sns.color_palette()
sns.set_style('darkgrid')

import os

from random import randint
from scipy.stats import randint as sp_randint

from time import time
from datetime import datetime

import sklearn               
from sklearn import metrics
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier
from sklearn.model_selection import train_test_split, StratifiedShuffleSplit, RandomizedSearchCV
from sklearn.feature_selection import SelectKBest, VarianceThreshold, chi2

from warnings import simplefilter

%matplotlib inline
simplefilter(action='ignore', category=FutureWarning)

### Carregamento dos Dados

In [2]:
treino = pd.read_csv("../../../../Dados/dados_treino.csv")
teste = pd.read_csv("../../../../Dados/dados_teste.csv")

### Preparação dos Dados

O primeiro passo é a preparação dos dados para o tipo de rede que se está a criar. Assim, tendo em conta que será utilizado o método *RandomizedSearchCV*, este apenas recebe um *array* de *features* e outro de *labels*, ambos unidimensionais, não pode ser efetuado o *reshape* dos dados neste passo.

In [3]:
from keras.utils.np_utils import to_categorical
Y = treino['LABEL']
X = treino.loc[:, treino.columns != 'LABEL']
x_train = X.values#.reshape(X.shape[0], 1, X.shape[1])

# One Hot Encoding
y_train = to_categorical(Y.values)
y_train = y_train[:, 1:]

Using TensorFlow backend.


As mesmas transformações têm que ser aplicadas aos dados do conjunto de teste.

In [4]:
Y = teste['LABEL']
X = teste.loc[:, teste.columns != 'LABEL']
x_test = X.values#.reshape(X.shape[0], 1, X.shape[1])

# One Hot Encoding
y_test = to_categorical(Y.values)
y_test = y_test[:, 1:]

### Modelo

Tendo em conta a utilização do método *RandomizedSearchCV*, foi necessária a definição de uma função para criar e retornar o modelo, com base em certos parâmetros, nomeadamente a taxa de aprendizagem, o número de neurónios e a probabilidade de *dropout*. Além disso, o modelo difere do original na medida em que possui uma camada inicial de *reshape* dos dados, devido às restrições no formato de dados do método de pesquisa dos parâmetros.

In [5]:
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM
from keras.layers import Reshape
from keras.optimizers import Adam

def  create_model(learn_rate = 0.001, hidden = 848,dropout = 0):
    model = Sequential()
    model.add(Reshape((1, 3198)))
    # Unidades de Memória
    model.add(LSTM(hidden, input_shape=(1, 3198), dropout=dropout))
    # 2 Nodos de Saída
    model.add(Dense(2, activation='softmax'))
    
    adam = Adam(lr=learn_rate)
    model.compile(loss='categorical_crossentropy', optimizer=adam, metrics=['accuracy'])
    
    return model

Para criar um modelo, é necessário instanciar uma variável como um *KerasClassifier*, sendo construído com base na função definida anteriormente para gerar um modelo.

In [6]:
from keras.models import load_model
from keras.callbacks import ModelCheckpoint
from keras.wrappers.scikit_learn import KerasClassifier
model = KerasClassifier(build_fn=create_model, verbose = 1)

De forma a otimizar os parâmetros do modelo, estes devem ser definidos na forma de dicionário. Neste caso, optou-se pelo teste de várias combinações, vendo qual a que melhores resultados traria ao problema. Assim, foram testados os impactos de parâmetros como *batch_size*, número de épocas, taxa de aprendizagem, número de neurónios e probabilidade de *dropout*.

In [20]:
parametros = {
    'batch_size': [64, 128, 256],
    'epochs': [100, 200, 250, 300],
    'learn_rate': [0.001, 0.01, 0.0005, 0.0001, 0.00005, 0.00001],
    'hidden' : [64, 128, 256, 512, 848, 1024],
    'dropout' : [0.0, 0.1, 0.2, 0.25]
}

De modo a testar cada caso na grelha, foi definida uma métrica personalizada, permitindo comparar os valores reais com os calculados, retornando a *accuracy* dos cálculos.

In [21]:
from sklearn.metrics import accuracy_score
def custom_metric(y_true, y_predicted):
    return accuracy_score(y_true.argmax(axis=-1), y_predicted)

Além da definição da função para a métrica, é, ainda, fundamental definir como *scorer* a função e qual a orientação ideal para os resultados, ou seja, se quanto mais elevado melhor, ou o oposto. Neste caso, quanto mais elevada a *accuracy*, melhor o modelo testado.

In [22]:
from sklearn.metrics import make_scorer
custom_score = make_scorer(custom_metric, greater_is_better=True)

Como mencionado anteriormente, foi tirado proveito do método *RandomizedSearchCV*, permitindo encontrar, de forma mais rápida, uma combinação bastante próxima da ideal, ou até mesmo a ideal, dentro das combinações de parâmetros fornecidas, quando em comparação com uma pesquisa em grelha. Assim, optou-se por uma validação cruzada de 3 subconjuntos, devido ao elevado peso computacional dos modelos, sendo utilizada como métrica de *scoring* a função definida em cima.

In [23]:
from sklearn.model_selection import RandomizedSearchCV
grid = RandomizedSearchCV(estimator=model, param_distributions=parametros, n_jobs=4, cv=3, n_iter=10, scoring=custom_score, verbose=2)

Tendo a grelha definida e pronta a efetuar a procura, apenas é necessário aplicar o método *fit* com o conjunto de dados de treino. Não faria sentido aplicar a validação cruzada aos dados de teste juntamente com os de treino, já que o modelo ficaria demasiado ajustado aos dados, perdendo a capacidade de classificar corretamente novos casos.

In [25]:
grid_result = grid.fit(x_train, y_train)

Fitting 3 folds for each of 10 candidates, totalling 30 fits


[Parallel(n_jobs=4)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=4)]: Done  30 out of  30 | elapsed: 303.8min finished


Epoch 1/300
Epoch 2/300
Epoch 3/300
Epoch 4/300
Epoch 5/300
Epoch 6/300
Epoch 7/300
Epoch 8/300
Epoch 9/300
Epoch 10/300
Epoch 11/300
Epoch 12/300
Epoch 13/300
Epoch 14/300
Epoch 15/300
Epoch 16/300
Epoch 17/300
Epoch 18/300
Epoch 19/300
Epoch 20/300
Epoch 21/300
Epoch 22/300
Epoch 23/300
Epoch 24/300
Epoch 25/300
Epoch 26/300
Epoch 27/300
Epoch 28/300
Epoch 29/300
Epoch 30/300
Epoch 31/300
Epoch 32/300
Epoch 33/300
Epoch 34/300
Epoch 35/300
Epoch 36/300
Epoch 37/300
Epoch 38/300
Epoch 39/300
Epoch 40/300
Epoch 41/300
Epoch 42/300
Epoch 43/300
Epoch 44/300
Epoch 45/300
Epoch 46/300
Epoch 47/300
Epoch 48/300
Epoch 49/300
Epoch 50/300
Epoch 51/300
Epoch 52/300
Epoch 53/300
Epoch 54/300
Epoch 55/300
Epoch 56/300
Epoch 57/300
Epoch 58/300
Epoch 59/300
Epoch 60/300
Epoch 61/300
Epoch 62/300
Epoch 63/300
Epoch 64/300
Epoch 65/300
Epoch 66/300
Epoch 67/300
Epoch 68/300
Epoch 69/300
Epoch 70/300
Epoch 71/300
Epoch 72/300
Epoch 73/300
Epoch 74/300
Epoch 75/300
Epoch 76/300
Epoch 77/300
Epoch 78

Epoch 158/300
Epoch 159/300
Epoch 160/300
Epoch 161/300
Epoch 162/300
Epoch 163/300
Epoch 164/300
Epoch 165/300
Epoch 166/300
Epoch 167/300
Epoch 168/300
Epoch 169/300
Epoch 170/300
Epoch 171/300
Epoch 172/300
Epoch 173/300
Epoch 174/300
Epoch 175/300
Epoch 176/300
Epoch 177/300
Epoch 178/300
Epoch 179/300
Epoch 180/300
Epoch 181/300
Epoch 182/300
Epoch 183/300
Epoch 184/300
Epoch 185/300
Epoch 186/300
Epoch 187/300
Epoch 188/300
Epoch 189/300
Epoch 190/300
Epoch 191/300
Epoch 192/300
Epoch 193/300
Epoch 194/300
Epoch 195/300
Epoch 196/300
Epoch 197/300
Epoch 198/300
Epoch 199/300
Epoch 200/300
Epoch 201/300
Epoch 202/300
Epoch 203/300
Epoch 204/300
Epoch 205/300
Epoch 206/300
Epoch 207/300
Epoch 208/300
Epoch 209/300
Epoch 210/300
Epoch 211/300
Epoch 212/300
Epoch 213/300
Epoch 214/300
Epoch 215/300
Epoch 216/300
Epoch 217/300
Epoch 218/300
Epoch 219/300
Epoch 220/300
Epoch 221/300
Epoch 222/300
Epoch 223/300
Epoch 224/300
Epoch 225/300
Epoch 226/300
Epoch 227/300
Epoch 228/300
Epoch 

Utilizando o método *get_params* é possível observar os vários parâmetros associados à pesquisa efetuada.

In [26]:
grid_result.get_params()

{'cv': 3,
 'error_score': nan,
 'estimator__verbose': 1,
 'estimator__build_fn': <function __main__.create_model(learn_rate=0.001, hidden=848, dropout=0)>,
 'estimator': <keras.wrappers.scikit_learn.KerasClassifier at 0x2679a28fc08>,
 'iid': 'deprecated',
 'n_iter': 10,
 'n_jobs': 4,
 'param_distributions': {'batch_size': [64, 128, 256],
  'epochs': [100, 200, 250, 300],
  'learn_rate': [0.001, 0.01, 0.0005, 0.0001, 5e-05, 1e-05],
  'hidden': [64, 128, 256, 512, 848, 1024],
  'dropout': [0.0, 0.1, 0.2, 0.25]},
 'pre_dispatch': '2*n_jobs',
 'random_state': None,
 'refit': True,
 'return_train_score': False,
 'scoring': make_scorer(custom_metric),
 'verbose': 2}

Como se pode ver de seguida, os melhores parâmetros de entre os testados são *batch_size* com tamanho 256, ou seja, a cada iteração, a rede é treinada com 256 registos. Além disso, o número de épocas que permitiu os melhores resultados foi 300. No que toca aos parâmetros da função de criação do modelo, o valor de *dropout* foi de 20%, querendo isto dizer que a cada fase existe uma probabilidade de 20% de cada neurónio ser desativado. Já a taxa de aprendizagem tomou o valor de 0.00001. Por fim, o número de neurónios da camada *LSTM* que juntamente com os restantes parâmetros trouxe melhores resultados foi de 1024.

In [27]:
grid_result.best_params_

{'learn_rate': 1e-05,
 'hidden': 1024,
 'epochs': 300,
 'dropout': 0.2,
 'batch_size': 256}

O melhor resultado obtido para a pesquisa em grelha, com os parâmetros acima mencionados, permitiu uma *accuracy* de sensivelmente 77.5%. Note-se que este valor está associado a uma validação cruzada com 3 subconjuntos de dados, representando uma média e estando extremamente dependente dos dados associados a cada partição para treino e consequente *performance* do modelo.

In [28]:
grid_result.best_score_

0.7745278661881788

Em seguida podem ser observados os vários resultados obtidos para as várias combinações de forma mais detalhada.

In [37]:
cv_res_df = pd.DataFrame(grid_result.cv_results_)
cv_res_df

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_learn_rate,param_hidden,param_epochs,param_dropout,param_batch_size,params,split0_test_score,split1_test_score,split2_test_score,mean_test_score,std_test_score,rank_test_score
0,833.492934,13.137183,0.545904,0.060287,0.01,64,300,0.1,64,"{'learn_rate': 0.01, 'hidden': 64, 'epochs': 3...",0.983097,1.0,0.324497,0.769198,0.314527,5
1,5255.557231,147.956814,2.429315,0.076108,1e-05,1024,300,0.2,256,"{'learn_rate': 1e-05, 'hidden': 1024, 'epochs'...",0.999086,1.0,0.324497,0.774528,0.31822,1
2,2265.896554,76.293252,1.060505,0.037131,5e-05,256,250,0.0,64,"{'learn_rate': 5e-05, 'hidden': 256, 'epochs':...",0.983097,0.998629,0.324497,0.768741,0.314192,7
3,695.742409,21.993752,0.790552,0.048869,0.0005,128,300,0.2,256,"{'learn_rate': 0.0005, 'hidden': 128, 'epochs'...",0.998173,0.998172,0.324497,0.773614,0.317573,3
4,689.236728,18.063134,0.984365,0.096624,0.0005,256,200,0.0,256,"{'learn_rate': 0.0005, 'hidden': 256, 'epochs'...",0.983097,0.994973,0.324497,0.767522,0.313304,9
5,1774.515682,26.87549,2.976396,0.238974,0.0005,1024,100,0.25,256,"{'learn_rate': 0.0005, 'hidden': 1024, 'epochs...",0.997259,0.998172,0.324497,0.773309,0.317358,4
6,1010.361044,42.261563,0.79155,0.189941,0.001,128,200,0.0,64,"{'learn_rate': 0.001, 'hidden': 128, 'epochs':...",0.983097,0.989945,0.324497,0.765847,0.312094,10
7,1414.124263,23.333393,0.70429,0.099994,0.01,128,250,0.1,64,"{'learn_rate': 0.01, 'hidden': 128, 'epochs': ...",0.983097,1.0,0.324497,0.769198,0.314527,5
8,4606.731557,12.151071,2.610422,0.062505,5e-05,1024,100,0.1,64,"{'learn_rate': 5e-05, 'hidden': 1024, 'epochs'...",0.99863,1.0,0.324497,0.774376,0.318113,2
9,3936.294722,815.735177,1.353204,0.371426,0.0005,1024,300,0.0,256,"{'learn_rate': 0.0005, 'hidden': 1024, 'epochs...",0.983097,0.995887,0.324497,0.767827,0.313525,8


### Teste

Conhecidos os melhores parâmetros para este modelo, é necessário ver de que forma se comporta na classificação do conjunto de teste.

In [29]:
preds = grid_result.predict(x_test)



De modo a comparar os resultados, de forma mais fácil, com as *labels* reais, as previsões foram convertidas em registos categóricos.

In [31]:
preds = to_categorical(preds)

Observando as métricas obtidas pela predição dos registos de teste, é notório que a precisão da classe minoritária aumentou quando em comparação com o modelo original (o qual tinha valor de 50%). Além disso, o *recall* manteve-se, possuindo um valor de 60% em ambos os casos.

In [33]:
from sklearn.metrics import accuracy_score, classification_report
print(classification_report(y_test, preds))
print("accuracy:", accuracy_score(y_test, preds))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       565
           1       0.60      0.60      0.60         5

   micro avg       0.99      0.99      0.99       570
   macro avg       0.80      0.80      0.80       570
weighted avg       0.99      0.99      0.99       570
 samples avg       0.99      0.99      0.99       570

accuracy: 0.9929824561403509


Observando as matrizes de confusão e, mais uma vez, comparando com o modelo original, verifica-se que foram classificados 3 dos 5 sistemas da classe minoritária corretamente, em ambos os casos. No que toca a classificações erradas de sistemas da classe maioritária, inicialmente foram incorretamente classificados 3 registos, tendo esse valor diminuído para apenas 2 sistemas com a otimização.

In [34]:
from sklearn.metrics import multilabel_confusion_matrix
multilabel_confusion_matrix(y_test, preds)

array([[[  3,   2],
        [  2, 563]],

       [[563,   2],
        [  2,   3]]], dtype=int64)

Em jeito de conclusão, a otimização do modelo não melhorou a capacidade do modelo em classificar corretamente os sistemas da classe minoritária no conjunto de teste. No entanto, tendo em conta a quantidade reduzida de registos da classe minoritária, os resultados obtidos são bastante bons, tendo sido reduzido o número de registos incorretamente classificados com esta otimização.