# Projeto de Aprendizagem Automática II

## Procura de Exoplanetas no Espaço através da Emissão de Luz de Estrelas

### Importação de Bibliotecas

In [19]:
import pandas as pd 
import numpy as np  

import matplotlib            
import matplotlib.pyplot as plt

import seaborn as sns        
color = sns.color_palette()
sns.set_style('darkgrid')

import os

from random import randint
from scipy.stats import randint as sp_randint

from time import time
from datetime import datetime

import sklearn               
from sklearn import metrics
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier
from sklearn.model_selection import train_test_split, StratifiedShuffleSplit, RandomizedSearchCV
from sklearn.feature_selection import SelectKBest, VarianceThreshold, chi2

from warnings import simplefilter

%matplotlib inline
simplefilter(action='ignore', category=FutureWarning)

### Carregamento dos Dados

O primeiro passo para a implementação deste algoritmo é o carregamento dos dados vindos de ficheiros.

In [3]:
treino = pd.read_csv("../../../../Dados/dados_treino.csv")
teste = pd.read_csv("../../../../Dados/dados_teste.csv")

Em seguida, é necessário dividir os dados entre *labels* e *features*.

In [4]:
X_train = treino.loc[:, treino.columns != 'LABEL'].values
Y_train = treino.LABEL.values

X_test = teste.loc[:, teste.columns != 'LABEL'].values
Y_test = teste.LABEL.values

### Modelo

Tirando proveito da biblioteca *sklearn*, é possível gerar um modelo simples de *Random Forest* para classificação dos dados em estudo.

In [5]:
random_forest = RandomForestClassifier()

De modo a treinar o modelo, este tem que receber como argumentos as *features* e as *labels* do conjunto de treino, visto que se trata de um algoritmo supervisionado.

In [6]:
random_forest.fit(X_train,Y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=10,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

### Teste

Para validar o modelo implementado, é necessário ver como este se comporta relativamente a novos dados, ou seja, como se comporta relativamente ao conjunto de teste. Assim, é importante prever as *labels* que o modelo associa a cada registo de teste.

In [8]:
y_pred = random_forest.predict(X_test)

Observando as métricas, é visível que ocorreu uma completa classificação para a classe maioritária, tendo o modelo perdido a capacidade de classificar corretamente sistemas com exoplanetas no conjunto de teste. QUer isto dizer que ocorreu *overfitting*.

In [9]:
from sklearn.metrics import classification_report
print(classification_report(Y_test, y_pred))

              precision    recall  f1-score   support

           1       0.99      1.00      1.00       565
           2       0.00      0.00      0.00         5

    accuracy                           0.99       570
   macro avg       0.50      0.50      0.50       570
weighted avg       0.98      0.99      0.99       570



  'precision', 'predicted', average, warn_for)


Pela visualização da matriz de confusão, pode-se confirmar a classificação de todos os registos de teste como pertencendo à classe maioritária. 

In [10]:
from sklearn.metrics import confusion_matrix
print(confusion_matrix(Y_test, y_pred))

[[565   0]
 [  5   0]]


Em suma, tendo em conta que o problema em estudo implica a existência de interdependências entre observações, o modelo não é capaz de fornecer bons resultados, já que este tipo de modelo ignora tais relações. Além disso, tendo em conta a utilização de algoritmos com base em árvores, não é possível extrapolar tendências, perdendo-se informação que pode ajudar na classificação correta dos sistemas. 