# Seleção de Features

As classes do módulo sklearn.feature_selection podem ser usadas para selecionar as features ou diminuir a dimensão dos conjuntos de amostras ou para melhorar a acurácia dos estimadores ou para aumentar sua performance em conjuntos de dados com grandes dimensões.

## Seleção de Feature baseada em árvore

Importação dos módulos a serem utilizados

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC

Importando os dados do arquivo csv (apenas as 200000 observações finais do arquivo)

In [2]:
x = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(1,2,3,4,5,6,7,8,9,10,12,13,14,15,16,17,18), skip_header=4800000)
y = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(0), skip_header=4800000)

Separando os dados nos subconjuntos de treino e teste. Os dois subconjuntos terão tamanhos iguais

In [3]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.5, random_state=42)

Mostrar o formato do conjunto de dados

In [4]:
x_treino.shape

(100000, 17)

In [5]:
x_teste.shape

(100000, 17)

In [6]:
clf = ExtraTreesClassifier()

Ajustando o modelo/algoritmo

In [7]:
clf.fit(x_treino, y_treino)

ExtraTreesClassifier(bootstrap=False, class_weight=None, criterion='gini',
           max_depth=None, max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
           oob_score=False, random_state=None, verbose=0, warm_start=False)

Mostrando o vetor com a importância de cada feature

In [8]:
clf.feature_importances_

array([0.10276987, 0.04977272, 0.03516334, 0.0511713 , 0.04473385,
       0.03540201, 0.1330727 , 0.03445338, 0.05344489, 0.07126453,
       0.09133466, 0.04139974, 0.04406033, 0.04719393, 0.05062442,
       0.04404222, 0.0700961 ])

In [9]:
model = SelectFromModel(clf, prefit=True)

In [10]:
x_treino_novo = model.transform(x_treino)

In [11]:
x_treino_novo.shape

(100000, 5)

In [12]:
x_treino_novo_indices = model.get_support(indices=False)

In [13]:
x_treino_novo_indices.shape

(17,)

In [14]:
gb = GradientBoostingClassifier(n_estimators=900, random_state=42)

In [15]:
gb.fit(x_treino_novo, y_treino)

GradientBoostingClassifier(criterion='friedman_mse', init=None,
              learning_rate=0.1, loss='deviance', max_depth=3,
              max_features=None, max_leaf_nodes=None,
              min_impurity_decrease=0.0, min_impurity_split=None,
              min_samples_leaf=1, min_samples_split=2,
              min_weight_fraction_leaf=0.0, n_estimators=900,
              presort='auto', random_state=42, subsample=1.0, verbose=0,
              warm_start=False)

In [17]:
x_teste_novo = x_teste[:,x_treino_novo_indices]

In [18]:
labels = gb.predict(x_teste_novo)

In [19]:
print(gb.score(x_teste_novo, y_teste))

0.78468


Contudo, ao se utilizar esse método de seleção das features, observou-se que a acurária da classificação diminuiu com relação à utilização de todas as observações.