# Seleção de features do dataset SUSY

O dataset possui 5 milhões de amostras de simulações. A classe é indicada na primeira coluna (0 ou 1); as 8 colunas seguintes são features obtidas originalmente das simulações, e as 10 seguintes são features computadas a partir das anteriores.

#  Gradient Tree Boosting

O Gradient Boosting ou Gradient Boosted Regression Trees (GBRT) é uma generalização de estímulo/impulsionamento para funções de perda arbitrariamente diferenciáveis. O GBRT é um procedimento pronto e efetivo que pode ser usado tanto para problemas de regressão quanto de classificação. Modelos de Gradient Tree Boosting são usados ​​em uma variedade de áreas, incluindo ranking de busca na Web e ecologia.

# GradientBoostingClassifier

É usado em problemas de classificação e suporta classificação binária e multi-classe. 

O número de apredizes fracos ou árvores de regressão pode ser controlado pelo parâmetro n_estimators, além disso, o tamanho de cada árvore é definido pela profundidade da árvore via max_depth definindo o número de nós de folha via max_leaf_nodes. O learning_rate é um hiper-parâmetro no intervalo (0.0, 1.0) que controla o overfitting através do encolhimento .

[Gradient-boosting](http://scikit-learn.org/stable/modules/ensemble.html#gradient-boosting)

# Testando GradientBoostingClassifier

[Documentação](http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html#sklearn.ensemble.GradientBoostingClassifier)


Importando os módulos a serem utilizados:

In [3]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier

Importando os dados do arquivo csv (apenas as 200000 observações finais do arquivo)

In [48]:
x = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(1,2,3,4,5,6,7,8,9,10,12,13,14,15,16,17,18), skip_header=4400000)
y = np.genfromtxt('SUSY.csv', delimiter=',', usecols=(0), skip_header=4400000)

Separando os dados nos subconjuntos de treino e teste. Os dois subconjuntos terão tamanhos iguais

In [49]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.25, random_state=42)

Imprimindo o tamanho do subconjunto de treino (apenas um teste)

In [50]:
print(len(x_treino))

450000


Inicializando o GradientBoostingClassifier

In [51]:
gb = GradientBoostingClassifier(n_estimators=900, min_samples_split=700, random_state=42)

Ajustando o modelo/algoritmo

In [52]:
gb.fit(x_treino, y_treino)

GradientBoostingClassifier(criterion='friedman_mse', init=None,
              learning_rate=0.1, loss='deviance', max_depth=3,
              max_features=None, max_leaf_nodes=None,
              min_impurity_decrease=0.0, min_impurity_split=None,
              min_samples_leaf=1, min_samples_split=700,
              min_weight_fraction_leaf=0.0, n_estimators=900,
              presort='auto', random_state=42, subsample=1.0, verbose=0,
              warm_start=False)

Realizando a previsão das etiquetas das observações de acordo com o modelo/algoritmo

In [53]:
labels = gb.predict(x_teste)

Imprimindo a quantidade e as etiquetas previstas 

In [54]:
print(len(labels))
labels

150000


array([1., 1., 0., ..., 0., 0., 1.])

Calculando a acurácia do modelo/algoritmo (faltando a coluna 5)

In [12]:
print(gb.score(x_teste, y_teste))

0.79737


In [None]:
Calculando a acurácia do modelo/algoritmo (incluindo a coluna 5)

In [11]:
print(gb.score(x_teste, y_teste))

0.80047


Calculando a acurácia do modelo/algoritmo (com dataset de treino de 70%)

In [17]:
print(gb.score(x_teste, y_teste))

0.8007


Calculando a acurácia do modelo/algoritmo (com dataset de treino de 75%)

In [22]:
print(gb.score(x_teste, y_teste))

0.80134


Calculando a acurácia do modelo/algoritmo (total de 400.000 observações com dataset de treino de 75%)

In [30]:
print(gb.score(x_teste, y_teste))

0.80062


Calculando a acurácia do modelo/algoritmo (total de 600.000 observações com dataset de treino de 75%)

In [38]:
print(gb.score(x_teste, y_teste))

0.8025266666666667


Calculando a acurácia do modelo/algoritmo (total de 200.000 observações com dataset de treino de 75% e min_samples_split=700)

In [47]:
print(gb.score(x_teste, y_teste))

0.80138


Calculando a acurácia do modelo/algoritmo (total de 600.000 observações com dataset de treino de 75% e min_samples_split=700)

In [55]:
print(gb.score(x_teste, y_teste))

0.80254
