# PRÁTICA GUIADA: Introdução ao processo de Seleção de Recursos em SciKit Learn.

## 1. Introdução

#### Objetivo desta prática é introduzir alguns dos métodos para seleção de recursos implementados em `SciKit Learn`. Vamos nos concentrar em alguns dos mais comuns. 

#### Como foi mencionado, existem muitos métodos. Suas características podem ser consultadas na [documentação oficial do Scikit-Learn](http://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection).

## 2. “Famílias” de técnicas e métodos de seleção de recursos.

#### Existem diferentes “famílias” de técnicas de seleção de recursos.

### 2.1 Recursos com baixa variância.

#### Um primeiro caso, quase trivial, seria a remoção desses recursos ou características que não fornecem "informações" ao nosso conjunto de dados. Uma maneira de conseguir as informações é por meio da variância. 

#### Então, o que será feito é remover todos os recursos que tenham baixa variância (ou seja, baixa variabilidade). Isso será feito definindo um limiar abaixo do qual os recursos serão eliminados.

#### Para isso, vamos importar as bibliotecas:

* [`numpy`](https://numpy.org/), para manipularmos nossos dados.

* [`pandas`](https://pandas.pydata.org/), para manipularmos nossos dados.

* [`sklearn.feature_selection.VarianceThreshold`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html#sklearn-feature-selection-variancethreshold), que opera como um seletor de recursos que remove todos os recursos com variação abaixo de um limiar pré-definido. 

* [`scipy.random`](https://numpy.org/doc/stable/reference/random/index.html), que produz números pseudoaleatórios usando combinações de um BitGenerator para criar sequências e um Gerador para usar essas sequências para amostrar de diferentes distribuições estatísticas

* [`sklearn.datasets`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets), para carregarmos conjuntos de dados, incluindo métodos para carregar e buscar conjuntos de dados de referência populares, além de alguns geradores de dados artificiais.

In [4]:
from sklearn.feature_selection import VarianceThreshold
import pandas as pd
from scipy import random
import numpy as np
from sklearn import datasets

####  <span style = "color:red">Código Original.</span>
<!---
from sklearn.feature_selection import VarianceThreshold
import pandas as pd
from scipy import random
import numpy as np
from sklearn import datasets
-->

#### Vamos carregar os datasets referentes [`iris`](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris), com um conjunto de dados a respeito de espécies de flores e [`boston`](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html#sklearn.datasets.load_boston), com dados a respeito da precificação de casas na cidade de Boston.

In [7]:
iris = datasets.load_iris()
boston = datasets.load_boston()

df1 = pd.DataFrame(np.concatenate((iris.data, 
                                   iris.target.reshape(-1,1)), 
                                  1), 
                   columns = iris.feature_names + ['species']
                  )

####  <span style = "color:red">Código Original.</span>
<!---
iris = datasets.load_iris()
boston = datasets.load_boston()

df1 = pd.DataFrame(np.concatenate((iris.data, iris.target.reshape(-1,1)),1),
columns = iris.feature_names + ['species'])
-->

#### Com o auxílio das funções:

* [`apply()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html#pandas-dataframe-apply), que aplica uma função ao longo de um eixo do DataFrame.

* [`np.numpy`](https://numpy.org/doc/stable/reference/generated/numpy.var.html), que calcula a variância ao longo do eixo especificado.

#### Vemos que , se aplicarmos um 'limiar = 0.5' para a variância das colunas do dataset `df1`,  composto pela concatenação das atributos descritivos e do target desse dataset,   a única variável que deverá ser excluída será `'sepal_width'`.

In [8]:
df1.apply(np.var, 
          axis = 0
         )

sepal length (cm)    0.681122
sepal width (cm)     0.188713
petal length (cm)    3.095503
petal width (cm)     0.577133
species              0.666667
dtype: float64

####  <span style = "color:red">Código Original.</span>
<!---
df1.apply(np.var,0)
-->

#### Vamos começar nossa seleção de atributos aplicando a função [`VarianceThreshold{}`](https://scikit-learn.org/stable/modules/feature_selection.html), que realiza uma abordagem básica para seleção de recursos, removendo todos os recursos cuja variação não atende a algum limite pré-definido.

#### Este algoritmo de seleção de recursos olha apenas para os recursos (X), não as saídas desejadas (y) e pode, portanto, ser usado para aprendizado não supervisionado.

#### Depois de removermos atributos que não atendem a nossa condição para a variância, ajustamos os pontos do dataset `df1`, com o método [`.fit()`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html#sklearn.feature_selection.VarianceThreshold.fit).

In [9]:
fet_sel = VarianceThreshold(threshold = 0.5)
fet_sel.fit(df1)

VarianceThreshold(threshold=0.5)

####  <span style = "color:red">Código Original.</span>
<!---
fet_sel = VarianceThreshold(threshold = 0.5)
fet_sel.fit(df1)
-->

#### Usando o método [`get_support`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html#sklearn.feature_selection.VarianceThreshold.get_support), que retorna uma máscara, ou índice inteiro, dos recursos selecionados,  podemos consultar uma matriz booleana que define as variáveis que não foram excluídas.

In [10]:
fet_sel.get_support()

array([ True, False,  True,  True,  True])

####  <span style = "color:red">Código Original.</span>
<!---
fet_sel.get_support()
-->

#### Aplicando o método [`.columns[]`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html#pandas.DataFrame.columns), podemos checar aquelas que passaram no teste de limite inferior de variância.

In [11]:
df1.columns[fet_sel.get_support()]

Index(['sepal length (cm)', 'petal length (cm)', 'petal width (cm)',
       'species'],
      dtype='object')

####  <span style = "color:red">Código Original.</span>
<!---
df1.columns[fet_sel.get_support()]
-->

#### Podemos gerar um novo dataframe apenas com as colunas que crumpriram a condição imposta pelo limite inferiore de variância,  para isso podemos simplesmente invocar o método [`.transform ()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.transform.html#pandas-dataframe-transform), que na situação a seguir, vai aplicar ao dataframe `df1` o ajuste `fet_sel` que trás a aplicação do limite de variância. Para os nomes das colunas, no parâmetro `columns`, podes repetir a aplicação do método `.columns()`, que traz as máscaras  com variância superior ao limite imposto.

In [12]:
df1_reduced = pd.DataFrame(fet_sel.transform(df1), 
                           columns = df1.columns[fet_sel.get_support()]
                          )
df1_reduced.head()

Unnamed: 0,sepal length (cm),petal length (cm),petal width (cm),species
0,5.1,1.4,0.2,0.0
1,4.9,1.4,0.2,0.0
2,4.7,1.3,0.2,0.0
3,4.6,1.5,0.2,0.0
4,5.0,1.4,0.2,0.0


####  <span style = "color:red">Código Original.</span>
<!---
df1_reduced = pd.DataFrame(fet_sel.transform(df1), 
                           columns = df1.columns[fet_sel.get_support()]
                          )
df1_reduced.head()
-->

##  <span style = "color:blue">Prática Independente.</span>

#### Repita a operação de redução de atributos por meio do estabelecimento de um limite inferior `var = 1.0` para a variância dos dados do dataset `Boston`.

####  <span style = "color:red">Código Original.</span>
<!---
df2 = pd.DataFrame(np.concatenate((boston.data, 
                                   boston.target.reshape(-1,1)), 
                                  1
                                 ), 
                   columns = list(boston.feature_names) + ['price']
                  )
-->

####  <span style = "color:red">Código Original.</span>
<!---
df2.apply(np.var, 
          axis = 0
         )
-->

####  <span style = "color:red">Código Original.</span>
<!---
fetdf2_sel = VarianceThreshold(threshold = 1.0)
fetdf2_sel.fit(df2)
-->

####  <span style = "color:red">Código Original.</span>
<!---
fetdf2_sel.get_support()
-->

####  <span style = "color:red">Código Original.</span>
<!---
df2.columns[fetdf2_sel.get_support()]
-->

####  <span style = "color:red">Código Original.</span>
<!---
df2_reduced = pd.DataFrame(fetdf2_sel.transform(df2), 
                           columns = df2.columns[fetdf2_sel.get_support()]
                          )
df2_reduced.head()
-->

### 2.2 Seleção de Recursos univariada

#### Como o nome indica, esses [métodos](https://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html) procuram selecionar recursos, com base em diferentes testes univariados (F, qui-quadrado, etc.).

#### A seleção univariada de recursos escolhe os melhores recursos com base em [testes estatísticos univariados](https://towardsdatascience.com/exploring-univariate-data-e7e2dc8fde80) e pode ser entendida como um passo no processo de pré-processamento para o cálculo de um estimador.

#### Vamos importar as seguintes bibliotecas:

* [`sklearn.feature_selection.f_classif`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_classif.html), que calcula o valor [ANOVA F](https://towardsdatascience.com/anova-for-feature-selection-in-machine-learning-d9305e228476) para a amostra fornecida.

* [`sklearn.feature_selection.f_regression`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_regression.html#sklearn-feature-selection-f-regression), que gera um modelo linear para testar o efeito individual de cada um dos muitos regressores. lembre-se que esta é uma função de pontuação a ser usada em um procedimento de seleção de recurso, não um procedimento de seleção de recurso independente.

* [`sklearn.feature_selection.SelectKBest`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html). Vamos continuar usando o conjunto de dados anterior. Este método usa dois argumentos:

    - `score_func`: Função que toma dois arrays `X` e `y`, e retornando um par de arranjos (pontuações, pvalues) ou um único arranjo com pontuações.

    - `k`: A quantidade de “melhores” recursos que serão selecionados.

#### Para facilitar o desenvolvimento, criamos uma função `select_kbest_reg` que executa os métodos, extrai os atributos e imprime os resultados. 

* A função usa um dataframe como entrada, o target a ser estudado e o número de atributos  a serem mantidos.

* Depois, instancia o método `SelectKBest` com os parâmetros `score_func = f_regression` e `k = 2`

* Realiza o [`.fit()`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html#sklearn.feature_selection.SelectKBest.fit) do método, executando a função de pontuação em `(X, y)` e obtendo os recursos apropriados.

* Salva os resultados (`scores`, `pvalues`, `get_support` e as colunas) em um dataframe e os retorna.

In [13]:
from sklearn.feature_selection import SelectKBest, f_classif, f_regression

df2 = pd.DataFrame(np.concatenate((boston.data, 
                                   boston.target.reshape(-1,1)), 
                                  1
                                 ), 
                   columns = list(boston.feature_names) + ['price']
                  )

def select_kbest_reg(data_frame, target, k = 2):
    """
    Selecionando recursos K-Best para regressão
    :param data_frame: Um dataframe com dados
    :param target: target no dataframe
    :param k: quantidade desejada de recursos
    :retorna um dataframe chamado feature_scores com os scores para cada recurso
    """
    feat_selector = SelectKBest(score_func = f_regression, 
                                k = k
                               )
    _ = feat_selector.fit(data_frame.drop(target, 
                                          axis = 1), 
                          data_frame[target]
                         )
    
    feat_scores = pd.DataFrame()
    feat_scores["F Score"] = feat_selector.scores_
    feat_scores["P Value"] = feat_selector.pvalues_
    feat_scores["Support"] = feat_selector.get_support()
    feat_scores["Attribute"] = data_frame.drop(target, 
                                               axis = 1).columns
    
    return feat_scores

kbest_feat = select_kbest_reg(df2, 
                              "price", 
                              k = 4
                             )
kbest_feat = kbest_feat.sort_values(["F Score", 
                                     "P Value"], 
                                    ascending = [False, 
                                                 False]
                                   )
kbest_feat
#kbest_feat['Attribute'].unique

Unnamed: 0,F Score,P Value,Support,Attribute
12,601.617871,5.081103e-88,True,LSTAT
5,471.84674,2.487229e-74,True,RM
10,175.105543,1.6095089999999999e-34,True,PTRATIO
2,153.954883,4.90026e-31,True,INDUS
9,141.761357,5.637734e-29,False,TAX
4,112.59148,7.065042e-24,False,NOX
0,89.486115,1.173987e-19,False,CRIM
8,85.914278,5.465933e-19,False,RAD
6,83.477459,1.569982e-18,False,AGE
1,75.257642,5.713584e-17,False,ZN


####  <span style = "color:red">Código Original.</span>
<!---
from sklearn.feature_selection import SelectKBest, f_classif, f_regression

df2 = pd.DataFrame(np.concatenate((boston.data, 
                                   boston.target.reshape(-1,1)), 
                                  1
                                 ),

columns = list(boston.feature_names) + ['price'])

def select_kbest_reg(data_frame, target, k = 2):
    """
    Selecionando recursos K-Best para regressão
    :param data_frame: Um dataframe com dados
    :param target: target no dataframe
    :param k: quantidade desejada de recursos
    :retorna um dataframe chamado feature_scores com os scores para cada recurso
    """
    feat_selector = SelectKBest(score_func = f_regression, 
                                k = k
                               )
    _ = feat_selector.fit(data_frame.drop(target, 
                                          axis = 1), 
                          data_frame[target]
                         )
    
    feat_scores = pd.DataFrame()
    feat_scores["F Score"] = feat_selector.scores_
    feat_scores["P Value"] = feat_selector.pvalues_
    feat_scores["Support"] = feat_selector.get_support()
    feat_scores["Attribute"] = data_frame.drop(target, 
                                               axis = 1).columns
    
    return feat_scores

kbest_feat = select_kbest_reg(df2, 
                              "price", 
                              k = 4
                             )
kbest_feat = kbest_feat.sort_values(["F Score", 
                                     "P Value"], 
                                    ascending = [False, 
                                                 False]
                                   )
kbest_feat
-->

#### Observe na aplicação dos seguintes atributos e método ao objeto `feat_selector`:

* `.scores_`, que retorna a pontuação da seleção;
* `.pvalues_`, que retorna o pvalor para os scores dos atributos selecionados;
* `.get_support()`, para obtermos uma máscara, ou índice inteiro, dos recursos selecionados.

#### Pode ser visto, portanto, que, se quisermos selecionar as 10 melhores variáveis, elas serão `'LSTAT'`,`'RM'`, `'PTRATIO'` e `'INDUS'`.

#### A seguir podemos testar o atributo `Support`, que recebe a máscara `.get_support()` com `True` ou `False`, para os atributos que serão selecionados.

#### Até esse momento os resultados do `SelectKBest` foram apenas impressos, para realizarmos a seleção efetivamente devemos criar um dataframe com os atributos que passam na seleção.

In [14]:
select = kbest_feat.loc[kbest_feat['Support'] == True, 
                        'Attribute'
                       ]
#select
df2_reduced = df2[select]
df2_reduced.head()

Unnamed: 0,LSTAT,RM,PTRATIO,INDUS
0,4.98,6.575,15.3,2.31
1,9.14,6.421,17.8,7.07
2,4.03,7.185,17.8,7.07
3,2.94,6.998,18.7,2.18
4,5.33,7.147,18.7,2.18


####  <span style = "color:red">Código Original.</span>
<!---
select = kbest_feat.loc[kbest_feat['Support'] == True,'Attribute']
df2_reduced = df2[select]
df2_reduced.head()
-->

#### Se quisermos trabalhar com um problema de classificação, podemos simplesmente converter o `score_func` a alguma função de pontuação adequada:

- ` f_classif`, 
- `chi2`, 

#### ou usar algumas das funções que fazem pontuação com base em métricas como:

* [` SelectFpr`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFpr.html), que funciona como um filtro, selecionando os pvalores abaixo de alfa com base em um [teste FPR](https://emaworkbench.readthedocs.io/en/latest/ema_documentation/analysis/feature_scoring.html) ([False Positive](https://www.statisticshowto.com/false-positive-definition-and-examples/) Rate).

* [` SelectFdr`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFdr.html), que seleciona os pvalores para uma taxa estimada de descoberta falsa ([False Discovery Rate](https://www.statisticshowto.com/false-discovery-rate/)).

#### Uma outra possibilidade é a aplicação do método: 

* [`SelectKPercentile`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectPercentile.html), que seleciona os atributos de acordo com um percentual das pontuações mais altas.

#### Esse método seleciona os recursos com base nos percentis (definidos pelo usuário) das pontuações máximas. Aqui vamos aplicar como parâmetro `score_func` o teste de regressão linear univariada [`f_regression`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_regression.html#sklearn.feature_selection.f_regression),  um modelo linear para testar o efeito individual de cada um dos muitos regressores.

#### Depois disso o método [`.fit()`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectPercentile.html#sklearn.feature_selection.SelectPercentile.fit), aplicado ao objeto de seleção de atributos `feat_selector`, executa a função de pontuação em `(X, y)` e obtém os recursos apropriados.

In [15]:
import pandas as pd
from sklearn.feature_selection import SelectPercentile, f_regression

def select_percentile(data_frame, target, percentile = 15):

    feat_selector = SelectPercentile(score_func = f_regression, 
                                     percentile = percentile
                                    )
    _ = feat_selector.fit(data_frame.drop(target, 
                                          axis = 1), 
                          data_frame[target]
                         )
    
    feat_scores = pd.DataFrame()
    feat_scores["F Score"] = feat_selector.scores_
    feat_scores["P Value"] = feat_selector.pvalues_
    feat_scores["Support"] = feat_selector.get_support()
    feat_scores["Attribute"] = data_frame.drop(target, 
                                               axis = 1
                                              ).columns
    
    return feat_scores

####  <span style = "color:red">Código Original.</span>
<!---
import pandas as pd
from sklearn.feature_selection import SelectPercentile, f_regression

def select_percentile(data_frame, target, percentile = 15):

    feat_selector = SelectPercentile(score_func = f_regression, 
                                     percentile = percentile
                                    )
    _ = feat_selector.fit(data_frame.drop(target, 
                                          axis = 1), 
                          data_frame[target]
                         )
    
    feat_scores = pd.DataFrame()
    feat_scores["F Score"] = feat_selector.scores_
    feat_scores["P Value"] = feat_selector.pvalues_
    feat_scores["Support"] = feat_selector.get_support()
    feat_scores["Attribute"] = data_frame.drop(target, axis=1).columns
    
    return feat_scores
-->

#### Vamos então submeter o dataframe `df2`, que criamos anteriormente, com o target `price` e procurar por  $20\%$ dos atributos a serem mantidos.

#### Em seguida, podemos ordenar os resultados por `"F Score"`, `"P Value"`.

In [16]:
per_feat = select_percentile(df2, 
                             "price", 
                             percentile = 20
                            )
per_feat = per_feat.sort_values(["F Score", "P Value"], 
                                ascending = [False, 
                                             False
                                            ]
                               )
per_feat

Unnamed: 0,F Score,P Value,Support,Attribute
12,601.617871,5.081103e-88,True,LSTAT
5,471.84674,2.487229e-74,True,RM
10,175.105543,1.6095089999999999e-34,True,PTRATIO
2,153.954883,4.90026e-31,False,INDUS
9,141.761357,5.637734e-29,False,TAX
4,112.59148,7.065042e-24,False,NOX
0,89.486115,1.173987e-19,False,CRIM
8,85.914278,5.465933e-19,False,RAD
6,83.477459,1.569982e-18,False,AGE
1,75.257642,5.713584e-17,False,ZN


####  <span style = "color:red">Código Original.</span>
<!---
per_feat = select_percentile(df2, 
                             "price", 
                             percentile = 20
                            )
per_feat = per_feat.sort_values(["F Score", "P Value"], 
                                ascending = [False, 
                                             False
                                            ]
                               )
per_feat
-->

#### Os atributos suportados são:

In [17]:
select = per_feat.loc[per_feat['Support'] == True, 
                        'Attribute'
                       ]
#select
per_feat_reduced = df2[select]
per_feat_reduced.head()

Unnamed: 0,LSTAT,RM,PTRATIO
0,4.98,6.575,15.3
1,9.14,6.421,17.8
2,4.03,7.185,17.8
3,2.94,6.998,18.7
4,5.33,7.147,18.7


####  <span style = "color:red">Código Original.</span>
<!---
select = per_feat.loc[per_feat['Support'] == True, 
                        'Attribute'
                       ]
#select
per_feat_reduced = df2[select]
per_feat_reduced.head()
-->

### 2.3 Eliminação Recursiva de Recursos (RFE)

#### Este método usa como entrada um estimador externo para tentar quantificar o peso (importância) de cada recurso. O método elimina recursos sucessivamente para ficar com conjuntos de recursos cada vez menores.

#### Em primeira instância, o método treina o estimador sobre o total de recursos e a importância de cada recurso é quantificada através de algum atributo do tipo `coef_` ou `feature_importance`. Elimina o recurso menos importante do conjunto e volta a treinar com os restantes. O processo é repetido recursivamente até que seja atingido o número de recursos previamente definido.

#### Para a aplicação do método método [`Recursive Feature Elimination`](https://machinelearningmastery.com/rfe-feature-selection-in-python/), vamos importar a biblioteca:

* [`sklearn.feature_selection.RFE`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html), que realiza uma classificação de atributos, através de uma eliminação recursiva de recursos. Seu objetivo é selecionar recursos considerando recursivamente conjuntos cada vez menores de desses recursos.

usa os seguintes argumentos:

- `estimator`, que é um estimador de aprendizado supervisionado com um método de ajuste (fit) que fornece informações sobre a importância do recurso por meio de um atributo `coef_` ou por meio de um atributo `feature_importances_`

- `n_features_to_select`, que é a quantidade de recursos a serem selecionados.

- `steps`, corresponde ao número (inteiro) de recursos a serem removidos em cada iteração.

#### Vamos também importar a biblioteca:

* [`sklearn.svm.SVR`](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html), usada para especificar a função de `Kernel` a ser usada no algorítmo, devendo ser do tipo ‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’ ou ‘precomputed’.

#### Criamos então uma função `ref_feature_select`, que recebe o conjunto de atributos, os tagets e o número de recursos a serem selecionados.

In [18]:
import pandas as pd

from sklearn.feature_selection import RFE
from sklearn.svm import SVR

def ref_feature_select(data_frame, target_name, n_feats = 20 ):
    estimator = SVR(kernel = 'linear')
    selector = RFE(estimator, 
                   n_features_to_select = n_feats, 
                   step = 1
                  )
    _ = selector.fit(data_frame.drop(target_name, 
                                     axis = 1), 
                     data_frame[target_name]
                    )

    scores = pd.DataFrame()
    scores["Attribute Name"] = data_frame.drop(target_name, 
                                               axis = 1).columns
    scores["Ranking"] = selector.ranking_
    scores["Support"] = selector.support_

    return scores

####  <span style = "color:red">Código Original.</span>
<!---
import pandas as pd

from sklearn.feature_selection import RFE
from sklearn.svm import SVR

def ref_feature_select(data_frame, target_name, n_feats = 20 ):
    estimator = SVR(kernel = 'linear')
    selector = RFE(estimator, 
                   n_features_to_select = n_feats, 
                   step = 1
                  )
    _ = selector.fit(data_frame.drop(target_name, 
                                     axis = 1), 
                     data_frame[target_name]
                    )

    scores = pd.DataFrame()
    scores["Attribute Name"] = data_frame.drop(target_name, 
                                               axis = 1).columns
    scores["Ranking"] = selector.ranking_
    scores["Support"] = selector.support_

    return scores
-->

#### Depois disso podemos apresentar aplicar a função `ref_feature_select` o dataframe `df2`, com o target `'price'` para a seleção de 5 atributos.

In [19]:
ref_feature_select(df2,
                   'price', 
                   n_feats = 5
                  )

Unnamed: 0,Attribute Name,Ranking,Support
0,CRIM,3,False
1,ZN,5,False
2,INDUS,4,False
3,CHAS,1,True
4,NOX,1,True
5,RM,1,True
6,AGE,6,False
7,DIS,2,False
8,RAD,8,False
9,TAX,9,False


####  <span style = "color:red">Código Original.</span>
<!---
ref_feature_select(df2,
                   'price', 
                   n_feats = 5
                  )
-->

#### Entretanto, o número de recursos a serem mantidos não pode ser escolhido arbitrariamente, mas de forma objetiva. Para isso vamos aplicar a técnica de validação cruzada.

### RFECV

#### Felizmente, existe um método que nos permite selecionar, através de Validação Cruzada, o número de recursos a serem mantidos.


#### Para isso vamos importar a biblioteca [`sklearn.feature_selection.RFECV`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html), que realiza uma classificação de recursos com eliminação recursiva dos mesmos e seleção com validação cruzada do melhor número de atributos. O método `RFECV` usa os seguintes argumentos:

- `estimator`, que é um estimador de aprendizado supervisionado com um método de ajuste que fornece informações sobre a importância do recurso por meio de um atributo `coef_` ou por meio de um atributo `feature_importances_`.   
   
- `steps`, que corresponds ao número de recursos a serem removidos em cada iteração.

- `cv`, que determina a estratégia de divisão de validação cruzada.
   
[`sklearn.model_selection.KFold`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html), que fornece índices de treino/teste para dividir dados em conjuntos de treino e de teste. Divide o conjunto de dados em `k` dobras consecutivas.   

In [20]:
from sklearn.feature_selection import RFECV
from sklearn.model_selection import KFold

####  <span style = "color:red">Código Original.</span>
<!---
from sklearn.feature_selection import RFECV
from sklearn.model_selection import KFold
-->

#### Começamos definindo nossa estratégia de validação cruzada a partir de um objeto `kf` para estabelecer o número de dobras a serem aplicadas aos subconjuntos dos dados, famos isso com a função [`KFold()`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html), que fornece índices de para dividir os dados em conjuntos de treino / teste e divide o conjunto de dados em `k` dobras consecutivas.

#### Depois instanciando um estimador `estimator` com o auxílio da função [`SVR()`](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html), que realiza uma [regressão](https://towardsdatascience.com/an-introduction-to-support-vector-regression-svr-a3ebc1672c2) com vetor de suporte, a partir dos parâmetros:

- `C`, que regula a intensidade da regularização aplicada.
    
- `epsilon`, que especifica a margem épsilon dentro da qual nenhuma penalidade está associada na função de perda de treinamento com pontos previstos dentro de uma distância épsilon do valor real.    

#### A função [`RFECV()`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html) realiza e classificação de atributos com eliminação recursiva de recursos através da seleção por meio da validação cruzada do melhor número de recursos.

#### Por fim, o método [`fit()`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html#sklearn.feature_selection.RFECV.fit) é aplica ao conjunto de atributos restantes, para ajustá-los ao modelo de regressão e sintonizar o número de atributos selecionados.

In [None]:
kf = KFold(n_splits = 10, 
           shuffle = True)

estimator = SVR(kernel = 'linear', 
                C = 1.0, 
                epsilon = 0.1
               )

selector = RFECV(estimator, 
                 step = 1, 
                 scoring = 'neg_mean_squared_error', 
                 verbose = 2
                )

selector.fit(df2.drop('price', 
                      axis = 1), 
             df2['price']
            )

Fitting estimator with 13 features.
Fitting estimator with 12 features.


####  <span style = "color:red">Código Original.</span>
<!---
kf = KFold(n_splits = 10, 
           shuffle = True)

estimator = SVR(kernel = 'linear', 
                C = 1.0, 
                epsilon = 0.1
               )

selector = RFECV(estimator, 
                 step = 1, 
                 scoring = 'neg_mean_squared_error', 
                 verbose = 2
                )

selector.fit(df2.drop('price', 
                      axis = 1), 
             df2['price']
            )
-->

#### Podemos saber quais variáveis são selecionadas após o processo de validação cruzada:

In [None]:
df2.drop('price', 
         axis = 1).loc[:, selector.support_].columns

####  <span style = "color:red">Código Original.</span>
<!---
df2.drop('price', 
         axis = 1).loc[:, selector.support_].columns
-->

#### Também podemos ver qual é o score (cross-validado) de cada uma das variáveis:

In [None]:
selector.grid_scores_

####  <span style = "color:red">Código Original.</span>
<!---
selector.grid_scores_
-->

## 3. Seleção de recurso como parte de um pipeline

#### A introdução de um processo de seleção de recursos dentro de um pipeline é direta e pode ser feita a partir da importação das bibliotecas:

* [`sklearn.pipeline.Pipeline`](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html), que canaliza as transformações para a obtenção de um estimador final, por meio de uma aplicação seqüêncial de transformações.

* [`sklearn.model_selection.GridSearchCV`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html), que realiza uma pesquisa sobre valores de parâmetros especificados para um estimador.

#### Essa célula leva algum tempo para rodar, ~15 min.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

####  <span style = "color:red">Código Original.</span>
<!---
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
-->

In [None]:

estim = SVR(kernel = 'linear', 
            C = 1.0,
            epsilon = 0.1
           )

select = RFE(estim, 
             step = 1, 
             verbose = 1
            )

pipe = Pipeline([('feat_sel', select), 
                 ('reg', estim)
                ]
               )

param_grid = {'feat_sel__n_features_to_select' : np.arange(1, len(df2.columns)), 
              'reg__C' : [0.1, 1, 10]}

estim = GridSearchCV(pipe, 
                     param_grid, 
                     verbose = 1, 
                     n_jobs = 1
                    )

estim.fit(df2.drop('price', axis = 1), 
          df2['price'] 
         )

####  <span style = "color:red">Código Original.</span>
<!---
kf = KFold(n_splits = 3, 
           shuffle = True
          )

estim = SVR(kernel = 'linear', 
            C = 1.0,
            epsilon = 0.1
           )

select = RFE(estim, 
             step = 1, 
             verbose = 1
            )

pipe = Pipeline([('feat_sel', select), 
                 ('reg', estim)
                ]
               )

param_grid = {'feat_sel__n_features_to_select' : np.arange(1, len(df2.columns)), 
              'reg__C' : [0.1, 1, 10]}

estim = GridSearchCV(pipe, 
                     param_grid, 
                     verbose = 1, 
                     n_jobs = 1
                    )

estim.fit(df2.drop('price', axis = 1), 
          df2['price'] 
         )
-->

#### A função `GridSearchCV` possui um atributo [`cv_results_`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html), que trás um dicionário com chaves como cabeçalhos de coluna e valores como colunas, que podem ser importados para um `DataFrame` do `pandas`.

In [None]:
pd.DataFrame(estim.cv_results_)

####  <span style = "color:red">Código Original.</span>
<!---
pd.DataFrame(estim.cv_results_)
-->

#### A função `GridSearchCV` também possui um atributo [`best_estimator_`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html), que trás o estimador que foi escolhido pela pesquisa, ou seja estimador que deu a pontuação mais alta (ou a menor perda, se especificado) nos dados deixados de fora.

In [None]:
estim.best_estimator_

####  <span style = "color:red">Código Original.</span>
<!---
estim.best_estimator_
-->