## RFE (Recursive feature elimination)

- Começa treinando o estimador na base completa e depois **elimina recursivamente os recursos** até chegar na quantidade de recursos desejados
    - O processo que ele executa basicamente é:
        - 1. Faz o fit do modelo com a base completa
        - 2. **Elimina aquele recurso com menor importância (menor coeficiente)**
        - 3. **Faz um novo fit agora com a nova base**
        - 4. Repete os passos 2 e 3 até chegar no número de recursos desejados
    - Para grandes bases de dados, o **tempo de processamento** aumenta muito
- Vai utilizar um **estimador externo que atribui pesos aos recursos**
    - Vamos utilizar **algoritmos que já possuem cálculos da importância das features** (como **coef_** e **feature_importances_**)

In [1]:
# Importando o dataset iris
from sklearn.datasets import load_iris

In [2]:
# Importando X e y
X_iris,y_iris = load_iris(return_X_y=True,as_frame=True)

In [3]:
# Visualizando X
X_iris.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


## Vamos  utilizar a Árvore de Decisão

In [4]:
# Importando a Árvore de Decisão
from sklearn.tree import DecisionTreeClassifier

In [5]:
# Criando o classificador
clf = DecisionTreeClassifier(random_state=0)

In [6]:
# Fazendo o fit com os dados
clf = clf.fit(X_iris,y_iris)

In [7]:
# Verificando a importância de cada uma das features
clf.feature_importances_

array([0.        , 0.01333333, 0.06405596, 0.92261071])

## Utilizando o RFE

In [9]:
# Importando o RFE
from sklearn.feature_selection import RFE

In [10]:
# Selecionando a árvore de decisão como estimador
estimator = DecisionTreeClassifier(random_state=0)

### Criando nosso seletor

In [14]:
# Estimador = o modelo que estamos utilizando
# n_features_to_select = Quantas features selecionar
# step= Quantas features eleiminar pra cada recursao? Alterar em conjuntos de dados grandes

selector = RFE(estimator, n_features_to_select=2, step=1)

In [15]:
# Fazendo o fit com os dados
selector = selector.fit(X_iris,y_iris)

In [16]:
# Verificando o ranking de importancia
selector.ranking_

array([3, 2, 1, 1])

### As features selecionadas (as melhores estimadas) recebem classificação 1