# Feature Selection
- É o processo de selecionar as colunas (recursos / features) **mais importantes** para o modelo e **eliminar tudo que for desnecessário**
- **Quanto mais recursos**:
    - Maior o **tempo** de processamento
    - Maior a chance do modelo sofrer **overfitting** (não ser generalizável)
    - Adicionar **ruído** devido a alguma feature
    - Mais informações para **monitorar em produção** (aumento do **custo** de monitoramento)
    
    
- O próprio **Scikit-Learn** já oferece **ferramentas para fazermos a seleção de features**
    - https://scikit-learn.org/stable/modules/feature_selection.html
    

- Podemos fazer a seleção das features:
    - **Selecionando aquelas mais relacionadas ao target** através de métodos estatísticos
    - **separando subsets contendo parte das features e testando sua performance no próprio modelo** 
        - por exemplo, pego metade das features e vejo o resultado, depois pego metade + 1, ...  
    - **Utilizando modelos que já possuem métodos de penalização e seleção de features**

## Remoção de features com baixa variância
- https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html#sklearn.feature_selection.VarianceThreshold
- **Variância: mede o quanto os dados estão dispersos em relação a média**
    - Se a **variância for zero, todos os registros possuem exatamente o mesmo valor**
    - O **desvio padrão (std)** é a raiz quadrada da variância
- O **`VarianceThreshold`** vai **remover todos os recursos em que a variância não chegue até um certo limite**
    - Por padrão, remove tudo que a variância for igual a zero
- Analisa **apenas os recursos (X)**, sem considerar o target (y)
    - Pode ser usado em aprendizado não supervisionado

In [2]:
# Sendo o dataset
import pandas as pd

X = pd.DataFrame([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

X

Unnamed: 0,0,1,2,3
0,0,2,0,3
1,0,1,4,3
2,0,1,1,3


In [3]:
# Podemos visualizar as informações estatísticas
X.describe()

Unnamed: 0,0,1,2,3
count,3.0,3.0,3.0,3.0
mean,0.0,1.333333,1.666667,3.0
std,0.0,0.57735,2.081666,0.0
min,0.0,1.0,0.0,3.0
25%,0.0,1.0,0.5,3.0
50%,0.0,1.0,1.0,3.0
75%,0.0,1.5,2.5,3.0
max,0.0,2.0,4.0,3.0


In [4]:
# Importando o VarianceThreshold
from sklearn.feature_selection import VarianceThreshold

In [5]:
# Criando o seletor 
selector = VarianceThreshold()

In [6]:
# Fazendo o fit com os dados
selector = selector.fit(X)

In [7]:
# Fazendo a transformação
selector.transform(X)

array([[2, 0],
       [1, 4],
       [1, 1]], dtype=int64)

- **Agora vamos considerar esse novo dataset**

In [None]:
# Considerando esse novo dataset
X2 = pd.DataFrame([[0, 0, 1], [0, 1, 0],[0, 0, 1], [1, 0, 0], [0, 1, 1],[0, 0, 1],[0, 1, 1], [0, 1, 0], [0, 1, 1],[0, 0, 1]])

X2

In [None]:
# Criando o seletor 

In [None]:
# Fazendo o fit com os dados

In [None]:
# Fazendo a transformação

- **Os dados estão iguais pois nenhum deles tem variância zero!**

In [None]:
# Visualizando as informações estatísticas

In [None]:
# Visualizando a variância

In [None]:
# Fazendo o cálculo da variância

In [None]:
# Criando o seletor com limite de 0.15

In [None]:
# Fazendo o fit com os dados

In [None]:
# Fazendo a transformação