# Seleção de variável.
A seleção de recursos é o processo de redução do números de variáveis de entrada ao desenvolver um modelo preditivo. É desejavel reduzir o número de variáveis de entrada para reduzir o custo computacional da modelagem e, em alguns casos, para melhorar o desempenho do modelo.
$\newline$ Os métodos de seleção de recursos baseados em estatísticas envolvem a avaliação do relacionamento entre cada variáveis de entrada que têm o relacionamento mais forte com a variável de destino. Esses métodos podem ser rápidos e eficazes, embora  a escolha de medidas estatísticas dependa do tipo de dados das **variáveis de entrada e saida**.

* Existem dois tipos principais de seleção de recursos: supervisionado e não supervisionados, e os métodos supervisionados podem ser divididos em wrapper, filtro e intriseco.
* Os métodos de seleção de recursos baseados em filtro usam medidas estatísticas  para pontuar a correlação ou dependência entre as variáveis de entrada que podem  ser filtradas para escolher os recursos mais relevantes.
* As medidas estatísticas para a seleção de recursos devem ser cuidadosamente escolhidas com base no tipo de dados da variáveis de entrada  e na saida ou variáveis de resposta.

* Métodos de seleção de recursos.
* Estatística para métodos de seleção de recursos de filtro.
    * Entrada numérica, saida numérica.
    * Entrada numérica, saida categorica.
    * Entrada categórica, saida numérica.
    * Entrada categórica, saida categórica.
* Dicas e truques para seleção de recursos.
    * Estatísticas de correlação.
    * Método de Seleção.
    * Transformar variáveis.
    * Qual é o melhor método?
* Exemplos trabalhados
    * Seleção de característica de regressão.
    * Seleção de recursos de classificações.


## Métodos de Seleção de recursos.
Os métodos de seleção de recursos têm como objetivo reduzir o número de variáveis de entrada para aquelas que se acredita serem mais uteis para o modelo.
* *A seleção de recursos tem como foco principal a remoção de preditores não informativos ou redundantes do modelo.*

$\newline$ Alguns problemas de modelagem preditiva têm um grande número de variáveis que podem retardar o desenvolvimento e o treinamento de modelos e requerem uma grande quantidade de memórias do 
sistema. Além disso, o desempenho de alguns modelos pode degradar ao incluir variáveis de entrada que não são relevantes para a variável de destino.
* *Muitos modelos, especialmente aqueles baseados em inclinações em inclinações de regressão e interceptações entre cada termo do modelo. Por causa disso, a presença de variáveis não informativas pode adicionar incerteza às previsões e reduzir e eficácia geral do modelo.*

* *Seleção de recursos: selecione um subconjunto de recursos de entrada no conjunto de dados.*
    * Não supervisionado: Não use a variável de destino (remover variáveis redundantes).
        * Correlação.     
    * Supervisionado: Use a variável de destino (por exemplo, remova as variáveis redundantes)
        * Wrapper - Pesquise subconjuntos de recursos com bom desempenho.
            * RFE.
        * Filtro - Selecione subconjuntos de recursos com base em sua relação com o destino.
            * Métodos estatísticos.
            * Métodos de importancia do recurso.
        * Intrínseco: Algoritmos que executam a seleção automática de recursos durante o treinamento.
            * Árvores de decisão.
* *Redução de dimensionalidade : dados de entrada do projeto em um espaço de recurso de dimensão inferior.*  

![img](https://machinelearningmastery.com/wp-content/uploads/2019/11/Overview-of-Feature-Selection-Techniques3.png)

## Métodos de seleção de recursos baseados em filtro.
É comum usar medidas estatísticas de tipo de correlação entre variáveis de entrada e saida como base para a seleção de recursos de filtro 
* A escolha é dependente dos tipos de dados variáveis.
$\newline$ Os tipos de dados comuns incluem numéricas(altura) e categórica(rótulo) embora cada um possa ser subdividido como número inteiro e ponto flutuante para variáveis numéricas e boleano, ordinal ou nominal para variáveis categóricas.
* Variáveis Numéricas
    * Variáveis inteiras.
    * Variáveis de ponto flutuante.
* Variáveis categóricas.
    * Variáveis boleanos.
    * Variáveis ordinais.
    * Variáveis nominais.

![img](https://machinelearningmastery.com/wp-content/uploads/2020/06/Overview-of-Data-Variable-Types2.png)

* Saida numérica - Problema de modelagem preditiva de regressão.
* Saida categórica - Problema de modelagem preditiva de classificação.

* **a maioria dessas técnicas é univariada,  o que significa que avaliam cada preditor isoladamente. Nesse caso,  a existência de preditores importantes, mas redundantes. As consequências óbvias desse problema são que muitos preditores são escolhidos e, como resultado, surgem problemas de colinearidade.**

![img](https://machinelearningmastery.com/wp-content/uploads/2019/11/How-to-Choose-Feature-Selection-Methods-For-Machine-Learning.png)

## Entrada numérica, saida categórica.
* Classificação.
    * Coeficiente de correlação ANOVA(linear).
    * Coeficiente de classificação de Kendall(não linear).
    

## Entrada categórica, saida numérica.
* Regressão.


## Entrada categórica, saida categórica.
* Classificação.


## Entrada categórica, saida categórica.
* Classificação.
* Teste qui-quadrado(tabelas de contingência)
* Informação mutua.

## Método de seleção.
* Selecione k principais variáveis SelectBest.
* Selecione as variáveis de percentil superior SelectPercentile.


# Prática.


* Entrada numérica saida categórica.

In [4]:
from sklearn.datasets import make_classification
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif

In [7]:

# gerando dataset
X, y = make_classification(n_samples=100, n_features=20, n_informative=2)
# defindo as features selecionadas
fs = SelectKBest(score_func=f_classif, k=2)
# anpliando as features
X_selected = fs.fit_transform(X, y)
print(X_selected.shape)

(100, 2)


* Entrada numérica e saida numérica.

In [9]:
from sklearn.datasets import make_regression
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression

In [10]:

# generate dataset
X, y = make_regression(n_samples=100, n_features=100, n_informative=10)
# define feature selection
fs = SelectKBest(score_func=f_regression, k=10)
# apply feature selection
X_selected = fs.fit_transform(X, y)
print(X_selected.shape)

(100, 10)
