## Seleção univariada de recursos
- Vamos **analisar cada uma das features de forma separada**, considerando sua relação com o target através de **testes estatísticos**
- Podemos selecionar os **K recursos de maior pontuação**, um **percentual** dos recursos, considerar a taxa de **falsos positivos / falsos negativos** ou até **criar nossa própria estratégia de seleção**
- **Precisamos** selecionar qual vai ser a função estatística usada e essa função irá retornar uma **pontuação** para cada um dos recursos
    - Métodos baseados no **teste F** vão analisar o **grau de dependência linear** entre duas variáveis aleatórias
        - Regressão: f_regression
        - Classificação: f_classif     
    - Os **métodos de informação mútua** conseguem **analisar qualquer tipo de dependência estatística**, mas **precisam de mais dados** para serem mais precisos. Também trabalham bem com dados esparsos.
        - Regressão: mutual_info_regression
        - Classificação: mutual_info_classif
    - **Metodos quadráticos só podem ser aplicados para valores não negativos**
        - Classificação: chi2 (também é útil para trabalharmos com dados esparsos)
        
 
- **"Aviso Cuidado para não usar uma função de pontuação de regressão com um problema de classificação, pois você obterá resultados inúteis."**

- Começando com o dataset load_wine do scikit-learn
    - https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html

In [None]:
# Importando o dataset load_wine

In [None]:
# Importando X e y

In [None]:
# Visualizando a base

In [None]:
# Visualizando o número de recursos

### SelectKBest
- https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html#sklearn.feature_selection.SelectKBest

In [None]:
# Importando o SelectKBest

In [None]:
# Criando o nosso seletor

In [None]:
# Fazendo o fit com os dados

In [None]:
# Visualizando os scores

In [None]:
# Visualizando as colunas

In [None]:
# Visualizando graficamente a distribuição dos dados
import seaborn as sns
import matplotlib.pyplot as plt

fig, ax = plt.subplots(ncols=3,figsize=(18,6))

sns.kdeplot(X.magnesium,hue=y,ax=ax[0])
sns.kdeplot(X.total_phenols,hue=y,ax=ax[1])
sns.kdeplot(X.flavanoids,hue=y,ax=ax[2])

plt.show()

In [None]:
# Visualizando os valores gerados

- **Selecionando o KBest para o dataset iris**
    - https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris

In [None]:
# Importando o dataset iris
from sklearn.datasets import load_iris

In [None]:
# Importando X e y
X_iris,y_iris = load_iris(return_X_y=True,as_frame=True)

In [None]:
# Visualizando a base
X_iris.head(3)

In [None]:
# Criando o nosso seletor

In [None]:
# Fazendo o fit com os dados

In [None]:
# Visualizando os scores

In [None]:
# Visualizando graficamente a distribuição dos dados
fig, ax = plt.subplots(ncols=4,figsize=(16,6))

sns.kdeplot(X_iris.iloc[:,0],hue=y_iris,ax=ax[0])
sns.kdeplot(X_iris.iloc[:,1],hue=y_iris,ax=ax[1])
sns.kdeplot(X_iris.iloc[:,2],hue=y_iris,ax=ax[2])
sns.kdeplot(X_iris.iloc[:,3],hue=y_iris,ax=ax[3])

plt.show()

- **Utilizando o KBest na regressão**
    - https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html#sklearn.datasets.fetch_california_housing

In [None]:
# Importando o dataset de casas da califórnia
from sklearn.datasets import fetch_california_housing

In [None]:
# Importando X e y
X_casas,y_casas = fetch_california_housing(return_X_y=True,as_frame=True)

In [None]:
# Visualizando a base
X_casas.head(3)

In [None]:
# Criando o nosso seletor

In [None]:
# Fazendo o fit com os dados

In [None]:
# Visualizando os scores

In [None]:
# Visualizando graficamente
fig, ax = plt.subplots(ncols=3,figsize=(15,5))

sns.regplot(x=X_casas.iloc[:,0],y=y_casas,scatter_kws={"color": "black"}, line_kws={"color": "red"},
            # ci=None,
            ax=ax[0])
sns.regplot(x=X_casas.iloc[:,2],y=y_casas,scatter_kws={"color": "black"}, line_kws={"color": "red"},
            # ci=None,fit_reg=False,
            ax=ax[1])
sns.regplot(x=X_casas.iloc[:,5],y=y_casas,scatter_kws={"color": "black"}, line_kws={"color": "red"},
           # ci=None,fit_reg=False,
            ax=ax[2])

ax[0].set(xlim=(0, 10),ylim=(0,10))
ax[1].set(xlim=(0, 10),ylim=(0,10))
ax[2].set(xlim=(0, 10),ylim=(0,10))

plt.show()

- **Agora utilizando um dataset real**
    - https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud

In [None]:
# Importando o dataset de cartão de crédito

In [None]:
# Visualizando a base

In [None]:
# Separando X e y

In [None]:
# Visualizando os valores de y

In [None]:
# Visualizando o shape de X

- Separando em treino e teste
    - https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
# Importando o train_test_split

In [None]:
# Separando em treino e teste

In [None]:
# Verificando o y de treino

In [None]:
# Verificando o y de teste

- Vamos utilizar a **Árvore de Decisão para criar o nosso modelo**
    - https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier
    - Obs: é importante considerar que **o melhor conjunto de features vai depender também de todo o modelo que estamos utilizando**
- E o **f1_score para avaliar**
    - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score

In [None]:
# Criando um seletor para k = 10

In [None]:
# Fazendo o fit do seletor

In [None]:
# Fazendo o transform

In [None]:
# Visualizando o novo shape

In [None]:
# Visualizando as colunas

- Utilizando esses dados na Árvore de Decisão

In [None]:
# Importando a Árvore de Decisão

In [None]:
# Criando o classificador

In [None]:
# Selecionando o X_train com as colunas selecionadas acima

In [None]:
# Fazendo o fit do modelo

In [None]:
# Selecionando o X_test com as mesmas colunas

In [None]:
# Fazendo a previsão

- E então avaliando com o f1_score

In [None]:
# Importando o f1_score

In [None]:
# E calculando

- **Podemos então percorrer diferentes valores de k avaliando o f1_score**

In [None]:
# Criando o nosso seletor
k = []
f1 = []

for i in range(1,len(X_train.columns)):
    
    # Selecionando as colunas
    
    # Utilizando no modelo
    
    # Avaliando o modelo
    
    # Salvando as informações

In [None]:
# Visualizando graficamente a relação de f1_score com k
import matplotlib.pyplot as plt

fig, ax = plt.subplots()

ax.plot(k, f1)

plt.show()