![alt text](https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcTK4gQ9nhwHHaSXMHpeggWg7twwMCgb877smkRmtkmDeDoGF9Z6&usqp=CAU)

# <font color='blue'>"Dicas e Truques" de Ciência de Dados</font>
# <font color='Green'> Feature Selection</font>




![](https://ofuturodascoisas.com/wp-content/uploads/2017/04/Estat%C3%ADstica-seeing-theory.gif)

![](https://cienciadosdados.com/images/2021/pipeline.png)

## <font color='blue'> **Construíndo Máquina Preditiva**</font>
#**1° Método de Seleção de Variáveis** 

# **SelectKBest**

https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html

Os atributos ou **variáveis** presentes no seu dataset e que você utiliza nos dados de treino, **terão grande influência na precisão e resultado do seu modelo** preditivo. Atributos irrelevantes terão impacto negativo na performance, enquanto atributos colineares podem afetar o grau de acurácia do modelo. O **Scikit-learn possui funções que automatizam o trabalho de extração e seleção de variáveis.**

![](https://1.bp.blogspot.com/-zsIPXPiwOrg/Wu66vpTsf8I/AAAAAAAABE8/Usl3uXQuxqM-YnRHBfZGLdaV8q-oFyWBgCLcBGAs/s640/what%2Bis%2Bcamshaft%2B%2528camshaft%2529%2Bhow%2Bdoes%2Bit%2Bwork.gif)

A etapa de Feature Selection é onde selecionamos os atributos (variáveis) que serão melhores candidatas a variáveis preditoras. O Feature Selection nos ajuda a **reduzir o overfitting (quando o algoritmo aprende demais)**, **aumenta a acurácia do modelo e reduz o tempo de treinamento.**

![](https://m.gifmania.pt/Gifs-Animados-Objetos/Imagens-Animadas-Dinheiro/Gif-Animados-Economia/Estatistica/Estatistica-81612.gif)

**Testes estatísticos podem ser usados para selecionar os atributos** que possuem forte relacionamento com a variável que estamos tentando prever. 

**O Scikit-learn fornece a função SelectKBest() que pode ser usada com diversos testes estatísticos, para selecionar os atributos.** Vamos usar o teste qui-quadrado, logo abaixo, e selecionar os 4 melhores atributos que podem ser usados como variáveis preditoras.

**chi2 - qui-quadrado**

https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2



O teste do qui-quadrado mede a dependência entre as variáveis, portanto, o uso dessa função **“elimina”** as **características que têm maior probabilidade** de serem independentes da classe e, portanto, **irrelevantes para a classificação.**

In [24]:
# Extração de Variáveis com Testes Estatísticos Univariados (Teste qui-quadrado neste exemplo)

# Import dos módulos
from pandas import read_csv
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# Carregando os dados
arquivo = 'pima-data.csv'
colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dados = read_csv(arquivo, names = colunas)
array = dados.values

# Separando o array em componentes de input e output
X = array[:,0:8]
Y = array[:,8]



In [None]:
Y

In [28]:
# Função para seleção de variáveis
best_var = SelectKBest(score_func = chi2, k = 4)

# Executa a função de pontuação em (X, y) e obtém os recursos selecionados
fit = best_var.fit(X, Y)

# Reduz X para os recursos selecionados
features = fit.transform(X)



In [29]:
# Resultados
print('\nNúmero original de features:', X.shape[1])
print('\nNúmero reduzido de features:', features.shape[1])
print('\nFeatures (Variáveis Selecionadas): \n\n', features)


Número original de features: 8

Número reduzido de features: 4

Features (Variáveis Selecionadas): 

 [[148.    0.   33.6  50. ]
 [ 85.    0.   26.6  31. ]
 [183.    0.   23.3  32. ]
 ...
 [121.  112.   26.2  30. ]
 [126.    0.   30.1  47. ]
 [ 93.    0.   30.4  23. ]]


In [30]:
dados

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


## **Observação**
 
 Além do teste do qui-quadrado, outras estatísticas podem ser utilizadas no SelectKBest().
 
 Vide exemplos abaixo:

**ANOVA - f_classif** https://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection_pipeline.html?highlight=selectkbest%20anova

**Regressão - f_regression**https://scikit-learn.org/stable/auto_examples/cluster/plot_feature_agglomeration_vs_univariate_selection.html#sphx-glr-auto-examples-cluster-plot-feature-agglomeration-vs-univariate-selection-py

# **2° Método** 

## **Ensemble para Seleção de Variáveis**

![](https://miro.medium.com/fit/c/184/184/0*CszCU2p5Ml6WbnH3.gif)

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html

Bagged Decision Trees, como o algoritmo RandomForest (esses são chamados de Métodos Ensemble), podem ser usados para estimar a importância de cada atributo. **Esse método retorna um score para cada atributo.**

Quanto maior o score, maior a importância do atributo.

In [31]:
# Importância do Atributo com o Extra Trees Classifier

# Import dos Módulos
from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifier

# Carregando os dados
arquivo = 'pima-data.csv'
colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dados = read_csv(arquivo, names = colunas)
array = dados.values

# Separando o array em componentes de input e output
X = array[:,0:8]
Y = array[:,8]



In [None]:
Y

In [33]:
# Criação do Modelo - Feature Selection
modelo = ExtraTreesClassifier()
modelo.fit(X, Y)



ExtraTreesClassifier(bootstrap=False, ccp_alpha=0.0, class_weight=None,
                     criterion='gini', max_depth=None, max_features='auto',
                     max_leaf_nodes=None, max_samples=None,
                     min_impurity_decrease=0.0, min_impurity_split=None,
                     min_samples_leaf=1, min_samples_split=2,
                     min_weight_fraction_leaf=0.0, n_estimators=100,
                     n_jobs=None, oob_score=False, random_state=None, verbose=0,
                     warm_start=False)

In [36]:
# Print dos Resultados
print(dados.columns[0:8])
print(modelo.feature_importances_)

Index(['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age'], dtype='object')
[0.11230618 0.23845573 0.09532422 0.07864453 0.07362404 0.13883606
 0.12077196 0.14203727]


#Fim
![](https://divulgavagas.com.br/img/sucesso.gif)

## Valeu!

### #YouTube - Mais Aulas como essa no YouTube 
https://www.youtube.com/channel/UCd3ThZLzVDDnKSZMsbK0icg?sub_confirmation=1

### #Links - Ciência dos Dados <a href="https://linktr.ee/cienciadosdados">https://linktr.ee/cienciadosdados</a>

In [None]:
from IPython.core.display import HTML
HTML('<iframe width="380" height="200" src="https://www.youtube.com/embed/O8SZGlSFnwo" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')

### Anexo da Aula:
http://bit.ly/3bj8FIp