# Nesse capítulo, vou explorar alguns métodos de seleção de variáveis univariados em regressão e classificação:
## Existem dois jeitos no scikit-learn de fazer essa seleção:
1. SelectKBest: Remove todas as variáveis, menos as k variáveis que possuem o maior score de algum método.
2. SelectPercentile: Remove todas as variáveis, menos um percentual de variáveis que possuem o maior score de algum método.

In [13]:
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest, SelectPercentile, r_regression, f_regression, f_classif

In [2]:
ansur_df = pd.read_csv("../dados/ansur_df.csv")

In [3]:
ansur_df=ansur_df.select_dtypes(include=["int"])

In [4]:
ansur_df.head()

Unnamed: 0,abdominalextensiondepthsitting,acromialheight,acromionradialelength,anklecircumference,axillaheight,balloffootcircumference,balloffootlength,biacromialbreadth,bicepscircumferenceflexed,bicristalbreadth,...,trochanterionheight,verticaltrunkcircumferenceusa,waistbacklength,waistbreadth,waistcircumference,waistdepth,waistfrontlengthsitting,waistheightomphalion,wristcircumference,wristheight
0,266,1467,337,222,1347,253,202,401,369,274,...,919,1700,501,329,933,240,440,1054,175,853
1,233,1395,326,220,1293,245,193,394,338,257,...,918,1627,432,316,870,225,371,1054,167,815
2,287,1430,341,230,1327,256,196,427,408,261,...,918,1678,472,329,964,255,411,1041,180,831
3,234,1347,310,230,1239,262,199,401,359,262,...,847,1625,461,315,857,205,399,968,176,793
4,250,1585,372,247,1478,267,224,435,356,263,...,1090,1679,467,303,868,214,379,1245,188,954


In [6]:
X=ansur_df.drop(["abdominalextensiondepthsitting"], axis=1)
y=ansur_df["abdominalextensiondepthsitting"]

In [8]:
print(X.shape)

(4082, 90)


### A função de score r_regression é usada para problemas de regressão, esse score calcula a correlção de pearson da target com cada variável. Um ponto importante aqui é apenar testar com variáveis numéricas, ou variável númerica e uma binária. Uma das grandes vantagens desse método é que muito rápido.

In [7]:
selector = SelectKBest(score_func=r_regression, k=10)

In [9]:
X_new=selector.fit_transform(X, y)

In [10]:
print(X_new.shape)

(4082, 10)


### A função de score f_regression é usada para problemas de regressão, esse score calcula o valor-p de um modelo de regressão linear. Quanto maior o valor-p, mais importante é a variável. Aqui podem utilizar tantos variáveis numéricas quanto variável dummy(binárias)

In [14]:
selector = SelectPercentile(score_func=f_regression, percentile=10)

In [15]:
X_new=selector.fit_transform(X, y)

In [16]:
print(X_new.shape)

(4082, 9)


### A função de score f_classif, é usada para problemas de classificação, esse score calcula o valor-p de um modelo de regressão logística Quanto maior o valor-p, mais importante é a variável. Aqui podem utilizar tantos variáveis numéricas quanto variável dummy(binárias)

In [17]:
ansur_df = pd.read_csv("../dados/ansur_df.csv")

In [20]:
y=ansur_df["Gender"]
y.iloc[:2000]="Female"
X=ansur_df.select_dtypes(include=["int"])

In [23]:
selector = SelectPercentile(score_func=f_classif, percentile=10)

In [24]:
X_new=selector.fit_transform(X, y)

In [25]:
print(X_new.shape)

(4082, 9)


# Estudar Boruta e Mutual Information