# **Seleçõa de Atributos**

Essas técnicas consistem em selecionar os melhores atributos em uma base de dados para melhorar a eficiência e velocidade de processamento do aprendizado de máquina.

In [1]:
import pandas as pd
import numpy as np

In [9]:
base_census = pd.read_csv('/Users/gustavomeira/Documents/Python/Estudo_ML/projects/Amostragem e Seleção de Atributos/census.csv')

colunas = base_census.columns[:-1]

X_census = base_census.iloc[:,0:14].values
Y_census = base_census.iloc[:,14].values

In [10]:
from sklearn.preprocessing import LabelEncoder

label_encoder_workclass = LabelEncoder()
label_encoder_education = LabelEncoder()
label_encoder_marital = LabelEncoder()
label_encoder_occupation = LabelEncoder()
label_encoder_relationship = LabelEncoder()
label_encoder_race = LabelEncoder()
label_encoder_sex = LabelEncoder()
label_encoder_country = LabelEncoder()

X_census[:,1] = label_encoder_workclass.fit_transform(X_census[:,1])
X_census[:,3] = label_encoder_education.fit_transform(X_census[:,3])
X_census[:,5] = label_encoder_marital.fit_transform(X_census[:,5])
X_census[:,6] = label_encoder_occupation.fit_transform(X_census[:,6])
X_census[:,7] = label_encoder_relationship.fit_transform(X_census[:,7])
X_census[:,8] = label_encoder_race.fit_transform(X_census[:,8])
X_census[:,9] = label_encoder_sex.fit_transform(X_census[:,9])
X_census[:,13] = label_encoder_country.fit_transform(X_census[:,13])

In [11]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_census_scalar = scaler.fit_transform(X_census)
display(X_census_scalar)

array([[0.30136986, 0.875     , 0.0443019 , ..., 0.        , 0.39795918,
        0.95121951],
       [0.45205479, 0.75      , 0.0482376 , ..., 0.        , 0.12244898,
        0.95121951],
       [0.28767123, 0.5       , 0.13811345, ..., 0.        , 0.39795918,
        0.95121951],
       ...,
       [0.56164384, 0.5       , 0.09482688, ..., 0.        , 0.39795918,
        0.95121951],
       [0.06849315, 0.5       , 0.12849934, ..., 0.        , 0.19387755,
        0.95121951],
       [0.47945205, 0.625     , 0.18720338, ..., 0.        , 0.39795918,
        0.95121951]])

## Low Variance

Ele seleciona os melhores atributos com base nos dados com maiores valores de variância (afastamento em relação à média). Esta técnica é usada com bancos de dados com inúmeros atributos, inclusive com imagens para selecionar pixels em específico, melhando o accuracy.

In [14]:
for i in range(X_census_scalar.shape[1]):
    print(X_census_scalar[:,i].var())

0.034913808595952486
0.03312115190663569
0.005138537590667898
0.06657103564450892
0.029416385024073417
0.06301761677301636
0.09123816653931152
0.10326534394406342
0.04502805169292987
0.22136950173699113
0.00545419549240862
0.008557270623428908
0.015874043397822807
0.03641266114220053


In [21]:
from sklearn.feature_selection import VarianceThreshold

selecao = VarianceThreshold(threshold=0.05)
X_census_variancia = selecao.fit_transform(X_census_scalar)
display(selecao.variances_)
indices = np.where(selecao.variances_ > 0.05)
display(indices)
display(colunas[indices])

array([0.03491381, 0.03312115, 0.00513854, 0.06657104, 0.02941639,
       0.06301762, 0.09123817, 0.10326534, 0.04502805, 0.2213695 ,
       0.0054542 , 0.00855727, 0.01587404, 0.03641266])

(array([3, 5, 6, 7, 9]),)

Index(['education', 'marital-status', 'occupation', 'relationship', 'sex'], dtype='object')

## Extras Trees

Este algoritmo é um classificador parecido com a Random Forest. Neste algoritmo, realizamos o treinamento do modelo da forma convencional e escolhemos os atributos mais importantes a partir do resultado. As importânicas somam 100%.

In [22]:
from sklearn.ensemble import ExtraTreesClassifier

selecao = ExtraTreesClassifier()
selecao.fit(X_census_scalar, Y_census)

importancias = selecao.feature_importances_
display(importancias)

array([0.15143449, 0.04442391, 0.16442471, 0.03661957, 0.08976834,
       0.07031346, 0.0758667 , 0.09958113, 0.01474864, 0.02587463,
       0.0888674 , 0.02747311, 0.09315634, 0.01744757])

In [23]:
indices = []
for i in range(len(importancias)):
    if importancias[i] >= 0.029:
        indices.append(i)

display(colunas[indices])

Index(['age', 'workclass', 'final-weight', 'education', 'education-num',
       'marital-status', 'occupation', 'relationship', 'capital-gain',
       'hour-per-week'],
      dtype='object')