# Como selecionar os atributos mais relevantes de um dataset?

Imaginem que temos um dataset onde queremos prever se uma pessoa irá comprar ou não um produto com base em alguns atributos. Neste caderno, os atributos que realmente importam são:

* `Salário mensal da pessoa`

* `Quantidade de vezes que a pessoa visitou o site do produto nos últimos 30 dias`

Mas vamos adicionar alguns atributos irrelevantes.

* `Número de sapatos que a pessoa possui`

* `Número favorito entre 1 e 100`

## Código

In [33]:
# Bibliotecas
import numpy as np
from sklearn.feature_selection import SelectKBest, f_classif

# Configuração do random seed para reprodutibilidade
np.random.seed(42)

In [34]:
# Características informativas
salario_mensal = np.random.randint(1000, 5000, 100)  # salários entre 1000 e 5000
visitas_site = np.random.randint(1, 30, 100)  # visitas entre 1 e 30 vezes

In [35]:
# Características irrelevantes
numero_sapatos = np.random.randint(1, 50, 100)  # número de sapatos entre 1 e 50
numero_aleatorio = np.random.randint(1, 100, 100)  # número aleatório entre 1 e 100

In [47]:
# Construindo a matriz de atributos (features)
#                     posição 0       posição 1
X = np.column_stack((salario_mensal, visitas_site, numero_sapatos, numero_aleatorio))

# O rótulo (target) é baseado nas duas primeiras características para simplificar
y = (salario_mensal > 3000) & (visitas_site > 15)  # 1 se salário > 3000 e visitas > 15, 0 caso contrário
y

array([ True,  True, False, False, False, False, False,  True, False,
       False, False, False, False, False, False,  True,  True, False,
        True, False, False,  True, False,  True, False,  True,  True,
       False, False, False, False, False, False,  True, False, False,
       False, False, False, False, False, False,  True,  True, False,
       False, False, False, False, False, False, False, False, False,
        True, False, False, False, False, False, False, False,  True,
        True,  True, False, False, False, False,  True, False, False,
       False, False, False, False, False, False, False, False, False,
        True, False, False, False, False, False, False, False, False,
        True, False, False, False,  True, False,  True, False, False,
       False])

In [49]:
y = [1 if e else 0 for e in y]
#y

In [50]:
# Usando o SelectKBest
num_features_to_select = 1 # (*)
selector = SelectKBest(score_func=f_classif, k=num_features_to_select)
selector.fit(X, y)

> (*) Na prática, não sabemos quantos atributos são informativos. A determinação dos atributos mais relevantes podem envolver várias abordagens e depende muito do contexto do problema.

In [51]:
# Imprime os atributos selecionados
selected_features = np.where(selector.get_support())[0]
print(f"As {num_features_to_select} características selecionadas são: {selected_features}")

As 1 características selecionadas são: [1]
