Trabalho realizado por: Bárbara Freixo, PG49169

Esta implementação implementa o "SelectKBest". A classe é inicializada com uma função de pontuação e um inteiro "k". A função de pontuação é utilizada para calcular o valor F e o valor p para cada característica presente num conjunto de dados X e a respetiva resposta y. O método "fit" é utilizado para estimar os valores F e p. O método "transform" seleciona as k características com o menor valor p e devolve essas características. O método "fit_transform" combina os métodos "fit" e "transform" numa única etapa. A biblioteca "numpy" é utilizada para manipulação de arrays e a biblioteca "sklearn" é utilizada para importar a função "f_regression", que é usada como uma alternativa à class f_regression também já implementada.


In [2]:
import numpy as np
from sklearn.feature_selection import f_regression # Usado como alternativa uma vez que está a dar erro a importação de
                                                   # f_regression(data) localizado em f_regression.ipynb

class SelectKBest:
    def __init__(self, score_func, k):
        """
        Classe para selecionar as k melhores features com base na pontuação 
        F e no valor p de uma determinada métrica de pontuação (score_func).

        """
        self.score_func = score_func
        self.k = k
        self.scores_ = None
        self.pvalues_ = None
        self.selected_features_ = None

    def fit(self, X, y):
        """
        Estima o valor F e o valor p de cada feature usando a função de 
        pontuação fornecida (score_func).

        """
        self.scores_, self.pvalues_ = self.score_func(X, y)
        # Seleciona as k features com valor de p mais baixo
        self.selected_features_ = np.argsort(self.pvalues_)[:self.k]
        return self

    def transform(self, X):
        """
        Seleciona as k features com valor de p mais baixo e retorna as
        features correspondentes.

        """
        return X[:, self.selected_features_]

    def fit_transform(self, X, y):
        """
        Estima o valor F e o valor p de cada feature usando a função de 
        pontuação fornecida (score_func) e seleciona as k features com valor 
        de p mais baixo, retornando as features correspondentes.

        """
        self.fit(X, y)
        return self.transform(X)

# Testes e exemplos para o algoritmo implementado

## Exemplo de uso do código

Neste exemplo, carregamos o dataset breast_cancer, dividimos os dados em conjuntos de treino e teste e padronizamos os dados. Em seguida, criamos uma instância da classe SelectKBest, passando a função f_regression como métrica de pontuação e seleciona as 10 melhores features. Por fim, verificamos as features selecionadas.

In [6]:
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.feature_selection import f_regression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Carrega o dataset breast_cancer
data = load_breast_cancer()
X = data.data
y = data.target
feature_names = data.feature_names

# Divide o dataset em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Padroniza os dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Seleciona as k melhores features usando a classe SelectKBest
k = 10  # Número de melhores features a selecionar
selector = SelectKBest(score_func=f_regression, k=k)
X_train_selected = selector.fit_transform(X_train_scaled, y_train)
X_test_selected = selector.transform(X_test_scaled)

# Verifica as features selecionadas
selected_features = selector.selected_features_
selected_feature_names = feature_names[selected_features]
print("Features selecionadas:", selected_feature_names)


Features selecionadas: ['worst concave points' 'mean concave points' 'worst perimeter'
 'worst radius' 'mean perimeter' 'worst area' 'mean radius' 'mean area'
 'mean concavity' 'worst concavity']


## Testes "Unittest"

Foi realizado um teste utilizando o unittest para testar a implementação do SelectKBest. Temos então o seguinte teste:

In [8]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.feature_selection import f_regression
import unittest

class TestSelectKBest(unittest.TestCase):
    def setUp(self):
        # Carrega o dataset iris e define as variáveis X e y
        self.iris = load_iris()
        self.X = self.iris.data
        self.y = self.iris.target

    def test_fit(self):
        # Testa o método fit da classe SelectKBest
        selector = SelectKBest(f_regression, k=2)
        selector.fit(self.X, self.y)
        # Verifica se os atributos scores_, pvalues_ e selected_features_ não são None após a execução do método fit
        self.assertIsNotNone(selector.scores_)
        self.assertIsNotNone(selector.pvalues_)
        self.assertIsNotNone(selector.selected_features_)

    def test_transform(self):
        # Testa o método transform da classe SelectKBest
        selector = SelectKBest(f_regression, k=2)
        selector.fit(self.X, self.y)
        # Transforma o conjunto de dados usando o método transform
        X_transformed = selector.transform(self.X)
        # Verifica se o número de features no conjunto transformado é igual a k
        self.assertEqual(X_transformed.shape[1], 2)

    def test_fit_transform(self):
        # Testa o método fit_transform da classe SelectKBest
        selector = SelectKBest(f_regression, k=2)
        # Transforma o conjunto de dados usando o método fit_transform
        X_transformed = selector.fit_transform(self.X, self.y)
        # Verifica se o número de features no conjunto transformado é igual a k
        self.assertEqual(X_transformed.shape[1], 2)
        # Verifica se os atributos scores_, pvalues_ e selected_features_ não são None após a execução do método fit_transform
        self.assertIsNotNone(selector.scores_)
        self.assertIsNotNone(selector.pvalues_)
        self.assertIsNotNone(selector.selected_features_)

# Executa os testes unitários
if __name__ == '__main__':
    unittest.main(argv=['first-arg-is-ignored'], exit=False)

...
----------------------------------------------------------------------
Ran 3 tests in 0.009s

OK


Este teste define uma classe de teste chamada TestSelectKBest para testar a classe SelectKBest, que seleciona as k melhores features com base na pontuação F e no valor p de uma determinada métrica de pontuação. O teste é realizado utilizando o dataset iris.