Trabalho realizado por: Bárbara Freixo, PG49169

Esta implementação define a VarianceThreshold, que é uma técnica de seleção de características que remove características com variância abaixo de um determinado limiar. A classe tem três métodos principais: fit, transform e fit_transform.

* _init_(self, threshold=0.0): O construtor da classe aceita um parâmetro opcional threshold (padrão é 0.0) e inicializa o atributo self.variances como None.

* fit(self, X): Este método aceita uma matriz de entrada X e calcula a variância de cada característica (coluna) ao longo do eixo 0 (linhas). Ele armazena os valores de variância no atributo self.variances e retorna o próprio objeto.

* transform(self, X): Este método aceita uma matriz de entrada X e seleciona as características com variância maior ou igual ao limiar definido. Ele retorna uma nova matriz X_new contendo apenas as características selecionadas.

* fit_transform(self, X): Este método combina fit e transform, permitindo que o ajuste e a transformação sejam realizados numa única chamada. Ele aceita uma matriz de entrada X, estima as variâncias usando o método fit, e então transforma a matriz de entrada usando o método transform. A matriz transformada X_new é retornada.

In [1]:
import numpy as np

class VarianceThreshold:
    def __init__(self, threshold=0.0):
        self.threshold = threshold
        self.variances = None

    def fit(self, X):
        """
        Estimates the variance of each feature in the input matrix.
        
        Parameters
        ----------
        X : 2D array-like, shape (n_samples, n_features)
            The input data.
        """
        self.variances = np.var(X, axis=0)
        return self

    def transform(self, X):
        """
        Transforms the input data based on the estimated variances, selecting features with variance larger or equal to the threshold.

        Parameters
        ----------
        X : 2D array-like, shape (n_samples, n_features)
            The input data.

        Returns
        -------
        X_new : 2D array-like, shape (n_samples, n_selected_features)
            The transformed input data with only the selected features.
        """
        selected_features = self.variances >= self.threshold 
        return X[:, selected_features]

    def fit_transform(self, X):
        """
        Runs fit and transform over the same data (input matrix).
        
        Parameters
        ----------
        X : 2D array-like, shape (n_samples, n_features)
            The input data.

        Returns
        -------
        X_new : 2D array-like, shape (n_samples, n_selected_features)
            The transformed input data with only the selected features.
        """
        self.fit(X)
        return self.transform(X)

# Testes e exemplos para o algoritmo implementado

## Exemplo de uso do código

Este exemplo mostra o uso da classe VarianceThreshold para selecionar características com variância maior ou igual a 0,1. Ele cria uma matriz de dados de exemplo (X) e instancia um objeto VarianceThreshold com um limiar de 0,1. Em seguida, ajusta o transformador e transforma a matriz de entrada X usando o método fit_transform. Finalmente, o código imprime a matriz de dados original e a matriz transformada após a aplicação da seleção de características baseada em variância.

In [3]:
import numpy as np

# Create some dummy data (input matrix X)
X = np.array([[0, 2, 0, 3],
              [0, 1, 4, 3],
              [0, 1, 1, 3],
              [0, 1, 2, 3],
              [0, 1, 3, 3]])

# Initialize the VarianceThreshold transformer with a threshold of 0.1
vt = VarianceThreshold(threshold=0.1)

# Fit the transformer and transform the input data (X) using the fit_transform method
X_new = vt.fit_transform(X)

# Print the original data (X)
print("Original data:")
print(X)

# Print the transformed data (X_new) after applying the VarianceThreshold transformer
print("Transformed data:")
print(X_new)

Original data:
[[0 2 0 3]
 [0 1 4 3]
 [0 1 1 3]
 [0 1 2 3]
 [0 1 3 3]]
Transformed data:
[[2 0]
 [1 4]
 [1 1]
 [1 2]
 [1 3]]


## Testes "Unittest"

Foi realizado um teste utilizando o unittest para testar a implementação do VarianceThreshold. Temos então o seguinte teste:

In [4]:
import numpy as np

def test_variance_threshold():
    # Test case 1
    # Create an input matrix X1
    X1 = np.array([[0, 2, 0, 3],
                   [0, 1, 4, 3],
                   [0, 1, 1, 3],
                   [0, 1, 2, 3],
                   [0, 1, 3, 3]])

    # Initialize VarianceThreshold with a threshold of 0.1 and transform X1
    vt1 = VarianceThreshold(threshold=0.1)
    X1_new = vt1.fit_transform(X1)

    # Check if the transformed X1 equals the expected result
    assert np.array_equal(X1_new, X1[:, 1:3]), "Test case 1 failed"

    # Test case 2
    # Create an input matrix X2
    X2 = np.array([[1, 1, 1, 1],
                   [2, 2, 2, 2],
                   [3, 3, 3, 3],
                   [4, 4, 4, 4]])

    # Initialize VarianceThreshold with a threshold of 1 and transform X2
    vt2 = VarianceThreshold(threshold=1)
    X2_new = vt2.fit_transform(X2)

    # Check if the transformed X2 equals the expected result
    assert np.array_equal(X2_new, X2), "Test case 2 failed"

    # Test case 3
    # Create an input matrix X3
    X3 = np.array([[1, 2, 3, 4],
                   [2, 3, 4, 5],
                   [3, 4, 5, 6]])

    # Initialize VarianceThreshold with a threshold of 0 and transform X3
    vt3 = VarianceThreshold(threshold=0)
    X3_new = vt3.fit_transform(X3)

    # Check if the transformed X3 equals the expected result
    assert np.array_equal(X3_new, X3), "Test case 3 failed"

    # Print a message if all test cases passed
    print("All test cases passed.")

# Call the test function
test_variance_threshold()

All test cases passed.


Este teste define uma função de teste chamada test_variance_threshold, que verifica a correta implementação da classe VarianceThreshold. A função de teste inclui três casos de teste:

+ Teste caso 1: Cria uma matriz de entrada X1 e aplica o transformador VarianceThreshold com um limiar de 0,1. Verifica se a matriz transformada corresponde ao resultado esperado.

* Teste caso 2: Cria uma matriz de entrada X2 e aplica o transformador VarianceThreshold com um limiar de 1. Verifica se a matriz transformada corresponde ao resultado esperado.

* Teste caso 3: Cria uma matriz de entrada X3 e aplica o transformador VarianceThreshold com um limiar de 0. Verifica se a matriz transformada corresponde ao resultado esperado.