Trabalho realizado por: Bárbara Freixo, PG49169

Esta implementação implementa o f_classif, que calcula os valores F e os p-valores de um conjunto de dados usando a análise de variância (ANOVA) de um fator. Esta implementação é útil para determinar a relevância estatística de cada característica em relação a uma variável dependente e pode ser usada para realizar a seleção de características num conjunto de dados, onde as características com valores F mais altos e/ou p-valores menores são consideradas mais relevantes. 

* A função f_classif é definida, aceitando dois argumentos: X (um conjunto de dados bidimensional) e y (uma variável dependente unidimensional).
* A função começa por encontrar todas as classes únicas na variável dependente (y) usando a função np.unique().
* Em seguida, ela separa os dados em grupos com base nas classes únicas encontradas, criando uma lista de subconjuntos de dados onde cada subconjunto contém amostras que pertencem a uma classe específica.
* A função stats.f_oneway() é chamada para calcular os valores F e os p-valores para cada característica do conjunto de dados. Os subconjuntos de dados são passados como argumentos usando o operador de desempacotamento (*).
* A função retorna os valores F e p-valores calculados.

In [1]:
import numpy as np
from scipy.stats import f_oneway

def f_classif(dataset):
    import numpy as np
from scipy import stats

def f_classif(X, y):
    """
    Compute the ANOVA F-value and p-values for the provided dataset.
    
    Parameters
    ----------
    X : 2D array-like, shape (n_samples, n_features)
        The input data.
    y : 1D array-like, shape (n_samples,)
        The target variable.
    
    Returns
    -------
    F_values : 1D array, shape (n_features,)
        The F-values of each feature.
    p_values : 1D array, shape (n_features,)
        The p-values of each feature.
    """
    unique_classes = np.unique(y)
    class_data = [X[y == cls] for cls in unique_classes]
    F_values, p_values = stats.f_oneway(*class_data)
    
    return F_values, p_values

# Testes e exemplos para o algoritmo implementado

## Exemplo de uso do código

Esse exemplo demonstra o uso da função f_classif para selecionar características relevantes de um conjunto de dados com base nos valores F e p-valores calculados através da análise de variância (ANOVA).

In [2]:
import numpy as np

# Create some non-constant dummy data
X = np.array([[1, 2, 3, 4],
              [1, 3, 4, 5],
              [2, 1, 1, 3],
              [2, 1, 2, 3],
              [2, 1, 3, 3]])
y = np.array([0, 1, 0, 1, 1])

# Compute the ANOVA F-values and p-values for the dataset
F_values, p_values = f_classif(X, y)

print("F-values:", F_values)
print("p-values:", p_values)

# Set a p-value threshold for feature selection
p_value_threshold = 0.9

# Select features with p-values below the threshold
selected_features = p_values < p_value_threshold

# Transform the input data using the selected features
X_new = X[:, selected_features]

print("Original data:")
print(X)

print("Transformed data:")
print(X_new)

F-values: [0.08571429 0.03157895 0.9        0.03157895]
p-values: [0.78877998 0.87027649 0.41277043 0.87027649]
Original data:
[[1 2 3 4]
 [1 3 4 5]
 [2 1 1 3]
 [2 1 2 3]
 [2 1 3 3]]
Transformed data:
[[1 2 3 4]
 [1 3 4 5]
 [2 1 1 3]
 [2 1 2 3]
 [2 1 3 3]]


## Testes "Unittest"

Foi realizado um teste utilizando o unittest para testar a implementação do f_classif. Temos então o seguinte teste:

In [5]:
import unittest
import numpy as np
from scipy import stats

# Define a test class for the f_classif function that inherits from unittest.TestCase
class TestFClassif(unittest.TestCase):
    
    # Define a test case method for the f_classif function
    def test_f_classif_case_1(self):
        # Create a dummy dataset (X) and a target variable (y)
        X = np.array([[1, 2],
                      [1, 3],
                      [2, 1],
                      [2, 1],
                      [2, 1]])
        y = np.array([0, 1, 0, 1, 1])
        
        # Call the f_classif function to get the F_values and p_values
        F_values, p_values = f_classif(X, y)
        
        # Compute the expected F_values and p_values using scipy.stats.f_oneway
        expected_F_values = stats.f_oneway(X[y == 0], X[y == 1]).statistic
        expected_p_values = stats.f_oneway(X[y == 0], X[y == 1]).pvalue
        
        # Assert that the F_values and p_values are almost equal to the expected values
        np.testing.assert_array_almost_equal(F_values, expected_F_values, decimal=8, err_msg="Test case 1: F-values not equal")
        np.testing.assert_array_almost_equal(p_values, expected_p_values, decimal=8, err_msg="Test case 1: p-values not equal")

    # Define another test case method for the f_classif function
    def test_f_classif_case_2(self):
        # Create another dummy dataset (X) and a target variable (y)
        X = np.array([[1, 1, 2],
                      [2, 3, 4],
                      [3, 1, 3],
                      [4, 1, 1]])
        y = np.array([0, 1, 0, 1])

        # Call the f_classif function to get the F_values and p_values
        F_values, p_values = f_classif(X, y)
        
        # Compute the expected F_values and p_values using scipy.stats.f_oneway
        expected_F_values = stats.f_oneway(X[y == 0], X[y == 1]).statistic
        expected_p_values = stats.f_oneway(X[y == 0], X[y == 1]).pvalue
        
        # Assert that the F_values and p_values are almost equal to the expected values
        np.testing.assert_array_almost_equal(F_values, expected_F_values, decimal=8, err_msg="Test case 2: F-values not equal")
        np.testing.assert_array_almost_equal(p_values, expected_p_values, decimal=8, err_msg="Test case 2: p-values not equal")

# Run the tests without command line arguments and do not exit after running the tests
if __name__ == '__main__':
    unittest.main(argv=[''], exit=False)

..
----------------------------------------------------------------------
Ran 2 tests in 0.006s

OK


Este teste define uma classe de teste chamada TestFClassif, que herda de unittest.TestCase, para testar a função f_classif. Ele inclui dois métodos de teste, test_f_classif_case_1 e test_f_classif_case_2, que verificam se os valores F e os p-valores calculados pela função f_classif são quase iguais aos valores esperados calculados usando scipy.stats.f_oneway. O teste é executado com a chamada unittest.main(argv=[''], exit=False) no final do arquivo.