Trabalho realizado por: Bárbara Freixo, PG49169

Esta implementação implementa uma classe "Modificar", cujo objetivo é armazenar dados de entrada nos atributos "X" e "Y". Adicionalmente, é apresentada a função "f_regressão", que efetua uma análise de regressão linear múltipla nos dados presentes nos atributos "X" e "Y" da classe "Modificar". Inicialmente, os dados são divididos em duas componentes, sendo elas as "features" (X) e as "targets" (Y). Posteriormente, é adicionada uma coluna de 1s ao conjunto de "features" (X) e é utilizado o método dos mínimos quadrados para calcular os coeficientes da regressão linear múltipla. A função também realiza o cálculo dos resíduos (ou erros) da regressão linear, bem como a soma dos quadrados totais (sqt) e a soma dos quadrados dos resíduos (sqr). Além disso, são determinados os graus de liberdade da regressão linear. Por fim, a função devolve o valor "p", que representa o p-value da análise de regressão linear múltipla.

In [1]:
import numpy as np
from scipy import stats

class Modificar:
    def __init__(self, X, Y):
        self.X = X
        self.Y = Y

def f_regression(data):

    #Divide os dados em features e targets.
    X = data.X
    Y = data.Y

    #Adiciona uma coluna de 1s ao conjunto de features
    X = np.concatenate([X, np.ones((X.shape[0], 1))], axis=1)

    #calcula os coeficientes da regressão linear múltipla usando o método dos mínimos quadrados.
    coe = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(Y)

    #calcula os resíduos (ou erros) da regressão linear.
    ypredicted = np.dot(X, coe)
    residuos = Y - ypredicted

    # calcula a soma dos quadrados totais (sqt) e a soma dos quadrados dos resíduos (sqr) na regressão linear.
    sqt = np.sum((Y - np.mean(Y)) ** 2)
    sqr = np.sum(residuos ** 2)

    # calcula os graus de liberdade da regressão linear.
    z = X.shape[0]
    q = data.X.shape[1]
    reg = q
    res = z - q - 1

    # Calcula F e p-value
    F = (sqt - sqr) / reg
    F = F / (sqr / res)
    p = 1 - stats.f.cdf(F, reg, res)

    return p

# Testes e exemplos para o algoritmo implementado

## Exemplo de uso do código

Este exemplo utiliza a função f_regression para calcular o valor p para o conjunto de dados Iris. O valor p ajudará-nos a determinar se existe uma relação linear significativa entre as características e a variável dependente no conjunto de dados.

In [3]:
from sklearn.datasets import load_iris

# Carrega o conjunto de dados Iris
iris = load_iris()
X = iris.data
y = iris.target

# Cria uma instância da classe Modificar
data = Modificar(X, y)

# Calcula o valor p com a função f_regression
p_value = f_regression(data)

print("p-value:", p_value)

p-value: 1.1102230246251565e-16


## Testes "Unittest"

Foi realizado um teste utilizando o unittest para testar a implementação do f_regression. Temos então o seguinte teste:

In [4]:
import numpy as np
from scipy import stats
from sklearn.datasets import load_iris
import unittest

# Define a classe TestFClassif que herda da classe TestCase do módulo unittest
class TestFClassif(unittest.TestCase):

    # Define o método test_Modificar que irá testar a classe Modificar
    def test_Modificar(self):
        # Carrega o conjunto de dados iris
        iris = load_iris()
        X = iris.data
        Y = iris.target

        # Cria uma instância da classe Modificar com os dados de X e Y
        data = Modificar(X, Y)

        # Verifica se as dimensões de X e Y são as esperadas
        self.assertEqual(data.X.shape, (150, 4))
        self.assertEqual(data.Y.shape, (150,))

    # Define o método test_f_regression que irá testar a função f_regression
    def test_f_regression(self):
        # Carrega o conjunto de dados iris
        iris = load_iris()
        X = iris.data
        Y = iris.target

        # Cria uma instância da classe Modificar com os dados de X e Y
        data = Modificar(X, Y)

        # Chama a função f_regression para calcular o p-value
        p = f_regression(data)

        # Verifica se as dimensões de p são as esperadas
        self.assertEqual(p.shape, ())
        self.assertEqual(p.dtype, np.float64)

        # Verifica se o p-value é menor que 0.05
        self.assertTrue(p < 0.05)

# Executa os testes unitários
if __name__ == '__main__':
    unittest.main(argv=['first-arg-is-ignored'], exit=False)

..
----------------------------------------------------------------------
Ran 2 tests in 0.006s

OK


Este teste define uma classe de teste "TestFClassif" que herda da classe "TestCase" do módulo "unittest". Ele contém dois métodos de teste: "test_Modificar" e "test_f_regression". O método "test_Modificar" testa a classe "Modificar" verificando se as dimensões dos atributos "X" e "Y" são as esperadas. O método "test_f_regression" testa a função "f_regression" verificando as dimensões do p-value e se ele é menor que 0.05. Finalmente, o código executa os testes unitários chamando o método "main" da classe "unittest".