<a href="https://colab.research.google.com/github/Mestrie/Regress-o_linear_atv3/blob/main/regressao_linear_multivariada_Justino.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##features_normalize

In [4]:
# Functions/feature_normalize.py
"""
@file features_normalizes.py
@brief Funções para normalização de features em datasets.
@details Este módulo contém funções para normalizar as features de um dataset
          utilizando diferentes abordagens, como média e desvio padrão, ou
          mínimo e máximo.
@author Your Name <your.email@example.com>
"""
import numpy as np


def features_normalize_by_std(X):
    """
    Normaliza as features de um dataset para média zero e desvio padrão unitário.
    Matematicamente, a formula utilizada é:
        X_norm = (X - mu) / sigma
    onde:
        - X é a matriz de entrada (m x n) onde m é o número de amostras e n é o número de features.
        - mu é o vetor de médias (1 x n) de cada feature.
        - sigma é o vetor de desvios padrão (1 x n) de cada feature.

    :param (ndarray) X: Matriz de entrada onde cada linha é uma amostra e cada coluna é uma feature.
    :return (tuple): Uma tripla contendo:
        - X_norm (ndarray): Matriz normalizada.
        - mu (ndarray): Vetor com as médias de cada feature.
        - sigma (ndarray): Vetor com os desvios padrão de cada feature.
    """
    # Calcula a média de cada feature (coluna)
    mu = np.mean(X, axis=0)

    # Calcula o desvio padrão de cada feature (coluna)
    sigma = np.std(X, axis=0)

    # Normaliza as features subtraindo a média e dividindo pelo desvio padrão
    # Verifica se sigma é zero (o que indicaria que todas as amostras têm o mesmo valor na feature)
    # Se sigma for zero, substitui por 1 para evitar divisão por zero
    # Isso garante que a normalização não cause problemas numéricos
    # e que a feature não seja eliminada do conjunto de dados
    if np.any(sigma == 0):
        sigma[sigma == 0] = 1

    # Normaliza as features
    X_norm = (X - mu) / sigma

    return X_norm, mu, sigma


def features_normalizes_by_min_max(X):
    """
    Normaliza as features de um dataset para o intervalo [0, 1] utilizando o mínimo e o máximo.
    Matematicamente, a formula utilizada é:
        X_norm = (X - min) / (max - min)
    onde:
        - X é a matriz de entrada (m x n) onde m é o número de amostras e n é o número de features.
        - min é o vetor de mínimos (1 x n) de cada feature.
        - max é o vetor de máximos (1 x n) de cada feature.

    :param (ndarray) X: Matriz de entrada onde cada linha é uma amostra e cada coluna é uma feature.
    :return (tuple): Uma tupla contendo:
        - X_norm (ndarray): Matriz normalizada.
        - min (ndarray): Vetor com os valores mínimos de cada feature.
        - max (ndarray): Vetor com os valores máximos de cada feature.
    """
    # Calcula o mínimo de cada feature (coluna)
    min = np.min(X, axis=0)

    # Calcula o máximo de cada feature (coluna)
    max = np.max(X, axis=0)

    # Normaliza as features subtraindo o mínimo e dividindo pela diferença entre máximo e mínimo
    # Verifica se max - min é zero (o que indicaria que todas as amostras têm o mesmo valor na feature)
    # Se max - min for zero, substitui por 1 para evitar divisão por zero
    # Isso garante que a normalização não cause problemas numéricos
    # e que a feature não seja eliminada do conjunto de dados
    range_ = max - min
    range_[range_ == 0] = 1

    # Normaliza as features
    X_norm = (X - min) / range_

    return X_norm, min, max


##compute_cost_multi

In [7]:
# Functions/compute_cost_multi.py
"""
@file compute_cost_multi.py
@brief Computes the cost for multivariate linear regression.
@details Este módulo contém uma função para calcular o custo de um modelo de regressão linear
          multivariada utilizando a função de custo de erro quadrático médio.
@author Your Name <your.email@example.com>
"""

import numpy as np


def compute_cost_multi(X, y, theta):
    """
    Calcula o custo para regressão linear multivariada.

    A função de custo é definida como:
        J(θ) = (1 / (2m)) * (Xθ - y)ᵀ (Xθ - y)

    :param (ndarray) X: Matriz de features incluindo o termo de intercepto (shape: m × n+1).
    :param (ndarray) y: Vetor de valores alvo (shape: m,).
    :param (ndarray) theta: Vetor de parâmetros (shape: n+1,).
    :return (float): Valor do custo calculado.
    """
    # get the number of training examples
    m = len(y)

    # compute the predictions using the linear model by formula h(θ) = X @ θ
    # where @ is the matrix multiplication operator
    predictions = X.dot(theta)

    # compute the error vector between predictions and actual values
    # The error is the difference between the predicted values and the actual values
    errors = predictions - y

    # compute the cost as the mean squared error cost function using the formula in the docstring
    cost = (1 / (2 * m)) * np.dot(errors.T, errors)

    return cost


##gradient_descent_multi.py

In [9]:
# Functions/gradient_descent_multi.py
"""
@file gradient_descent_multi.py
@brief Performs gradient descent for multivariate regression.
@details Este módulo contém uma função para executar o gradiente descendente
          para regressão linear multivariada, atualizando os parâmetros θ
          iterativamente para minimizar a função de custo.
@author Your Name <your.email@example.com>
"""

import numpy as np



def gradient_descent_multi(X, y, theta, alpha, num_iters):
    """
    Executa o gradiente descendente para aprender os parâmetros θ.

    Atualiza θ realizando num_iters passos de gradiente com taxa de aprendizado α usando a fórmula:
        θ := θ - α * (1/m) * (Xᵀ * (Xθ - y))
    onde:
        - θ é o vetor de parâmetros (n+1,).
        - m é o número de amostras.
        - X é a matriz de features (m × n+1).
        - y é o vetor de valores alvo (m,).
        - α é a taxa de aprendizado.

    :param (ndarray) X: Matriz de features com termo de bias (shape: m × n+1).
    :param (ndarray) y: Vetor de valores alvo (shape: m,).
    :param (ndarray) theta: Vetor de parâmetros iniciais (shape: n+1,).
    :param (float) alpha: Taxa de aprendizado.
    :param (int) num_iters: Número de iterações.
    :return (tuple): Uma tupla com 2 elementos contendo:
        - theta (ndarray): Parâmetros aprendidos (shape: n+1,).
        - J_history (ndarray): Custo em cada iteração (shape: num_iters,).
    """
    # obtenha o número de exemplos de treinamento
    m = len(y)

    # inicialize o vetor de custo para armazenar o custo em cada iteração com 0s
    # O vetor J_history armazena o custo em cada iteração do gradiente descendente
    J_history = np.zeros(num_iters)

    # loop para atualizar os parâmetros θ usando o gradiente descendente
    # O loop itera num_iters vezes, atualizando os parâmetros θ a cada iteração
    for i in range(num_iters):
        # calcule o erro entre as previsões e os valores reais
        # O erro é a diferença entre os valores previstos e os valores reais
        error = X.dot(theta) - y

        # calcule o gradiente para atualizar os parâmetros θ
        # O gradiente é a derivada da função de custo em relação aos parâmetros θ
        # O gradiente é um vetor que aponta na direção de maior aumento da função de custo
        # O gradiente é calculado como a média do erro multiplicado pela matriz de features transposta
        # O gradiente é um vetor que representa a direção e a magnitude da mudança necessária
        gradient = (1 / m) * X.T.dot(error)

        # A atualização dos parâmetros θ é feita usando a fórmula do gradiente descendente
        # A taxa de aprendizado α controla o tamanho do passo na direção do gradiente
        # A atualização dos parâmetros θ é feita na direção oposta ao gradiente
        # para minimizar a função de custo
        # Atualize os parâmetros θ subtraindo pelo gradiente multiplicado pela taxa de aprendizado α
        theta = theta - alpha * gradient

        # Agora Calcule o custo atual e armazene-o no vetor J_history
        # O custo é calculado usando a função de custo definida na função compute_cost_multi
        # O custo é uma medida de quão bem o modelo se ajusta aos dados de treinamento
        # Quando o custo é baixo, significa que o modelo está fazendo previsões precisas
        J_history[i] = compute_cost_multi(X, y, theta)

    return theta, J_history


def gradient_descent_multi_with_history(X, y, theta, alpha, num_iters):
    """
    Executa o gradiente descendente para aprender os parâmetros θ.

    Atualiza θ realizando num_iters passos de gradiente com taxa de aprendizado α usando a fórmula:
        θ := θ - α * (1/m) * (Xᵀ * (Xθ - y))
    onde:
        - θ é o vetor de parâmetros (n+1,).
        - m é o número de amostras.
        - X é a matriz de features (m × n+1).
        - y é o vetor de valores alvo (m,).
        - α é a taxa de aprendizado.

    :param (ndarray) X: Matriz de features com termo de bias (shape: m × n+1).
    :param (ndarray) y: Vetor de valores alvo (shape: m,).
    :param (ndarray) theta: Vetor de parâmetros iniciais (shape: n+1,).
    :param (float) alpha: Taxa de aprendizado.
    :param (int) num_iters: Número de iterações.
    :return (tuple): Uma tupla com 3 elementos contendo:
        - theta (ndarray): Parâmetros aprendidos (shape: n+1,).
        - J_history (ndarray): Custo em cada iteração (shape: num_iters,).
        - theta_history (ndarray): Histórico dos parâmetros θ em cada iteração (shape: num_iters + 1 × n+1).
    """
    # obtenha o número de exemplos de treinamento
    m = len(y)

    # obtenha o número de parâmetros
    n = theta.shape[0]

    # inicialize o vetor de custo para armazenar o custo em cada iteração com 0s
    # O vetor J_history armazena o custo em cada iteração do gradiente descendente
    J_history = np.zeros(num_iters)

    # inicialize o vetor de histórico de parâmetros para armazenar os parâmetros em cada iteração com 0s
    # O vetor theta_history armazena os parâmetros em cada iteração do gradiente descendente
    # Deve ter o mesmo número de linhas que o número de iterações+1 e o mesmo número de colunas que o número de parâmetros
    theta_history = np.zeros((num_iters + 1, n))

    # armazene os parâmetros iniciais no vetor de histórico de parâmetros
    # Faça uma cópia dos parâmetros iniciais para evitar modificações indesejadas
    # Agora você sabe porque o vetor theta_history tem num_iters+1 linhas
    theta_history[0] = theta.copy()

    # loop para atualizar os parâmetros θ usando o gradiente descendente
    # O loop itera num_iters vezes, atualizando os parâmetros θ a cada iteração
    for i in range(num_iters):
        # calcule o erro entre as previsões e os valores reais
        # O erro é a diferença entre os valores previstos e os valores reais
        error = X.dot(theta) - y

        # calcule o gradiente para atualizar os parâmetros θ
        # O gradiente é a derivada da função de custo em relação aos parâmetros θ
        # O gradiente é um vetor que aponta na direção de maior aumento da função de custo
        # O gradiente é calculado como a média do erro multiplicado pela matriz de features transposta
        # O gradiente é um vetor que representa a direção e a magnitude da mudança necessária
        gradient = (1 / m) * X.T.dot(error)

        # A atualização dos parâmetros θ é feita usando a fórmula do gradiente descendente
        # A taxa de aprendizado α controla o tamanho do passo na direção do gradiente
        # A atualização dos parâmetros θ é feita na direção oposta ao gradiente
        # para minimizar a função de custo
        # Atualize os parâmetros θ subtraindo pelo gradiente multiplicado pela taxa de aprendizado α
        theta = theta - alpha * gradient

        # Agora Calcule o custo atual e armazene-o no vetor J_history
        # O custo é calculado usando a função de custo definida na função compute_cost_multi
        # O custo é uma medida de quão bem o modelo se ajusta aos dados de treinamento
        # Quando o custo é baixo, significa que o modelo está fazendo previsões precisas
        J_history[i] = compute_cost_multi(X, y, theta)

        # Agora aqui é que vem a mágica, a diferença entre essa função e a anterior
        # Armazene os parâmetros θ atuais no vetor de histórico de parâmetros
        # Isso é útil para visualizar como os parâmetros mudam ao longo do tempo
        # Faça uma cópia dos parâmetros theta atuais para evitar modificações indesejadas
        # Use o i+1 para armazenar os parâmetros na linha correta do vetor de histórico de parâmetros
        theta_history[i + 1] = theta.copy()

    return theta, J_history, theta_history


##normal_eqn.py

In [10]:
# Functions/normal_eqn.py
"""
@file normal_eqn.py
@brief Calcula os parâmetros θ usando a Equação Normal.
@details Este módulo contém uma função para calcular os parâmetros de um modelo
          de regressão linear utilizando a equação normal.
@author Your Name <your.email@example.com>
"""

import numpy as np


def normal_eqn(X, y):
    """
    Resolve os parâmetros θ utilizando a equação normal.

    A equação normal é definida como:
        θ = (XᵀX)⁻¹ Xᵀ y

    :param (ndarray) X: Matriz de features com bias, onde cada linha é uma amostra
                        e cada coluna é uma feature (shape: m × n+1).
    :param (ndarray) y: Vetor de valores alvo (shape: m,).
    :return (ndarray): Vetor de parâmetros θ (shape: n+1,).
    """
    # Calcula os parâmetros θ utilizando a equação normal
    # A equação normal é uma solução fechada para o problema de regressão linear
    # que minimiza a soma dos erros quadráticos entre as previsões e os valores reais
    # Implemente aqui a equação normal descrita na docstring. Use a função np.linalg.pinv
    # para calcular a pseudo-inversa de uma matriz, que é útil quando a matriz não é quadrada
    # ou não é invertível.
    # A pseudo-inversa é uma generalização da inversa de uma matriz e pode ser usada para resolver
    # sistemas de equações lineares que não têm uma solução única ou que são mal condicionados.
    theta = np.linalg.pinv(X.T @ X) @ X.T @ y
    return theta
