# Linear Regression

# Contexto do Problema

Dado o conjunto de dados de treinamento:

$$
X = \Big\{(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)\Big\},
$$

onde $\mathbf{x}^{(i)} \in \mathbb{R}^{d}$ e $y^{(i)} \in \mathbb{R}$, $; i = 1, 2, \ldots, N$, considere:



- $\mathbf{x} = (x_1, \ldots, x_d) \in \mathbb{R}^d$, que representa os atributos das observações no espaço de entrada.
- Adicionamos uma coordenada artificial $x_0 = 1$, tal que $\tilde{\mathbf{x}} = (1, x_1, \ldots, x_d) \in \mathbb{R}^{1+d}$.

Nosso objetivo é ajustar um modelo de **regressão linear** para prever os valores $y_i$ a partir de $\mathbf{x}_i$, assumindo que a relação entre as variáveis $\mathbf{x}$ e $y$ pode ser aproximada linearmente:

$$
\hat{y} = \mathbf{w}^T \tilde{\mathbf{x}},
$$

onde $\mathbf{w} = (w_0, w_1, \ldots, w_d) \in \mathbb{R}^{1+d}$ é o vetor de pesos.

A função de custo a ser minimizada é o **Erro Quadrático Médio (MSE)**, dado por:

$$
\text{MSE} = \frac{1}{N} \sum_{i=1}^N \Big(y_i - \hat{y}\Big)^2.
$$



# Derivação da Função de Custo

A função de custo da **regressão linear** é definida como o **Erro Quadrático Médio (MSE)**:

$$
J(\mathbf{w}) = \frac{1}{N} \sum_{i=1}^N \Big(y_i - \hat{y}\Big)^2.
$$

## Forma Vetorial

Definimos:

- $\mathbf{X} \in \mathbb{R}^{N \times (d+1)}$, sendo a matriz de atributos com coordenada artificial $1$ adicionada:

$$
\mathbf{X} =
\begin{bmatrix}
1 & x_{11} & x_{12} & \cdots & x_{1d} \\
1 & x_{21} & x_{22} & \cdots & x_{2d} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
1 & x_{N1} & x_{N2} & \cdots & x_{Nd}
\end{bmatrix}.
$$

- $\mathbf{y} \in \mathbb{R}^N$, sendo o vetor com os valores observados $y_i$:

$$
\mathbf{y} = 
\begin{bmatrix}
y_1 \\
y_2 \\
\vdots \\
y_N
\end{bmatrix}.
$$

- $\mathbf{w} \in \mathbb{R}^{d+1}$, sendo o vetor de pesos.

Expandindo a fórmula:

$$
J(\mathbf{w}) = \frac{1}{N} (\mathbf{y} - \mathbf{X}\mathbf{w})^T (\mathbf{y} - \mathbf{X}\mathbf{w}).
$$

## Gradiente da Função de Custo

Para minimizar $J(\mathbf{w})$, calculamos o gradiente em relação a $\mathbf{w}$:

$$
\nabla_{\mathbf{w}}J(\mathbf{w}) = \frac{2}{N} (\mathbf{X}^{T}\mathbf{y} -\mathbf{X}^{T}\mathbf{X}\mathbf{w})
$$

$$
\nabla_{\mathbf{w}} J(\mathbf{w}) = -\frac{2}{N} \mathbf{X}^T (\mathbf{y} - \mathbf{X}\mathbf{w}).
$$

## Condição de Otimalidade

Para encontrar o mínimo, igualamos o gradiente a zero:

$$
\nabla_{\mathbf{w}} J(\mathbf{w}) = 0.
$$

Portanto:

$$
-\frac{2}{N} \mathbf{X}^T (\mathbf{y} - \mathbf{X}\mathbf{w}) = 0.
$$

Simplificando:

$$
\mathbf{X}^T (\mathbf{y} - \mathbf{X}\mathbf{w}) = 0.
$$

Distribuímos o produto interno:

$$
\mathbf{X}^T\mathbf{y} - \mathbf{X}^T\mathbf{X}\mathbf{w} = 0.
$$

Reorganizamos para isolar $\mathbf{w}$:

$$
\mathbf{X}^T\mathbf{y} = \mathbf{X}^T\mathbf{X}\mathbf{w}.
$$

Multiplicamos ambos os lados pela inversa de $\mathbf{X}^T\mathbf{X}$ (assumindo que $\mathbf{X}^T\mathbf{X}$ é invertível):

$$
\mathbf{w} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}.
$$
