# Mínimos Quadrados 


## Introdução 

O capítulo 2 definiu o modelo de regressão linear como um conjunto de características da população que dependem de uma amostra observada dos dados. Para uma variedade de razões práticas e teóricas que exploraremos a medida que progredirmos para os próximos capítulos, o método de mínimos quadrados tem sido o mais popular. Entretanto, na maioria dos casos na qual outro método de estimacão é preferível, o MQO permanece como a abordagem referência, e frequentemente,  o método preferido é apenas um modificação do MQO. 

## Regressão de Mínimos Quadrados 

Os parâmetros desconhecidos da relação estocástica $y_{i} = \mathbf{x'_{i} \beta} + \varepsilon_{i} $ são os objetos de estimação. É necessário distinguir entre as quantidades da população, tal qual $\mathbf{\beta} $ e $\varepsilon_{i}  $ e as estimativas da amostra deles, denotadas por $\mathbf{b}$ e $e_{i}$. A regressão da população é $E[y_{i} | \mathbf{x_{i}} ] = \mathbf{ x'_{i} \beta} $, ao passo que nossa estimativas de  $E[y_{i} | \mathbf{x_{i}} ]$ é denotada por: 

\begin{equation}
  \hat{y}_{i} = \mathbf{x'_{i} b}.
\end{equation} 

As perturbações associadas com a i-ésima observação é: 

$$
\varepsilon_{i} = y_{i} - \mathbf{ x' \beta }
.$$

Para qualquer valor de $\mathbf{b} $, devemos estimar $\varepsilon_{i} $ conhecido como o resíduo


$$
e_{i} = y_{i} - \mathbf{ x' b }
.$$

A partir das definições, temos:

$$
y_{i} = \mathbf{ x' \beta } + \varepsilon_{i} = \mathbf{ x' b } + e_{i}
$$

Estas equações são resumidas pelas regressões na figura abaixo: 

<img src="images/fig31.png">




* Nesse caso, nosso problema será escolher um vetor $\mathbf{b}$ tal que a linha ajustada $\mathbf{x'_{i} b }$ seja o mais próximos possível dos dados. 
* Para tal objetivo, usaremos o método de mínimos quadrados. 

## O vetor de coeficientes de Mínimos Quadrados

O vetor de coeficientes que miniza a soma dos resíduos ao quadrado: 

$$
\sum_{i=1}^{n} e_{i0}^{2} = \sum_{i=1}^{n} (y_{i} - \mathbf{x'b_{0} }   )^{2} ,  
$$

onde denotamos $\mathbf{b}_{0} $ para a escolha do vetor de coeficientes. Em termos matriciais, minimizando a soma dos quadrados dos resíduos reque escolher $\mathbf{b}_{0} $ para: 

$$
Min_{ \mathbf{b}_{0} } S(\mathbf{b}_{0} ) = \mathbf{e}'_{0} \mathbf{e}_{0} = ( \mathbf{y} - \mathbf{X} \mathbf{b}_{0} )' ( \mathbf{y} - \mathbf{X} \mathbf{b}_{0} ) $$

expandindo temos: 

$$
\mathbf{e}'_{0} \mathbf{e}_{0} = \mathbf{y'} \mathbf{y} - \mathbf{b}_{0}' \mathbf{X'} \mathbf{y} - \mathbf{y}' \mathbf{X} \mathbf{b}_{0}' + \mathbf{b}_{0}' \mathbf{X}' \mathbf{X} \mathbf{b}_{0}
$$

ou 

$$
S(\mathbf{b}_{0} ) = \mathbf{y'} \mathbf{y} - 2\mathbf{y}' \mathbf{X} \mathbf{b}_{0} + \mathbf{b}_{0}' \mathbf{X}' \mathbf{X} \mathbf{b}_{0}
$$

A condição necessária para a achar o mínimo é: 

$$
\frac{ \partial S(\mathbf{b}_{0} ) }{ \partial \mathbf{b}_{0} } = -2 \mathbf{X}' \mathbf{y} + 2 \mathbf{X}' \mathbf{X} \mathbf{b}_{0} = \mathbf{0}.
$$

Seja $\mathbf{b} $ a solução, após algumas manipulações, encontramos o  $ \mathbf{b}$ que satisfaz as equações normais de MQO: 

$$
\mathbf{X}'\mathbf{X} \mathbf{b} = \mathbf{X}' \mathbf{y}
$$

Se existe a inversa de $\mathbf{X}'\mathbf{X} $, ou seja se a hipótese de posto completo é satisfeita, então a solução é:

$$
 \mathbf{b} =  (\mathbf{X}'\mathbf{X})^{-1} \mathbf{X}' \mathbf{y}
$$



In [2]:
table_31 <- read.csv("http://www.stern.nyu.edu/~wgreene/Text/Edition7/TableF3-1.csv",header = TRUE)

In [3]:
head(table_31)

YEAR,RealGNP,INVEST,GNPDefl,Interest,Infl,Trend,RealInv
2000,87.1,2.034,81.9,9.23,3.4,1,2.484
2001,88.0,1.929,83.8,6.91,1.6,2,2.311
2002,89.5,1.925,85.0,4.67,2.4,3,2.265
2003,92.0,2.028,86.7,4.12,1.9,4,2.339
2004,95.5,2.277,89.1,4.34,3.3,5,2.556
2005,98.7,2.527,91.9,6.19,3.4,6,2.75


In [4]:
class(table_31)

In [5]:
y <- table_31$RealInv
head(y)

In [6]:
X <- cbind(rep(1,length(y)), table_31$Trend , table_31$RealGNP , table_31$Interest, table_31$Infl)
head(X)

0,1,2,3,4
1,1,87.1,9.23,3.4
1,2,88.0,6.91,1.6
1,3,89.5,4.67,2.4
1,4,92.0,4.12,1.9
1,5,95.5,4.34,3.3
1,6,98.7,6.19,3.4


In [7]:
####### Agora vamos computar os betas #############################
X <- as.matrix(X)
XX <- solve(t(X)%*%X)
print(XX)

             [,1]         [,2]         [,3]        [,4]         [,5]
[1,] 182.96497706  4.214489471 -2.273589216  1.86498523 -0.020292918
[2,]   4.21448947  0.109543966 -0.054281188  0.05778037  0.005507831
[3,]  -2.27358922 -0.054281188  0.028591672 -0.02594739 -0.001320386
[4,]   1.86498523  0.057780366 -0.025947395  0.05573051 -0.013407959
[5,]  -0.02029292  0.005507831 -0.001320386 -0.01340796  0.077646710


In [8]:
XY <- t(X) %*% y
print(XY)

          [,1]
[1,]   36.2920
[2,]  288.6370
[3,] 3612.0134
[4,]  188.2441
[5,]   82.7887


In [9]:
b <- XX %*% XY
print(b)

            [,1]
[1,] -6.21967209
[2,] -0.16088526
[3,]  0.09908417
[4,]  0.02017157
[5,] -0.01165919


In [17]:
X1 <- X[,-1]
colnames(X1) <- c("Trend", "RealGNP","Interest Rate","Infl")
summary(lm(y ~ X1))


Call:
lm(formula = y ~ X1)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.23597 -0.07658  0.02551  0.07897  0.15815 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)   
(Intercept)     -6.21967    1.93045  -3.222  0.00915 **
X1Trend         -0.16089    0.04724  -3.406  0.00670 **
X1RealGNP        0.09908    0.02413   4.106  0.00212 **
X1Interest Rate  0.02017    0.03369   0.599  0.56268   
X1Infl          -0.01166    0.03977  -0.293  0.77538   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1427 on 10 degrees of freedom
Multiple R-squared:  0.7878,	Adjusted R-squared:  0.7029 
F-statistic: 9.282 on 4 and 10 DF,  p-value: 0.002125


In [10]:
dim(X)

## Aspectos Algébricos da Solução do MQO

As equações normais do MQO são: 

$$
\mathbf{X}'\mathbf{X} \mathbf{b} - \mathbf{X}'\mathbf{y} = - \mathbf{X}'(\mathbf{y} - \mathbf{X} \mathbf{b}) = -\mathbf{X} \mathbf{e} = \mathbf{0}. 
$$

Então, para cada coluna $\mathbf{x}_{k} $ de $\mathbf{X} $, $\mathbf{x}'_{k} \mathbf{e} = 0 $. A primeira coluna de $\mathbf{X} $ é uma coluna com 1s, na qual denotamos $\mathbf{i} $, então existem três implicações: 

1. A soma dos resíduos de mínimos quadrados é zero. Esta implicação vem de que $\mathbf{x}'_{1} \mathbf{e} = \mathbf{i}'\mathbf{e} = \sum_{i} e_{i} = 0.  $

2. A regressão no hiperplano passa pelo ponto da média dos dados . A primeira equação normal implica que $\overline{y} = \mathbf{\overline{x}}'  \mathbf{b} $.

3. A média dos valores ajustados a partir da regressão é igual a média dos valores atuais(observados). Esta implicação vem do ponto 1, dado que os valores ajustados são justamente $\mathbf{\hat{y}} = \mathbf{X} \mathbf{b} $.

È importante ressaltar que nenhum desses resultados se mantém no caso da regressão sem o termo constantes. 


In [11]:
### Calculando os resíduos 
e <- y - X%*%b
print(e)

              [,1]
 [1,]  0.087784108
 [2,]  0.012305113
 [3,]  0.033075777
 [4,]  0.025515386
 [5,]  0.068491177
 [6,]  0.070155623
 [7,] -0.004683308
 [8,] -0.116310293
 [9,] -0.184628696
[10,] -0.235969790
[11,] -0.138785972
[12,] -0.036855018
[13,]  0.158155464
[14,]  0.105822717
[15,]  0.155927711


In [12]:
## Calculando a soma dos resíduos 
round(sum(e),4)

## Projeção 

O vetor dos resíduos de mínimos quadrados é: 

$$
\mathbf{e} = \mathbf{y} - \mathbf{X} \mathbf{b} 
$$

Inserindo o resultado na equação (3-6) para $\mathbf{b} $ temos:

$$
\mathbf{e} = \mathbf{y} - \mathbf{X}( \mathbf{X'} \mathbf{X})^{-1} \mathbf{X'} \mathbf{y} = (\mathbf{I} -  \mathbf{X}( \mathbf{X'} \mathbf{X})^{-1}\mathbf{X'}  ) \mathbf{y} = \mathbf{M} \mathbf{y}
$$

onde a matrix $n \times n $  definida anteriormente é fundamental na análise de regressão. Podemos mostrar facilmente que $\mathbf{M} $ é simétrica $(\mathbf{M} = \mathbf{M'} ) $ e idempotente $(\mathbf{M} = \mathbf{M}^{2})$. Na visão de (3-13) podemos interpretar $\mathbf{M} $ como a matriz que produz o vetor dos resíduos de mínimos quadrados na regressão de $\mathbf{y} $ sobre $\mathbf{X} $ quando o mesmo pre multiplica qualquer vetor $\mathbf{y} $. Temos que:

$$
\mathbf{M}\mathbf{X} = \mathbf{0}
$$

Uma forma de interpretar este resultado é que se $\mathbf{X} $ é regredido sobre $\mathbf{X} $, resultará em um perfeito ajuste e os resíduos serão zero. 

Finalmente (3-13) implica que $\mathbf{y} = \mathbf{X} \mathbf{b} + \mathbf{e} $, no qual é análogo a (2-3). A partição dos resultados de mínimos quadrados em duas partes, os valores ajustados $\mathbf{\hat{y} } = \mathbf{X} \mathbf{b} $ e os resíduos $\mathbf{e} $ .  Desde que $\mathbf{M} \mathbf{X} = \mathbf{0} $, estas duas partes são ortogonais. Agora, dado (3-13):

$$
\mathbf{\hat{y}} = \mathbf{y} - \mathbf{e} = (\mathbf{I} - \mathbf{M}) \mathbf{y} = \mathbf{X} (\mathbf{X'} \mathbf{X} )^{-1} \mathbf{X'} \mathbf{y} = \mathbf{P} \mathbf{y}
$$

A matrix $\mathbf{P} $ é a **matrix de projeção**. É a matriz formada a partir de $\mathbf{X} $ tal que quando um vetor $\mathbf{y} $ é pré muliplicado por $\mathbf{P} $, o resultado é os valores ajustados na regressão de mínimos quadrados de $\mathbf{y} $ sobre $\mathbf{X}$. Esta é também a projeção do vetor $\mathbf{y} $ no espaço da coluna de $\mathbf{X} $. Multiplicando, encontraremos que, como $\mathbf{M} $, $ \mathbf{P}$ é simétrica e idempotente, ou seja: 

$$
\mathbf{P} \mathbf{M} = \mathbf{M} \mathbf{P} = \mathbf{0}
$$

como esperado de (3-15)

$$
\mathbf{P} \mathbf{X} = \mathbf{X}
$$

Como uma consequência de (3-14) e (3-16), podemos ver que as partições de mínimos quadrados, o vetor $\mathbf{y} $ em duas partes ortogonais:

$$
\mathbf{y} = \mathbf{P} \mathbf{y} + \mathbf{M} \mathbf{y} = \mathbf{projecao} + \mathbf{residuo} 
$$

O resultado da seção 3.2 pode ser ilustrado na figura. A área em cinza do plano representa o espaço coluna de $\mathbf{X}$. A projeção e os resíduos são as linhas pontilhadas ortogonais. Podemos ver também como o teorema de pitágoras funciona:

<img src="images/fig32.png">



\begin{align}
\mathbf{y}' \mathbf{y} = \mathbf{y} \mathbf{P}' \mathbf{P}' \mathbf{y} + \mathbf{y}' \mathbf{M}' \mathbf{M} \mathbf{y}  \\
 =  \hat{\mathbf{y}}' \hat{\mathbf{y}} + \mathbf{e}' \mathbf{e}.
\end{align} 

Depois de manipularmos as equações envolvendo os resultados de mínimos quadrados, a seguinte expressão equivalente para a soma dos quadrados dos resíduos é frequentemente útil, 

\begin{align}
\mathbf{e}' \mathbf{e} = \mathbf{y}' \mathbf{M}' \mathbf{M} \mathbf{y} = \mathbf{y}' \mathbf{M} \mathbf{y} = \mathbf{y}' \mathbf{e} = \mathbf{e}'\mathbf{y} \\
\mathbf{e}' \mathbf{e} = \mathbf{y}' \mathbf{y} - \mathbf{b}' \mathbf{X}' \mathbf{X} \mathbf{b} = \mathbf{y}' \mathbf{y} - \mathbf{b}' \mathbf{X}' \mathbf{y} = \mathbf{y}' \mathbf{y} - \mathbf{y}' \mathbf{X} \mathbf{b}. 
\end{align}






In [13]:
## Calculando a matrix M 
n <- nrow(X)
I <- diag(n)
M <- I - X %*% solve((t(X) %*% X)) %*% t(X)
print(M)
dim(M)

             [,1]        [,2]         [,3]        [,4]         [,5]
 [1,]  0.40773609 -0.34305985 -0.082645104  0.05055297  0.144114791
 [2,] -0.34305985  0.60688589 -0.175435506 -0.13510077  0.084278394
 [3,] -0.08264510 -0.17543551  0.732675960 -0.26061784 -0.212466777
 [4,]  0.05055297 -0.13510077 -0.260617836  0.69476655 -0.261075789
 [5,]  0.14411479  0.08427839 -0.212466777 -0.26107579  0.568686128
 [6,]  0.01237768  0.06822122 -0.071441824 -0.10183165 -0.271901020
 [7,] -0.13914235 -0.06060263  0.065994703  0.03816370 -0.009142162
 [8,] -0.16915243  0.10472115  0.103425940  0.12803502 -0.095140403
 [9,]  0.08941786 -0.16994855 -0.023370915 -0.13726572  0.020558709
[10,] -0.08028943 -0.01657600 -0.104147768 -0.04525222 -0.066569490
[11,] -0.01212869 -0.07541229 -0.065450786 -0.06127678  0.009812311
[12,] -0.03740569  0.08124741 -0.033051879  0.02105769 -0.072794434
[13,] -0.05787122 -0.03922040  0.003820826  0.03562682  0.086901232
[14,]  0.07320450  0.03857306  0.042364155  0.01

In [14]:
solve((t(X) %*% X))

0,1,2,3,4
182.96497706,4.214489471,-2.273589216,1.86498523,-0.020292918
4.21448947,0.109543966,-0.054281188,0.05778037,0.005507831
-2.27358922,-0.054281188,0.028591672,-0.02594739,-0.001320386
1.86498523,0.057780366,-0.025947395,0.05573051,-0.013407959
-0.02029292,0.005507831,-0.001320386,-0.01340796,0.07764671


In [15]:
dim(X %*% solve((t(X) %*% X)) %*% t(X))

In [16]:
### Gerar resíduo de outra maneira
e1 <- M %*% y

In [17]:
identical(round(e,4),round(e1,4))

In [18]:
round(M %*% X,4)

0,1,2,3,4
0,0,0,0,0
0,0,0,0,0
0,0,0,0,0
0,0,0,0,0
0,0,0,0,0
0,0,0,0,0
0,0,0,0,0
0,0,0,0,0
0,0,0,0,0
0,0,0,0,0


In [19]:
### Calculando a Matriz P 

P <- X %*% solve((t(X) %*% X)) %*% t(X)
dim(P)


In [20]:
### Calculando y_hat 
y_hat <- P%*%y
print(y_hat)

          [,1]
 [1,] 2.396216
 [2,] 2.298695
 [3,] 2.231924
 [4,] 2.313485
 [5,] 2.487509
 [6,] 2.679844
 [7,] 2.832683
 [8,] 2.833310
 [9,] 2.629629
[10,] 2.113970
[11,] 2.214786
[12,] 2.204855
[13,] 2.197845
[14,] 2.376177
[15,] 2.481072


## Regressão Particionada e Regressão Parcial 

É comum espeficifar um modelo de regressão múltipla quando, de fato, centros de interesse em apenas uma ou um subconjunto de variáveis. Considere que equação dos rendimentos discutidas no exemplo 2.2. 

Embora estamos primariamente interessados na assosiação de rendimentos e educação, idade e, da necessidade, incluídas no modelo. A questão que consideramos aqui é qual computações são envolvidas em obter, em isolamento, os coeficientes de um subconjunto de variáveis na regressão múltipla. 

Suponha que a regressão envolve o conjunto de duas variáveis, $\mathbf{X}_{1} $ e $\mathbf{X}_{2} $. Então, 

$$
\mathbf{y} = \mathbf{X} \mathbf{\beta} + \mathbf{ \varepsilon } = \mathbf{X_{1}} \beta_{1} + \mathbf{X_{2}} \mathbf{ \beta_{2} } + \mathbf{ \varepsilon }.
$$

Qual é a solução algébrica para o $\mathbf{ \beta_{2}} $ ? **As equações normais** são: 


$$
\begin{bmatrix} 
\mathbf{X}_{1}' \mathbf{X}_{1} & \mathbf{X}_{1}' \mathbf{X}_{2} \\
\mathbf{X}_{2}' \mathbf{X}_{1} & \mathbf{X}_{1}' \mathbf{X}_{2}
\end{bmatrix} 
\begin{bmatrix} 
\mathbf{b}_{1} \\
\mathbf{b}_{2} 
\end{bmatrix}  =
\begin{bmatrix} 
\mathbf{X}_{1}' \mathbf{y} \\
\mathbf{X}_{2}' \mathbf{y}
\end{bmatrix} 
$$

A solução pode se obtida usando a matriz inversa particionada. Alternativamente, (1) e (2) em (3-17) podem serem manipuladas diretamente para resolver para $\mathbf{b}_{2} $. Primeiro resolvemos (1) para $\mathbf{b}_{1}$: 

$$
\mathbf{b}_{1} = (\mathbf{X}_{1}' \mathbf{X}_{1})^{-1} \mathbf{X}_{1}' \mathbf{y} - (\mathbf{X}_{1}' \mathbf{X}_{1})^{-1} \mathbf{X}_{1}' \mathbf{X}_{2} \mathbf{b}_{2} = (\mathbf{X}_{1}' \mathbf{X}_{1})^{-1} \mathbf{X}_{1}' (\mathbf{y} - \mathbf{X}_{2} \mathbf{b}_{2} ) 
$$

Esta solução afirma que $\mathbf{b}_{1} $ é o conjunto de coeficientes na regressão de $\mathbf{y} $ sobre $\mathbf{X}_{1} $, menos um vetor de correção. Digredimos brevemente para examinar um resultado importante embutido em (3-18). Supunha que $\mathbf{X}_{1}' \mathbf{X}_{2} = \mathbf{0} $. Então, $\mathbf{b}_{1} = (\mathbf{X}_{1}' \mathbf{X}_{1})^{-1} \mathbf{X}_{1}' \mathbf{y}  $, na qual é simplesmente o vetor de coeficientes na regressão de $\mathbf{y} $ sobre $\mathbf{X}_{1} $. O resultado geral é dado pelo seguinte teorema: 

**Teorema 3.1: Regressão Particionada Ortogonal**

Em uma regressão linear múltipla de $\mathbf{y}$ sobre dois conjuntos de variáveis $\mathbf{X}_{1} $ e $\mathbf{X}_{2} $, se os dois conjuntos de variáveis são ortogonais, então os vetores de coeficientes separados podem ser obtidos por regressões separadas de $\mathbf{y} $ sobre $\mathbf{X}_{1} $ sozinho e $\mathbf{y} $ sobre $\mathbf{X}_{2} $ sozinho. 

**Prova:** A hipótese do teorema é que $\mathbf{X}_{1}' \mathbf{X}_{2} = 0 $ nas equações normais em (3-17). Inserindo esta hipótese em (3-18) produz a solução imediata para $\mathbf{b}_{1} = (\mathbf{X}_{1}' \mathbf{X}_{1})^{-1} \mathbf{X}_{1}' \mathbf{y} $ e da mesma forma para $\mathbf{b}_{2} $. 

$\blacksquare$.

Se dois conjuntos de variáveis $\mathbf{X}_{1}$ e $\mathbf{X}_{2} $ não são ortogonais, então a solução para $\mathbf{b}_{1} $ e $\mathbf{b}_{2} $ encontrada em (3-17) e (3-18) é mais complicada do que apenas uma simples regressões como no teorema 3.1. Uma solução mais geral é dada pelo seguinte teorema, que aparece em uma das primeiras edições da Econometrica: 


**Teorema 3.2: Teorema de Frisch-Waugh(1933)-Lovell(1963)** 
Em uma regressão linear de mínimos quadrados do vetor $\mathbf{y}$ sobre dois conjuntos de variáveis $\mathbf{X}_{1} $ e $\mathbf{X}_{2} $, o subvetor $\mathbf{b}_{2} $ é o conjunto de coeficientes obtido quando os resíduos da regressão de $\mathbf{y} $ sobre $\mathbf{X}_{1} $ sozinho são regredidos sobre o conjunto de resíduos obtidos quando cada coluna de $\mathbf{X}_{2} $ é regredido sobre $\mathbf{X}_{1} $. 

**Prova:** Para provar o teorema 3.2, começe com equação (2) de  (3-17), na qual: 

$$
\mathbf{X}_{2}' \mathbf{X}_{1} \mathbf{b}_{1} + \mathbf{X}_{2}' \mathbf{X}_{2} \mathbf{b}_{2} = \mathbf{X}_{2}' \mathbf{y}
$$

Agora insira o resultado para $\mathbf{b}_{1} $, que aparece que (3-18) neste resultado, o que produz: 

$$
\mathbf{X}_{2}' \mathbf{X}_{1} (\mathbf{X}_{1}' \mathbf{X}_{1})^{-1} \mathbf{X}_{1}' \mathbf{y} - \mathbf{X}_{2}' \mathbf{X}_{1} (\mathbf{X}_{1}' \mathbf{X}_{1})^{-1} \mathbf{X}_{1}' \mathbf{X}_{2} \mathbf{b}_{2}  + \mathbf{X}_{2}' \mathbf{X}_{2} \mathbf{b}_{2} = \mathbf{X}_{2}' \mathbf{y}
$$

depois de organizarmos os termos temos a solução para $\mathbf{b}_{2} $:

\begin{align} 
\mathbf{b}_{2} = [\mathbf{X}_{2}' (\mathbf{I} - \mathbf{X}_{1} (\mathbf{X}_{1}' \mathbf{X}_{1})^{-1} \mathbf{X}_{2}   ) \mathbf{X}_{2}    ]^{-1}  [\mathbf{X}_{2}' (\mathbf{I} - \mathbf{X}_{1} (\mathbf{X}_{1}' \mathbf{X}_{1})^{-1} \mathbf{X}_{1}   )   \mathbf{y}  ] \\
 = ( \mathbf{X}_{2}' \mathbf{M}_{1} \mathbf{X}_{2}   )     ^{-1}  ( \mathbf{X}_{2}' \mathbf{M}_{1} \mathbf{y}   ). 
\end{align} 

A matriz que aparece entre parênteses é a matriz que produz os resíduos, visto em (3-14), neste caso definida para uma regressão sobre as colunas de $\mathbf{X}_{1} $. Assim, $\mathbf{M}_{1} \mathbf{X}_{2} $ é a matriz dos resíduos; cada coluna de $\mathbf{M}_{1} \mathbf{X}_{2} $  é um vetor de resíduos na regressão da coluna correspondente de $\mathbf{X}_{2} $ no conjunto de variáveis em $\mathbf{X}_{1} $. Explorando este fato que $\mathbf{M}_{1} $, assim como $\mathbf{M} $, é simétrica e idempotente, podemos reescrever (3-19) como:

$$
\mathbf{b}_{2} = ( \mathbf{X}_{2}^{*'}\mathbf{X}_{2}^{*} )^{-1} \mathbf{X}_{2}^{\ast '} \mathbf{y}^{\ast} ,
$$

onde: 

$$
\mathbf{X}_{2}^{*} =  \mathbf{M}_{1} \mathbf{X}_{2} 
$$

e:

$$
\mathbf{y}^{*} =  \mathbf{M}_{1} \mathbf{y} 
$$


Este resultado é fundamental na análise de regressão. 
$\blacksquare$

Este processo é comumente chamado de "parcializando"  o efeito de $\mathbf{X}_{1} $. Por esta razão, os coeficientes na regressão múltipla são frequentemente chamados de **coeficientes de regressão parcial**. A aplicação deste teorema para a computaçao de um simples coeficiente como sugerido no início desta seção é detalhado em seguida: 

Considere a regressão de $\mathbf{y} $ sobre um conjunto de variáveis $\mathbf{X} $ e uma variável adicional $\mathbf{z} $. Denote os coeficientes como $\mathbf{b}$ e $c $. 

** Corolário 3.2.1 Coeficientes da Regressão Individual **

O coeficiente sobre $\mathbf{z} $ em uma regressão múltipla de $\mathbf{y} $ sobre $\mathbf{W} = [\mathbf{X},\mathbf{z} ] $ é computado como $c = (\mathbf{z}' \mathbf{M} \mathbf{z}  )^{-1} (\mathbf{z}' \mathbf{M} \mathbf{y}  )  = ( \mathbf{z}^{*'}\mathbf{z}^{*} )^{-1} \mathbf{z}^{\ast '} \mathbf{y}^{\ast}  $ onde $\mathbf{z}^{*}$ e $\mathbf{y}^{\ast}$ são os vetores de resíduos das regressões de $\mathbf{z} $ e $\mathbf{y}$ sobre $\mathbf{X} $; $\mathbf{z}^{*} = \mathbf{M} \mathbf{z} $  e $\mathbf{y}^{*} = \mathbf{M} \mathbf{y} $. Onde $\mathbf{M} $ é definido em (3-14). 

**Prova:** Esta é uma aplicação do teorema 3.2 na qual $\mathbf{X}_{1} $ é $\mathbf{X} $ e $\mathbf{X}_{2} $ é $\mathbf{z} $. 
$\blacksquare $ 
 

Nos termos do exemplo 2.2, poderíamos obter o coeficiente da educação na regressão múltipla regredindo primeiro os rendimentos e a educação sobre a idade(ou idade e idade ao quadrado) e então usarmos os resíduos destas regressões em uma regressão simples. Em uma clássica aplicação desta última observação, Frisch e Waugh(1933) notaram que em uma configuração de série de tempo, os mesmos resultados são obtidos se a regressão foi estimada com a variável de tendência ou mesmo se os foi retirado primeiramente a tendência dos dados.

Como uma aplicação destes resultados, considere o caso em que $\mathbf{X}_{1} $ é $\mathbf{i} $, o termo constantes que é uma coluna de 1s na primeira coluna de $\mathbf{X} $. A solução para $b_{2} $ neste caso então é a inclinação na regressão que contém o termo constante. Usando o teorema 3.2 o vetor de resíduos para qualquer variável $\mathbf{X}_{2} $ neste caso será: 

\begin{align} 
\mathbf{x}^{*} = \mathbf{x} - \mathbf{X}_{1} (\mathbf{X}_{1}^{'} \mathbf{X}_{1})^{-1} \mathbf{X}_{1}^{'} \mathbf{x}  \\ 
 =  \mathbf{x} - \mathbf{i} (\mathbf{i}^{'} \mathbf{i})^{-1} \mathbf{i}^{'} \mathbf{x}  \\ 
 =  \mathbf{x} - \mathbf{i} (1/n) \mathbf{i}^{'} \mathbf{x}  \\ 
 = \mathbf{x} - \mathbf{i} \mathbf{\overline{x} } \\
 = \mathbf{M}^{0} \mathbf{x}.
 \end{align} 
 
 No apêndice A.5.4 temos a demonstração de como chegou-se a esse resultado. Para este caso, então, os resíduos são desvios da média amostral. Entretanto, cada coluna de $\mathbf{M}_{1} \mathbf{X}_{2} $ é a variável original, agora na forma de desvios em da média. Este resultado geral é resumido no seguinte corolário. 
 
 **Corolário 3.2.2 Regressão com o termo constante**
 
 A inclinação em uma regressão múltipla que contém um termo constante são obtidas a partir da transformação dos dados em desvio em relação à média e então regredindo a variável $y$ na forma de desvio sobre as variáveis explicativas, também na forma de desvios. 
 
 Tendo obtido os coeficientes de $\mathbf{X}_{2} $, como podemos recuperar os coeficientes de $\mathbf{X}_{1} $ (o termo constante)?  Uma forma é repetir o exercício enquanto invertemos o papeis de $\mathbf{X}_{1} $ e $ \mathbf{X}_{2}$. Mas existe uma forma mais fácil. Uma vez que já resolvemos para $\mathbf{b}_{2} $. Entretanto, podemos usar (3-18) na solução para $\mathbf{b}_{1} $. Se $ \mathbf{X}_{1} $ é apenas uma coluna de 1s, então isto produz um resultado familia: 
 
 $$
 b_{1} = \overline{y} - \overline{x}_{2} \beta_{2} - \cdots - \overline{x}_{K} b_{K} 
 $$
 
 Teorema 3.2 e os corolários 3.2.1 e 3.2.2 produzem uma interpretação útil da regressão particionada quando o modelo contém o termo constante. De acordo com o teorema 3.1, se as colunas de $\mathbf{X} $ são ortogonais, ou seja, $\mathbf{x}_{k}^{'} \mathbf{x}_{m} $ para $k$ e $m$ colunas, então a os coeficientes da regressão  separada na regressão de $y$ sobre $\mathbf{X}$ quando $\mathbf{X} = [\mathbf{x}_{1}, \mathbf{x}_{2}, \ldots, \mathbf{x}_{K} ]  $ são simplesmente $\mathbf{x}_{k}^{'} \mathbf{y} / \mathbf{x}_{k}^{'} \mathbf{x}_{k}  $. Quando a regressão tem um termo constante, podemos computar os coeficientes da regressão múltipla pela regressão de $\mathbf{y}$ em desvios em relação à média sobre as colunas de $\mathbf{X} $ também em desvios em relação à média. Neste exemplo, a "ortogonalidade" das colunas significa que a covariância amostral(e correlações) das variáveis são zero. O resultado é outro teorema:     
