# Suma de cuadrados extras

\section{Suma de cuadrados extra}
Un aspecto recurrente en el análisis de regresión, es decidir sobre la incorporación a un modelo de otro grupo de variables, para lo cual deberemos analizar si el aporte adicional que ellas hacen a la suma de cuadrados de la regresión es o no significativo.\\
Para esto consideremos:
$$
\pvi{
\text{Modelo } I: \, y_i = \beta_0 + \beta_1 x_{i,1} + ... + \beta_k x_{i,k} + u_i\\
\\
\text{Modelo }II:\, y_i = \beta_0 + \beta_1 x_{i,1} + ... + \underbrace{\beta_k x_{i,k} + ... + \beta_{k+l} x_{i,k+l}}_{l \text{ variables adicionales}} + u_i
}
$$
Definamos:
\begin{itemize}
\item $Y = (y_1,...,y_n)^T \in \R{n}$
\item $\beta_I = (\beta_0,...,\beta_k)^T \in \R{k+1}$
\item $\beta_{II} = (\beta_0,...,\beta_k,\beta_{k+1},...,\beta_{k+l})^T \in \R{k+l+1}$
\item $U = (u_1,...,u_n)^T \in \R{n}$
\item $X_I = \begin{pmatrix}
1 & x_{1,1} & ... & x_{1,k}\\
\vdots& \vdots & & \vdots\\
1 & x_{n,1} & ... & x_{n,k}
\end{pmatrix} \in \R{n \times (k+1)}$
\item  $X_I = \begin{pmatrix}
1 & x_{1,1} & ... & x_{1,k} & x_{k+1}& &...& x_{1,k+l}\\
\vdots& \vdots & & \vdots & \vdots & & \vdots\\
1 & x_{n,1} & ... & x_{n,k} & x_{n,k+1} & ...& x_{n,k+l}
\end{pmatrix} \in \R{n \times (k+l+1)}$
\end{itemize}
con esto los modelos quedan:
$$
\pvi{
\text{Modelo }I: \, Y = X_I\beta_I + U\\
\\
\text{Modelo }II: \, Y = X_{II} \beta_{II} + U
}
$$
de donde los vectores de estimadores en ambos modelos son:
$$
\pvi{
\bg{I} = \parcurvo{
X_I^T X_I
}^{-1} X_I^T Y\\
\\
\bg{II} = \parcurvo{
X_{II}^T X_{II}}^{-1} X_{II}^T Y}
$$
Y ellos generan las siguientes sumas de cuadrados:
\begin{itemize}
\item $\text{Suma de cuadrados de regresión}\pvi{
SCR_I = \bg{I}^T X_I^TY\\
\\
SCR_{II} = \bg{II}^T X_{II}^T Y
}
$
\item $\text{Suma de cuadrados del error}\pvi{
SCE_I = Y^TY - \bg{I}^T X^TY\\
\\
SCR_{II} = Y^TY - \bg{II}^T X_{II}^T Y
}
$
 \item $\text{Suma de cuadrados de total}\pvi{
SCT_I =SCR_I + SCE_I\\
\\
SCT_{II} = SCR_{II} + SCE_{II}
}
$
\end{itemize}
podemos visualizar esto en un diagrama, en la forma siguientes (ver \href{https://www.youtube.com/watch?v=ZYSscNiHI_I&feature=youtu.be}{ aquí})\\
En donde se ve que la región en rojo es la que debemos evaluar si es o no significativa.\\
\\
Sabemos que si $U \sim \mathcal{N}_n (0, \sigma^2_u Id_n)$ entonces:
\begin{itemize}
\item Error $\pvi{
\dfrac{n-k-1}{\sigma^2_u} SCE_I \sim \chi^2(n-k-1)\\
\\
\dfrac{n-k-l-1}{\sigma^2_u} SCE_{II} \sim \chi^2(n-k-l-1)
}
$
\item Regresión $\pvi{
\dfrac{k}{\sigma^2_u} SCR_{I} \sim \chi^2(k)\\
\\
\dfrac{k+l}{\sigma^2_u} SCR_{II} \sim \chi^2(k+l)
}$
\item Total $\pvi{
\dfrac{n-1}{\sigma^2_u} SCT \sim \chi^2(n-1)
}$
\end{itemize}
Se define \textbf{la suma de cuadrados extra de regresión del modelo $II$ dado el modelo $I$} por:
$$
\textcolor{blue}{SCR(II/I) = SCR_{II} - SCR_{I}}
$$
se puede ver que:
$$
\dfrac{l}{\sigma^2_u} SCR(II/I) \sim \chi^2(l)
$$
Esto nos lleva a considerar la siguiente razón $F^\ast$:
$$
F^\ast = \dfrac{
\dfrac{SCR(II/I)}{l}
}{
\dfrac{SCE_{II}}{(n-k-l-1)}
} \sim F(l,n-k-l-1)
$$
Con lo cual podemos probar la hipótesis:
$$
\pvi{
H_0: \beta_{k+1} = ... = \beta_{k+l} = 0\\
\\
H_1: \text{Alguna(s) } \beta_j \neq 0 \text{ para algun(os) } j =k+1,...,k+l
}
$$
Que dado un nivel de significancia $\alpha$, genera el siguiente criterio de decisión:
$$
\textcolor{blue}{ 
\text{Si }F^\ast > F_{1-\alpha}(l,n-k-l-1) \text{ entonces se rechaza }H_0\text{ en favor de }H_1\text{ con un nivel de significancia }\alpha
}
$$
\begin{obs}
Equivalentemente, el valor-p de esta prueba es $
\proba{F>F^\ast}
$ en donde $F\ast$ es el valor empírico obtenido de la razón y $F$ es una variable aleatoria con distribución $F(l,n-k-l-1)$.
\end{obs}
\subsection{Obs}
\begin{enumerate}
\item Típicamente la aplicación de esta prueba es en el caso $l=1$, osea queremos analizar la significancia de la incorporación de \textbf{una} variable adicional en tal caso se tiene:
\begin{center}
Si $F^\ast > F_{1-\alpha}(1,n-k\textcolor{red}{-1}-1)$ entonces rechazamos $\pvi{H_0: \beta_{k+\textcolor{red}{1}}=0\\ \\ H_1: \beta_{k+\textcolor{red}{1}}\neq 0}$
\end{center}
Pero notemos que $F(1,r) = t^2(r)$, por lo tanto este criterio queda de la forma equivalente:
\begin{center}
\textcolor{blue}{
Si $|t^\ast| > t_{1-\frac{\alpha}{2}}(n-k-1-1)$ entonces rechazamos $\pvi{H_0: \beta_{k+1}=0\\ \\ H_1: \beta_{k+1}\neq 0}$
} en donde $t^\ast = \sqrt{ F^\ast}$
\end{center}
\item Este criterio de \textbf{suma de cuadrados extra} es la base de los procedimientos \textbf{automáticos} de ajuste de modelos de regresión:\\
\\
El primero, conocido como \textbf{forward}, va introduciendo variables una a una, según si el aporte que hacen es o no significativo.\\
Para analizar cual variable sera la primera en incorporarse se calculan las correlaciones de la respuesta con las variables explicativas $Y$ se selecciona la que presente mayor correlación absoluta.\\
Para seleccionar la segunda variable a incorporar, se obtienen los residuos generados a partir del modelo con la primera variable elegida y se calculan las correlaciones de este vector de residuos, con las variables explicativas restantes eligiendo aquella que produzca la mayor correlación absoluta.\\
\\
El segundo procedimiento, es partir con un modelo que contiene todas las variables explicativas que disponemos e ir \textbf{eliminando} las variables una a una, según si su aporte no es significativo, este esquema se conoce como \textbf{backward}.\\
\\
La combinación de ambos métodos se le llama \textbf{stepwise}.
\end{enumerate}