# Modelo de regresión lineal múltiple


El modelo de regresión lineal múltiple con ( p ) variables predictoras y basado en ( n ) observaciones tomadas es de la forma:

$y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip} + e_i \quad \text{para } i=1,2,\ldots,n.$

Escribiendo el modelo para cada una de las observaciones, éste puede ser considerado como un sistema de ecuaciones lineales de la forma:


$$\begin{aligned}
y_1 &= \beta_0 + \beta_1 x_{11} + \beta_2 x_{12} + \ldots + \beta_p x_{1p} + e_1 \\
y_2 &= \beta_0 + \beta_1 x_{21} + \beta_2 x_{22} + \ldots + \beta_p x_{2p} + e_2 \\
&\vdots \\
y_n &= \beta_0 + \beta_1 x_{n1} + \beta_2 x_{n2} + \ldots + \beta_p x_{np} + e_n \\
\end{aligned}$$

que puede ser escrita en forma matricial como

$$
\begin{bmatrix}
y_1 \\
y_2 \\
\vdots \\
y_n \\
\end{bmatrix}
=
\begin{bmatrix}
1 & x_{11} & x_{12} & \ldots & x_{1p} \\
1 & x_{21} & x_{22} & \ldots & x_{2p} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
1 & x_{n1} & x_{n2} & \ldots & x_{np} \\
\end{bmatrix}
\begin{bmatrix}
\beta_0 \\
\beta_1 \\
\beta_2 \\
\vdots \\
\beta_p \\
\end{bmatrix}
+
\begin{bmatrix}
e_1 \\
e_2 \\
\vdots \\
e_n \\
\end{bmatrix}
$$

O sea,
$$Y = X\beta + e \quad (2.2)$$

donde $Y$ es un vector columna $n$-dimensional, $X$ es una matriz $n \times p'$, con $p' = p+1$, $\beta$ es el vector de coeficientes de regresión a ser estimados, su dimensión es $p'$ y $e$ es un vector columna aleatorio de dimensión $n$.

Por ahora, las únicas suposiciones que se requieren son que $E(e) = 0$ y que la matriz de varianza-covarianza de los errores está dada por $\text{Var}(e) = \sigma^2 I_n$, donde $I_n$ es la matriz identidad de orden $n$.



## Inferencia sobre la regresión lineal múltiple


En esta sección se harán  pruebas de hipótesis e intervalos de confianza acerca de los coeficientes del modelo de regresión poblacional. 

#### Prueba de hipótesis acerca de un coeficiente de regresión individual 

En este caso la hipótesis nula más importante es $Ho: β_i=0 ( i=1,2..,p)$, o sea la variable $X_i$  no es 
importante en el modelo, versus la hipótesis alterna $Ha:β_i≠0$; la variable $X_i$ si merece ser 
considerada en el modelo. La prueba estadística es la prueba de t, definida por:

$$ t =  \frac{\hat{\beta_i}}{se(\hat{\beta_i})} = \frac{\hat{\beta_i}}{s\sqrt{C_{ii}}} $$

 donde el error estándar de $\hat{\beta_i} $ se calcula por $se(\hat{\beta_i})= s\sqrt{C_{ii}}$ , $Cii$ es el $i-ésimo$ elemento de la 
diagonal de $(X'X)^{-1}$. Esta $t$ se distribuye como una T-Student con $n-p-1$ grados de libertad. 


#### Prueba de Hipótesis de que todos los coeficientes de regresión son ceros

En este caso la hipótesis nula es  $Ho: β_1=β_2=…=β_p=0$, o sea que el modelo no sirve, versus la hipótesis alterna $Ha$: Al menos uno de los coeficientes es distinto de cero, o sea al menos una de las variables del modelo puede ser usada para explicar la variación de $Y$.  
La suma de cuadrados de Regresión tiene p grados de libertad  que es igual al número de variables predictoras en el modelo. 
Se puede mostrar que  si la hipótesis nula es cierta entonces :                                   
$$F=\frac{\frac{SSR}{p}}{\frac{SSE}{n-p-1}}$$
se distribuye como una $F$ con $p$ grados de libertad en el numerador y $n-p-1$ grados de libertad en el denominador. 


#### Ejemplo de aplicación 