# Ejercicio 7

Los datos del archivo `concrete.csv` fueron tomados en un estudio experimental para relacionar
el calor generado ($Y$) al fraguar 14 muestras de concreto con distinta composición. Las variables
explicativas son los pesos (medidos en porcentajes del peso de cada muestra de concreto) de 5
componentes del cemento.

Se propone el siguiente modelo

$$Y_i = \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + \beta_3x_{i3} + \beta_4x_{i4} + \beta_5x_{i5} + \epsilon$$

Donde $\left(x_{i1}, x_{i2}, x_{i3}, x_{i4}, x_{i5}\right)$ son las muestras de las variables explicativas para la observación $Y_i$.

La cantidad de muestras es de $n = 14$, por ende se define la siguiente matriz

$$\mathbf{Y} = \mathbf{X}\beta$$

$$\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p-1} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p-1} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{np-1} \end{bmatrix}
\begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_{p-1} \end{bmatrix}
$$

Con $\mathbf{Y} \in R^n$ y $\mathbf{X} \in R^{n \times p}$



Una vez propuesto el modelo y la matriz de diseño $\mathbf{X}$ se cargan los datos.

In [1]:
concrete <- read.csv("../../../data/concrete.csv")
head(concrete)

Unnamed: 0_level_0,obs,x1,x2,x3,x4,x5,y
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<dbl>,<dbl>
1,1,6,7,26,60,2.5,85.5
2,2,15,1,29,52,2.3,76.0
3,3,8,11,56,20,5.0,110.4
4,4,8,11,31,47,2.4,90.6
5,5,6,7,52,33,2.4,103.5
6,6,9,11,55,22,2.4,109.8


En primer lugar, se analizará la correlación entre las variables explicativas y la observada.

In [13]:
# Removemos la columna obs
library(dplyr)
df <- select(concrete, -obs)
head(df, n = 14)

Unnamed: 0_level_0,x1,x2,x3,x4,x5,y
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<dbl>,<dbl>
1,6,7,26,60,2.5,85.5
2,15,1,29,52,2.3,76.0
3,8,11,56,20,5.0,110.4
4,8,11,31,47,2.4,90.6
5,6,7,52,33,2.4,103.5
6,9,11,55,22,2.4,109.8
7,17,3,71,6,2.1,108.0
8,22,1,31,44,2.2,71.6
9,18,2,54,22,2.3,97.0
10,4,21,47,26,2.5,122.7


In [3]:
cor(df)

Unnamed: 0,x1,x2,x3,x4,x5,y
x1,1.0,-0.8371285,-0.2445176,0.144975,-0.3516787,-0.6441207
x2,-0.8371285,1.0,0.3331646,-0.3425012,0.3420363,0.7648638
x3,-0.2445176,0.3331646,1.0,-0.9784705,0.2135296,0.8507953
x4,0.144975,-0.3425012,-0.9784705,1.0,-0.2227983,-0.831613
x5,-0.3516787,0.3420363,0.2135296,-0.2227983,1.0,0.3273488
y,-0.6441207,0.7648638,0.8507953,-0.831613,0.3273488,1.0


Al observar la matriz de correlación es posible pensar que las variables $X_3$ y $X_4$ explicarían a $Y$.

El próximo paso es realizar la regresión lineal para estimar los parámetros asociados a las variables explicativas.
Para ellos se calculará el estimador de cuadrados mínimos.

$$\hat{\mathbf{Y}} = \mathbf{X}\hat{\beta}$$  

In [4]:
model <- lm(y~x1+x2+x3+x4+x5, data = df)
summary(model)


Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = df)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.58166 -2.17473 -0.05122  1.84522  3.11955 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  73.6101   105.9653   0.695    0.507
x1           -0.4497     1.1312  -0.398    0.701
x2            1.2995     1.0660   1.219    0.258
x3            0.5630     1.0587   0.532    0.609
x4           -0.1704     1.0494  -0.162    0.875
x5           -0.3859     1.5221  -0.254    0.806

Residual standard error: 2.7 on 8 degrees of freedom
Multiple R-squared:  0.9871,	Adjusted R-squared:  0.979 
F-statistic: 122.2 on 5 and 8 DF,  p-value: 2.48e-07


Observamos que el ECM de $\beta$ es

$$\hat{\beta} = \begin{bmatrix} 73.6101 \\ -0.4497 \\ 1.2995 \\ 0.5630 \\ -0.1704 \\ -0.3859 \end{bmatrix}$$

Para confirmar lo anterior, es necesario hacer el test de significación para la regresión lineal.

Este test de hipótesis define sus hipótesis como

$$H_0: \mathbf{C}\beta = 0$$

$$H_1: \mathbf{C}\beta \neq 0$$ 

Donde

$$\mathbf{C} = \mathbf{I}_{5,5}$$

A partir de `summary` se ve que el `p-value` es `2.48e-07` menor a `0.05` rechazando la hipótesis alternativa para el test multivariable. Sin embargo, los test de Student individuales rechazan la hipótesis nula encontrando una contradicción.

De esta manera podría hacerse una nueva regresión dado a que la matriz de diseño no tiene rango completo ya que la columna de `1` es combinación lineal del resto ya que la suma de las proporciones de la muestra suman 1.

Dado que las composiciones no suman exactamente 1 por distintas fuentes de errores en las muestras, se calcula el número de condición para verificar si la matriz de diseño esta bien condicionada.

In [5]:
ones <- matrix(1, NROW(concrete), 1)
X <- cbind(ones, concrete$x1, concrete$x2, concrete$x3, concrete$x4, concrete$x5)
kappa(X)

Así se ve que la matrix de diseño tiene un número de condición mucho mayor que 1. De esta manera, es posible eliminar variables o hacer una regresión lineal sin el intercept para que el número de condición mejore.

En ambas regresiones

**Modelo sin intercept**: $$Y_i = \beta_1x_{i1} + \beta_2x_{i2} + \beta_3x_{i3} + \beta_4x_{i4} + \beta_5x_{i5} + \epsilon$$

In [6]:
X2 <- cbind(concrete$x1, concrete$x2, concrete$x3, concrete$x4, concrete$x5)
kappa(X2)

In [7]:
no_intercept <- lm(y~x1+x2+x3+x4+x5-1, data = df)
summary(no_intercept)


Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5 - 1, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.1390 -1.9789  0.1514  1.5559  3.9401 

Coefficients:
   Estimate Std. Error t value Pr(>|t|)    
x1  0.32652    0.17086   1.911   0.0883 .  
x2  2.02517    0.20611   9.826 4.14e-06 ***
x3  1.29718    0.05993  21.646 4.52e-09 ***
x4  0.55768    0.05039  11.067 1.53e-06 ***
x5  0.35444    1.05496   0.336   0.7446    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.621 on 9 degrees of freedom
Multiple R-squared:  0.9995,	Adjusted R-squared:  0.9993 
F-statistic:  3933 on 5 and 9 DF,  p-value: 9.691e-15


Se observa, a partir de la regresión lineal sin intercept, que las variables que explican $Y$ son $(X_2, X_3, X_4)$.

A partir de la matriz de correlación se hubiera elegido $X_3$ y $X_4$ y $X_2$ se hubiera descartado al tener dudas. Haciendo un análisis más exhaustivo confirmamos que descartar $X_2$ hubiese sido un error.

**Modelo sin $X_5$**: $$Y_i = \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + \beta_3x_{i3} + \beta_4x_{i4} + \epsilon$$

Se eliminó $X_5$ a partir de la matriz de correlación.

In [8]:
ones <- matrix(1, NROW(concrete), 1)
X3 <- cbind(ones, concrete$x1, concrete$x2, concrete$x3, concrete$x4)
kappa(X3)

In [9]:
reduced_model <- lm(y~x1+x2+x3+x4, data = df)
summary(reduced_model)


Call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.6909 -2.0192 -0.0227  1.7319  3.3357 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) 54.79776   71.61180   0.765   0.4637  
x1          -0.25239    0.77707  -0.325   0.7528  
x2           1.47631    0.76319   1.934   0.0851 .
x3           0.74473    0.73754   1.010   0.3390  
x4           0.01097    0.72680   0.015   0.9883  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.556 on 9 degrees of freedom
Multiple R-squared:  0.987,	Adjusted R-squared:  0.9812 
F-statistic: 170.4 on 4 and 9 DF,  p-value: 1.791e-08


Agregando el intercept y elimnando $X_5$ se tiene una contradiccíon nuevamente para $H_0$. 

Sin embargo con el test sin intercept vimos que $X_1$ no aporta a $Y$.

Se propone elimnar $X_5$ y $X_1$ del modelo.

**Modelo**: $$Y_i = \beta_0 + \beta_2x_{i2} + \beta_3x_{i3} + \beta_4x_{i4} + \epsilon$$

In [10]:
ones <- matrix(1, NROW(concrete), 1)
X4 <- cbind(ones, concrete$x2, concrete$x3, concrete$x4)
kappa(X4)

In [11]:
last_model <- lm(y~x2+x3+x4, data = df)
summary(last_model)


Call:
lm(formula = y ~ x2 + x3 + x4, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9380 -2.0911  0.0443  1.6457  3.5637 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  32.0783    14.6424   2.191  0.05327 .  
x2            1.7207     0.1218  14.123 6.23e-08 ***
x3            0.9752     0.1915   5.092  0.00047 ***
x4            0.2388     0.1818   1.313  0.21844    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.439 on 10 degrees of freedom
Multiple R-squared:  0.9868,	Adjusted R-squared:  0.9829 
F-statistic: 249.5 on 3 and 10 DF,  p-value: 1.072e-09


Con este nuevo modelo se observa que sólo $X_2$ y $X_3$ explican a $Y$.

Comparando el modelo sin $X_2$ y $X_3$, y el modelo sin intercept a partir de $R_a^2$, el modelo sin intercept es el más adecuado sumado a que la matriz de diseño del model sin intercept se encuentra mucho mejor condicionada.