## La matriz de diseño

Aquí mostraremos cómo usar las dos funciones de R, `formula` y `model.matrix`, para producir *matrices de diseño* (también conocidas como *matrices de modelo*) para una variedad de modelos lineales. Por ejemplo, en los ejemplos de la dieta del ratón escribimos el modelo como

$$ 
Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, i=1,\dots,N 
$$

con $Y_i$ los pesos y $x_i$ igual a 1 solo cuando el ratón $i$ recibe la dieta alta en grasas. Usamos el término _unidad experimental_ para $N$ entidades diferentes de las que obtenemos una medida. En este caso, los ratones son las unidades experimentales.

Este es el tipo de variable en el que nos centraremos en este capítulo. Las llamamos _variables indicadoras_ ya que simplemente indican si la unidad experimental tenía o no una determinada característica. Como describimos anteriormente, podemos usar álgebra lineal para representar este modelo:

$$
\mathbf{Y} = \begin{pmatrix}
Y_1\\
Y_2\\
\vdots\\
Y_N
\end{pmatrix}
,
\mathbf{X} = \begin{pmatrix}
1&x_1\\
1&x_2\\
\vdots\\
1&x_N
\end{pmatrix}
,
\boldsymbol{\beta} = \begin{pmatrix}
\beta_0\\
\beta_1
\end{pmatrix} \mbox{ and }
\boldsymbol{\varepsilon} = \begin{pmatrix}
\varepsilon_1\\
\varepsilon_2\\
\vdots\\
\varepsilon_N
\end{pmatrix}
$$

como:

$$
\,
\begin{pmatrix}
Y_1\\
Y_2\\
\vdots\\
Y_N
\end{pmatrix} = 
\begin{pmatrix}
1&x_1\\
1&x_2\\
\vdots\\
1&x_N
\end{pmatrix}
\begin{pmatrix}
\beta_0\\
\beta_1
\end{pmatrix} +
\begin{pmatrix}
\varepsilon_1\\
\varepsilon_2\\
\vdots\\
\varepsilon_N
\end{pmatrix}
$$

o más simple:

$$
\mathbf{Y}=\mathbf{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}
$$

La matriz de diseño es la matriz $\mathbf{X}$.

Una vez que definimos una matriz de diseño, estamos listos para encontrar las estimaciones de mínimos cuadrados. Nos referimos a esto como _ajustarse al modelo_. Para ajustar modelos lineales en R, proporcionaremos directamente una _fórmula_ a la función `lm`. En este script, usaremos la función `model.matrix`, que es utilizada internamente por la función `lm`. Esto nos ayudará a conectar la `formula` de R con la matriz $\mathbf{X}$. Por lo tanto, nos ayudará a interpretar los resultados de `lm`.

#### Elección del diseño

La elección de la matriz de diseño es un paso crítico en el modelado lineal, ya que codifica qué coeficientes se ajustarán al modelo, así como la interrelación entre las muestras.
Un malentendido común es que la elección del diseño se deriva directamente de una descripción de las muestras que se incluyeron en el experimento. Este no es el caso. La información básica sobre cada muestra (ya sea grupo de control o tratamiento, lote experimental, etc.) no implica una única matriz de diseño 'correcta'. La matriz de diseño codifica además varios supuestos sobre cómo las variables en $\mathbf{X}$ explican los valores observados en $\mathbf{Y}$, sobre los cuales el investigador debe decidir.

Para los ejemplos que cubrimos aquí, usamos modelos lineales para hacer comparaciones entre diferentes grupos. Por lo tanto, las matrices de diseño con las que finalmente trabajaremos tendrán al menos dos columnas: una columna de _intercepción_, que consta de una columna de 1, y una segunda columna, que especifica qué muestras están en un segundo grupo. En este caso, se ajustan dos coeficientes en el modelo lineal: el intercepto, que representa el promedio poblacional del primer grupo, y un segundo coeficiente, que representa la diferencia entre los promedios poblacionales del segundo grupo y el primer grupo. Este último suele ser el coeficiente que nos interesa cuando realizamos pruebas estadísticas: queremos saber si hay una diferencia entre los dos grupos.

Codificamos este diseño experimental en R con dos piezas. Comenzamos con una fórmula con el símbolo de tilde `~`. Esto significa que queremos modelar las observaciones usando las variables a la derecha de la tilde. Luego ponemos el nombre de una variable, que nos dice qué muestras están en qué grupo.

Probemos un ejemplo. Supongamos que tenemos dos grupos, control y dieta alta en grasas, con dos muestras cada uno. Con fines ilustrativos, los codificaremos con 1 y 2 respectivamente. Primero debemos decirle a R que estos valores no deben interpretarse numéricamente, sino como diferentes niveles de un *factor*. Entonces podemos usar el paradigma `~ grupo` para, por ejemplo, modelar sobre la variable `grupo`.

In [17]:
group <- factor( c(1,1,2,2) )
model.matrix(~ group)

Unnamed: 0,(Intercept),group2
1,1,0
2,1,0
3,1,1
4,1,1


(No se preocupe por las líneas `attr` impresas debajo de la matriz. No usaremos esta información).

¿Qué pasa con la función `formula`? No tenemos que incluir esto. Al comenzar una expresión con `~`, es equivalente a decirle a R que la expresión es una fórmula:

In [18]:
model.matrix(formula(~ group))

Unnamed: 0,(Intercept),group2
1,1,0
2,1,0
3,1,1
4,1,1


¿Qué sucede si no le decimos a R que `group` debe interpretarse como un factor?

In [3]:
group <- c(1,1,2,2)
model.matrix(~ group)

Unnamed: 0,(Intercept),group
1,1,1
2,1,1
3,1,2
4,1,2


Esta **no** es la matriz de diseño que queríamos, y la razón es que proporcionamos una variable numérica en lugar de un _indicador_ para las funciones `formula` y `model.matrix`, sin decir que estos números en realidad se referían a diferentes grupos Queremos que la segunda columna tenga solo 0 y 1, lo que indica la pertenencia al grupo.

Una nota sobre los factores: los nombres de los niveles son irrelevantes para `model.matrix` y `lm`. Todo lo que importa es el orden. Por ejemplo:

In [4]:
group <- factor(c("control","control","highfat","highfat"))
model.matrix(~ group)

Unnamed: 0,(Intercept),grouphighfat
1,1,0
2,1,0
3,1,1
4,1,1


In [1]:
group <- factor(c("control","highfat","control","highfat"))
model.matrix(~ group)

Unnamed: 0,(Intercept),grouphighfat
1,1,0
2,1,1
3,1,0
4,1,1


produce la misma matriz de diseño que nuestro primer fragmento de código.

#### Más grupos

Usando la misma fórmula, podemos acomodar el modelado de más grupos. Supongamos que tenemos una tercera dieta:

In [5]:
group <- factor(c(1,1,2,2,3,3))
model.matrix(~ group)

Unnamed: 0,(Intercept),group2,group3
1,1,0,0
2,1,0,0
3,1,1,0
4,1,1,0
5,1,0,1
6,1,0,1


Ahora tenemos una tercera columna que especifica qué muestras pertenecen al tercer grupo.

Es posible una formulación alternativa de la matriz de diseño especificando `+ 0` en la fórmula:

In [6]:
group <- factor(c(1,1,2,2,3,3))
model.matrix(~ group + 0)

Unnamed: 0,group1,group2,group3
1,1,0,0
2,1,0,0
3,0,1,0
4,0,1,0
5,0,0,1
6,0,0,1


Este grupo ahora ajusta un coeficiente separado para cada grupo. Exploraremos este diseño con más profundidad más adelante.

#### Más variables

Hemos estado usando un caso simple con solo una variable (dieta) como ejemplo. En las ciencias de la vida, es bastante común realizar experimentos con más de una variable. Por ejemplo, nos puede interesar el efecto de la dieta y la diferencia de sexos. En este caso, tenemos cuatro grupos posibles:

In [7]:
diet <- factor(c(1,1,1,1,2,2,2,2))
sex <- factor(c("f","f","m","m","f","f","m","m"))
table(diet,sex)

    sex
diet f m
   1 2 2
   2 2 2

Si asumimos que el efecto de la dieta es el mismo para hombres y mujeres (esto es una suposición), entonces nuestro modelo lineal es:

$$
Y_{i}= \beta_0 + \beta_1 x_{i,1} + \beta_2 x_{i,2} + \varepsilon_i 
$$

Para ajustar este modelo en R, simplemente podemos agregar la variable adicional con un signo `+` para construir una matriz de diseño que se ajuste según la información de las variables adicionales:

In [21]:
diet <- factor(c(1,1,1,1,2,2,2,2))
sex <- factor(c("f","f","m","m","f","f","m","m"))
model.matrix(~ diet + sex)

Unnamed: 0,(Intercept),diet2,sexm
1,1,0,0
2,1,0,0
3,1,0,1
4,1,0,1
5,1,1,0
6,1,1,0
7,1,1,1
8,1,1,1


La matriz de diseño incluye una intersección, un término para "dieta" y un término para "sexo". Diríamos que este modelo lineal explica las diferencias tanto en las variables de grupo como de condición. Sin embargo, como se mencionó anteriormente, el modelo asume que el efecto de la dieta es el mismo para hombres y mujeres. Decimos que estos son un efecto _aditivo_. Para cada variable, agregamos un efecto independientemente de cuál sea el otro. Aquí es posible otro modelo, que se ajusta a un término adicional y que codifica la interacción potencial de las variables de grupo y condición. Cubriremos los términos de interacción en profundidad en un guión posterior.

El modelo de interacción se puede escribir en cualquiera de las dos fórmulas siguientes:

In [9]:
model.matrix(~ diet + sex + diet:sex)

Unnamed: 0,(Intercept),diet2,sexm,diet2:sexm
1,1,0,0,0
2,1,0,0,0
3,1,0,1,0
4,1,0,1,0
5,1,1,0,0
6,1,1,0,0
7,1,1,1,1
8,1,1,1,1


o

In [10]:
model.matrix(~ diet*sex)

Unnamed: 0,(Intercept),diet2,sexm,diet2:sexm
1,1,0,0,0
2,1,0,0,0
3,1,0,1,0
4,1,0,1,0
5,1,1,0,0
6,1,1,0,0
7,1,1,1,1
8,1,1,1,1


#### Renivelación

El nivel que se elige como *nivel de referencia* es el nivel con el que se contrasta. Por defecto, este es simplemente el primer nivel alfabéticamente. Podemos especificar que queremos que el grupo 2 sea el nivel de referencia usando la función `relevel`:

In [4]:
group <- factor(c(1,1,2,2))
group <- relevel(group, "2")
model.matrix(~ group)

Unnamed: 0,(Intercept),group1
1,1,1
2,1,1
3,1,0
4,1,0


o proporcionando los niveles explícitamente en la llamada a `factor`:

In [6]:
group <- factor(group, levels=c("1","2"))
model.matrix(~ group)

Unnamed: 0,(Intercept),group2
1,1,0
2,1,0
3,1,1
4,1,1


#### ¿Dónde busca `model.matrix` los datos?

La función `model.matrix` tomará la variable del entorno global de R, a menos que los datos se proporcionen explícitamente como un marco de datos para el argumento `data`:

In [13]:
group <- 1:4
model.matrix(~ group, data=data.frame(group=5:8))

Unnamed: 0,(Intercept),group
1,1,5
2,1,6
3,1,7
4,1,8


Observe cómo se ignora la variable de entorno global de R `group`.

#### Variables continuas

En este capítulo, nos centramos en modelos basados en valores de indicadores. En ciertos diseños, sin embargo, nos interesará usar variables numéricas en la fórmula de diseño, en lugar de convertirlas primero en factores. Por ejemplo, en el ejemplo del objeto que cae, el tiempo era una variable continua en el modelo y también se incluyó el tiempo al cuadrado:

In [14]:
tt <- seq(0,3.4,len=4) 
model.matrix(~ tt + I(tt^2))

Unnamed: 0,(Intercept),tt,I(tt^2)
1,1,0.0,0.0
2,1,1.133333,1.284444
3,1,2.266667,5.137778
4,1,3.4,11.56


La función 'I' anterior es necesaria para especificar una función matemática.
transformación de una variable. Para más detalles, consulte la página del manual
para la función `I` escribiendo `?I`.

En las ciencias de la vida, podríamos estar interesados ​​en probar varios
dosis de un tratamiento, donde esperamos una relación específica
entre una cantidad medida y la dosificación, p. 0 mg, 10 mg, 20 mg.

Las suposiciones impuestas al incluir datos continuos como variables suelen ser más difíciles de defender y motivar que las variables de función indicadora. Mientras que las variables indicadoras simplemente asumen una media diferente entre dos grupos, las variables continuas asumen una relación muy específica entre el resultado y las variables predictoras.

En casos como el objeto que cae, tenemos la teoría de la gravitación apoyando el modelo. En el ejemplo de altura padre-hijo, debido a que los datos son normales bivariados, se deduce que existe una relación lineal si condicionamos. Sin embargo, encontramos que las variables continuas se incluyen en los modelos lineales sin justificación para "ajustar" por variables como la edad. Desaconsejamos enfáticamente esta práctica a menos que los datos respalden el modelo que se está utilizando.