# Curso de Estadística Bayesiana


# Modelos Bayesianos de Regresión

## Autores

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co

## Referencias

1. Alvaro Montenegro, [Curso de Estadística Bayesiana](https://github.com/AprendizajeProfundo/Estadistica-Bayesiana), 2020
2. De Paula Gilberto, ["MODELOS DE REGRESSÃO com apoio computacional, ](https://www.ime.usp.br/~giapaula/texto_2013.pdf), Instituto de Matemática e Estatística  Universidade de São  Paulo
3.  ["Stan User's Guide. Version 2.22", Stan Development Team, 2020.](https://mc-stan.org/users/documentation/)
4. Kumar, Ravin and Carroll, Colin and Hartikainen, Ari and Martin, Osvaldo A., [ArviZ a unified library for exploratory analysis of Bayesian models in Python](https://arviz-devs.github.io/arviz/), [The Journal of Open Source Software], 2019.
5. Richard McElreath, ["Statistical Rethinking, A Bayesian Course with examples in R and Stan"](http://xcelab.net/rmpubs/rethinking/Statistical_Rethinking_sample.pdf), version compilada en noviembre 9 de 2015.
6. Stasinopoulos, Rigby, Heller, Bastiani,[Distributions for Modelling Location, Scale and Shape: Using GAMLSS in R](http://www.gamlss.com/wp-content/uploads/2018/01/DistributionsForModellingLocationScaleandShape.pdf), 2017.
7. [Gamlss site](https://www.gamlss.com/)
8. Rigby, Stasinopoulos, [Generalized additive models for location, scale and shape](https://rss.onlinelibrary.wiley.com/doi/epdf/10.1111/j.1467-9876.2005.00510.x), Appl. Statist. (2005)54, Part 3, pp. 507–554.
9. [Gamlss slides](https://www.gamlss.com/wp-content/uploads/2018/06/Talk-Palermo-GAMLSS-PPF.pdf)
10. [Gamlss short course](http://www.gamlss.com/wp-content/uploads/2013/01/GAMLSS.pdf)

# Introduccción


En esta lección introducimos la forma moderna de construir modelos de regresión desde la  perpectiva Bayesiana. Esta presentación es bastante general e incluye el modelo lineal Gaussiano, pero también modelos lineales generalizados y modelos por fuera de esta familia. Por facilidad en la presentación no se incluyen modelos con efectos aleatorios, ni otro tipo de generalizaciones como la inclusión de componentes no paramétricos como el uso de B-Splines.



# Notación

En lo que sigue vamos a utilizar la siguiente notación general. Supongamos que cada observación proviente de una misma familia de distribuciones, digamos $\mathcal{F}$, con parámetros de posición, escala y forma. Por ejemplo, la familia normal  ( la distribución Gaussiana), la cual se notará por $\mathcal{N}$, tiene parámetros de localización y escala. Para cada observación se tiene una distribución $F_i$, en donde $F_i \in \mathcal{F}$. 

Si por ejemplo se asume que las observaciones $y_i$ provienen de la familia Gaussiana, entonces, $y_i \sim \Phi_i$, en donde $\Phi_i= \mathcal{N}(\mu_i, \sigma_i)$. Observe que los parámetros $\mu_i, \sigma_i^2$ indexan la correspondiente distribución $\Phi_i$.

Usaremos la siguiente notación para los parámetros de las distribuciones.

1. $\mu_i$ representa un parámetro de posición de la distribución. Típicamente $\mu_i$ corresponde a la media o la mediana de la distribución.
2. $\sigma_i$  representa un parámetro de escala. Típicamente corresponde a la desviación estándar de la distribución. En algunos casos puede ser más práctico utilizar $\sigma_i^2$.
3. $\gamma_i$, $\xi_i$ representaran parámetros de forma. Si hay distribuciones con más de 4 parámetros, la generalización es inmediata.

La variables regresoras se notarán asi:

1. $\mathbf{x}_i$  para el predictor lineal del parámetro de posición $i$.
2. $\mathbf{z}_i$ para el predictor lineal del parámetro de escala $i$.

Los parámetros de regresión se denotarán

1. $\alpha$ y $\mathbf{\beta}$ para el predictor lineal de $\mu_i$. Así por ejemplo escribiremos, en el caso lineal Gaussiano $\mu_i= \alpha + \mathbf{x}_i^T\mathbf{\beta}$
2. $\eta$, y $\mathbf{\nu}$ para el predictor lineal de $\sigma_i$. Escibiremos en el caso lineal Gaussiano $\sigma_i= \eta + \mathbf{z}_i^T\mathbf{\nu}$.


# Modelos  GAMLSS


En 2005 [Rigby y Stasinopoulos](https://rss.onlinelibrary.wiley.com/doi/epdf/10.1111/j.1467-9876.2005.00510.x) introdujeron los modelos aditivos generalizados de localización, escala y forma. Revise las referencias de esta lección para los detalles. Estos son el tipo de modelos de regresión mas generales de la actualidad. Aquí hemos tomado la notación y los modelos más simples como ejemplos para mostrar la forma moderna de construir modelos de regresión. Los autores han presentado en sus artículos y libros más de 70 diferentes distribuciones, con sus correspondientes parametrizaciones adaptadas para el tipo de modelamiento presentado en esta lección.

# Motivación

En esta sección, vamos a transformar la forma general de presentación del modelo lineal Guassiano en la versión más general de modelamiento moderno.  Supondremos en general un  modelo heterocedástico, es decir, un modelo en donde cada observación tiene una varianza diferente.

Para comenzar, recordemos la forma más general y clasica del modelo regresión lineal Gaussiano.

$$
\begin{align}
y_i &= \alpha +  \mathbf{x_i}^T\mathbf{\beta} + \epsilon_i,  \hspace{3mm} i=1,\ldots,N\\
\epsilon_i &\sim N(0,\sigma_i^2).
\end{align}
$$

Este modelo puede escribirse de la siguiente forma completamente equivalente:

Sea $\mu_i = E[y_i]$, entonces se tiene que

$$
\begin{align}
 \mu_i &= \alpha +  \mathbf{x_i}^T\mathbf{\beta} \\
y_i &\sim N(\mu_i,\sigma_i^2)
\end{align}
$$

Por otro lado, como es necesario introducir una forma de modelar $\sigma_i$, podemos agregar al modelo

$$
\ln \sigma_i = \eta +  \mathbf{z_i}^T\mathbf{\nu} 
$$

La razón de agregar  la función de enlace $\ln$ es para garantizar que este parámetro sea positivo. Observe que $\sigma_i = \exp (\eta +  \mathbf{z_i}^T\mathbf{\nu})$.

# Sobre las variables predictivas para cada parámetro

Una inquietud que debe tener el lector, es ¿Como obtener $\mathbf{z_i}$?. La idea práctica es la siguiente:

Supongamos que en el problema de regresión se dispone de cuatro variables explicativas que denotamos $X= X_1, X_2, X_3, X_4$, a partir de las cuales se pretende predecir $Y$.

Luego del primer proceso de estimación supongamos que resulta que $X_2$ no es siginificativa para los parámetros $\mu_i$ en el modelo. Entonces el predictor lineal para $\mu_i$ se reduce a

$$
 \mu_i = \alpha + X_1\beta_1 + X_3\beta_3 + X_4\beta_4
$$ 

Para el parámetro de escala usamos inicialmente el mismo conjunto de variables regresoras. Supongamos que para el parámetro de escala se tiene que $X_3$ no es significativa. Entonces se tendría que

$$
\ln  \sigma_i = \eta + X_1\nu_1 + X_2\nu_2 + X_4\nu_4
$$


Entonces las variables predictoras  para $\mu_i$ serán $X= (X_1,X_3,X_4)$ y para $\sigma_i$ se tendrá $Z= (X_1,X_2,X_4)$.

Eso es todo.


# Ejemplo 1. Modelo de regresión lineal Gaussiano 

En este caso el modelo estadístico es definido por

$$
\begin{align}
E[y_i] &= \mu_i =  \alpha +  \mathbf{x_i}^T\mathbf{\beta} \\
\ln \sigma_i &= \eta +\mathbf{z_i}^T\mathbf{\nu} \\
\alpha &\sim \mathcal{N}(\mu_{\alpha},\sigma_{\alpha}^2)\\
\mathbf{\beta} &\sim \mathcal{N}(\mathbf{\mu}_{\beta},\rho_{\beta}^2\mathbf{I})\\
\eta &\sim \mathcal{N}(\mu_{\eta},\sigma_{\eta}^2)\\
\mathbf{\nu} &\sim \mathcal{N}(\mathbf{\mu}_{\nu},\rho_{\nu}^2\mathbf{I})\\
y_i &\sim \mathcal{N}(\mu_i,\sigma_i^2), \hspace{3mm} i =1,\ldots,n
\end{align}
$$



El parámetro del problema es $\mathbf{\theta} = (\alpha,\eta, \mathbf{\beta}^T,\mathbf{\nu}^T)^T$. 

En el caso homocedástico, se tiene que $\sigma_i^2 = \sigma^2$.

# Ejemplo 2. Modelo regresión Binomial

La función *inv_logit* es definida por $\text{inv_logit}(x) = (1+ \exp (-x))^{-1}$. Esta es la función de distribución acumulada logística.

El modelo Binomial de regresión se define por


$$
\begin{align}
E[y_i] &= \mu_i= N_i\pi_i\\
\pi_i &=  \text{inv_logit}(\alpha +  \mathbf{x_i}^T\mathbf{\beta}) \\
\alpha &\sim \mathcal{N}(\mu_{\alpha},\sigma_{\alpha}^2)\\
\mathbf{\beta} &\sim \mathcal{N}(\mathbf{\mu}_{\beta},\rho_{\beta}^2\mathbf{I})\\
y_i &\sim \text{Binomial}(N_i,\pi_i), \hspace{3mm} i =1,\ldots,n.
\end{align}
$$

Los valores $N_i$ se asumen conocidos. En este caso se tiene que $Var[y_i] = N_i\pi_i(1-\pi)$, por lo que $\sigma_i =\sqrt{N_i\pi_i(1-\pi)} $. 

El parámetro del problema es $\mathbf{\theta} = (\alpha, \mathbf{\beta}^T)^T$.



# Ejemplo 3. Modelo de regresión Poisson

El modelo Poisson de regresión se define por


$$
\begin{align}
E[y_i] &= \mu_i\\
\ln \mu_i&=  \alpha +  \mathbf{x_i}^T\mathbf{\beta}\\
\alpha &\sim \mathcal{N}(\mu_{\alpha},\sigma_{\alpha}^2)\\
\mathbf{\beta} &\sim \mathcal{N}(\mathbf{\mu}_{\beta},\rho_{\beta}^2\mathbf{I})\\
y_i &\sim \text{Poisson}(\mu_i), \hspace{3mm} i =1,\ldots,n.
\end{align}
$$

El parámetro del problema es $\mathbf{\theta} = (\alpha, \mathbf{\beta}^T)^T$. Se tiene que $\sigma_i = \sqrt{\mu_i}$

# Ejemplo 4. Modelo de regresión Beta (Beta-logit)

Asumiremos que las observaciones son $y_i \sim \text{Beta}(a_i,b_i)$. 

Como hemos hecho antes usaremos la reparametrización

$$
\begin{align}
\mu_i &= \frac{a_i}{a_i+b_i}\\
\phi_i &= a_i+b_i
\end{align}
$$

Observe que 

$$
\begin{align}
a_i &= \mu_i \phi_i\\
b_i &= \phi_i(1-\mu_i)\\
\sigma_i &= \sqrt{\frac{a_ib_i}{(a_i+b_i +1)(a_i+b_i)^2} } = \sqrt{\frac{\mu_i(1-\mu_i)}{1+\phi_i}}
\end{align}
$$


Con esta parametrización es posible ahora definir el modelo de regresión Beta como

$$
\begin{align}
E[y_i] &= \mu_i\\
 \mu_i&=  \text{inv_logit}(\alpha +  \mathbf{x_i}^T\mathbf{\beta})\\
\ln \phi_i & = \eta +  \mathbf{z_i}^T\mathbf{\nu}\\
\alpha &\sim \mathcal{N}(\mu_{\alpha},\sigma_{\alpha}^2)\\
\mathbf{\beta} &\sim \mathcal{N}(\mathbf{\mu}_{\beta},\rho_{\beta}^2\mathbf{I})\\
\eta &\sim \mathcal{N}(\mu_{\eta},\sigma_{\eta}^2)\\
\mathbf{\nu} &\sim \mathcal{N}(\mathbf{\mu}_{\nu},\rho_{\nu}^2\mathbf{I})\\
y_i &\sim \text{Beta}(\mu_i\phi_i,(1-\mu_i)\phi_i), \hspace{3mm} i =1,\ldots,n
\end{align}
$$

El parámetro del problema es $\mathbf{\theta} = (\alpha,\eta, \mathbf{\beta}^T,\mathbf{\nu}^T)^T$. Se tiene además que $\sigma_i = \sqrt{\frac{\mu_i(1-\mu_i)}{1+\phi_i}}$


# Ejemplo 5: Modelo de regresión Gama

A partir de la parametrización $\text{Gama}(a,b)$, en donde la función de densidad $f(y)$ es dada por

$$
\text{Gama}(y|a,b) = \frac{b^{a}}{\Gamma(a)}{y^{a-1}\exp(-b y)}
$$

introducimos la reparametrización 

$$
\begin{align}
a &= \phi\mu^2\\
b &= \phi\mu,
\end{align}
$$

con lo cual se tiene que la esperanza y la varianza de la distribución son dadas por $\mu$ y $1/\phi$ respectivamente.

Entonces el modelo de regresión Gama se define así:

$$
\begin{align}
E[y_i] &= \mu_i\\
\ln \mu_i&=  \alpha +  \mathbf{x_i}^T\mathbf{\beta}\\
\ln \phi_i & = \eta +  \mathbf{z_i}^T\mathbf{\nu}\\
\alpha &\sim \mathcal{N}(\mu_{\alpha},\sigma_{\alpha}^2)\\
\mathbf{\beta} &\sim \mathcal{N}(\mathbf{\mu}_{\beta},\rho_{\beta}^2\mathbf{I})\\
\eta &\sim \mathcal{N}(\mu_{\eta},\sigma_{\eta}^2)\\
\mathbf{\nu} &\sim \mathcal{N}(\mathbf{\mu}_{\nu},\rho_{\nu}^2\mathbf{I})\\
y_i &\sim \text{Gama}(\mu_i^2\phi_i,\mu_i\phi_i), \hspace{3mm} i=1,\ldots,n.
\end{align}
$$

El parámetro del problema es $\mathbf{\theta} = (\alpha,\eta, \mathbf{\beta}^T,\mathbf{\nu}^T)^T$. Se tiene ademas que $\sigma_i  = \sqrt{\tfrac{1}{\phi_i}}$.

# Modelo de regresión $t$-Student

La distribución  $t$-Student tiene función de densidad dada por

$$
{\displaystyle p(x|\kappa ,\mu ,\varphi)={\frac {\Gamma ({\frac {\kappa +1}{2}})}{\Gamma ({\frac {\kappa }{2}}){\sqrt {\pi \kappa }}\varphi }}\left(1+{\frac {1}{\kappa }}\left({\frac {x-\mu }{\varphi }}\right)^{2}\right)^{-{\frac {\kappa +1}{2}}}}
$$.

Se tiene que

$$
\begin{align}
E[Y] &= \mu\\
Var[Y] &= \sigma^2=\varphi^2\frac{\kappa}{\kappa-2}\\
\text{grados de libertad} &= \kappa
\end{align}
$$



Entonces se tiene por ejemplo que

$$
\begin{align}
\mu_i &=  \alpha +  \mathbf{x_i}^T\mathbf{\beta} \\
\ln \varphi_i &= \eta +\mathbf{z_i}^T\mathbf{\nu} \\
\ln(\kappa_i-2.00001) &= \xi +\mathbf{s_i}^T\mathbf{\omega} \\
\alpha &\sim \mathcal{N}(\mu_{\alpha},\sigma_{\alpha}^2)\\
\mathbf{\beta} &\sim \mathcal{N}(\mathbf{\mu}_{\beta},\rho_{\beta}^2\mathbf{I})\\
\eta &\sim \mathcal{N}(\mu_{\eta},\sigma_{\eta}^2)\\
\mathbf{\nu} &\sim \mathcal{N}(\mathbf{\mu}_{\nu},\rho_{\nu}^2\mathbf{I})\\
\xi &\sim \mathcal{N}(\mu_{\xi},\sigma_{\xi}^2)\\
\mathbf{\omega} &\sim \mathcal{N}(\mathbf{\mu}_{\omega},\rho_{\omega}^2\mathbf{I})\\
y_i &\sim \mathcal{N}(\mu_i,\sigma_i^2), \hspace{3mm} i =1,\ldots,n.
\end{align}
$$


El parámetro del problema es $\mathbf{\theta} = (\alpha,\eta,\xi, \mathbf{\beta}^T,\mathbf{\nu}^T,\mathbf{\omega}^T)^T$. Además $\sigma_i= \varphi_i\sqrt{\frac{\kappa_i}{\kappa_i-2}}$.

# Conclusión

De acuerdo con lo presentado, la idea central es reparametrizar las distribuciones en términos de un parámetro de posición, uno de escala y los demás (de forma). Una buena idea es consultar los trabajos de Rigby y Stasinopoulos para obtener un guía de reparametrización de una distribución en particular. Luego de esto, el proceso es bastante estándar.

# Tarea

1. Escriba programas Stan para cada uno de los modelos presentados y pruébelos con datos reales para cada caso. Puede usar algunos de los datos que ya se han trabajado en el curso.
2. Basandose en la documentación de los modelos Gamlss y siguiendo el estilo de esta lección, agregue 10 nuevos modelos, no inluídos en esta lección.