# Curso de Estadística Bayesiana


# Evaluacion de Modelos Bayesianos: Residuales

## Autores

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co

## Referencias

1. Alvaro Montenegro, [Curso de Estadística Bayesiana](https://github.com/AprendizajeProfundo/Estadistica-Bayesiana), 2020
2. De Paula Gilberto, ["MODELOS DE REGRESSÃO com apoio computacional, ](https://www.ime.usp.br/~giapaula/texto_2013.pdf), Instituto de Matemática e Estatística  Universidade de São  Paulo
3.  ["Stan User's Guide. Version 2.22", Stan Development Team, 2020.](https://mc-stan.org/users/documentation/)
4. Kumar, Ravin and Carroll, Colin and Hartikainen, Ari and Martin, Osvaldo A., [ArviZ a unified library for exploratory analysis of Bayesian models in Python](https://arviz-devs.github.io/arviz/), [The Journal of Open Source Software], 2019.
5. Richard McElreath, ["Statistical Rethinking, A Bayesian Course with examples in R and Stan"](http://xcelab.net/rmpubs/rethinking/Statistical_Rethinking_sample.pdf), version compilada en noviembre 9 de 2015.


# Introduccción


En esta lección introducimos la primera herramienta para la evaluación de los modelos. Como seguramente ya sabe, en la estadística Bayesiana siempre trabajamos con distribuciones posteriores.

En la estadística clásica se define un residual como sigue. Si $y_i$ es una observación, con media $\mu_i$, entonces el residual, que denotaremos por $r_i$ se define por

$$
r_i = (y_i-\hat{\mu}_i),
$$

en donde $\hat{\mu}_i$ es una estimación de  $\mu_i$.

El problema con esta medida es que depende de la escala de la observación, por lo que si $\sigma_i^2$ es la varianza de $y_i$ entonces el residual estandarizado es dado por

$$
re_i = \frac{(y_i-\hat{\mu}_i)}{\hat{\sigma}_i},
$$

en donde $\hat{\sigma}_i$ es la estimación de $\sigma_i^2$ .

El residual de pearson es definido por 


$$
rp_i = \frac{(y_i-\hat{\mu}_i)^2}{\hat{\sigma}_i^2},
$$
el cual es siempre positivo.




## Nota

Dado que $E[y_i]=\hat{\mu}_i$, es frecuente denotar usar la notación $\tilde{y}_i$ en lugar de  $\hat{\mu}_i$.Es comun llamar $\tilde{y}_i$ como el valor ajustado por el modelo para $y_i$.

En los siguientes ejemplos vamos a suponer que las estimaciones son máximo-verosímil, aunque tecnicamente no es realmente necesario.

## Ejemplo 1. Modelo de regresión lineal Gaussiano 

En este casos el modelo estadístico es definido por

$$
\begin{align}
E[y_i] &= \mu_i =  \alpha +  \mathbf{x_i}^T\mathbf{\beta} \\
\log \sigma_i &= \eta +\mathbf{z_i}^T\mathbf{\nu} \\
y_i &\sim \mathcal{N}(\mu_i,\sigma_i^2)
\end{align}
$$
con $i =1,\ldots,n$. 

El parámetro del problema es $\mathbf{\theta} = (\alpha,\eta, \mathbf{\beta}^T,\mathbf{\nu}^T)^T$. 

Entonces, si $\hat{\mathbf{\theta}} = (\hat{\alpha},\hat{\eta}, \hat{\mathbf{\beta}}^T,\hat{\mathbf{\nu}}^T)^T$, se tiene que

$$
\begin{align}
\hat{\mu}_i &=  \hat{\alpha} +  \mathbf{x_i}^T\hat{\mathbf{\beta}} \\
\hat{\sigma}_i &=  \hat{\eta} +  \mathbf{z_i}^T\hat{\mathbf{\nu}} \\ 
\end{align}
$$

En el caso homocedástico, se tiene que $\sigma_i^2 = \sigma^2$.

## Ejemplo 2. Modelo regresión Binomial

La función *inv_logit* es definida por $\text{inv_logit}(x) = (1+ \exp (-x))^{-1}$. Esta es la función de distribuición acumulada logística.

El modelo Binomial de regresión se define por


$$
\begin{align}
E[y_i] &= \mu_i= N_i\pi_i\\
\pi_i &=  \text{inv_logit}(\alpha +  \mathbf{x_i}^T\mathbf{\beta}) \\
y_i &\sim \text{Binomial}(N_i,\pi_i)
\end{align}
$$
con $i =1,\ldots,n$. Los valores $N_i$ se asumen conocidos. En este caso se tiene que $Var[y_i] = N_i\pi_i(1-\pi)$, por lo que $\sigma_i =\sqrt{N_i\pi_i(1-\pi)} $. 

Si $\hat{\alpha}$ y $\hat{\mathbf{\beta}}$ son las respectivas estimaciones, entonces se tiene que

$$
\begin{align}
\hat{\pi}_i &=  \hat{\alpha} +  \mathbf{x_i}^T\hat{\mathbf{\beta}} \\
\hat{\mu}_i &= N_i \hat{\pi}_i \\
\hat{\sigma}_i &=  \sqrt{N_i\hat{\pi}(1-\hat{\pi})} \\ 
\end{align}
$$




## Ejemplo 3. Modelo de regresión Poisson

El modelo Poisson de regresión se define por


$$
\begin{align}
E[y_i] &= \mu_i\\
\ln \mu_i&=  \alpha +  \mathbf{x_i}^T\mathbf{\beta}\\
y_i &\sim \text{Poisson}(\mu_i)
\end{align}
$$
con $i =1,\ldots,n$.

Si $\hat{\alpha}$ y $\hat{\mathbf{\beta}}$ son las respectivas estimaciones, entonces se tiene que


$$
\begin{align}
\ln \hat{\mu}_i &=  \hat{\alpha} +  \mathbf{x_i}^T\hat{\mathbf{\beta}} \\
\hat{\sigma}_i &=  \sqrt{\hat{\mu}_i}\\ 
\end{align}
$$


## Ejemplo 4. Modelo de regresión Beta

Asumiremos que las observaciones son $y_i \sim \text{Beta}(a_i,b_i)$. 

Como hemos hecho antes usaremos la reparametrización

$$
\begin{align}
\mu_i &= \frac{a_i}{a_i+b_i}\\
\phi_i &= a_i+b_i
\end{align}
$$

Observe que 

$$
\begin{align}
a_i &= \mu_i \phi_i\\
b_i &= \phi_i(1-\mu_i)\\
\sigma_i &= \sqrt{\frac{a_ib_i}{(a_i+b_i +1)(a_i+b_i)^2} } = \sqrt{\frac{\mu_i(1-\mu_i)}{1+\phi_i}}
\end{align}
$$


Con esta parametrización es posible ahora definir el modelo de regresión Beta como

$$
\begin{align}
E[y_i] &= \mu_i\\
 \mu_i&=  \text{inv_logit}(\alpha +  \mathbf{x_i}^T\mathbf{\beta})\\
\ln \phi_i & = \eta +  \mathbf{x_i}^T\mathbf{\nu}\\
y_i &\sim \text{Beta}(\mu_i\phi_i,(1-\mu_i)\phi_i)
\end{align}
$$

Entonces, si $\hat{\mathbf{\theta}} = (\hat{\alpha},\hat{\eta}, \hat{\mathbf{\beta}}^T,\hat{\mathbf{\nu}}^T)^T$, se tiene que

$$
\begin{align}
\hat{\mu}_i &= \text{inv_logit} (\hat{\alpha} +  \mathbf{x_i}^T\hat{\mathbf{\beta}})\\
\ln\hat{\sigma}_i &=  \hat{\eta} +  \mathbf{z_i}^T\hat{\mathbf{\nu}} \\ 
\end{align}
$$


## Ejemplo 5: Modelo de regresión Gama

A partir de la parametrización $\text{Gama}(a,b)$, en donde la función de densidad $f(y)$es dada por

$$
\text{Gama}(y|a,b) = \frac{b^{a}}{\Gamma(a)}{y^{a-1}\exp(-b y)}
$$

introducimos la reparametrización 

$$
\begin{align}
a &= \phi\mu^2\\
b &= \phi\mu,
\end{align}
$$

con lo cual se tiene que la esperanza y la varianza de la distribución son dadas por $\mu$ y $1/\phi$ respectivamente.

Entonces el modelo de regresión Gama se define así:

$$
\begin{align}
E[y_i] &= \mu_i\\
\ln \mu_i&=  \alpha +  \mathbf{x_i}^T\mathbf{\beta}\\
\ln \phi_i & = \eta +  \mathbf{x_i}^T\mathbf{\nu}\\
y_i &\sim \text{Gama}(\mu_i^2\phi_i,\mu_i\phi_i)
\end{align}
$$

Entonces, si $\hat{\mathbf{\theta}} = (\hat{\alpha},\hat{\eta}, \hat{\mathbf{\beta}}^T,\hat{\mathbf{\nu}}^T)^T$, se tiene que

$$
\begin{align}
\ln\hat{\mu}_i &= \hat{\alpha} +  \mathbf{x_i}^T\hat{\mathbf{\beta}}\\
\ln\hat{\phi}_i &=  \hat{\eta} +  \mathbf{z_i}^T\hat{\mathbf{\nu}} \\ 
\hat{\sigma}_i  &= \sqrt{\tfrac{1}{\hat{\phi}_i}}
\end{align}
$$

# Residuales Bayesianos estandarizados

En el caso Bayesiano, se considera siempre la distribución asociada ala cantidad de interes. En este caso los residuales. Esto es bastante ventajoso, por que al no ser una cantidad única como en ela caso clásico, es posible evaluar de una mejor manera el modelo a partir de los residuales del modelo.

Para la práctica, el procedimiento para obtener la distribución de residuales es como sigue. Supongamos que $\mu_i^{(k)}$ y $\sigma_i^{(k)}$ son los funcionales asociados a la muestra en el paso $k$.

Por ejemplo, consideresmos el modelo de regresión Gama. Supongamos que $\alpha^{(k)}$, $\eta^{(k)}$, $\mathbf{\beta}^{(k)} y $\mathbf{\nu}^{(k)} son las muestras de los parámetros del problema en le paso $k$ del muestreados Bayesiano. Entonces se tiene que 


$$
\begin{align}
{\mu}_i^{(k)} &= \exp(\alpha^{(k)} +  \mathbf{x_i}^T\mathbf{\beta}^{(k)})\\
{\sigma}_i^{(k)}  &= \sqrt{\exp(-(\eta^{(k)} +  \mathbf{x_i}^T\mathbf{\nu}^{(k)}))}
\end{align}
$$

y el residual estandarizado en el paso $k$ del muestreador es entonces

$$
r_i^{(k)} = \frac{y_i -{\mu}_i^{(k)}}{{\sigma}_i^{(k)}}
$$

## Ejemplo 1. Modelo de regresión Bernoulli: Modelo Logístico.

Este es el caso particular del modelo de regresión Binomial en donde $N_i=1$, en todas las observaciones.

En este caso se tiene que 



$$
\begin{align}
E[y_i] &= \mu_i= \pi_i\\
\pi_i &=  \text{inv_logit}(\alpha +  \mathbf{x_i}^T\mathbf{\beta}) \\
y_i &\sim \text{Bernulli}(\pi_i)
\end{align}
$$
con $i =1,\ldots,n$. 

Si $\hat{\alpha}$ y $\hat{\mathbf{\beta}}$ son las respectivas estimaciones, entonces se tiene que

$$
\begin{align}
\hat{\pi}_i &=  \text{inv_logit}(\hat{\alpha} +  \mathbf{x_i}^T\hat{\mathbf{\beta}}) \\
\hat{\mu}_i &= \hat{\pi}_i \\
\hat{\sigma}_i &=  \sqrt{\hat{\pi}(1-\hat{\pi})} \\ 
\end{align}
$$

Para ilustrar el cálculo y uso de los residuales consideramos el problema del Parcial 1.


La tabla 2 muestra  los datos experimentales sobre la influencia de la razón y del volúmen del aire aspirado en la constricción vascular de la piel de los dedos de la mano, de un experimento reportado por Predigon. 



La respuesta es dicotómica: ocurrencia (1), y no ocurrecia (0). Se asume para cada observación $Y_i \sim \text{Bernoulli}(\pi_i)$. El modelo lineal logistico es definido por




 ### Datos
 
      y   vol   razón
      1  3.70    0.825
      1  3.50    1.090
      1  1.25    2.500
      1  0.75    1.500
      1  0.80    3.200
      1  0.70    3.500
      0  0.60    0.750
      0  1.10    1.700
      0  0.90    0.750
      0  0.90    0.450
      0  0.80    0.570
      0  0.55    2.750
      0  0.60    3.000
      1  1.40    2.330
      1  0.75    3.750
      1  2.30    1.640
      1  3.20    1.600
      1  0.85    1.415
      0  1.70    1.060
      1  1.80    1.800
      0  0.40    2.000
      0  0.95    1.360
      0  1.35    1.350
      0  1.50    1.360
      1  1.60    1.780
      0  0.60    1.500
      1  1.80    1.500
      0  0.95    1.900
      1  1.90    0.950
      0  1.60    0.400
      1  2.70    0.750
      0  2.35    0.030
      0  1.10    1.830
      1  1.10    2.200
      1  1.20    2.000
      1  0.80    3.330
      0  0.95    1.900
      0  0.75    1.900
      1  1.30    1.625

*Tabla 2. datos sobre influencia de la razón y del volúmen del aire aspirado en la constricción vascular de la piel de los dedos de la mano*

### Estimación y residuales con Stan

In [None]:
# Cargue librerias necesarias
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import pystan

In [None]:
path ='./datos/'
file ='pregibon.dat'
pregibon = pd.read_csv(path+file, sep='\s+',header=None)
pregibon.columns = ['Y','Volume','Razon']
pregibon.head()

In [None]:
# data dictionary
datLogit = {'N':pregibon.shape[0], 'K':3,'Y':np.array(pregibon['Y']),
          'volume': np.array(pregibon['Volume']), 
          'razon': np.array(pregibon['Razon'])}

In [None]:
#stan
import pystan
%load_ext stanmagic

In [None]:
%%stan -f logit_reg_p1.stan
// Modelo de regresion Bernoulli  (modelo logistico)

data{
 // number of observations
 int<lower=1> N;
 // dim regression parameter
 int<lower=1> K;
 // Observations
 int<lower=0> Y[N];
 // volume
 vector<lower=0>[N] volume;   
  // razon
 vector<lower=0>[N] razon;     
 }

transformed data{
vector[N] log_vol;
vector[N] log_razon;   
//
log_vol = log(volume);
log_razon = log(razon);
}

parameters{
 vector[K]  beta;
}

model{
// priors
beta ~ normal(0,10);
// likelihood   
for (i in 1:N){
   Y[i] ~ bernoulli_logit(beta[1] + beta[2]*log_vol[i] + beta[3]*log_razon[i]);
}
}


generated quantities{
  vector[N] residual;
  vector[N] prob; 
  for (i in 1:N){
      prob[i] = inv_logit(beta[1] + beta[2]*log_vol[i] + beta[3]*log_razon[i]);
      residual[i] = (Y[i]-prob[i])/sqrt(prob[i]*(1-prob[i]));
      }
}

In [None]:
Observe que los residuales son calculados en la sección generated quantities

In [None]:
logit_model_p1 = pystan.StanModel(file=_stan_model.model_file)

In [None]:
# sampling
logit_model_sample_p1 =logit_model_p1.sampling(data=datLogit, iter = 4000)

In [None]:
#logit_model_sample_p1
print(logit_model_sample_p1.stansummary(["beta", "residual"]))

### Análisis exploratorio de los datos

In [None]:
Primero vamos a extraer la cadenas para generar algunos gráficos de los residuales.

In [None]:
residuals = logit_model_sample_p1.extract(['residual'])

In [None]:
residuals = residuals['residual']

In [None]:
residuals.shape

In [None]:
residuals[0:10,0:5]

In [None]:
# hace una tabla residual indice
# indice del residual
# sample size
#sz = 8000
# number of observations
#no = 39
#
#id =[]
#for i in range(0,no):
#    ii = sz*[i]
#    id+= ii
#id = np.array(id)  
#reshape residual
#residuals =residuals.reshape(residuals.shape[0]*residuals.shape[1])
# pega residuales e indice de la observación
#data = np.vstack([residuals, id]).T

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize =(14,6))
ax.set_ylim(-3, 3)
plt.plot([0, 39], [0, 0], color='r', linestyle='-', linewidth=1)
ax.boxplot(residuals)

plt.show()


In [None]:
import pandas as pd
rp = pd.DataFrame(residuals)
rp.describe().T

## Ejemplo 2.  Modelo de regresión Gama

En Stan la distribución Beta tiene la forma 

$$
\text{Gamma}(y|a,b) = \frac{a^{b}}{\Gamma(a)}{y^{a-1}\exp(-b y)}
$$

Si $\mu$ es la media de la distribución, se tiene que

$$
\begin{align}
\mu &= \frac{a}{b}\\
\sigma^2 &= \frac{a}{b^2} = \mu\frac{1}{b}
\end{align}
$$
Sea $\phi = \frac{1}{\sigma^2}$. Entonces $\phi$ es el parámetro de precisión de cada grupo de turbinas.

Por lo que podemos hacer la reparametrización

$$
\begin{align}
a &= \phi\mu^2 \\
b &= \phi\mu
\end{align}
$$


Ahora bien. Supongamos que la matrix de datos es $y$ de tamaño $N\times T$, en donde $N=10$ es el numéro de observaciones por tipo de turbina y $T=5$ es el número de turbinas.

Sea $Y$ la matriz aleatoria del mismo tamaño, que corresponde a las variables aleatorias que generan los datos. Entonces se tiene que

$$
Y_{ij} \sim \text{Gamma}(\phi_{ij}\mu_{ij}^2, \phi_{ij}\mu_{ij}),
$$

en donde $\phi_{ij}>0$ y $\mu_{ij}>0$

$$
\begin{align}
\phi_{ij}&= \phi_j; \quad i= 1,\ldots,N; \quad j= 1,\ldots,T\\
\ln \mu_{ij} &= \mu + \beta_j; \quad i= 1,\ldots,N;\quad j= 1,\ldots,T
\end{align}
$$

Es decir, asumimos un  parámetro de forma $\phi_j>0$ por cada grupo de turbinas. Adicionalmente se usa la función de enlace $\ln $, para garantizar que $\mu_{ij}>0$. Adicionalmente se asume que cada  $\phi_j>0$.

Por otro lado, existe un problema de identificabilidad, es decir infinitas soluciones, debido a que si $k$ es una constante cualquiera diferente de cero, se tiene que

$$
\mu +\beta_j = (\mu+k) + (\beta_j-k)
$$

En consecuencia es necesario definir una restricción en el modelo. Por ejemplo $\mu=0$, o $\beta_j=0$, para algún $j$. Haremos lo siguiente: $\beta_1=0$.

En consecuencia, ahora los parámetros por estimar son $\phi$, el vector $\beta = (\beta_2,\ldots,\beta_T)'$ y $\mu$.

Lo que vamos a hacer es declarar digamos $\beta_f$ como un vector de tamaño $T-1$ y dentro de la sección del modelo hacer lo siguiente


## Implementación

In [None]:
# Cargue librerias necesarias
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import pystan
import seaborn as sns

In [None]:
# lee los datos
path ='./datos/'
file ='turbina.dat'
turbina = pd.read_csv(path+file, sep='\s+',header=None) # para Stan
datos = np.array(turbina) # para el boxplot
turbina.columns = ['a','T1','c','T2','e','T3','g','T4','i','T5']
turbina = turbina[['T1','T2','T3','T4','T5']]
turbina.head()

### Una primera mirada gráfica de los datos

In [None]:
datos = pd.DataFrame({"Tiempo":datos[:,np.arange(1,10,2)].reshape(5*10),
         "Tipo":datos[:,np.arange(0,9,2)].reshape(5*10)})
datos.head()

In [None]:
fig =  plt.figure(figsize=(10,7))
sns.boxplot(y=datos["Tiempo"],x=datos["Tipo"] )
fig.suptitle('Gráficos boxplot por tipo de motor',fontsize=16)
plt.show()

El gráfico muestra que en cada grupo de turbinas los datos son en general asimétrico, lo que justifica en principio el modelo Gamma.

### Preparación de datos para Stan

In [None]:
# matrix Y
Y = np.array(turbina)
N = np.shape(Y)[0]
T = np.shape(Y)[1]

# data
dat ={'Y':Y, 'N':N,'T':T}
dat

### El modelo en Stan

In [None]:
# Magic STAN
import pystan
%load_ext stanmagic

In [None]:
%%stan -f gamma_reg_p1.stan
// Gamma log Linear Model for Y

data{
 // number of observations
 int N;
 // number of turbines
 int T;
 // responses
 matrix[N,T] Y;
}

parameters{
 vector<lower=0>[T]  phi;
 vector[T-1] beta_f;
  real mu;
}

model{
 vector[T] beta;
 matrix[N,T] mu_ij;
 

# priors
mu ~ normal(10,10);
beta_f ~ normal(0,10);    
phi ~ cauchy(0,10);

# update beta
beta[1] = 0;
for (j in 2:(T)){
    beta[j] = beta_f[j-1];
 }

# likelihood   
for (i in 1:N){
    for (j in 1:T){
      // means
      //mu_ij[i,j] = exp(mu + beta[j]);
      //mu_ij[i,j] = (mu_ij[i,j]>27)?27:mu_ij[i,j];
      mu_ij[i,j] = (mu + beta[j]);
      mu_ij[i,j] = (mu_ij[i,j]<0.01)?0.01:mu_ij[i,j];
      //
      Y[i,j] ~ gamma(phi[j]*(mu_ij[i,j])^2,phi[j]*mu_ij[i,j]);
    }    
  }    
}

generated quantities{
  matrix[N,T] residual;
  for (i in 1:N){
      residual[i,1] = (Y[i,1]-(mu))*sqrt(phi[T]);
      for (j in 2:(T)){
      residual[i,j] = (Y[i,j]-(mu + beta_f[j-1]))*sqrt(phi[j]);
      }
  }
}

In [None]:
# compile
gamma_model_p1 = pystan.StanModel(file=_stan_model.model_file)

In [None]:
# Muestreo
np.random.seed(127)
gamma_model_sample_p1 = gamma_model_p1.sampling(data=dat, iter = 4000)

In [None]:
print(gamma_model_sample_p1.stansummary(["mu","beta_f","phi"]))

In [None]:
residuals = gamma_model_sample_p1.extract(['residual'])

In [None]:
residuals = residuals['residual']
residuals = residuals.reshape([residuals.shape[0],residuals.shape[1]*residuals.shape[2]])

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize =(14,6))
ax.set_ylim(-3, 3)
plt.plot([1, 50], [0, 0], color='r', linestyle='-', linewidth=1)
ax.boxplot(residuals)

plt.show()
