# Deviance y residuales deviance


## Autores

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co

## Referencias

1. Alvaro Montenegro, [Curso de Estadística Bayesiana](https://github.com/AprendizajeProfundo/Estadistica-Bayesiana), 2020
2. Guangyuan Gao, "Bayesian Claims Reserving Methods in Non-life Insurance with Stan. An Introduction", Springer, 2018

# Introduction

En esta lección revisamos la deviance que es una de las estadísticas más importantes en el proceso de evaluación de los modelos estadísticos.

# Log-Verosimilitud

Supóngase que $\boldsymbol{\theta}$ es el parámetro de interés en un problema estadístico y que $y_i$ son observaciones independientes con densidad condicional $f_i(\boldsymbol{\theta})$. Nótese que en un modelo de regresión por lo general se tiene que $y_i \sim f(\boldsymbol{\theta}, \mathbf{x}_i)$, en donde $\mathbf{x}_i$ es el vector de variables predictoras para $y_i$.


La log-verosimilitud es una estadística dada por

$$
\mathcal{l}(\boldsymbol{\theta}) = \sum_{i=1}^N \ln f_i(y_i|\boldsymbol{\theta}).
$$

Esta estadística determina la calidad de un modelo, o mejor ajuste de un modelo a los datos, debido a que mayores valores de $\mathcal{l}(\boldsymbol{\theta})$ implica en general mayores valores de las $f_i(y_i|\boldsymbol{\theta})$, lo determina una mayor probabilidad a las observaciones. 

En consecuencia la log-verosimiltud es una medida de ajuste del modelo propuesto a los datos. Mayor log-verosimilitud de un modelo implica mejor ajuste a los datos. Es importante señalar sin embargo que un modelo con mayor log-verosimilitud sea un mejor modelo para el problema. Esto se debe a que en la medida que el número de parámetro crece, se espera en genral un mejor ajuste, en condiciones adecuadas de modelamiento.



# Deviance

La deviance se define de manera general por

$$
D(\boldsymbol{\theta})= -2\sum_{i=1}^N \ln f_i(y_i|\boldsymbol{\theta}) + \log h(y_1,\ldots,y_n),
$$

en donde $h(y_1,\ldots,y_n)$ es una función de normalización adecuada que depende únicamente de las observaciones. En lo que sigue supondremos que $h(y_1,\ldots,y_n)=  \left[\prod_{i=1}^{n}f(y_i)\right]$  y que $f(y_i)=1$.Es decir, asumimos que las observaciones tiene la misma densidad marginal. Así adoptaremos la siguiente definición para el resto del curso.

$$
D(\boldsymbol{\theta})= -2\sum_{i=1}^N \ln f_i(y_i|\boldsymbol{\theta}).
$$

Dado que $D(\boldsymbol{\theta}) = -2l(\boldsymbol{\theta})  $, la deviance es una medida de desajuste, es decir, $D(\boldsymbol{\theta})$ es una medida de discrepancia entre el modelo y los datos.

Adicionalmente, la log-verosimilitud para una observación es dada por $l_i(\boldsymbol{\theta}) = \log f(y_i|\boldsymbol{\theta})$. En consecuencia $l_i(\boldsymbol{\theta})$ es una medida de que tan bien es ajustada la observación $y_i$ por el modelo.

En el mismo sentido, la deviance de una observación es dada por $D_i(\boldsymbol{\theta})= - 2\log f(y_i|\boldsymbol{\theta})$. En consecuencia $D_i(\boldsymbol{\theta})$ es una medida de discrepancia  del modelo para la observación $y_i$.

De lo anterior se desprende que $D_i(\boldsymbol{\theta})$ puede  ser base  para construir estadísticas de error o discrepacia del modelo en relación con la observación $y_i$.

## Nota

La utilización de la constante 2 en la definición de la deviance es de pura conveniencia histórica, aunque técnicamente no se requiere. Esto está relacionado con aproximaciones asintóticas de la distribución de algunas versiones de $D(\boldsymbol{\theta})$.



$deviance = -2\sum_{i=1}^n \ln f(y_i|\hat{\theta})$

## Caso Bayesiano

$lp = \sum_{i=1}^n \ln f(y_i|\hat{\theta}^{(m)})$ omitiendo constantes

$dev^{(m)} = -2 \sum_{i=1}^n \ln f(y_i|\hat{\theta}^{(m)})$ omitiendo constantes

# Residuales Deviance

Un modelo saturado es un modelo en el cual se tiene el máximo posible de parámetros. Es bastante común, que el modelo saturado sea aquel en el cual $\mu_i =y_i$ para cada una e las observaciones. Es aconsejable verificar en los casos específicos cúal es el correpondiente modelo saturado.

En esta lección asumerimos que el modelo saturado es dado cuando $\mu_i =y_i$. Denotaremos por $\tilde{\theta}_i$ a cada uno de los parámetros del modelo saturado.  


La deviance residual se define por

$$
D_S(\boldsymbol{\theta}) = - 2 \sum_{i=1}^n \log f(y_i|\boldsymbol{\theta}) + 2 \sum_{i=1}^n \log f(y_i|\boldsymbol{\tilde{\theta}_i}).
$$


La contribución de cada observación a la deviance residual es dada por 

$$
D_{S_i}(\boldsymbol{\theta}) = -2 \log f(y_i|\boldsymbol{\theta}) + 2 \log f(y_i|\boldsymbol{\tilde{\theta}_i}).
$$




Para familiarizarlo con el  deviance residual veámos algunos ejemplos.

## Residuales deviance

El residual deviance para la observación $i$ es definido por

$$
dr_i = \text{sign}_i\sqrt{D_{S_i}(\boldsymbol{\theta})},
$$

en donde se tiene que $ \mu_i =E[y_i|\boldsymbol{\theta}]$. Adiconalmente  $\text{sign}_i$ es definida por

$$
\text{sign}_i=\begin{cases} 0, &\text{ si } (y_i-\mu_i)<0\\
1,  &\text{ en otro caso }.
\end{cases}
$$

# Ejemplos de Residuales deviance

## Modelo Gaussiano homocedástico


Se asume que $\sigma_i = \sigma$ para todo $i$. En este modelo se tiene que

$$
\begin{align}
-2\ln f(y_i|\boldsymbol{\theta}) &=  \frac{(y_i-\mu_i)^2}{\sigma} + K,\\
-2\ln f(y_i|\boldsymbol{\tilde{\theta}}_i) &=  \frac{(y_i-y_i)^2}{\sigma} + K.
\end{align}
$$

Por lo que 

$$
dr_i= \frac{(y_i-\mu_i)}{\sigma},
$$ 

coincide con el residual definido en [Residuales Bayesianos](./Residuales_Bayesianos.ipynb).

## Modelo doble exponencial (distribución de Laplace)

En este caso la familia de distribuciones en este caso esa dada por

$$
f(x\mid \mu ,b)={\frac  {1}{2b}}\exp \left(-{\frac  {|x-\mu |}{b}}\right).
$$

Asumiremos que $b_i=b$ para todo $i$.

En este caso se tiene que 
$$
\begin{align}
E[y] &= \mu\\ 
Var[y] &= 2b^2
\end{align}
$$

Se tiene que

$$
\begin{align}
-2\ln f(y_i|\boldsymbol{\theta}) &=  2\frac{|y_i-\mu_i|}{b} + K,\\
-2\ln f(y_i|\boldsymbol{\tilde{\theta}}_i) &=  2\frac{|y_i-y_i|}{b} + K.
\end{align}
$$

Por lo que 

$$
dr_i= \text{sign}_i\sqrt{\frac{2|y_i-\mu_i|}{b}}.
$$

## Modelo $t$-Student



Asumimos $\varphi_i= \varphi$,  $\kappa_i = \kappa$. Entonces


$$
\begin{align}
-2\ln f(y_i|\boldsymbol{\theta}) &= (\kappa+1)\ln \left(1+\frac{1}{\kappa} \left(\frac{y_i-\mu_i}{\varphi}\right)^2\right) + K\\
-2\ln f(y_i|\boldsymbol{\tilde{\theta}}) &= (\kappa+1)\ln \left(1+\frac{1}{\kappa} \left(\frac{y_i-y_i}{\varphi}\right)^2\right) + K
\end{align}
$$

Por lo que 

$$
dr_i= \text{sign}_i  \sqrt{(\kappa+1)\ln \left(1+\frac{1}{\kappa} \left(\frac{y_i-\mu_i}{\varphi}\right)^2\right)}.
$$ 



## Conclusiones sobre Residuals, Deviance and Deviance Residuals


En el marco bayesiano, podemos generar un conjunto de residuos para una realización de
Parámetros posteriores. Por lo tanto, hay cuatro opciones de residuos:

1. Elija la media posterior de los parámetros y encuentre un conjunto de residuos.
2. Elija aleatoriamente una realización de parámetros y encuentre un conjunto de residuos.
3. Obtenga la media posterior de los residuos.
4. Obtenga la distribución posterior de los residuos.

# Ejemplo. Tres modelos de error para el conjunto de datos stack-loss

Birkes y Dodge (1993) aplican diferentes modelos de regresión a los datos de pérdida de apilamiento muy analizados de Brownlee (1965). Esto presenta 21 respuestas diarias de pérdida de pila $ y $, la cantidad de amoníaco que escapa, con covariables como flujo de aire ($ x_1 $), temperatura ($ x_2 $) y concentración de ácido ($ x_3 $).

Primero asumimos una regresión lineal en la esperanza de $ y $, con una variedad de estructuras de error diferentes. Suponemos una regresión lineal en la esperanza de y, es decir,


$$ 
\mathbb{E}(y_i) = \mu_i = b_0 + b_1 z_{1i} + b_2 z_{2i} + b_3 z_{3i} 
$$

donde $ z_ {ij} = (x_ {ij} - \bar {x} _j) / \text{sd} (x_j) $ son covariables estandarizadas para tener media cero y varianza unitaria. $ b_1, b_2, b_3 $ reciben inicialmente aprioris no informativas independientes.

Consideramos tres estructuras de error: normal, doble exponencial y $t_4$.

## Modelo Normal

## Import

## Datos

In [None]:
 # datos
import numpy as np
stacks_data = {'p': 3, 'N': 21,
'Y': (43, 37, 37, 28, 18, 18, 19, 20, 15, 14, 14, 13, 11, 12, 8, 
7, 8, 8, 9, 15, 15),
'x': np.resize((80, 80, 75, 62, 62, 62, 62, 62, 59, 58, 58, 58, 58, 
58, 50, 50, 50, 50, 50, 56, 70, 27, 27, 25, 24, 22, 23, 24, 24, 
23, 18, 18, 17, 18, 19, 18, 18, 19, 19, 20, 20, 20, 89, 88, 90, 
87, 87, 87, 93, 93, 87, 80, 89, 88, 82, 93, 89, 86, 72, 79, 80, 
82, 91), (21, 3))}
stacks_data

## Importa módulos

In [None]:
import numpy as np
%matplotlib inline
import numpy as np
#import pystan as ps
#import pylab as pl

In [None]:
import pystan
%load_ext stanmagic
%matplotlib inline
import numpy as np
import pylab as pl

## Código Stan

In [None]:
%%stan -f normal_stack_loss_reg.stan
// Linear Model with normal Errors

data {
  int<lower=0> N;  // number of observations
  int<lower=0> p;  // number of explained variables
  real Y[N];       // observations
  matrix[N,p] x;   // design matrix
} 

// to standardize the x's 
transformed data {
  real z[N,p];
  real mean_x[p];
  real sd_x[p];
  for (j in 1:p) { 
    mean_x[j] <- mean(col(x,j)); 
    sd_x[j] <- sd(col(x,j)); 
    for (i in 1:N)  
      z[i,j] <- (x[i,j] - mean_x[j]) / sd_x[j]; 
  }
}

parameters {
  real beta0; 
  real beta[p]; 
  real<lower=0> sigma; 
} 

transformed parameters {
  real<lower=0> tau;
  real mu[N];
  tau <-1/sigma;
  for (n in 1:N)
    mu[n] <- beta0 + beta[1] * z[n, 1] + beta[2] * z[n, 2] + beta[3] * z[n, 3];
}

model {
  beta0 ~ normal(0, 5); 
  beta ~ normal(0, 5);
  sigma ~ cauchy(0, 2);
  for (n in 1:N) 
    //Y[n] ~ double_exponential(mu[n], sigma); //try you
    //Y[n] ~ student_t(4, mu[n], sigma); //try you
    Y[n] ~ normal(mu[n], sigma); 
} 

generated quantities {
  real b0;
  real b[p];
  real residual[N]; // Pearson residual
  real resi_dev[N]; // deviance 
  real y_rep[N];
 

  for (j in 1:p)
    b[j] = beta[j] / sd_x[j];
      b0 = beta0 - b[1] * mean_x[1] - b[2] * mean_x[2] - b[3] * mean_x[3];

  for (i in 1:N){
    residual[i] = (Y[i] - mu[i]) / sigma;
    // cambiar la siguiente línea en cada caso
      resi_dev[i] = (Y[i] - mu[i])/sigma;
    // cambiar la siguiente línea en cada caso
      y_rep[i] = normal_rng(mu[i],sigma);
 }
    
}    

In [None]:
_stan_model

In [None]:
normal_stack_loss_reg = pystan.StanModel(file=_stan_model.model_file)

In [None]:
normal_stack_loss_reg

In [None]:
normal_stack_loss_reg_sample = normal_stack_loss_reg.sampling(data=stacks_data)

In [None]:
normal_stack_loss_reg_sample

In [None]:
print(normal_stack_loss_reg_sample.stansummary(["y_rep", "residual"]))

In [None]:
print(normal_stack_loss_reg_sample.stansummary(["y_rep"]))

In [None]:
traces = normal_stack_loss_reg_sample.extract(permuted=True)

In [None]:
head(traces)

# Tarea 

1. Haga gráficos de las disribuciones de error y error deviance para el caso normal. 
2. Repita el ejercicio anterior completo (incluya las gráficas que considere) para el caso de las distribuciones Laplace y $t_4$.
2. Basado en los residuales trate  de indicar si las observaciones 1, 3,4, 21 son en realidad outliers.

In [None]:
stacks_lasso = '''
data {
  int<lower=0> N;
  int<lower=0> p;
  real Y[N];
  matrix[N,p] x;
} 

// to standardize the x's 
transformed data {
  real z[N,p];
  real mean_x[p];
  real sd_x[p];
  for (j in 1:p) { 
    mean_x[j] <- mean(col(x,j)); 
    sd_x[j] <- sd(col(x,j)); 
    for (i in 1:N)  
      z[i,j] <- (x[i,j] - mean_x[j]) / sd_x[j]; 
  }
}

parameters {
  real beta0; 
  real beta[p]; 
  real<lower=0> sigmasq; 
  real<lower=0> phi;
} 

transformed parameters {
  real<lower=0> sigma;
  real mu[N];

  sigma <- sqrt(2) * sigmasq;
  for (n in 1:N)
    mu[n] <- beta0 + beta[1] * z[n, 1] + beta[2] * z[n, 2] + beta[3] * z[n, 3];
}

model {
  beta0 ~ normal(0, 316); 
  phi ~ gamma(0.01, 0.01);
  beta ~ normal(0, sqrt(phi));
  sigmasq ~ inv_gamma(.001, .001); 
  for (n in 1:N) 
    Y[n] ~ double_exponential(mu[n], sigmasq); 
} 

generated quantities {
  real b0;
  real b[p];
  real outlier_1;
  real outlier_3;
  real outlier_4;
  real outlier_21;

  for (j in 1:p)
    b[j] <- beta[j] / sd_x[j];
  b0 <- beta0 - b[1] * mean_x[1] - b[2] * mean_x[2] - b[3] * mean_x[3];

  outlier_1  <- step(fabs((Y[1] - mu[1]) / sigma) - 2.5);
  outlier_3  <- step(fabs((Y[3] - mu[3]) / sigma) - 2.5);
  outlier_4  <- step(fabs((Y[4] - mu[4]) / sigma) - 2.5);
  outlier_21 <- step(fabs((Y[21] - mu[21]) / sigma) - 2.5);
}
'''

In [None]:
stacks_init = {'beta0': 10,
'beta': [0, 0, 0],
'sigmasq': 10,
'phi': 0.316}

In [None]:
fit_ridge = ps.stan(model_code=stacks_ridge, data=stacks_data, init=stacks_init,
                  iter=10000, chains=4)

In [None]:
ridge_traces = fit_ridge.extract(permuted=True)

ridge_betas = pd.DataFrame(ridge_traces['beta'], columns=['beta1','beta2','beta3']).stack().reset_index()
ridge_betas.columns = 'obs', 'parameter', 'value'
g = sb.FacetGrid(ridge_betas, col='parameter')
g.map(pl.hist, 'value', color="steelblue",lw=0)