# <span style="color:red">Regresión Lineal Bayesiana</span>

## Referencias


## <span style="color:blue">Autor</span>

Kevin Daniel Medina Cardona, kdmedinac@unal.edu.co

## <span style="color:Blue">Profesor</span>

Alvaro Montenegro, PhD, ammontenegrod@unal.edu.co

## <span style="color:Blue">Introducción </span>


En la regresión lineal ordinaria, basada en la teoría del modelo Normal lineal, se asumen los siguientes supuestos:

- La variable respuesta es continua, simétrica, y su varianza no depende de la media (homocedasticidad).
- Los efectos de las variables explicativas sobre la media de la respuesta son de tipo aditivo.

Hay muchas situaciones donde estas suposiciones son inapropiadas. Por ejemplo, cuando la respuesta es un conteo, es binaria o una proporción, cuando los efectos de las variables respuesta sobre la media, no son aditivos si no multiplicativos.

Los modelos lineales generalizados extienden el modelo lineal permitiendo distribuciones con respuesta diferente a la normal y funciones diferentes a la identidad que conectan o enlazan la media de la respuesta con el predictor lineal, permitiendo efectos distintos a los aditivos.

## <span style="color:Blue">Composición </span>

### Componente aleatoria:  
La distribución de probabilidad que describe la variable respuesta $Y$, puede ser cualquiera perteneciente a la familia exponencial lineal. Por ejemplo, Normal, Bernoulli, Binomial, poisson, Gamma.

### Componente sistemática:
Variables explicatorias ya sean continuas o categoricas en un predictor lineal,

$$\eta = \beta_0 + \beta_1x_1 + ... + \beta_px_p$$

### Función de enlace:
Función continua, monótona y dos veces diferenciable, notada generalmente por $g(.)$, la cual enlaza la media de la variable respuesta, $\mu$, a la componente sistemática, esto es,
$$g(\mu) = \beta_0 + \beta_1x_1 + ... + \beta_px_p$$


## <span style="color:Blue">Familia Exponencial Lineal </span>

La función de densidad o la función de masa de $Y\sim FEL(\mu,\phi)$ donde $\mu$ es la media y $\phi>0$ es el parametro de disperción, puede ser escrita como
$$f_y(y;\mu,\phi)=C(y,\phi)exp(\frac{1}{\phi}[y\theta(\mu)-b[\theta(\mu)]])$$

Para algunas funciones $\theta(.), b(.)$ y $C(y,\phi)$ la funcion generadora de momentos de Y se reduce a 

$$M_y(t)=E[exp(tY)]=exp(\frac{1}{\phi}[b(\theta+t\phi)-b(\theta)])$$

por lo tanto, $\mu=b'(\theta)$ y $var(Y)=\phi V(\mu)$, donde,$V(.)=b''[\theta(.)]$ es una función de varianza conocida.

### Ejemplo:

Supongamos $Y\sim Poisson(\mu) \mu>0$

$$f_y(Y;\mu)=\frac{exp(-\mu)\mu^y}{y!}$$
$$f_y(Y;\mu)=exp(-\mu)+ylog(\mu)-log(y!)$$

Con esta tranformación podemos notar lo siguiente:
- $\phi=1$
- $\theta(\mu)=log(\mu)$
- $b(\theta)=exp(\theta)$
- $b'(\theta)=exp(\theta)=\mu$
- $b''(\theta)=exp(\theta)=\mu$

## <span style="color:Blue">Formulación del modelo </span>




$$\left\{ \begin{array}{lcc}
               Y \sim FEL(\mu_k,\omega^{−1}_k\phi)\\
             \\ g(\mu_k) =\beta_0+ \beta_1x_{k1}+... +\beta_px_{kp}=x^t_k\beta
             \end{array}
   \right.
$$

Entonces, $E(Y_k) = \mu_k$ and $Var(Y_k) =\frac{\phi }{\omega}_kV(\mu_k)$, donde,

- $\beta = (\beta_0, \beta_1, . . . , \beta_p)^t$,  Es el vector de parametros de interes. 
- $x_k= (1, x_{k1}, . . . , x_{kp})^t$, donde $x_{kp}$ es el valos de p-esima variable explicatoria, medida sobre el k-esimo individuo.

- $\phi > 0$ Es el parametro de dispersión.
-$\omega_1, . . . , \omega_n$ Son pesos conocidos y positivos.
- $V(·)$ es la función de varianza.
-$g(·)$ es la función de enlace, que se asume conocida, monotona y 2 veces diferenciable.

## <span style="color:Blue">Curiosidad Historica </span>

El término "regresión" fue acuñado por Francis Galton en el siglo xix para describir un fenómeno biológico. El fenómeno fue que las alturas de los descendientes de ancestros altos tienden a regresar hacia abajo, hacia un promedio normal (un fenómeno conocido como regresión hacia la media ). Para Galton, la regresión sólo tenía este significado biológico, pero su trabajo fue extendido más tarde por Udny Yule y Karl Pearson a un contexto estadístico más general. En la obra de Yule y Pearson, la distribución conjunta de la variable respuesta y las variables explicativas se supone que es Gaussiana. 

## <span style="color:Blue">Casos especiales</span>



$$\left\{ \begin{array}{lcc}
               m_kY_k \sim Binomial(m_k,\mu_k)\\
             \\ g(\mu_k) =\beta_0+ \beta_1x_{k1}+... +\beta_px_{kp}
             \end{array}
   \right.
$$

- Enlace logit 
$$ g(\mu_k)=log(\frac{\mu_k}{1-\mu_k})$$
- Enlace probit
$$g(\mu_k)=\Phi^{-1}(\mu_k)$$
- Enlace complemento log-log 
$$g(\mu_k)=log(-log(1-\mu_k))$$
- Enlace Cauchy
$$g(\mu_k)=tan(\frac{\pi}{2}(2\mu_k-1))$$

In [1]:
import numpy as np
import statsmodels.api as sm
from scipy import stats
from matplotlib import pyplot as plt

plt.rc("figure", figsize=(16,8))
plt.rc("font", size=14)

In [2]:
data = sm.datasets.star98.load()
data.exog = sm.add_constant(data.exog, prepend=False)

In [3]:
glm_binom = sm.GLM(data.endog, data.exog, family=sm.families.Binomial())
res = glm_binom.fit()
print(res.summary())

                  Generalized Linear Model Regression Results                   
Dep. Variable:     ['NABOVE', 'NBELOW']   No. Observations:                  303
Model:                              GLM   Df Residuals:                      282
Model Family:                  Binomial   Df Model:                           20
Link Function:                    Logit   Scale:                          1.0000
Method:                            IRLS   Log-Likelihood:                -2998.6
Date:                  Tue, 22 Nov 2022   Deviance:                       4078.8
Time:                          19:02:49   Pearson chi2:                 4.05e+03
No. Iterations:                       5   Pseudo R-squ. (CS):              1.000
Covariance Type:              nonrobust                                         
                              coef    std err          z      P>|z|      [0.025      0.975]
-------------------------------------------------------------------------------------------
LOWINC