# Modelos Lineares Generalizados

**Referências e Leituras sugeridas:**


- Paula, G. A. Modelos de regressão: com apoio computacional. São Paulo: IME-USP, 2024. Disponível em https://www.ime.usp.br/~giapaula/texto_2024.pdf

- Dobson, A. J.; Barnett, Adrian G. (2018). An introduction to generalized linear models. CRC press.

- https://www.statsmodels.org/stable/glm.html

Os **Modelos Lineares Generalizados (GLM)** são uma extensão elegante dos modelos de regressão linear clássicos. Eles permitem modelar situações onde a variável resposta não segue necessariamente uma distribuição normal, adaptando-se a diversos tipos de dados e relações. Vamos explorar os principais componentes e ideias por trás dos GLMs.


Suposições do modelo linear geral:

- $ E(Y_i) = \mu_i =  X_i^\top\beta$

- $\epsilon_i \stackrel{i.i.d}{\sim} N(0, \sigma^2)$

- Consequentemente $ Y_i|X_i \sim N(\mu_i, \sigma^2).$

O modelo linear (normal) é muito útil, mas nem sempre as suposições estão satisfeitas. É importante ter metodologias mais adequadas, em especial, para casos em que

- A variável resposta não possui distribuição Normal.

- A associação entre a resposta e as preditoras não é linear.




### A família exponencial de distribuições

Seja $Y_i$ uma variável aleatória cuja distribuição pode ser escrita na forma


$$\large f(y,\theta_i, \phi) = exp[\phi\{y \theta_i - b(\theta_i)\} + c(y, \phi)]$$


Dizemos que a distribuição de $Y_i$ pertence à família exponencial e escrevemos $$\large Y_i \sim FE(\mu_i, \phi),$$


em que $\mu_i = E(Y_i) = b'(\theta_i)$ é o parâmetro de posição e $\phi^{-1}$ o parâmetro de dispersão.


Além disso, $Var(Y_i) = \phi^{-1}V_i$ com $V_i = \displaystyle\frac{d\mu}{d\theta}$ a **função de variância**.



Então dizemos que um MLG é determinado pela **função de ligação**
$g(\mu_i) = \eta_i$ e pela **função de variância** $V(\mu)$.



Valores de $b$, $\theta$, $\phi$ e $V(\mu)$ para algumas distribuições são apresentados na tabela a seguir

| Distribuição | $b$ | $\theta$ | $\phi$ | $V(\mu)$ |
|--------------|-----|----------|--------|----------|
| Normal       | $\theta^2/2$ | $\mu$ | $\sigma^{-2}$ | $1$ |
| Poisson      | $e^{\theta}$ | $\log \mu$ | $1$ | $\mu$ |
| Binomial     | $\log\left(1+e^\theta\right)$ | $\log\left(\frac{\mu}{1-\mu}\right)$ | $n$ | $\mu(1-\mu)$ |

## Função de ligação

O modelo linear generalizado é definido por

$$\begin{array}{c}\large Y_i \sim FE(\mu_i, \phi) \\\large g(\mu_i) = \eta_i\end{array}$$

em que

- $ \eta_i = X_i^\top\beta$ é o **preditor linear**,

- $\beta = (\beta_0, \beta_1,\ldots, \beta_p)^\top$, $p<n$ é um vetor de parâmetros desconhecidos (coeficientes da regressão),

- $ X_i = (1, X_{i1},\ldots, X_{ip})^\top$ representa os valores de $p$ variáveis preditoras e

- $g(\mu_i)$ é a **função de ligação**, uma função monótona e diferenciável.






### Exemplos de modelos na família exponencial de distribuições


#### Modelo Normal

Se $Y\sim N(\mu, \sigma^2)$, com densidade

$$\begin{array}{lll}f(y) &=& \displaystyle\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\frac{1}{2\sigma^2}(y-\mu)^2\right\} = \\ &=&\displaystyle\exp\left[ \left\{ \frac{1}{\sigma^2}\left( \mu y - \frac{\mu^2}{2}\right)  \right\}- \frac{1}{2} \left\{ \log 2 \pi \sigma^2 + \frac{y^2}{\sigma^2}\right\}\right],\end{array}$$

em que $-\infty < \mu < \infty$ e $\sigma^2>0$.

Logo, $\theta = \mu$, $b(\theta) = \theta^2/2 $, $\phi=\sigma^{-2}$ e $c(y, \phi) = \frac{1}{2} \log(\phi/2\pi) - \phi y^2/2$. Verifica-se que $V(\mu) = 1$.



#### Modelo Poisson: para dados de contagem

Se $Y\sim P(\mu)$, com densidade dada por

$$ f(y) =P(Y=y) =   \displaystyle\frac{e^{-\mu} \mu^y}{y!} = exp(y \log\mu -\mu -\log y!), $$

em que $\mu>0$ e $y=0,1,...$

Assim $\theta = \log\mu$, $b(\theta) = e^\theta$, $\phi=1$ e $c(y, \phi) = -\log y!$. Segue que $V(\mu) = \mu$.


#### Modelo Binomial: para modelar proporções


Se $Y^\star$ é a proporção de sucessos em $n$ ensaios independentes de Bernoulli, cada um com probabilidade de sucesso $\mu$, então $nY^\star\sim B(n,\mu)$, com densidade dada por

$$\begin{array}{lll}f(y)  &=& P(Y=y) = \left(\begin{array}{c} n\\ ny^\star\end{array}\right)\mu ^{ny^\star}(1-\mu)^{n-ny^\star} = \\ &=&\exp\left\{\log  \left(\begin{array}{c} n\\ ny^\star\end{array}\right) + ny^\star \log\left(\displaystyle\frac{\mu}{1-\mu} + n\log(1-\mu)\right)\right\},\end{array}  $$

em que $\mu>0$, $y^\star<1$. Nesse caso, $\phi =n$, $\theta = \log\displaystyle\left(\frac{\mu}{1-\mu}\right)$, $b(\theta) = \log(1+e^\theta)$, e $c(y^\star, \phi) = \log  \left(\begin{array}{c} \phi\\ \phi y^\star\end{array}\right)$. Segue que $V(\mu) = \mu(1-\mu)$.



### Função de ligação canônica

Se $\theta_i = \eta_i = X_i^\top\beta$, então $\eta$ é chamada de **ligação canônica**.

- No modelo **normal**, a ligação canônica é $\eta = \mu $

- No modelo **Poisson**, a ligação canônica é $\eta = \log\mu$

- No modelo **binomial**, a ligação canônica é $\eta = \log\displaystyle\left\{\frac{\mu}{1-\mu}\right\}$



## Aplicação

In [1]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix


# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [2]:
df= pd.read_csv('/kaggle/input/pokemon/Pokemon.csv')
df.head()

FileNotFoundError: [Errno 2] No such file or directory: '/kaggle/input/pokemon/Pokemon.csv'