# 📖 Pressupostos da Regressão Logística

###⚙️ Relação entre X e Y

**Regressão Linear:**
* A relação entre o preditor X e o desfecho Y deve ser linear.
* Exemplo: cada aumento no IMC gera um aumento constante na pressão arterial.

**Regressão Logística:**
* A relação deve ser linear nos log-odds, não nas probabilidades diretamente.
* Isso quer dizer: a relação entre a variável independente e o logaritmo da razão de chances (logit) é linear, mas a relação com a probabilidade é em forma de S (função sigmoide).

🔸 Interpretação prática:
Pequenas mudanças em 𝑋 têm pouco impacto quando a probabilidade está perto de 0% ou 100%, e maior impacto quando está perto de 50%.

### 📊 Distribuição dos Resíduos

**Regressão Linear:**
* Exige resíduos normalmente distribuídos (seguem curva normal).

**Regressão Logística**:
* Não exige normalidade dos resíduos, pois o modelo assume uma distribuição binomial — os resíduos não são simétricos, são 0/1.

###📈 Homocedasticidade

**Regressão Linear**:
* Espera-se que os erros tenham variância constante (homocedasticidade).

**Regressão Logística:**
* Não há esse requisito, pois o erro é uma função da própria probabilidade (o erro máximo ocorre quando p=0.5).
* A variância muda naturalmente com a probabilidade → é heterocedástica por natureza.

###🧩 Independência das Observações

**Em comum:**
* Ambos exigem que as observações sejam independentes entre si — ou seja, que o erro de uma não influencie o erro de outra. Isso é violado, por exemplo, em dados longitudinais ou agrupados (como pacientes dentro de hospitais), onde pode ser necessário usar modelos mistos (GLMM) ou GEE (Generalized Estimating Equations).

### 🔄 Ausência de Multicolinearidade

**Em comum:**
* É importante que as variáveis independentes não estejam fortemente correlacionadas entre si. Caso estejam, fica difícil separar o efeito individual de cada variável.

👉 Verificação prática:
* Calcule o VIF (Variance Inflation Factor).
* Valores de VIF > 5 ou 10 indicam multicolinearidade preocupante.

###📏 Tamanho da Amostra

**Regressão Linear**:
* Pode funcionar com amostras pequenas (desde que haja graus de liberdade).


**Regressão Logística**:
* Precisa de amostras maiores, especialmente quando a classe 1 é rara (ex.: óbito, evento adverso).
* Recomendação prática: Pelo menos 10 a 20 eventos por variável (EPV = events per variable) é um bom guia empírico. Exemplo: se há 3 variáveis explicativas e 60 casos de diabetes, EPV = 20 → adequado.

###⚠️ Outliers

**Regressão Linear:**
* Outliers influenciam fortemente a inclinação e o intercepto.

**Regressão Logística:**
* Também influenciam, mas o impacto é mais visível nos log-odds.
* Uma observação com valores extremos pode mudar muito a inclinação da sigmoide → importante usar diagnóstico de resíduos padronizados e influência de Cook.

###Resumo

Em resumo, a regressão logística compartilha alguns princípios com a linear,
mas tem pressupostos diferentes, especialmente porque o resultado é binário.

| Pressuposto                                            | Regressão Linear                   | Regressão Logística                                        |
| ------------------------------------------------------ | ---------------------------------- | ---------------------------------------------------------- |
| **Relação entre X e Y**                                | Linear                             | Linear nas **log-odds**, não nas probabilidades            |
| **Distribuição dos resíduos**                          | Devem ser normalmente distribuídos | Não é exigido — resíduos seguem distribuição binomial      |
| **Homoscedasticidade (variância constante dos erros)** | Exigida                            | Não exigida                                                |
| **Independência das observações**                      | Exigida                            | Exigida                                                    |
| **Ausência de multicolinearidade**                     | Exigida                            | Exigida (use VIF para verificar)                           |
| **Tamanho da amostra**                                 | Pode ser menor                     | Deve ser maior, especialmente se a classe 1 for rara       |
| **Outliers**                                           | Influenciam fortemente             | Também influenciam, mas o impacto é avaliado via log-odds  |
| **Escala das variáveis**                               | Influencia os coeficientes         | Influencia a convergência — normalizar ajuda na otimização |


Ambas são baseadas em verossimilhança, mas a função de perda da logística é a entropia cruzada (log loss), não o erro quadrático médio.