<a href="https://colab.research.google.com/github/MathMachado/DSWP/blob/master/Notebooks/NB15_ML_SL_GLM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelos Lineares Generalizados (GLM)

## Introdu√ß√£o ao GLM
* O que √© um Modelo Linear Generalizado (GLM)?

    * √â uma extens√£o do modelo de regress√£o linear que permite lidar com vari√°veis de resposta que n√£o seguem uma distribui√ß√£o normal.

* O GLM combina:
    * Previsores lineares: Soma ponderada das vari√°veis independentes.
    * Fun√ß√£o de liga√ß√£o: Relaciona o previsor linear √† vari√°vel de resposta.
    * Distribui√ß√£o da vari√°vel de resposta: Como Binomial, Poisson, Gamma, etc.

* Por que usar GLM?

    * Modelar dados com distribui√ß√µes n√£o normais.
    * Lidar com vari√°veis de resposta cont√≠nuas, discretas ou categ√≥ricas.
    * Tornar os modelos lineares mais flex√≠veis para diferentes problemas.

* Exemplo pr√°tico:

    * Modelar a probabilidade de um cliente comprar um produto (binomial).
    * Prever o n√∫mero de chamadas em um call center por hora (Poisson).
    * Prever o n√∫mero de sinistros para seguradoras (Poisson).


## Explica√ß√£o te√≥rica:

* Um Modelo Linear Generalizado (GLM) estende os modelos lineares simples para cobrir vari√°veis-alvo com distribui√ß√µes diferentes da normal. Ele √© composto por:
    * Um componente linear: $ùúÇ = ùõΩ_0 + ùõΩ_1.ùëã_1 + ‚ãØ + ùõΩ_ùëò.ùëã_ùëò$
    * Uma fun√ß√£o de liga√ß√£o que transforma o componente linear para se adequar √† distribui√ß√£o da vari√°vel-alvo.
    * Uma distribui√ß√£o da fam√≠lia exponencial para modelar a vari√°vel-alvo (Binomial, Poisson, Gamma, etc.).

* Aplica√ß√£o pr√°tica em seguros:
    * Modelar o n√∫mero de sinistros por cliente em uma seguradora (distribui√ß√£o Poisson).
    * Prever o custo m√©dio de sinistros para ap√≥lices de seguro sa√∫de (distribui√ß√£o Gamma).

* Aplica√ß√£o pr√°tica em bancos:
    * Modelar a probabilidade de inadimpl√™ncia de um cliente em um empr√©stimo (distribui√ß√£o Binomial, regress√£o log√≠stica).

# Componentes de um GLM
* Fun√ß√£o de liga√ß√£o: Relaciona o componente linear com a m√©dia da distribui√ß√£o da vari√°vel-alvo.

    * Exemplo: Para uma vari√°vel bin√°ria (compra ou n√£o compra de um seguro), a fun√ß√£o de liga√ß√£o logit √© usada.
* Distribui√ß√£o da vari√°vel de resposta:
    * Binomial: Para eventos com sucesso/falha.
    * Poisson: Para contagens ou taxas.
    * Gamma: Para valores cont√≠nuos positivos e assim√©tricos.

* Previsores lineares: Vari√°veis explicativas como idade, renda ou hist√≥rico de cr√©dito.

* Exemplo pr√°tico: Em um banco, a probabilidade de inadimpl√™ncia pode ser modelada com a regress√£o log√≠stica, onde a fun√ß√£o de liga√ß√£o logit transforma a probabilidade em uma escala linear.

# Tipos Comuns de GLM e Aplica√ß√µes
## Regress√£o Log√≠stica (Binomial):

* Seguro: Modelar a probabilidade de renova√ß√£o de uma ap√≥lice.
* Banco: Estimar a chance de um cliente atrasar um pagamento.

## Regress√£o de Poisson:

* Seguro: Modelar o n√∫mero de sinistros por cliente.
* Banco: Estimar o n√∫mero de transa√ß√µes mensais de um cliente.

## Regress√£o Gamma:

* Seguro: Estimar o custo m√©dio de sinistros para seguros de sa√∫de.
* Banco: Prever o valor m√©dio de gastos no cart√£o de cr√©dito.

## Regress√£o Gaussiana (Linear):

* Seguro: Prever o valor total de pr√™mios arrecadados em um per√≠odo.
* Banco: Estimar o valor total de financiamentos concedidos.

# Exemplo
* O dataset a seguir (fict√≠cio e criado usando a library faker) com vari√°veis relevantes para a cobertura de Casco, incluindo fatores de risco para frequ√™ncia e severidade de sinistros.

In [None]:
!pip install faker

In [None]:
import pandas as pd
import numpy as np

# Define a seed for reproducibility
np.random.seed(42)

# Number of samples
n_samples = 2500

# Create a DataFrame with the specified columns
df = pd.DataFrame({
    'Idade': np.random.randint(18, 65, n_samples),
    'Genero': np.random.choice(['Masculino', 'Feminino'], n_samples),
    'Regiao': np.random.choice(['Norte', 'Sul', 'Leste', 'Oeste'], n_samples),
    'Veiculo': np.random.choice(['Carro', 'Moto', 'Caminhao'], n_samples),
    'Uso': np.random.choice(['Particular', 'Trabalho'], n_samples),
    'Anos_Habilitacao': np.random.randint(1, 40, n_samples),
    'Multas': np.random.randint(0, 10, n_samples),
    'Acidentes_Passado': np.random.randint(0, 5, n_samples),
})

# Generate frequency variable (number of claims)
df['Frequencia'] = np.random.poisson(lam=0.2, size=n_samples)

# Generate severity variable (claim amount)
df['Severidade'] = np.exp(np.random.normal(loc=5, scale=1, size=n_samples))

# Adjust parameters and correlations to ensure significance
df['Frequencia'] = np.where(df['Genero'] == 'Masculino', df['Frequencia'] + 1, df['Frequencia'])
df['Frequencia'] = np.where(df['Veiculo'] == 'Moto', df['Frequencia'] + 1, df['Frequencia'])
df['Severidade'] = np.where(df['Regiao'] == 'Norte', df['Severidade'] * 1.2, df['Severidade'])
df['Severidade'] = np.where(df['Acidentes_Passado'] > 0, df['Severidade'] * 1.5, df['Severidade'])

# Add 'tipo_combustivel' and 'estado_civil' columns
df['tipo_combustivel'] = np.random.choice(['Gasolina', 'Etanol', 'Diesel', 'Flex'], size=n_samples)
df['estado_civil'] = np.random.choice(['Solteiro(a)', 'Casado(a)', 'Outro'], size=n_samples)

# Print the column names and their data types
print("\nOs nomes das colunas e seus tipos de dados:\n")
df.head()

### Detalhes Principais do Conjunto de Dados
* Ano (ano) e M√™s (mes):
    * Representam os componentes temporais para tend√™ncias e sazonalidade.
* Frequ√™ncias:
    * Incluem um aumento linear com o tempo (0,005 * (ano - 2012)).
    * Adicionam sazonalidade usando ondas senoidais para padr√µes mensais.
* Severidade:
    * A gravidade aumenta ao longo do tempo em 1% por ano (1 + 0,01 * (ano - 2012)).

## Step 1: Preparar os dados (Data Preprocessing)

In [None]:
# Creating dummy variables for categorical predictors
df = pd.get_dummies(df, columns=["Genero", "Regiao", "Veiculo", "Uso", "tipo_combustivel", "estado_civil"], drop_first=True)


## Step 2: Ajustar os GLMs
### GLM para frequ√™ncia de sinistros (Distribui√ß√£o de Poisson)

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

# Convert all columns in X_freq and y_freq to numeric, coercing errors to NaN
X_freq = X_freq.apply(pd.to_numeric, errors='coerce')
y_freq = pd.to_numeric(y_freq, errors='coerce')

# If you have any date columns, convert them to numeric representation:
# For example, if 'ano' and 'mes' are date components:
X_freq['ano'] = pd.to_numeric(X_freq['ano'], errors='coerce')
X_freq['mes'] = pd.to_numeric(X_freq['mes'], errors='coerce')

# Replace infinite values with NaN
X_freq.replace([np.inf, -np.inf], np.nan, inplace=True)
y_freq.replace([np.inf, -np.inf], np.nan, inplace=True)

# Drop rows with missing values
X_freq = X_freq.dropna()
y_freq = y_freq.dropna()

# Align X_freq and y_freq after dropping rows
y_freq = y_freq[X_freq.index]

# Add intercept
X_freq = sm.add_constant(X_freq)

# --- The Fix Starts Here ---
# Check for and handle invalid values in y_freq
# If y_freq contains negative values, shift it to be non-negative for Poisson regression
if y_freq.min() < 0:
    print("Warning: y_freq contains negative values. Shifting to be non-negative.")
    y_freq = y_freq - y_freq.min() + 1e-8  # Add a small positive value to avoid zeros
# --- The Fix Ends Here ---

# Explicitly convert all columns in X_freq to numeric dtypes, handling errors
for col in X_freq.select_dtypes(include=['object']).columns:
    try:
        X_freq[col] = pd.to_numeric(X_freq[col])
    except ValueError:
        print(f"Warning: Could not convert column '{col}' to numeric. Trying to convert to category and then to numeric.")
        try:
            # Attempt to convert to categorical and then to numeric codes
            X_freq[col] = X_freq[col].astype('category').cat.codes
        except ValueError:
            print(f"Warning: Could not convert column '{col}' to numeric even after category conversion. Dropping this column.")
            X_freq = X_freq.drop(columns=[col])

# Ensure y_freq is also numeric
y_freq = pd.to_numeric(y_freq, errors='coerce')

X_freq = pd.DataFrame(X_freq.to_numpy(), columns=X_freq.columns, dtype=float)

# Fit the Poisson GLM
model_freq = sm.GLM(y_freq, X_freq, family=sm.families.Poisson())
result_freq = model_freq.fit()

# Display results
print(result_freq.summary())

### GLM para Severidade (Distribui√ß√£o Gamma)

In [None]:
# Define predictors and target for severity
X_sev = X_freq  # Same predictors
y_sev = df_temporal["severidade_sinistro"]

# Fit the Gamma GLM
model_sev = sm.GLM(y_sev, X_sev, family=sm.families.Gamma(link=sm.families.links.log()))
result_sev = model_sev.fit()

# Display results
print(result_sev.summary())


### An√°lise dos coeficientes

* Os coeficientes (coef) nos mostra o impacto de cada vari√°vel preditora na vari√°vel target.

* Signific√¢ncia ($P>|z|$):

    * Coeficientes com p-value baixos (tipicamente < 0.05) s√£o estatisticamente significantes.
    * Exemplo: Se log_km_rodados possuir $ùëÉ > ‚à£ùëß‚à£ < 0.05$ ($P>‚à£z‚à£<0.05$), ent√£o a dist√¢ncia percorrida (km rodados) √© estatisticamente significante para o modelo

* Magnitude (coef):

    * Para a distribui√ß√£o de Poisson, coeficientes representam o log da mudan√ßa esperada na frequ√™ncia. Um coeficiente de $0.1$ para idade do condutor significa um aumento de $10%$ na frequ√™ncia para cada ano adicional na idade.

    * Para a distribui√ß√£o Gamma, os coeficientes
Para a distribui√ß√£o Gamma, os coeficientes possuem efeitos multiplicativos na severidade. Um coeficiente de $0.2$, por exemplo, para ano implica um aumento de $20%$ na severidade por ano.

* Intervalos de confian√ßa ($[0.025, 0.975]$):

    * Verifique se os intervalos de confian√ßa incluem 0. Se isso acontecer, o preditor pode n√£o ter um impacto significativo.




## Avalia√ß√£o do Modelo
Avalie o desempenho do modelo com m√©tricas apropriadas:

* Log-Likelihood: Qualidade do ajuste.
* AIC (Akaike Information Criterion): Penaliza modelos complexos.
* Previs√µes e Taxas de Acerto: Compare as previs√µes com os valores reais.

## Interpreta√ß√£o dos Resultados
* Os coeficientes estimados indicam a rela√ß√£o entre as vari√°veis preditoras e a vari√°vel-alvo:

* Coeficientes positivos indicam aumento na vari√°vel-alvo √† medida que a preditora aumenta.
* Coeficientes negativos indicam redu√ß√£o.

# Resumo
Ajustar GLMs em Python √© poderoso para resolver problemas como:

* Regress√£o Log√≠stica: Probabilidade de inadimpl√™ncia.
* Regress√£o de Poisson: N√∫mero de sinistros.
* Regress√£o Gamma: Custo de seguro.

# Como interpretar os coeficientes dos Modelos Lineares Generalizados?

A interpreta√ß√£o dos coeficientes em um **Modelo Linear Generalizado (GLM)** depende da **distribui√ß√£o da vari√°vel-alvo** e da **fun√ß√£o de liga√ß√£o** usada no modelo. Aqui est√° um guia detalhado para interpretar coeficientes em diferentes contextos:

---

### **1. No√ß√µes B√°sicas**
- **Coeficiente $\beta$:** Representa a mudan√ßa esperada na vari√°vel-alvo quando a vari√°vel preditora aumenta em uma unidade, mantendo as outras constantes.
- **Intercepto $\beta_0$:** Valor m√©dio esperado da vari√°vel-alvo quando todas as preditoras s√£o zero (ap√≥s a transforma√ß√£o da fun√ß√£o de liga√ß√£o).

**Nota:** Para vari√°veis categ√≥ricas, os coeficientes indicam a diferen√ßa no valor m√©dio da vari√°vel-alvo em rela√ß√£o √† categoria de refer√™ncia.

---

### **2. Distribui√ß√µes e Fun√ß√µes de Liga√ß√£o**
A interpreta√ß√£o exata do coeficiente varia com a fun√ß√£o de liga√ß√£o.

#### **2.1. Regress√£o Log√≠stica (Binomial)**
- **Fun√ß√£o de Liga√ß√£o:** Logit ($logit_p = ln\left(\frac{p}{1-p}\right)$).
- **Interpreta√ß√£o do Coeficiente $\beta$:**
  - O coeficiente indica a mudan√ßa no logaritmo das odds (raz√£o de chances) para cada unidade de aumento na vari√°vel preditora.
  - Para interpret√°-lo como um efeito multiplicativo:
    $
    \text{Odds ratio} = e^\beta
    $
    - Se $e^\beta > 1$: Aumenta a chance do evento.
    - Se $e^\beta < 1$: Reduz a chance do evento.

**Exemplo:**
- Um coeficiente de $0.5$ para a vari√°vel "idade" significa que, para cada ano adicional de idade, a chance do cliente se tornar inadimplente aumenta em $e^{0.5} ‚âà 1.65$ vezes (65% mais prov√°vel).

---

#### **2.2. Regress√£o de Poisson**
- **Fun√ß√£o de Liga√ß√£o:** Logar√≠tmica $\ln(\mu)$.
- **Interpreta√ß√£o do Coeficiente $\beta$:**
  - O coeficiente indica a mudan√ßa no logaritmo da taxa esperada (ou contagem) para cada unidade de aumento na vari√°vel preditora.
  - Para interpret√°-lo diretamente:
    $
    \text{Taxa esperada} = e^\beta
    $
    - Se $e^\beta > 1$: Aumenta a taxa esperada.
    - Se $e^\beta < 1$: Reduz a taxa esperada.

**Exemplo:**
- Um coeficiente de $-0.2$ para "anos de experi√™ncia" indica que, para cada ano adicional, o n√∫mero esperado de sinistros diminui em cerca de $e^{-0.2} ‚âà 0.82$ vezes (18% menor).

---

#### **2.3. Regress√£o Gamma**
- **Fun√ß√£o de Liga√ß√£o:** Logar√≠tmica $\ln(\mu)$.
- **Interpreta√ß√£o do Coeficiente $\beta$:**
  - Similar √† regress√£o de Poisson, mas a vari√°vel-alvo √© cont√≠nua e positiva.
  - Cada unidade adicional na vari√°vel preditora multiplica o valor m√©dio da vari√°vel-alvo por $e^\beta$.

**Exemplo:**
- Um coeficiente de (0.1) para "renda anual" indica que, para cada incremento de unidade, o custo m√©dio do pr√™mio de seguro aumenta em $e^{0.1} \approx 1.11 $ vezes (11% maior).

---

#### **2.4. Regress√£o Linear (Distribui√ß√£o Normal)**
- **Fun√ß√£o de Liga√ß√£o:** Identidade $\mu = X\beta$.
- **Interpreta√ß√£o do Coeficiente $\beta$:**
  - Indica a mudan√ßa absoluta na vari√°vel-alvo para cada unidade de aumento na vari√°vel preditora.

**Exemplo:**
- Um coeficiente de $200$ para "anos de experi√™ncia" significa que, para cada ano adicional, o valor do pr√™mio de seguro aumenta em $200$.

---

### **3. Interpreta√ß√£o de Vari√°veis Categ√≥ricas**
Para vari√°veis categ√≥ricas:
- Os coeficientes representam a diferen√ßa na m√©dia da vari√°vel-alvo em rela√ß√£o √† **categoria de refer√™ncia**.
- Se uma categoria tem coeficiente zero, ela √© a refer√™ncia.

**Exemplo:**
Na vari√°vel "regi√£o" com categorias "norte", "sul", "leste" e "oeste":
- Se "norte" √© a categoria de refer√™ncia, um coeficiente de $0.3$ para "sul" significa que a vari√°vel-alvo √© $e^{0.3} \approx 1.35$ vezes maior para clientes na regi√£o sul em rela√ß√£o √† regi√£o norte.

---

### **4. Interpreta√ß√£o do Intercepto**
- Para vari√°veis cont√≠nuas:
  - O intercepto representa o valor m√©dio da vari√°vel-alvo quando todas as preditoras s√£o zero (ap√≥s a transforma√ß√£o).
- Para vari√°veis categ√≥ricas:
  - Ele representa o valor m√©dio da categoria de refer√™ncia.

---

### **5. Resumo da Interpreta√ß√£o**
| Distribui√ß√£o        | Fun√ß√£o de Liga√ß√£o   | Interpreta√ß√£o do Coeficiente              |
|---------------------|---------------------|-------------------------------------------|
| Binomial (Log√≠stica)| Logit $\ln(p/(1-p))$ | Multiplicativo nas odds (raz√£o de chances) |
| Poisson             | Log $\ln(\mu)$     | Multiplicativo na taxa esperada           |
| Gamma               | Log $\ln(\mu)$     | Multiplicativo na m√©dia esperada          |
| Normal (Linear)     | Identidade $\mu$    | Mudan√ßa absoluta na m√©dia esperada        |

Interpretar coeficientes no GLM ajuda a entender como cada vari√°vel preditora afeta a vari√°vel-alvo, fornecendo insights valiosos para neg√≥cios e seguros.

# Exerc√≠cios

1. Identifica√ß√£o de Componentes
Pergunta: Explique os tr√™s componentes principais de um Modelo Linear Generalizado (GLM):
- Fun√ß√£o de liga√ß√£o.
- Distribui√ß√£o da vari√°vel de resposta.
- Componente linear.

Objetivo: Revisar os fundamentos te√≥ricos do GLM.

---

2. Escolha de Modelos
Pergunta: Qual modelo GLM seria apropriado para cada cen√°rio abaixo? Justifique sua escolha.
1. Modelar o n√∫mero de sinistros por cliente.
2. Prever o custo m√©dio de sinistros em seguros de sa√∫de.
3. Estimar a probabilidade de inadimpl√™ncia em um banco.

Objetivo: Diferenciar entre regress√µes Poisson, Gamma e Log√≠stica.

---

3. Pr√©-processamento de Dados
Pergunta: Com base no DataFrame abaixo, quais vari√°veis devem ser transformadas em vari√°veis dummy antes de ajustar um GLM? Explique por qu√™.

```python
df.head()
```

| idade | renda_anual | anos_experiencia | possui_casa | tipo_veiculo |
|-------|-------------|------------------|-------------|--------------|
| 34    | 75000       | 12               | 1           | sedan        |
| 45    | 62000       | 20               | 0           | suv          |

Objetivo: Introduzir boas pr√°ticas de pr√©-processamento de dados.

---

4. Ajuste de Regress√£o Log√≠stica
Pergunta: Ajuste um modelo de regress√£o log√≠stica para prever a probabilidade de um cliente atrasar um pagamento (`inadimplencia`) com base em:
- Idade.
- Renda anual.
- Anos de experi√™ncia.

Calcule a acur√°cia do modelo no conjunto de teste.

Objetivo: Implementar e avaliar um GLM binomial.

---

5. Regress√£o de Poisson
Pergunta: Ajuste um modelo de regress√£o de Poisson para prever o n√∫mero de sinistros (`sinistros`) com base nas vari√°veis:
- Idade.
- Renda anual.
- Possui casa.

Visualize os valores reais versus preditos e interprete os resultados.

Objetivo: Praticar o ajuste e visualiza√ß√£o de um GLM Poisson.

---

6. Regress√£o Gamma
Pergunta: Use a regress√£o Gamma para modelar o pr√™mio de seguro (`premio_seguro`) com as seguintes vari√°veis:
- Anos de experi√™ncia.
- Tipo de ve√≠culo (use vari√°veis dummy).
- N√∫mero de dependentes.

Avalie o modelo com o Mean Absolute Error (MAE).

Objetivo: Aplicar regress√£o Gamma para dados cont√≠nuos positivos.

---

7. Interpreta√ß√£o de Coeficientes
Pergunta: Considere o modelo ajustado abaixo e explique o que significa um coeficiente de \(0.05\) para `anos_experiencia` na regress√£o de Poisson.

$
\text{ln}(E(y)) = 1.2 + 0.05 \times \text{anos_experiencia}
$

Objetivo: Interpretar coeficientes no contexto de uma regress√£o GLM.

---

8. Escolha da Fun√ß√£o de Liga√ß√£o
Pergunta: Quais crit√©rios voc√™ utilizaria para selecionar a fun√ß√£o de liga√ß√£o adequada em um GLM? Explique com exemplos pr√°ticos.

Objetivo: Entender a import√¢ncia e o impacto da fun√ß√£o de liga√ß√£o.

---

9. Compara√ß√£o entre Modelos
Pergunta: Compare os seguintes modelos ajustados aos mesmos dados:
- Regress√£o Linear.
- Regress√£o Poisson.
- Regress√£o Gamma.

Use m√©tricas como Log-Likelihood e AIC. Qual modelo parece mais apropriado? Por qu√™?

Objetivo: Avaliar a performance relativa de diferentes GLMs.

---

10. Limita√ß√µes dos GLMs
Pergunta: Quais s√£o as limita√ß√µes dos Modelos Lineares Generalizados em rela√ß√£o a:
1. Interpretabilidade.
2. Ajuste em grandes volumes de dados.
3. Intera√ß√µes entre vari√°veis?

Objetivo: Explorar os desafios pr√°ticos de usar GLMs.

---