<a href="https://colab.research.google.com/github/MathMachado/DSWP/blob/master/Notebooks/NB15_ML_SL_GLM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelos Lineares Generalizados (GLM)

## Introdu√ß√£o ao GLM
* O que √© um Modelo Linear Generalizado (GLM)?

    * √â uma extens√£o do modelo de regress√£o linear que permite lidar com vari√°veis de resposta que n√£o seguem uma distribui√ß√£o normal.

* O GLM combina:
    * Previsores lineares: Soma ponderada das vari√°veis independentes.
    * Fun√ß√£o de liga√ß√£o: Relaciona o previsor linear √† vari√°vel de resposta.
    * Distribui√ß√£o da vari√°vel de resposta: Como Binomial, Poisson, Gamma, etc.

* Por que usar GLM?

    * Modelar dados com distribui√ß√µes n√£o normais.
    * Lidar com vari√°veis de resposta cont√≠nuas, discretas ou categ√≥ricas.
    * Tornar os modelos lineares mais flex√≠veis para diferentes problemas.

* Exemplo pr√°tico:

    * Modelar a probabilidade de um cliente comprar um produto (binomial).
    * Prever o n√∫mero de chamadas em um call center por hora (Poisson).
    * Prever o n√∫mero de sinistros para seguradoras (Poisson).


## Explica√ß√£o te√≥rica:

* Um Modelo Linear Generalizado (GLM) estende os modelos lineares simples para cobrir vari√°veis-alvo com distribui√ß√µes diferentes da normal. Ele √© composto por:
    * Um componente linear: ùúÇ = ùõΩ_0 + ùõΩ_1.ùëã_1 + ‚ãØ + ùõΩ_ùëò.ùëã_ùëò.
    * Uma fun√ß√£o de liga√ß√£o que transforma o componente linear para se adequar √† distribui√ß√£o da vari√°vel-alvo.
    * Uma distribui√ß√£o da fam√≠lia exponencial para modelar a vari√°vel-alvo (Binomial, Poisson, Gamma, etc.).

* Aplica√ß√£o pr√°tica em seguros:
    * Modelar o n√∫mero de sinistros por cliente em uma seguradora (distribui√ß√£o Poisson).
    * Prever o custo m√©dio de sinistros para ap√≥lices de seguro sa√∫de (distribui√ß√£o Gamma).

* Aplica√ß√£o pr√°tica em bancos:
    * Modelar a probabilidade de inadimpl√™ncia de um cliente em um empr√©stimo (distribui√ß√£o Binomial, regress√£o log√≠stica).

# Componentes de um GLM
* Fun√ß√£o de liga√ß√£o: Relaciona o componente linear com a m√©dia da distribui√ß√£o da vari√°vel-alvo.

    * Exemplo: Para uma vari√°vel bin√°ria (compra ou n√£o compra de um seguro), a fun√ß√£o de liga√ß√£o logit √© usada.
* Distribui√ß√£o da vari√°vel de resposta:
    * Binomial: Para eventos com sucesso/falha.
    * Poisson: Para contagens ou taxas.
    * Gamma: Para valores cont√≠nuos positivos e assim√©tricos.

* Previsores lineares: Vari√°veis explicativas como idade, renda ou hist√≥rico de cr√©dito.

* Exemplo pr√°tico: Em um banco, a probabilidade de inadimpl√™ncia pode ser modelada com a regress√£o log√≠stica, onde a fun√ß√£o de liga√ß√£o logit transforma a probabilidade em uma escala linear.

# Tipos Comuns de GLM e Aplica√ß√µes
## Regress√£o Log√≠stica (Binomial):

* Seguro: Modelar a probabilidade de renova√ß√£o de uma ap√≥lice.
* Banco: Estimar a chance de um cliente atrasar um pagamento.

## Regress√£o de Poisson:

* Seguro: Modelar o n√∫mero de sinistros por cliente.
* Banco: Estimar o n√∫mero de transa√ß√µes mensais de um cliente.

## Regress√£o Gamma:

* Seguro: Estimar o custo m√©dio de sinistros para seguros de sa√∫de.
* Banco: Prever o valor m√©dio de gastos no cart√£o de cr√©dito.

## Regress√£o Gaussiana (Linear):

* Seguro: Prever o valor total de pr√™mios arrecadados em um per√≠odo.
* Banco: Estimar o valor total de financiamentos concedidos.

# Exemplo
* O dataset a seguir (fict√≠cio e criado usando a library faker) com vari√°veis relevantes para a cobertura de Casco, incluindo fatores de risco para frequ√™ncia e severidade de sinistros.

In [None]:
!pip install faker

In [None]:
import numpy as np
import pandas as pd

# Configurando o gerador de n√∫meros aleat√≥rios
np.random.seed(42)

# Gerando o dataset
n_samples = 50000
years = np.random.choice(range(2012, 2024), n_samples)
months = np.random.choice(range(1, 13), n_samples)

# Criando vari√°veis ajustadas
data = {
    "ano": years,
    "mes": months,
    "idade_condutor": np.random.randint(18, 80, n_samples),
    "experiencia_condutor": np.random.randint(1, 60, n_samples),
    "tipo_veiculo": np.random.choice(["hatch", "sedan", "suv", "pickup", "luxo"], n_samples, p=[0.3, 0.4, 0.2, 0.08, 0.02]),
    "regiao": np.random.choice(["norte", "sul", "leste", "oeste", "centro-oeste"], n_samples),
    "cidade": np.random.choice(["cidade_a", "cidade_b", "cidade_c", "cidade_d", "cidade_e"], n_samples),
    "historico_sinistro": np.random.choice([0, 1], n_samples, p=[0.75, 0.25]),
    "km_rodados_ano": np.random.normal(20000, 6000, n_samples).clip(5000, 60000),
    "cobertura_casco": np.random.normal(70000, 25000, n_samples).clip(20000, 200000),
    "tipo_combustivel": np.random.choice(["gasolina", "diesel", "eletrico", "flex"], n_samples, p=[0.4, 0.3, 0.1, 0.2]),
    "estado_civil": np.random.choice(["solteiro", "casado", "divorciado", "viuvo"], n_samples),
    "genero": np.random.choice(["F", "M"], n_samples, p=[0.4, 0.6]),
    "uso": np.random.choice(["profissional", "pessoal"], n_samples, p=[0.3, 0.7]),
    "idade_veiculo": np.random.choice([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10], n_samples, p=[0.15, 0.15, 0.1, 0.1, 0.1, 0.1, 0.1, 0.05, 0.05, 0.05, 0.05]),
    "numero_de_condutores": np.random.randint(1, 5, n_samples)
}

# Gerando 'frequ√™ncia de sinistros'
data["frequencia_sinistro"] = (
    0.04 * data["idade_condutor"] +
    0.05 * data["experiencia_condutor"] +
    0.1 * data["historico_sinistro"] +
    0.07 * (data["ano"] - 2012) +
    0.2 * (data["tipo_veiculo"] == "luxo").astype(int) +
    0.15 * (data["regiao"] == "sul").astype(int) +
    0.18 * (data["cidade"] == "cidade_e").astype(int) +
    0.1 * (data["uso"] == "profissional").astype(int) +
    np.random.poisson(0.3, n_samples)
)

# Gerando 'severidade dos sinistros'
data["severidade_sinistro"] = (
    5000 +
    0.5 * data["idade_condutor"] +
    0.6 * np.log(data["km_rodados_ano"] + 1) +
    0.8 * (data["tipo_veiculo"] == "pickup").astype(int) +
    0.7 * (data["tipo_combustivel"] == "diesel").astype(int) +
    0.6 * (data["cidade"] == "cidade_e").astype(int) +
    0.5 * data["experiencia_condutor"] +
    0.5 * (data["uso"] == "profissional").astype(int) +
    0.4 * (data["regiao"] == "oeste").astype(int) +
    0.4 * data["idade_veiculo"] +
    0.3 * data["numero_de_condutores"] +
    0.7 * ((data["estado_civil"] == "solteiro") & (data["idade_condutor"] < 24)).astype(int) +
    np.random.normal(0, 800, n_samples)  # Maior dispers√£o
)

# Generating the number of accidents with a Poisson distribution
data["numero_acidentes"] = np.random.poisson(
    lam=(
        0.5
        + 0.03 * data["frequencia_sinistro"]
        + 0.02 * (data["idade_condutor"] < 25).astype(int)
        + 0.05 * (data["uso"] == "profissional").astype(int)
    ),
    size=n_samples,
)

# Criando o DataFrame
df = pd.DataFrame(data)

# Exibindo o DataFrame para o usu√°rio
df.head()

### Detalhes Principais do Conjunto de Dados
* Ano (ano) e M√™s (mes):
    * Representam os componentes temporais para tend√™ncias e sazonalidade.
* Frequ√™ncias:
    * Incluem um aumento linear com o tempo (0,005 * (ano - 2012)).
    * Adicionam sazonalidade usando ondas senoidais para padr√µes mensais.
* Severidade:
    * A gravidade aumenta ao longo do tempo em 1% por ano (1 + 0,01 * (ano - 2012)).

## Step 1: Preparar os dados (Data Preprocessing)

In [None]:
# Creating dummy variables for categorical predictors
df = pd.get_dummies(df, columns=["genero", "regiao", "cidade", "tipo_veiculo", "uso", "tipo_combustivel", "estado_civil"], drop_first=True)


## Step 2: Ajustar os GLMs
### GLM para frequ√™ncia de sinistros (Distribui√ß√£o de Poisson)

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

X_freq = df.drop(columns=['frequencia_sinistro'])
y_freq = df['frequencia_sinistro']

# Convert all columns in X_freq and y_freq to numeric, coercing errors to NaN
X_freq = X_freq.apply(pd.to_numeric, errors='coerce')
y_freq = pd.to_numeric(y_freq, errors='coerce')

# If you have any date columns, convert them to numeric representation:
# For example, if 'ano' and 'mes' are date components:
X_freq['ano'] = pd.to_numeric(X_freq['ano'], errors='coerce')
X_freq['mes'] = pd.to_numeric(X_freq['mes'], errors='coerce')

# Replace infinite values with NaN
X_freq.replace([np.inf, -np.inf], np.nan, inplace=True)
y_freq.replace([np.inf, -np.inf], np.nan, inplace=True)

# --- The Fix Starts Here ---
# Impute missing values using a more robust strategy
for col in X_freq.select_dtypes(include=np.number).columns:
    # Calculate the mean of non-missing values
    col_mean = X_freq[col].dropna().mean()
    # If the mean is not calculable (all values are NaN), use 0
    if pd.isnull(col_mean):
        col_mean = 0
    X_freq[col] = X_freq[col].fillna(col_mean)

# If y_freq is numeric, impute missing values using its mean
if pd.api.types.is_numeric_dtype(y_freq):
    y_freq = y_freq.fillna(y_freq.mean())
else:
    # If y_freq is not numeric, consider a suitable imputation strategy
    # For example, you might impute with the most frequent value
    y_freq = y_freq.fillna(y_freq.mode()[0])
# --- The Fix Ends Here ---

# Add intercept
X_freq = sm.add_constant(X_freq)

# --- The Fix Starts Here ---
# Check for and handle invalid values in y_freq
# If y_freq contains negative values, shift it to be non-negative for Poisson regression
if y_freq.min() < 0:
    print("Warning: y_freq contains negative values. Shifting to be non-negative.")
    y_freq = y_freq - y_freq.min() + 1e-8  # Add a small positive value to avoid zeros
# --- The Fix Ends Here ---

# Explicitly convert all columns in X_freq to numeric dtypes, handling errors
for col in X_freq.select_dtypes(include=['object']).columns:
    try:
        X_freq[col] = pd.to_numeric(X_freq[col])
    except ValueError:
        print(f"Warning: Could not convert column '{col}' to numeric. Trying to convert to category and then to numeric.")
        try:
            # Attempt to convert to categorical and then to numeric codes
            X_freq[col] = X_freq[col].astype('category').cat.codes
        except ValueError:
            print(f"Warning: Could not convert column '{col}' to numeric even after category conversion. Dropping this column.")
            X_freq = X_freq.drop(columns=[col])

# Ensure y_freq is also numeric
y_freq = pd.to_numeric(y_freq, errors='coerce')

X_freq = pd.DataFrame(X_freq.to_numpy(), columns=X_freq.columns, dtype=float)

# Fit the Poisson GLM
model_freq = sm.GLM(y_freq, X_freq, family=sm.families.Poisson())
result_freq = model_freq.fit()

# Display results
print(result_freq.summary())

# Interpreta√ß√£o do modelo de Poisson para Sinistros

A formula√ß√£o de um modelo de Poisson para sinistros √© geralmente representada da seguinte forma:

$$
\ln(\mu_i) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \dots + \beta_pX_p
$$

Onde:
- $\mu_i$: Frequ√™ncia esperada de sinistros para a ap√≥lice \(i\) (n√∫mero de sinistros esperados por unidade de exposi√ß√£o, como anos-segurados).
- $X_1, X_2, \dots, X_p$: Vari√°veis independentes (fatores de risco).
- $\beta_0$: Intercepto do modelo.
- $\beta_1, \beta_2, \dots, \beta_p$: Coeficientes associados √†s vari√°veis independentes.
- A fun√ß√£o de link logar√≠tmica transforma $\mu_i$ para garantir que as predi√ß√µes sejam sempre positivas (pois o n√∫mero esperado de sinistros n√£o pode ser negativo).

---

## **1. Compreens√£o Geral do Modelo**

- **Vari√°vel Dependente:** `frequencia_sinistro` (n√∫mero esperado de sinistros por unidade de exposi√ß√£o).
- **Fam√≠lia do Modelo:** **Poisson**, apropriado para modelar contagens.
- **Link Function:** Logaritmo natural $(\ln)$, garantindo que as predi√ß√µes sejam sempre positivas.
- **N√∫mero de Observa√ß√µes:** 50.000.
- **Log-Likelihood:** -83.955, uma m√©trica √∫til para compara√ß√£o com outros modelos.
- **Pseudo R-squared (CS):** 0.2630, indicando que cerca de 26,3% da varia√ß√£o explicada pode ser atribu√≠da ao modelo (um valor relativamente baixo para indicar bom ajuste).
- **N√∫mero de Itera√ß√µes:** 4, sugerindo que o modelo convergiu rapidamente.

---

## **2. Avalia√ß√£o do Modelo**

- **Deviance:** 4.041,6 ‚Äî mede o ajuste entre os valores observados e preditos. Menores valores indicam melhor ajuste.
- **Pearson Chi-Square:** 4.260 ‚Äî avalia a discrep√¢ncia entre valores observados e preditos. O valor pr√≥ximo √† Deviance sugere consist√™ncia no ajuste.

---

## **3. Interpreta√ß√£o dos Coeficientes**

Os coeficientes no modelo de Poisson s√£o apresentados na escala logar√≠tmica. Para interpretar os impactos diretamente na frequ√™ncia esperada de sinistros, convertemos os coeficientes usando $e^{\text{coef}}$.

---

### **3.1 Intercepto (const)**

- **Coeficiente:** $-32.2560$.
- **Interpreta√ß√£o:** Representa o logaritmo da frequ√™ncia esperada de sinistros na categoria de refer√™ncia para todas as vari√°veis. A frequ√™ncia base esperada √©:

$$
e^{-32.2560} \approx 8.6 \times 10^{-15}
$$

Esse valor muito pequeno sugere que, na aus√™ncia de fatores de risco, a frequ√™ncia √© insignificante, o que √© esperado em modelos de sinistros baseados em exposi√ß√£o.

---

### **3.2 Vari√°veis Cont√≠nuas**

1. **Ano**:
   - **Coeficiente:** $0.0163$ (**significativo, $p < 0.000$**).
   - **Interpreta√ß√£o:** A cada ano adicional, a frequ√™ncia esperada de sinistros aumenta em cerca de $e^{0.0163} \approx 1.016$, ou 1,6%.

2. **Idade do Condutor**:
   - **Coeficiente:** $0.0094$ (**significativo, $p < 0.000$**).
   - **Interpreta√ß√£o:** Cada ano adicional na idade do condutor aumenta a frequ√™ncia esperada em $e^{0.0094} \approx 1.009$, ou 0,9%.

3. **Experi√™ncia do Condutor**:
   - **Coeficiente:** $0.0119$ (**significativo, $p < 0.000$**).
   - **Interpreta√ß√£o:** Cada ano adicional de experi√™ncia aumenta a frequ√™ncia esperada em $e^{0.0119} \approx 1.012$, ou 1,2%.

4. **Hist√≥rico de Sinistro**:
   - **Coeficiente:** $0.0211$ (**significativo, $p < 0.000$**).
   - **Interpreta√ß√£o:** Cada sinistro adicional no hist√≥rico do condutor aumenta a frequ√™ncia esperada de novos sinistros em $e^{0.0211} \approx 1.021$, ou 2,1%.

---

### **3.3 Vari√°veis Categ√≥ricas**

#### Regi√µes
- **Regi√£o Sul:**
  - **Coeficiente:** $0.0299$ (**significativo, $p < 0.000$**).
  - **Interpreta√ß√£o:** Ap√≥lices na Regi√£o Sul apresentam uma frequ√™ncia esperada de sinistros $e^{0.0299} \approx 1.030$, ou 3% maior que a categoria de refer√™ncia.

- **Demais Regi√µes:** Nenhuma outra vari√°vel regional foi significativa ($p > 0.05$).

#### Cidade
- **Cidade E:**
  - **Coeficiente:** $0.0384$ (**significativo, $p < 0.000$**).
  - **Interpreta√ß√£o:** Ap√≥lices nesta cidade t√™m uma frequ√™ncia esperada de sinistros $e^{0.0384} \approx 1.039$, ou 3,9% maior que a cidade de refer√™ncia.

#### Tipo de Ve√≠culo
- **Luxo:**
  - **Coeficiente:** $0.0463$ (**significativo, $p = 0.003$**).
  - **Interpreta√ß√£o:** Ve√≠culos de luxo t√™m uma frequ√™ncia esperada de sinistros $e^{0.0463} \approx 1.047$, ou 4,7% maior que ve√≠culos na categoria de refer√™ncia.

---

### **3.4 Outras Vari√°veis Significativas**

1. **Uso Profissional**:
   - **Coeficiente:** $0.0241$ (**significativo, $p < 0.000$**).
   - **Interpreta√ß√£o:** Ap√≥lices com ve√≠culos de uso profissional apresentam uma frequ√™ncia esperada $e^{0.0241} \approx 1.024$, ou 2,4% maior.

---

### **3.5 Vari√°veis N√£o Significativas**

- **Km Rodados por Ano:** $p = 0.698$
- **Cobertura de Casco:** $p = 0.855$
- **Severidade do Sinistro:** $p = 0.931$
- **Combust√≠vel e Estado Civil:** Nenhuma categoria apresentou signific√¢ncia estat√≠stica ($p > 0.05$).

**Interpreta√ß√£o Geral:**
Essas vari√°veis n√£o tiveram impacto estatisticamente significativo na frequ√™ncia de sinistros. Sugere-se revis√°-las quanto √† qualidade dos dados ou avaliar poss√≠veis intera√ß√µes com outras vari√°veis.

---

## **4. Insights Chave**

1. **Fatores de Risco Importantes:**
   - **Ano, idade do condutor, experi√™ncia do condutor e hist√≥rico de sinistros** t√™m impactos positivos e significativos na frequ√™ncia de sinistros.
   - **Regi√£o Sul, Cidade E, tipo de ve√≠culo (luxo) e uso profissional** tamb√©m aumentam a frequ√™ncia esperada de sinistros.

2. **Fatores Sem Impacto:**
   - Vari√°veis como **km rodados**, **cobertura casco**, **severidade do sinistro**, e **combust√≠vel** n√£o foram significativas.

3. **Recomenda√ß√µes para Melhorias:**
   - **Transforma√ß√£o de Vari√°veis:** Vari√°veis cont√≠nuas, como km rodados, podem se beneficiar de transforma√ß√µes (e.g., logar√≠tmica).
   - **Intera√ß√µes:** Testar intera√ß√µes entre idade e experi√™ncia do condutor, tipo de ve√≠culo e uso profissional, idade e sexo, etc.
   - **Revisar Dados:** Avaliar a qualidade e representatividade dos dados para vari√°veis n√£o significativas.

---

## **5. Conclus√£o**

O modelo ajustado apresenta bons insights sobre os fatores que influenciam a frequ√™ncia de sinistros. Embora o ajuste global (Pseudo R-squared de 26,3%) seja moderado, as vari√°veis significativas capturam rela√ß√µes importantes que podem ser usadas para ajustar pr√™mios de seguro. Contudo, a inclus√£o de intera√ß√µes e modelos alternativos (e.g., Random Forest, XGBoost) pode trazer mais valor ao processo.

### GLM para Severidade (Distribui√ß√£o Gamma)

In [None]:
# Define predictors and target for severity
X_sev = X_freq  # Same predictors
y_sev = df["severidade_sinistro"]

# Fit the Gamma GLM
model_sev = sm.GLM(y_sev, X_sev, family=sm.families.Gamma(link=sm.families.links.log()))
result_sev = model_sev.fit()

# Display results
print(result_sev.summary())


### **1. Compreens√£o Geral do Modelo**
- **Vari√°vel Dependente:** `severidade_sinistro` (valor esperado do custo de um sinistro para uma ap√≥lice).
- **Fam√≠lia do Modelo:** **Gamma** (escolhida para modelar a severidade devido √† natureza cont√≠nua e assim√©trica dos custos).
- **Link Function:** Logaritmo natural ($\ln$), garantindo que as predi√ß√µes sejam sempre positivas.
- **N√∫mero de Observa√ß√µes:** 50.000.
- **Log-Likelihood:** -298,710, usado como m√©trica de ajuste do modelo.
- **Pseudo R-squared (CS):** 1.000, indicando que o modelo captura quase toda a varia√ß√£o explicada nos dados (valores altos podem indicar ajuste "perfeito", mas com risco de overfitting).

---

### **2. Avalia√ß√£o das M√©tricas do Modelo**
- **Deviance:** 18.180 ‚Äî mede o ajuste do modelo. Valores baixos indicam bom ajuste, mas devem ser comparados entre modelos alternativos.
- **Pearson Chi-Square:** 17.4 ‚Äî similar √† deviance, avalia a discrep√¢ncia entre valores observados e preditos.
- **N√∫mero de Itera√ß√µes (IRLS):** 10 ‚Äî o modelo convergiu em um n√∫mero razo√°vel de itera√ß√µes, sugerindo boa estabilidade.

---

### **3. Interpreta√ß√£o dos Coeficientes**
Os coeficientes s√£o interpretados no logaritmo natural devido ao link log. Para entender o impacto das vari√°veis, convertemos os coeficientes usando $e^{\text{coef}}$.

#### **Intercepto (const):**
- **Valor:** $7.4597$.
- **Interpreta√ß√£o:** Representa o logaritmo do valor base da severidade para todas as vari√°veis categ√≥ricas na categoria de refer√™ncia e vari√°veis cont√≠nuas iguais a zero.
- **Severidade Base:** $e^{7.4597} \approx 1,740$. A severidade m√©dia esperada para ap√≥lices na categoria de refer√™ncia √© de aproximadamente R$1.740.

---

#### **Vari√°veis Cont√≠nuas**
1. **Idade do Condutor:**
   - **Coeficiente:** $9.053e-06$ (n√£o significativo com $p = 0.053$).
   - **Interpreta√ß√£o:** Pequeno impacto positivo na severidade. Cada ano adicional de idade aumenta a severidade esperada em cerca de $e^{9.053e-06} \approx 1.000009$, ou seja, quase insignificante.

2. **Hist√≥rico de Sinistro:**
   - **Coeficiente:** $-0.0001$ (n√£o significativo com $p = 0.484$).
   - **Interpreta√ß√£o:** N√£o √© poss√≠vel afirmar que o hist√≥rico de sinistros reduz a severidade com base neste modelo.

3. **N√∫mero de Acidentes:**
   - **Coeficiente:** $-0.0002$ (**significativo com $p = 0.019$**).
   - **Interpreta√ß√£o:** Reduz levemente a severidade esperada. Cada acidente adicional est√° associado a uma redu√ß√£o de cerca de 0.01% na severidade ($e^{-0.0002} \approx 0.9998$).

---

#### **Vari√°veis Categ√≥ricas**
1. **Regi√£o:**
   - Nenhuma das vari√°veis relacionadas √† regi√£o (leste, norte, oeste, sul) mostrou signific√¢ncia estat√≠stica ($p >0.05$).
   - **Conclus√£o:** A localiza√ß√£o geogr√°fica parece n√£o afetar a severidade de sinistros neste modelo.

2. **Cidade:**
   - Nenhuma das vari√°veis categ√≥ricas relacionadas √†s cidades foi significativa ($p > 0.05$).

3. **Tipo de Ve√≠culo:**
   - **Tipo Luxo:** $-5.545e-05$ ($p =0.928$, n√£o significativo).
   - **Tipo Pickup:** $0.0004$ ($p =0.179$, n√£o significativo).
   - **Tipo Sedan:** $-1.138e-05$ ($p =0.955$, n√£o significativo).
   - **Tipo SUV:** $0.0002$ ($p =0.401$, n√£o significativo).
   - **Conclus√£o:** O tipo de ve√≠culo n√£o apresenta evid√™ncias de impacto significativo na severidade.

4. **Tipo de Combust√≠vel:**
   - **Flex:** $0.0002$ ($p =0.427$, n√£o significativo).
   - **Gasolina:** $0.0003$ ($p =0.095$, quase significativo).
   - **Conclus√£o:** Combust√≠veis parecem ter impacto limitado na severidade de sinistros.

5. **Estado Civil:**
   - Nenhuma vari√°vel relacionada ao estado civil foi significativa ($p >0.05$).

---

### **4. Insights Chave**
1. **Vari√°veis Significativas:**
   - Apenas o n√∫mero de acidentes teve signific√¢ncia estat√≠stica ($p =0.019$).
   - O intercepto sugere uma severidade m√©dia esperada alta ($e^{7.4597} \approx R\$1.740$).

2. **Vari√°veis N√£o Significativas:**
   - A maioria das vari√°veis (idade, hist√≥rico de sinistros, tipo de ve√≠culo, tipo de combust√≠vel, etc.) n√£o apresenta signific√¢ncia estat√≠stica. Isso pode indicar:
     - Dados insuficientes para identificar padr√µes claros.
     - Poss√≠vel multicolinearidade entre os preditores.
     - Necessidade de transforma√ß√£o de vari√°veis ou intera√ß√£o.

3. **Ajuste do Modelo:**
   - O modelo apresenta bom ajuste geral com base na Deviance e no Log-Likelihood, mas a signific√¢ncia limitada dos preditores sugere a necessidade de revis√£o.

---

### **5. Recomenda√ß√µes**
1. **Explorar Transforma√ß√µes e Intera√ß√µes:**
   - Verificar se intera√ß√µes (e.g., idade x tipo de ve√≠culo) podem melhorar a explica√ß√£o da severidade.
   - Testar transforma√ß√µes logar√≠tmicas ou categoriza√ß√£o de vari√°veis cont√≠nuas.

2. **Revisar Dados:**
   - Investigar se existem problemas de qualidade ou representatividade nos dados (e.g., valores extremos, multicolinearidade).

3. **Comparar com Outros Modelos:**
   - Ajustar modelos alternativos, como Random Forest ou XGBoost, para verificar se padr√µes n√£o lineares melhor explicam a severidade.

4. **Avaliar Relev√¢ncia Negocial:**
   - Embora muitas vari√°veis sejam estatisticamente n√£o significativas, podem ser relevantes do ponto de vista de neg√≥cio e devem ser consideradas no pr√™mio.

---

# Exerc√≠cios

1. Identifica√ß√£o de Componentes
Pergunta: Explique os tr√™s componentes principais de um Modelo Linear Generalizado (GLM):
- Fun√ß√£o de liga√ß√£o.
- Distribui√ß√£o da vari√°vel de resposta.
- Componente linear.

Objetivo: Revisar os fundamentos te√≥ricos do GLM.

---

2. Escolha de Modelos
Pergunta: Qual modelo GLM seria apropriado para cada cen√°rio abaixo? Justifique sua escolha.
1. Modelar o n√∫mero de sinistros por cliente.
2. Prever o custo m√©dio de sinistros em seguros de sa√∫de.
3. Estimar a probabilidade de inadimpl√™ncia em um banco.

Objetivo: Diferenciar entre regress√µes Poisson, Gamma e Log√≠stica.

---

3. Pr√©-processamento de Dados
Pergunta: Com base no DataFrame abaixo, quais vari√°veis devem ser transformadas em vari√°veis dummy antes de ajustar um GLM? Explique por qu√™.

```python
df.head()
```

| idade | renda_anual | anos_experiencia | possui_casa | tipo_veiculo |
|-------|-------------|------------------|-------------|--------------|
| 34    | 75000       | 12               | 1           | sedan        |
| 45    | 62000       | 20               | 0           | suv          |

Objetivo: Introduzir boas pr√°ticas de pr√©-processamento de dados.

---

4. Ajuste de Regress√£o Log√≠stica
Pergunta: Ajuste um modelo de regress√£o log√≠stica para prever a probabilidade de um cliente atrasar um pagamento (`inadimplencia`) com base em:
- Idade.
- Renda anual.
- Anos de experi√™ncia.

Calcule a acur√°cia do modelo no conjunto de teste.

Objetivo: Implementar e avaliar um GLM binomial.

---

5. Regress√£o de Poisson
Pergunta: Ajuste um modelo de regress√£o de Poisson para prever o n√∫mero de sinistros (`sinistros`) com base nas vari√°veis:
- Idade.
- Renda anual.
- Possui casa.

Visualize os valores reais versus preditos e interprete os resultados.

Objetivo: Praticar o ajuste e visualiza√ß√£o de um GLM Poisson.

---

6. Regress√£o Gamma
Pergunta: Use a regress√£o Gamma para modelar o pr√™mio de seguro (`premio_seguro`) com as seguintes vari√°veis:
- Anos de experi√™ncia.
- Tipo de ve√≠culo (use vari√°veis dummy).
- N√∫mero de dependentes.

Avalie o modelo com o Mean Absolute Error (MAE).

Objetivo: Aplicar regress√£o Gamma para dados cont√≠nuos positivos.

---

7. Interpreta√ß√£o de Coeficientes
Pergunta: Considere o modelo ajustado abaixo e explique o que significa um coeficiente de \(0.05\) para `anos_experiencia` na regress√£o de Poisson.

$
\text{ln}(E(y)) = 1.2 + 0.05 \times \text{anos_experiencia}
$

Objetivo: Interpretar coeficientes no contexto de uma regress√£o GLM.

---

8. Escolha da Fun√ß√£o de Liga√ß√£o
Pergunta: Quais crit√©rios voc√™ utilizaria para selecionar a fun√ß√£o de liga√ß√£o adequada em um GLM? Explique com exemplos pr√°ticos.

Objetivo: Entender a import√¢ncia e o impacto da fun√ß√£o de liga√ß√£o.

---

9. Compara√ß√£o entre Modelos
Pergunta: Compare os seguintes modelos ajustados aos mesmos dados:
- Regress√£o Linear.
- Regress√£o Poisson.
- Regress√£o Gamma.

Use m√©tricas como Log-Likelihood e AIC. Qual modelo parece mais apropriado? Por qu√™?

Objetivo: Avaliar a performance relativa de diferentes GLMs.

---

10. Limita√ß√µes dos GLMs
Pergunta: Quais s√£o as limita√ß√µes dos Modelos Lineares Generalizados em rela√ß√£o a:
1. Interpretabilidade.
2. Ajuste em grandes volumes de dados.
3. Intera√ß√µes entre vari√°veis?

Objetivo: Explorar os desafios pr√°ticos de usar GLMs.

---