### Modelos de Classificação vs. Modelos de Regressão

Como já vimos, modelos de **Regressão Linear** são excelentes para prever valores contínuos, como o preço de um imóvel ou a quantidade de vendas de um produto.

Entretanto, em muitos cenários, queremos prever uma categoria, não um número. Por exemplo:
- Este e-mail é *spam* ou *não spam*?
- Este cliente irá *cancelar* ou *não cancelar* a assinatura?
- O paciente está *doente* ou *saudável*?

Para esses casos, usamos os **Modelos de Classificação**. Eles nos ajudam a classificar uma observação em uma de duas ou mais categorias.

### O que é a Regressão Logística?

Apesar do nome "Regressão", a Regressão Logística é um **modelo de classificação**. Ela é o nosso ponto de partida por ser uma técnica poderosa e fundamental.

A ideia central é modelar a **probabilidade** de uma observação pertencer a uma determinada classe. Por exemplo, a probabilidade de um e-mail ser spam, dado o seu conteúdo.

Para fazer isso, precisamos entender um conceito estatístico chave: **Odds (Chance)**.

<img src="regressao_logistica.png"/>


## Passo 1: Entendendo o Conceito de Odds (Chance)

Em estatística, **Odds** (ou **Chance**, em português) é uma forma de expressar a probabilidade. Ela representa a razão entre a probabilidade de um evento acontecer (sucesso) e a probabilidade de ele não acontecer (fracasso).

A fórmula é bem simples:

$$\text{Odds} = \frac{P}{1 - P}$$

Onde \( P \) é a probabilidade de sucesso.

#### 💡 Exemplo Prático (Matemática Primeiro!)

Vamos supor que a probabilidade de um aluno ser aprovado em um exame é de 80% (ou \( P = 0,8 \)).

Qual é a chance (Odds) de ele ser aprovado?

1.  **Probabilidade de sucesso (P)**: \( 0,8 \)
2.  **Probabilidade de fracasso (1 - P)**: \( 1 - 0,8 = 0,2 \)

Agora, aplicamos a fórmula:

$\text{Odds de Aprovação} = \frac{0,8}{0,2} = 4$

> **Interpretação:** A chance de um aluno ser aprovado é de **4 para 1**. Ou seja, é 4 vezes mais provável que ele seja aprovado do que não seja.

In [1]:
# Agora, vamos replicar o cálculo com Python
p_sucesso = 0.8

# Calculando as Odds
odds = p_sucesso / (1 - p_sucesso)

print(f"A probabilidade de sucesso é: {p_sucesso}")
print(f"As Odds de sucesso são: {odds:.1f} para 1")

A probabilidade de sucesso é: 0.8
As Odds de sucesso são: 4.0 para 1


## Passo 2: A Mágica do Logaritmo - O Log-Odds

Você pode se perguntar: *"Por que não modelamos a probabilidade diretamente?"*

A resposta é que a probabilidade é restrita (entre 0 e 1), mas os modelos lineares (como a base da regressão logística) podem prever qualquer valor de -∞ a +∞. Precisamos de uma forma de "esticar" a escala de probabilidade.

É aqui que entra o **logaritmo natural**! Ao aplicarmos o `log` nas Odds, criamos o **Log-Odds** (ou **Logit**).

$$\text{Log-Odds} = \log(\text{Odds}) = \log\left( \frac{P}{1 - P} \right)$$

O Log-Odds transforma a escala de `(0, 1)` para `(-∞, +∞)`, que é exatamente o que um modelo linear precisa!

**A sacada da Regressão Logística é modelar o Log-Odds como uma combinação linear das nossas variáveis**, assim como na regressão linear simples!

$$\log\left( \frac{P}{1 - P} \right) = z = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n$$

#### 💡 Continuando nosso Exemplo

Já calculamos que as Odds de aprovação são 4. Agora, vamos calcular o Log-Odds.

**Matematicamente:**
$\text{Log-Odds} = \log(4) \approx 1.386$

In [2]:
import numpy as np

# O valor 'z' representa o resultado da equação linear (o Log-Odds)
z = np.log(odds)

print(f"O valor de Log-Odds (z) é: {z:.4f}")

O valor de Log-Odds (z) é: 1.3863


## Passo 3: Revertendo o Processo com a Função Sigmoide

Ótimo! O modelo vai nos dar um valor `z` (o Log-Odds). Mas no final do dia, queremos uma **probabilidade** (algo entre 0 e 1), que é muito mais fácil de interpretar.

Para fazer o caminho de volta (de Log-Odds para Probabilidade), usamos a função inversa, chamada de **Função Sigmoide** (ou Função Logística).

$$P = \frac{1}{1 + e^{-z}}$$

Essa função "espreme" qualquer número real (de -∞ a +∞) para dentro do intervalo `(0, 1)`, resultando em uma curva em formato de "S".

#### 💡 Finalizando nosso Exemplo

Nosso modelo previu um Log-Odds (`z`) de `1.386`. Vamos aplicar a função Sigmoide para encontrar a probabilidade original.

**Matematicamente:**
$P = \frac{1}{1 + e^{-1.386}} = \frac{1}{1 + 0.25} = \frac{1}{1.25} = 0.8$

Chegamos de volta à nossa probabilidade inicial de 80%! Isso mostra que o Log-Odds e a Sigmoide são operações inversas.

In [3]:
# Vamos criar a função sigmoide em Python
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Revertendo o Log-Odds (z) para a probabilidade original
probabilidade_revertida = sigmoid(z)

print(f"O valor de Log-Odds (z) era: {z:.4f}")
print(f"A probabilidade revertida pela função Sigmoide é: {probabilidade_revertida:.1f}")

O valor de Log-Odds (z) era: 1.3863
A probabilidade revertida pela função Sigmoide é: 0.8


## Resumo: A Fórmula Completa da Regressão Logística

Juntando tudo, o modelo de Regressão Logística faz duas coisas:

1.  **Calcula o Log-Odds (z)** como uma função linear das variáveis de entrada $ (x_1, x_2, ...) $:
    $$z = \theta_0 + \theta_1 x_1 + \dots + \theta_n x_n$$

2.  **Aplica a Função Sigmoide** em `z` para obter a probabilidade final da classe ser 1 (sucesso):
    $$\hat{y} = P(y=1) = \sigma(z) = \frac{1}{1 + e^{-z}}$$

### E como o modelo aprende os coeficientes (θ)?

O modelo utiliza um processo de otimização, como o **Gradiente Descendente**, para encontrar os melhores valores para os coeficientes $ \theta_0, \theta_1, \dots, \theta_n $. O objetivo é ajustar esses valores de forma que as probabilidades previstas pelo modelo $ \hat{y} $ fiquem o mais próximo possível dos resultados reais (0 ou 1) no conjunto de dados de treino. Mas isso é um tópico para a nossa próxima aula!

## 📌 Resumo dos Conceitos

| Conceito      | Fórmula                               | O que representa?                          |
|---------------|----------------------------------------|--------------------------------------------|
| Odds (Chance) | $\frac{P}{1 - P}$                 | A razão entre sucesso e fracasso. |
| Log-Odds      | $\log\left( \frac{P}{1 - P} \right)$ | A escala linear que o modelo usa para trabalhar. |
| Sigmoide      | $\frac{1}{1 + e^{-z}}$                | Converte o Log-Odds de volta em probabilidade. |

Espero que esta explicação tenha clareado as coisas! A Regressão Logística é uma ferramenta fantástica e entender sua base matemática te dará muito mais confiança.

**Alguma dúvida até aqui? Qual tópico você gostaria de explorar a seguir? Que tal aplicarmos isso a um conjunto de dados real?**