# 🎯 Regressão Logística: Classificando o Mundo

## A Matemática que Transforma Números em Decisões!

Fala, galera! Pedro Guth aqui! 🚀

Chegamos no **Módulo 6** do nosso curso "Estatística para IA" e hoje vamos desvendar um dos algoritmos mais elegantes da estatística: a **Regressão Logística**!

Tá, mas o que diabos é isso? Imagina que você tá no Tinder (opa! 😅) e precisa decidir: dar like ou não? A regressão logística é exatamente isso - ela pega um monte de informações e te dá uma probabilidade: "Olha, tem 73% de chance de você curtir esse perfil!"

Nos módulos anteriores, vimos:
- Como descrever dados (Módulo 1)
- Distribuições de probabilidade (Módulo 2) 
- Teorema de Bayes (Módulo 3)
- Regressão Linear (Módulo 4)
- Correlação (Módulo 5)

Agora vamos ver como a **curva sigmoide** transforma qualquer número numa probabilidade entre 0 e 1. Liiindo!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-06_img_01.png)

In [None]:
# Setup inicial - Bora importar as bibliotecas!
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configurações para gráficos mais bonitos
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print "🎯 Bibliotecas carregadas! Bora classificar o mundo!"

## 🤔 Da Regressão Linear para a Logística: O Plot Twist!

Lembra da regressão linear do Módulo 4? Ela era perfeita para prever valores contínuos, tipo: "Quantos R$ vou gastar no açaí esse mês?"

Mas e se a pergunta for: "Vou comprar açaí hoje ou não?" Aí a coisa muda de figura!

A regressão linear pode dar qualquer valor: -50, 2.7, 1000... Mas queremos uma resposta tipo "Sim" ou "Não", que matemáticamente é 1 ou 0.

**O problema:** Como transformar qualquer número numa probabilidade entre 0 e 1?

**A solução:** A função **SIGMOIDE**! 🎪

```mermaid
graph LR
    A[Dados de Entrada] --> B[Combinação Linear]
    B --> C[Função Sigmoide]
    C --> D[Probabilidade 0-1]
    D --> E[Classificação]
```

A regressão logística é como aquele amigo que sempre te dá conselhos em porcentagem: "Cara, tem 80% de chance de dar certo se você fizer isso!"

In [None]:
# Vamos comparar regressão linear vs logística visualmente

# Criando dados sintéticos
np.random.seed(42)
x = np.linspace(-6, 6, 100)

# Regressão linear simples
y_linear = 0.5 * x + 0.5

# Função sigmoide (coração da regressão logística)
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

y_sigmoid = sigmoid(x)

# Plotando a comparação
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Regressão Linear
ax1.plot(x, y_linear, 'b-', linewidth=3, label='Regressão Linear')
ax1.axhline(y=0, color='r', linestyle='--', alpha=0.5, label='Classe 0')
ax1.axhline(y=1, color='g', linestyle='--', alpha=0.5, label='Classe 1')
ax1.set_title('❌ Problema da Regressão Linear\nPode dar valores fora de 0-1!')
ax1.set_xlabel('Variável X')
ax1.set_ylabel('Valor Previsto')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Regressão Logística (Sigmoide)
ax2.plot(x, y_sigmoid, 'r-', linewidth=3, label='Função Sigmoide')
ax2.axhline(y=0, color='r', linestyle='--', alpha=0.5, label='Classe 0')
ax2.axhline(y=1, color='g', linestyle='--', alpha=0.5, label='Classe 1')
ax2.axhline(y=0.5, color='orange', linestyle='--', alpha=0.7, label='Ponto de Decisão')
ax2.set_title('✅ Solução da Regressão Logística\nSempre entre 0 e 1!')
ax2.set_xlabel('Variável X')
ax2.set_ylabel('Probabilidade')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print "🎯 Olha que lindo! A sigmoide sempre fica entre 0 e 1!"

## 📊 A Matemática da Função Sigmoide

Tá, agora vem a parte boa! Vamos descomplicar a matemática da sigmoide.

A função sigmoide é definida como:

$$\sigma(z) = \frac{1}{1 + e^{-z}}$$

Onde:
- $z$ é nossa combinação linear: $z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n$
- $e$ é o número de Euler (≈ 2.718)
- $\sigma(z)$ é nossa probabilidade (sempre entre 0 e 1)

**Por que essa fórmula é genial?**

1. **Quando z → +∞**: $e^{-z} → 0$, então $\sigma(z) → 1$
2. **Quando z → -∞**: $e^{-z} → ∞$, então $\sigma(z) → 0$  
3. **Quando z = 0**: $\sigma(0) = 0.5$ (meio termo)

É como um **tradutor universal**: pega qualquer número e transforma numa probabilidade!

**🧠 Dica do Pedro:** Pensa na sigmoide como aquela rampa de skate em formato de S. Não importa quão alto você vai, sempre vai ficar dentro da pista (entre 0 e 1)!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-06_img_02.png)

In [None]:
# Vamos explorar o comportamento da sigmoide com diferentes valores

def sigmoid_detalhada(z):
    """Função sigmoide com explicação passo a passo"""
    exp_neg_z = np.exp(-z)
    resultado = 1 / (1 + exp_neg_z)
    return resultado, exp_neg_z

# Testando valores específicos
valores_teste = [-5, -2, -1, 0, 1, 2, 5]

print "📊 ANÁLISE DETALHADA DA SIGMOIDE:\n"
print "z\t| e^(-z)\t| σ(z)\t\t| Interpretação"
print "-" * 65

for z in valores_teste:
    prob, exp_val = sigmoid_detalhada(z)
    
    if prob < 0.3:
        interpretacao = "Muito provável classe 0"
    elif prob < 0.7:
        interpretacao = "Incerto (zona cinza)"
    else:
        interpretacao = "Muito provável classe 1"
    
    print f"{z}\t| {exp_val:.3f}\t\t| {prob:.3f}\t\t| {interpretacao}"

print "\n🎯 Repara como a sigmoide 'esmaga' valores extremos para 0 ou 1!"

In [None]:
# Visualizando o comportamento da sigmoide em detalhes

z_range = np.linspace(-8, 8, 1000)
prob_range = sigmoid(z_range)

fig, ax = plt.subplots(figsize=(12, 8))

# Plotando a curva principal
ax.plot(z_range, prob_range, 'b-', linewidth=4, label='σ(z) = 1/(1+e^(-z))')

# Marcando pontos importantes
pontos_importantes = [-4, -2, 0, 2, 4]
for ponto in pontos_importantes:
    prob_ponto = sigmoid(ponto)
    ax.plot(ponto, prob_ponto, 'ro', markersize=10, alpha=0.7)
    ax.annotate(f'z={ponto}\nP={prob_ponto:.3f}', 
                xy=(ponto, prob_ponto), 
                xytext=(ponto, prob_ponto + 0.15),
                ha='center', fontsize=10,
                bbox=dict(boxstyle='round,pad=0.3', facecolor='yellow', alpha=0.7))

# Linhas de referência
ax.axhline(y=0.5, color='orange', linestyle='--', linewidth=2, alpha=0.8, label='Ponto de Decisão (50%)')
ax.axvline(x=0, color='gray', linestyle='--', alpha=0.5)

# Zonas de classificação
ax.fill_between(z_range, 0, prob_range, where=(prob_range < 0.5), 
                alpha=0.2, color='red', label='Zona Classe 0')
ax.fill_between(z_range, prob_range, 1, where=(prob_range > 0.5), 
                alpha=0.2, color='green', label='Zona Classe 1')

ax.set_xlabel('Combinação Linear (z)', fontsize=14)
ax.set_ylabel('Probabilidade σ(z)', fontsize=14)
ax.set_title('🎯 A Curva Sigmoide: Transformando Números em Probabilidades!', fontsize=16)
ax.legend(fontsize=12)
ax.grid(True, alpha=0.3)
ax.set_ylim(-0.05, 1.05)

plt.tight_layout()
plt.show()

print "🚀 A sigmoide é como um GPS da classificação - sempre te mostra onde você tá!"

## 🎲 Odds, Log-Odds e a Transformação Logit

Agora vamos conectar com conceitos de probabilidade que vimos no Módulo 2! 

**Odds (Razão de Chances):**

Se a probabilidade de algo acontecer é $p$, então:

$$\text{Odds} = \frac{p}{1-p}$$

Exemplo: Se tem 70% de chance de chover (p = 0.7), então:
- Odds = 0.7 / (1-0.7) = 0.7 / 0.3 = 2.33
- Ou seja: "2.33 para 1" - pra cada 2.33 vezes que chove, 1 vez não chove

**Log-Odds (Logit):**

$$\text{Logit}(p) = \ln\left(\frac{p}{1-p}\right)$$

E aqui vem a mágica! Se aplicarmos a função sigmoide no logit, voltamos para a probabilidade:

$$p = \frac{1}{1 + e^{-\text{logit}(p)}}$$

É como se a sigmoide fosse a **função inversa** do logit!

**🧠 Dica do Pedro:** Pensa assim - o logit "estica" as probabilidades de 0-1 para -∞ a +∞, e a sigmoide "comprime" de volta para 0-1. É como uma sanfona matemática!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-06_img_03.png)

In [None]:
# Explorando a relação entre probabilidade, odds e logit

def calcular_odds_logit(probabilidade):
    """Calcula odds e logit a partir da probabilidade"""
    odds = probabilidade / (1 - probabilidade)
    logit = np.log(odds)
    return odds, logit

def probabilidade_de_logit(logit):
    """Volta da logit para probabilidade (função sigmoide)"""
    return 1 / (1 + np.exp(-logit))

# Testando algumas probabilidades
probabilidades = [0.1, 0.3, 0.5, 0.7, 0.9, 0.95, 0.99]

print "🎲 TRANSFORMAÇÕES ENTRE PROBABILIDADE, ODDS E LOGIT:\n"
print "Prob\t| Odds\t\t| Logit\t\t| Prob (volta)\t| Interpretação"
print "-" * 80

for p in probabilidades:
    odds, logit = calcular_odds_logit(p)
    p_volta = probabilidade_de_logit(logit)
    
    if p < 0.5:
        interpretacao = "Favorece classe 0"
    elif p == 0.5:
        interpretacao = "Neutro"
    else:
        interpretacao = "Favorece classe 1"
    
    print f"{p:.2f}\t| {odds:.3f}\t\t| {logit:.3f}\t\t| {p_volta:.3f}\t\t| {interpretacao}"

print "\n🎯 Repara: logit = 0 quando probabilidade = 0.5 (ponto neutro)!"

In [None]:
# Visualizando as três representações juntas

p_range = np.linspace(0.01, 0.99, 100)  # Evitando 0 e 1 por causa do log
odds_range = p_range / (1 - p_range)
logit_range = np.log(odds_range)

fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 12))

# 1. Probabilidade vs Odds
ax1.plot(p_range, odds_range, 'b-', linewidth=3)
ax1.set_xlabel('Probabilidade')
ax1.set_ylabel('Odds')
ax1.set_title('Probabilidade → Odds')
ax1.grid(True, alpha=0.3)
ax1.axhline(y=1, color='r', linestyle='--', alpha=0.7, label='Odds = 1 (50/50)')
ax1.legend()

# 2. Probabilidade vs Logit
ax2.plot(p_range, logit_range, 'g-', linewidth=3)
ax2.set_xlabel('Probabilidade')
ax2.set_ylabel('Logit')
ax2.set_title('Probabilidade → Logit')
ax2.grid(True, alpha=0.3)
ax2.axhline(y=0, color='r', linestyle='--', alpha=0.7, label='Logit = 0 (P=0.5)')
ax2.legend()

# 3. Logit vs Probabilidade (Sigmoide)
logit_input = np.linspace(-5, 5, 100)
prob_output = sigmoid(logit_input)
ax3.plot(logit_input, prob_output, 'r-', linewidth=3)
ax3.set_xlabel('Logit')
ax3.set_ylabel('Probabilidade')
ax3.set_title('Logit → Probabilidade (Sigmoide)')
ax3.grid(True, alpha=0.3)
ax3.axvline(x=0, color='orange', linestyle='--', alpha=0.7, label='Ponto de decisão')
ax3.axhline(y=0.5, color='orange', linestyle='--', alpha=0.7)
ax3.legend()

# 4. Comparação das três escalas
idx_samples = np.linspace(10, 90, 9).astype(int)
ax4.plot(p_range[idx_samples], p_range[idx_samples], 'bo-', label='Probabilidade', markersize=8)
ax4.plot(p_range[idx_samples], odds_range[idx_samples]/10, 'ro-', label='Odds/10', markersize=8)
ax4.plot(p_range[idx_samples], (logit_range[idx_samples]+5)/10, 'go-', label='(Logit+5)/10', markersize=8)
ax4.set_xlabel('Probabilidade Original')
ax4.set_ylabel('Valores Normalizados')
ax4.set_title('Comparação das Três Escalas')
ax4.legend()
ax4.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print "🔄 Essas transformações são a base da regressão logística!"

## 🏗️ Construindo o Modelo de Regressão Logística

Agora vamos juntar todas as peças! A regressão logística combina:

1. **Combinação linear** (como na regressão linear do Módulo 4)
2. **Função sigmoide** (para garantir probabilidades entre 0 e 1)

O modelo completo é:

$$P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n)}}$$

Onde:
- $P(y=1|x)$ = Probabilidade da classe 1 dado o input x
- $\beta_0$ = Intercepto (viés)
- $\beta_1, \beta_2, ..., \beta_n$ = Coeficientes das features
- $x_1, x_2, ..., x_n$ = Valores das features

**Como interpretar os coeficientes?**

- Se $\beta_i > 0$: aumentar $x_i$ **aumenta** a probabilidade da classe 1
- Se $\beta_i < 0$: aumentar $x_i$ **diminui** a probabilidade da classe 1
- Quanto maior $|\beta_i|$, maior a influência da feature $x_i$

**🧠 Dica do Pedro:** Os coeficientes da regressão logística são como os "pesos" de uma votação. Cada feature vota a favor ou contra a classe 1, e o peso do voto é o coeficiente!

```mermaid
graph TD
    X1[Feature 1] --> L[Combinação Linear]
    X2[Feature 2] --> L
    X3[Feature 3] --> L
    B0[Intercepto β₀] --> L
    L --> S[Função Sigmoide]
    S --> P[Probabilidade]
    P --> D{P > 0.5?}
    D -->|Sim| C1[Classe 1]
    D -->|Não| C0[Classe 0]
```

In [None]:
# Vamos implementar regressão logística do zero!

class RegressaoLogisticaDoZero:
    def __init__(self, learning_rate=0.01, max_iter=1000):
        self.learning_rate = learning_rate
        self.max_iter = max_iter
        self.coef_ = None
        self.intercept_ = None
        self.historico_custo = []
    
    def sigmoid(self, z):
        """Função sigmoide com proteção contra overflow"""
        z = np.clip(z, -500, 500)  # Evita overflow
        return 1 / (1 + np.exp(-z))
    
    def fit(self, X, y):
        """Treina o modelo usando gradient descent"""
        n_samples, n_features = X.shape
        
        # Inicializa coeficientes com zeros
        self.coef_ = np.zeros(n_features)
        self.intercept_ = 0
        
        # Gradient descent
        for i in range(self.max_iter):
            # Combinação linear
            z = np.dot(X, self.coef_) + self.intercept_
            
            # Probabilidades
            y_pred = self.sigmoid(z)
            
            # Função de custo (log-likelihood negativa)
            custo = -np.mean(y * np.log(y_pred + 1e-15) + (1 - y) * np.log(1 - y_pred + 1e-15))
            self.historico_custo.append(custo)
            
            # Gradientes
            erro = y_pred - y
            grad_coef = np.dot(X.T, erro) / n_samples
            grad_intercept = np.mean(erro)
            
            # Atualiza parâmetros
            self.coef_ -= self.learning_rate * grad_coef
            self.intercept_ -= self.learning_rate * grad_intercept
    
    def predict_proba(self, X):
        """Retorna probabilidades"""
        z = np.dot(X, self.coef_) + self.intercept_
        return self.sigmoid(z)
    
    def predict(self, X):
        """Retorna classificações (0 ou 1)"""
        return (self.predict_proba(X) >= 0.5).astype(int)

print "🛠️ Classe RegressaoLogisticaDoZero implementada!"
print "Agora temos nosso próprio algoritmo de classificação! 🚀"

In [None]:
# Vamos criar um dataset sintético para testar

np.random.seed(42)

# Criando dados: "Vai chover hoje?"
# Features: umidade, temperatura, pressão
n_samples = 1000

umidade = np.random.normal(60, 20, n_samples)  # 0-100%
temperatura = np.random.normal(25, 8, n_samples)  # Celsius
pressao = np.random.normal(1013, 50, n_samples)  # hPa

# Criando a variável alvo com base numa lógica
# Mais chuva com: alta umidade, baixa temperatura, baixa pressão
z_real = -5 + 0.1 * umidade - 0.2 * temperatura - 0.01 * pressao
prob_chuva = 1 / (1 + np.exp(-z_real))
chuva = np.random.binomial(1, prob_chuva)

# Montando o dataset
X = np.column_stack([umidade, temperatura, pressao])
y = chuva

# Normalizando features (importante para convergência)
X_norm = (X - X.mean(axis=0)) / X.std(axis=0)

# Dividindo em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X_norm, y, test_size=0.3, random_state=42)

print f"📊 Dataset criado:"
print f"   • {len(X_train)} amostras de treino"
print f"   • {len(X_test)} amostras de teste"
print f"   • {X.shape[1]} features: umidade, temperatura, pressão"
print f"   • Target: vai chover? (0=não, 1=sim)"
print f"   • Proporção de chuva: {y.mean():.1%}"

# Visualizando as correlações
df = pd.DataFrame({
    'Umidade': umidade,
    'Temperatura': temperatura, 
    'Pressão': pressao,
    'Chuva': chuva
})

correlacoes = df.corr()['Chuva'].sort_values(ascending=False)
print f"\n🔍 Correlações com a chuva:"
for feature, corr in correlacoes.items():
    if feature != 'Chuva':
        print f"   • {feature}: {corr:.3f}")

In [None]:
# Treinando nosso modelo do zero

print "🚀 Treinando regressão logística do zero...\n"

# Nosso modelo
modelo_proprio = RegressaoLogisticaDoZero(learning_rate=0.1, max_iter=1000)
modelo_proprio.fit(X_train, y_train)

# Modelo do sklearn para comparação
modelo_sklearn = LogisticRegression(max_iter=1000)
modelo_sklearn.fit(X_train, y_train)

# Fazendo previsões
y_pred_proprio = modelo_proprio.predict(X_test)
y_pred_sklearn = modelo_sklearn.predict(X_test)

y_proba_proprio = modelo_proprio.predict_proba(X_test)
y_proba_sklearn = modelo_sklearn.predict_proba(X_test)[:, 1]

# Calculando acurácias
acc_proprio = accuracy_score(y_test, y_pred_proprio)
acc_sklearn = accuracy_score(y_test, y_pred_sklearn)

print f"📊 RESULTADOS:\n"
print f"Acurácia modelo próprio: {acc_proprio:.1%}"
print f"Acurácia sklearn:        {acc_sklearn:.1%}\n"

print f"🔧 COEFICIENTES APRENDIDOS:\n"
features = ['Umidade', 'Temperatura', 'Pressão']
print f"Feature\t\t| Nosso Modelo\t| Sklearn\t| Interpretação")
print "-" * 70
print f"Intercepto\t| {modelo_proprio.intercept_:.3f}\t\t| {modelo_sklearn.intercept_[0]:.3f}\t\t| Viés base")

for i, feature in enumerate(features):
    coef_proprio = modelo_proprio.coef_[i]
    coef_sklearn = modelo_sklearn.coef_[0][i]
    
    if coef_proprio > 0:
        interpretacao = "↑ Favorece chuva"
    else:
        interpretacao = "↓ Desfavorece chuva"
    
    print f"{feature}\t\t| {coef_proprio:.3f}\t\t| {coef_sklearn:.3f}\t\t| {interpretacao}")

print "\n🎯 Nosso modelo aprendeu praticamente a mesma coisa que o sklearn!"

In [None]:
# Visualizando o processo de aprendizado

fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 12))

# 1. Curva de aprendizado (função de custo)
ax1.plot(modelo_proprio.historico_custo, 'b-', linewidth=2)
ax1.set_xlabel('Iterações')
ax1.set_ylabel('Função de Custo')
ax1.set_title('📈 Convergência do Algoritmo')
ax1.grid(True, alpha=0.3)

# 2. Comparação de probabilidades
ax2.scatter(y_proba_sklearn, y_proba_proprio, alpha=0.6, s=20)
ax2.plot([0, 1], [0, 1], 'r--', linewidth=2, label='Perfeita concordância')
ax2.set_xlabel('Probabilidades Sklearn')
ax2.set_ylabel('Probabilidades Nosso Modelo')
ax2.set_title('🎯 Comparação de Probabilidades')
ax2.legend()
ax2.grid(True, alpha=0.3)

# 3. Distribuição de probabilidades por classe
prob_chuva_sim = y_proba_proprio[y_test == 1]
prob_chuva_nao = y_proba_proprio[y_test == 0]

ax3.hist(prob_chuva_nao, bins=20, alpha=0.7, label='Não choveu', color='orange', density=True)
ax3.hist(prob_chuva_sim, bins=20, alpha=0.7, label='Choveu', color='blue', density=True)
ax3.axvline(x=0.5, color='red', linestyle='--', linewidth=2, label='Ponto de decisão')
ax3.set_xlabel('Probabilidade Prevista')
ax3.set_ylabel('Densidade')
ax3.set_title('🌧️ Distribuição de Probabilidades')
ax3.legend()
ax3.grid(True, alpha=0.3)

# 4. Matriz de confusão
cm = confusion_matrix(y_test, y_pred_proprio)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=ax4,
            xticklabels=['Não Chuva', 'Chuva'],
            yticklabels=['Não Chuva', 'Chuva'])
ax4.set_xlabel('Predição')
ax4.set_ylabel('Real')
ax4.set_title('🎲 Matriz de Confusão')

plt.tight_layout()
plt.show()

print "✅ Modelo treinado com sucesso! Ele aprendeu a prever chuva! 🌧️"

## 🎯 Exemplo Prático: Classificador de E-mails Spam

Lembra do Teorema de Bayes do Módulo 3? Agora vamos usar regressão logística para detectar spam!

A vantagem da regressão logística sobre Bayes Naive é que ela pode capturar **interações entre features** e não assume independência entre elas.

Vamos simular um detector de spam baseado em:
- Número de palavras em MAIÚSCULO
- Número de exclamações (!!!)
- Presença de palavras como "GRÁTIS", "OFERTA"
- Tamanho do assunto

**🧠 Dica do Pedro:** Na vida real, usaríamos técnicas como TF-IDF (Term Frequency-Inverse Document Frequency) para extrair features de texto. Mas aqui vamos simplificar para focar na regressão logística!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-06_img_04.png)

In [None]:
# Criando dataset de emails sintético

np.random.seed(42)

def gerar_email_features(is_spam, n_emails):
    """Gera features de email baseado em se é spam ou não"""
    emails = []
    
    for _ in range(n_emails):
        if is_spam:
            # Emails spam têm mais características "gritantes"
            palavras_maiusculo = np.random.poisson(8)  # Média 8 palavras em maiúsculo
            num_exclamacoes = np.random.poisson(5)     # Média 5 exclamações
            palavras_spam = np.random.poisson(3)       # Média 3 palavras de spam
            tamanho_assunto = np.random.normal(45, 15) # Assuntos mais longos
        else:
            # Emails legítimos são mais "comportados"
            palavras_maiusculo = np.random.poisson(1)  # Média 1 palavra em maiúsculo
            num_exclamacoes = np.random.poisson(0.5)   # Média 0.5 exclamações
            palavras_spam = 0                          # Sem palavras de spam
            tamanho_assunto = np.random.normal(25, 10) # Assuntos mais curtos
        
        emails.append([
            max(0, palavras_maiusculo),
            max(0, num_exclamacoes), 
            max(0, palavras_spam),
            max(5, tamanho_assunto)  # Assunto mínimo de 5 caracteres
        ])
    
    return np.array(emails)

# Gerando dataset
n_spam = 800
n_legit = 1200

emails_spam = gerar_email_features(True, n_spam)
emails_legit = gerar_email_features(False, n_legit)

# Juntando tudo
X_emails = np.vstack([emails_spam, emails_legit])
y_emails = np.hstack([np.ones(n_spam), np.zeros(n_legit)])

# Embaralhando
indices = np.random.permutation(len(X_emails))
X_emails = X_emails[indices]
y_emails = y_emails[indices]

# Normalizando
X_emails_norm = (X_emails - X_emails.mean(axis=0)) / X_emails.std(axis=0)

print f"📧 Dataset de emails criado:"
print f"   • {len(X_emails)} emails totais"
print f"   • {n_spam} spam ({n_spam/len(X_emails):.1%})"
print f"   • {n_legit} legítimos ({n_legit/len(X_emails):.1%})"
print f"\n📊 Features:")
features_email = ['Palavras MAIÚSCULO', 'Exclamações', 'Palavras Spam', 'Tamanho Assunto']
for i, feature in enumerate(features_email):
    spam_avg = X_emails[y_emails == 1, i].mean()
    legit_avg = X_emails[y_emails == 0, i].mean()
    print f"   • {feature}: Spam={spam_avg:.1f}, Legít={legit_avg:.1f}")

In [None]:
# Treinando detector de spam

# Dividindo dataset
X_train_email, X_test_email, y_train_email, y_test_email = train_test_split(
    X_emails_norm, y_emails, test_size=0.3, random_state=42, stratify=y_emails
)

# Treinando modelo
detector_spam = LogisticRegression(random_state=42)
detector_spam.fit(X_train_email, y_train_email)

# Fazendo previsões
y_pred_email = detector_spam.predict(X_test_email)
y_proba_email = detector_spam.predict_proba(X_test_email)[:, 1]

# Avaliando performance
from sklearn.metrics import classification_report, precision_score, recall_score

accuracy = accuracy_score(y_test_email, y_pred_email)
precision = precision_score(y_test_email, y_pred_email)
recall = recall_score(y_test_email, y_pred_email)

print f"🚀 DETECTOR DE SPAM TREINADO!\n"
print f"📊 Performance:")
print f"   • Acurácia:  {accuracy:.1%} (% de emails classificados corretamente)")
print f"   • Precisão:  {precision:.1%} (% dos emails marcados como spam que realmente são)")
print f"   • Recall:    {recall:.1%} (% dos spams reais que foram detectados)\n")

print f"🔍 Importância das Features:")
for i, (feature, coef) in enumerate(zip(features_email, detector_spam.coef_[0])):
    if coef > 0:
        efeito = f"↑ Aumenta chance de spam em {np.exp(coef):.2f}x"
    else:
        efeito = f"↓ Diminui chance de spam em {np.exp(-coef):.2f}x"
    
    print f"   • {feature}: {coef:.3f} - {efeito}")

print f"\n🎯 Intercepto: {detector_spam.intercept_[0]:.3f}")
print f"   (Probabilidade base quando todas as features são 0)")

In [None]:
# Testando o detector com exemplos específicos

def testar_email(palavras_maiusculo, exclamacoes, palavras_spam, tamanho_assunto, descricao):
    """Testa um email específico no detector"""
    # Criando o vetor de features
    email_features = np.array([[palavras_maiusculo, exclamacoes, palavras_spam, tamanho_assunto]])
    
    # Normalizando usando os mesmos parâmetros do treino
    email_norm = (email_features - X_emails.mean(axis=0)) / X_emails.std(axis=0)
    
    # Fazendo previsão
    probabilidade = detector_spam.predict_proba(email_norm)[0, 1]
    classificacao = "SPAM" if probabilidade > 0.5 else "LEGÍTIMO"
    
    print f"📧 {descricao}:")
    print f"   Features: {palavras_maiusculo} maiúsc, {exclamacoes} !, {palavras_spam} spam, {tamanho_assunto} chars")
    print f"   Probabilidade SPAM: {probabilidade:.1%}")
    print f"   Classificação: {classificacao}\n")
    
    return probabilidade

print "🧪 TESTANDO O DETECTOR COM EMAILS ESPECÍFICOS:\n"

# Teste 1: Email claramente spam
testar_email(
    palavras_maiusculo=12,
    exclamacoes=8, 
    palavras_spam=5,
    tamanho_assunto=60,
    descricao="Email suspeito #1"
)

# Teste 2: Email legítimo
testar_email(
    palavras_maiusculo=0,
    exclamacoes=0,
    palavras_spam=0, 
    tamanho_assunto=20,
    descricao="Email profissional"
)

# Teste 3: Email no meio termo
testar_email(
    palavras_maiusculo=3,
    exclamacoes=2,
    palavras_spam=1,
    tamanho_assunto=35,
    descricao="Email promocional"
)

# Teste 4: Email legítimo mas entusiasmado
testar_email(
    palavras_maiusculo=2,
    exclamacoes=3,
    palavras_spam=0,
    tamanho_assunto=25,
    descricao="Email de amigo empolgado"
)

print "🎯 O modelo conseguiu distinguir bem os diferentes tipos de email!"

## 📈 Visualizando a Fronteira de Decisão

Uma das coisas mais legais da regressão logística é que podemos visualizar como ela separa as classes!

A **fronteira de decisão** é onde a probabilidade = 0.5, ou seja, onde o modelo fica "em dúvida" entre as duas classes.

Matematicamente, isso acontece quando:
$$\beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n = 0$$

Para duas dimensões, a fronteira de decisão é uma **linha reta**:
$$x_2 = -\frac{\beta_0 + \beta_1 x_1}{\beta_2}$$

**🧠 Dica do Pedro:** A regressão logística sempre cria fronteiras de decisão **lineares**. Se seus dados precisam de fronteiras curvas, você vai precisar de técnicas mais avançadas como SVM com kernel ou redes neurais!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-06_img_05.png)

In [None]:
# Visualizando fronteira de decisão em 2D

# Vamos usar apenas 2 features para visualizar facilmente
# Escolhendo as 2 features mais importantes do detector de spam
feature_indices = np.argsort(np.abs(detector_spam.coef_[0]))[-2:]  # 2 maiores coeficientes
feature_names_selected = [features_email[i] for i in feature_indices]

print f"🎯 Visualizando com as 2 features mais importantes:")
for i, (idx, name) in enumerate(zip(feature_indices, feature_names_selected)):
    print f"   {i+1}. {name} (coef: {detector_spam.coef_[0][idx]:.3f})")

# Dados 2D
X_2d = X_emails_norm[:, feature_indices]
X_train_2d, X_test_2d, y_train_2d, y_test_2d = train_test_split(
    X_2d, y_emails, test_size=0.3, random_state=42, stratify=y_emails
)

# Treinando modelo 2D
modelo_2d = LogisticRegression(random_state=42)
modelo_2d.fit(X_train_2d, y_train_2d)

# Criando grade para visualização
h = 0.1  # Resolução da grade
x_min, x_max = X_2d[:, 0].min() - 1, X_2d[:, 0].max() + 1
y_min, y_max = X_2d[:, 1].min() - 1, X_2d[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))

# Previsões na grade
Z = modelo_2d.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]
Z = Z.reshape(xx.shape)

# Plot
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gráfico 1: Mapa de probabilidades
contour = ax1.contourf(xx, yy, Z, levels=50, alpha=0.8, cmap='RdYlBu')
scatter = ax1.scatter(X_2d[:, 0], X_2d[:, 1], c=y_emails, 
                     cmap='RdYlBu', edgecolors='black', alpha=0.7)

# Linha de decisão (probabilidade = 0.5)
ax1.contour(xx, yy, Z, levels=[0.5], colors='white', linestyles='--', linewidths=3)

plt.colorbar(contour, ax=ax1, label='Probabilidade de SPAM')
ax1.set_xlabel(f'{feature_names_selected[0]} (normalizado)')
ax1.set_ylabel(f'{feature_names_selected[1]} (normalizado)')
ax1.set_title('🎯 Mapa de Probabilidades + Fronteira de Decisão')

# Gráfico 2: Apenas fronteira de decisão
spam_points = X_2d[y_emails == 1]
legit_points = X_2d[y_emails == 0]

ax2.scatter(legit_points[:, 0], legit_points[:, 1], 
           c='blue', alpha=0.6, label='Legítimo', s=30)
ax2.scatter(spam_points[:, 0], spam_points[:, 1], 
           c='red', alpha=0.6, label='Spam', s=30)

# Fronteira de decisão
ax2.contour(xx, yy, Z, levels=[0.5], colors='black', linestyles='-', linewidths=3)

# Zonas de confiança
ax2.contour(xx, yy, Z, levels=[0.2, 0.8], colors='gray', linestyles='--', alpha=0.5)

ax2.set_xlabel(f'{feature_names_selected[0]} (normalizado)')
ax2.set_ylabel(f'{feature_names_selected[1]} (normalizado)')
ax2.set_title('📧 Classificação de Emails: Spam vs Legítimo')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Calculando equação da fronteira
w0, w1, w2 = modelo_2d.intercept_[0], modelo_2d.coef_[0][0], modelo_2d.coef_[0][1]
print f"\n📐 Equação da fronteira de decisão:")
print f"   {w2:.3f} * {feature_names_selected[1]} = -{w0:.3f} - {w1:.3f} * {feature_names_selected[0]}")
print f"   ou: {feature_names_selected[1]} = {-w0/w2:.3f} + {-w1/w2:.3f} * {feature_names_selected[0]}")

## 🏋️ Exercício Prático: Detector de Clientes Premium

Agora é sua vez! Vamos criar um modelo para prever se um cliente vai virar premium baseado no comportamento dele.

**Cenário:** Você trabalha numa empresa de streaming e quer identificar usuários que têm potencial para assinar o plano premium.

**Features disponíveis:**
- Horas assistidas por semana
- Número de shows/filmes únicos assistidos
- Tempo desde o cadastro (em meses)
- Número de dispositivos usados
- Quantas vezes pulou propagandas

**Seu desafio:**
1. Treinar um modelo de regressão logística
2. Interpretar os coeficientes
3. Fazer previsões para novos usuários
4. Calcular métricas de performance

**🧠 Dica do Pedro:** Pense como um usuário premium se comporta diferente de um gratuito!

In [None]:
# Exercício: Criando dataset de usuários de streaming

np.random.seed(123)

def gerar_usuario_streaming(is_premium, n_usuarios):
    """Gera dados de usuários de streaming"""
    usuarios = []
    
    for _ in range(n_usuarios):
        if is_premium:
            # Usuários premium assistem mais, exploram mais conteúdo
            horas_semana = np.random.normal(25, 8)        # Mais horas
            shows_unicos = np.random.normal(15, 5)        # Mais variedade  
            meses_cadastro = np.random.normal(18, 12)     # Usuários mais antigos
            dispositivos = np.random.poisson(3) + 1      # Mais dispositivos
            pulos_propaganda = np.random.poisson(50)     # Pulam mais ads
        else:
            # Usuários gratuitos têm comportamento mais limitado
            horas_semana = np.random.normal(8, 4)         # Menos horas
            shows_unicos = np.random.normal(5, 3)         # Menos variedade
            meses_cadastro = np.random.normal(6, 6)       # Mais novos
            dispositivos = np.random.poisson(1.5) + 1    # Menos dispositivos
            pulos_propaganda = np.random.poisson(10)     # Pulam menos ads
        
        usuarios.append([
            max(1, horas_semana),        # Mínimo 1 hora
            max(1, shows_unicos),        # Mínimo 1 show
            max(1, meses_cadastro),      # Mínimo 1 mês
            max(1, dispositivos),        # Mínimo 1 dispositivo
            max(0, pulos_propaganda)     # Pode ser 0
        ])
    
    return np.array(usuarios)

# TODO: Complete o código abaixo

# 1. Gere 1000 usuários premium e 2000 usuários gratuitos
usuarios_premium = # SEU CÓDIGO AQUI
usuarios_gratuitos = # SEU CÓDIGO AQUI

# 2. Combine os dados em X e y
X_streaming = # SEU CÓDIGO AQUI
y_streaming = # SEU CÓDIGO AQUI

# 3. Embaralhe os dados
# SEU CÓDIGO AQUI

print "📺 Dataset de streaming criado!")
print f"   • Total de usuários: {len(X_streaming)}")
print f"   • Premium: {y_streaming.sum()} ({y_streaming.mean():.1%})")
print f"   • Gratuitos: {len(y_streaming) - y_streaming.sum()}")

# Nomes das features
features_streaming = [
    'Horas/Semana', 'Shows Únicos', 'Meses Cadastro', 
    'Dispositivos', 'Pulos Propaganda'
]

# 4. Mostre estatísticas por grupo
print "\n📊 Comportamento médio:")
print "Feature\t\t\t| Premium\t| Gratuito\t| Diferença")
print "-" * 60
for i, feature in enumerate(features_streaming):
    # SEU CÓDIGO AQUI - calcule médias para premium e gratuito
    premium_avg = 
    gratuito_avg = 
    diferenca = premium_avg - gratuito_avg
    print f"{feature}\t\t| {premium_avg:.1f}\t\t| {gratuito_avg:.1f}\t\t| +{diferenca:.1f}")

In [None]:
# Exercício: Treinar modelo e avaliar performance

# TODO: Complete as tarefas abaixo

# 1. Normalize as features
X_streaming_norm = # SEU CÓDIGO AQUI

# 2. Divida em treino e teste (70/30)
X_train_stream, X_test_stream, y_train_stream, y_test_stream = # SEU CÓDIGO AQUI

# 3. Treine um modelo de regressão logística
modelo_streaming = # SEU CÓDIGO AQUI
# SEU CÓDIGO AQUI - fit

# 4. Faça previsões
y_pred_stream = # SEU CÓDIGO AQUI
y_proba_stream = # SEU CÓDIGO AQUI

# 5. Calcule métricas
accuracy_stream = # SEU CÓDIGO AQUI
precision_stream = # SEU CÓDIGO AQUI  
recall_stream = # SEU CÓDIGO AQUI

print "🚀 MODELO DE PREDIÇÃO DE USUÁRIOS PREMIUM\n"

print f"📊 Performance do Modelo:"
print f"   • Acurácia:  {accuracy_stream:.1%}"
print f"   • Precisão:  {precision_stream:.1%} (dos marcados como premium, quantos realmente são)"
print f"   • Recall:    {recall_stream:.1%} (dos premium reais, quantos foram detectados)\n")

# 6. Interprete os coeficientes
print f"🔍 Influência de cada Feature:")
print f"Feature\t\t\t| Coeficiente\t| Impacto")
print "-" * 55

for i, (feature, coef) in enumerate(zip(features_streaming, modelo_streaming.coef_[0])):
    # TODO: Calcule o fator multiplicativo (exponencial do coeficiente)
    fator = # SEU CÓDIGO AQUI
    
    if coef > 0:
        impacto = f"↑ +{(fator-1)*100:.0f}% chance premium"
    else:
        impacto = f"↓ -{(1-fator)*100:.0f}% chance premium"
    
    print f"{feature}\t\t| {coef:.3f}\t\t| {impacto}")

print f"\nIntercepto: {modelo_streaming.intercept_[0]:.3f}")
print f"(Chance base quando todas as features são média)")

## 🎯 Resumão: O que Aprendemos sobre Regressão Logística

Ufa! Que jornada! Vamos recapitular os **pontos-chave** da regressão logística:

### 📚 **Conceitos Fundamentais:**

1. **Função Sigmoide**: $\sigma(z) = \frac{1}{1 + e^{-z}}$
   - Transforma qualquer número em probabilidade (0 a 1)
   - Formato de "S" característico
   - Ponto de inflexão em z=0 (probabilidade=0.5)

2. **Modelo Completo**: $P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + ... + \beta_n x_n)}}$
   - Combina regressão linear + função sigmoide
   - Sempre produz probabilidades válidas

3. **Interpretação dos Coeficientes**:
   - $\beta_i > 0$: feature aumenta chance da classe 1
   - $\beta_i < 0$: feature diminui chance da classe 1  
   - $e^{\beta_i}$ = fator multiplicativo nas odds

### 🔗 **Conexões com Módulos Anteriores:**

- **Módulo 2 (Probabilidade)**: Usamos conceitos de odds e probabilidade condicional
- **Módulo 3 (Bayes)**: Comparamos com classificação Naive Bayes  
- **Módulo 4 (Regressão Linear)**: Evolução natural para problemas de classificação
- **Módulo 5 (Correlação)**: Features correlacionadas influenciam os coeficientes

### 🚀 **Preparação para Próximos Módulos:**

- **Módulo 7 (Amostragem)**: Como o tamanho da amostra afeta a qualidade do modelo
- **Módulo 8 (Testes de Hipótese)**: Testar se os coeficientes são significativos
- **Módulo 10 (Validação)**: Métricas como precisão, recall, F1-score para avaliar classificadores

### 💡 **Aplicações Práticas:**

- ✅ Detecção de spam em emails
- ✅ Previsão de churn de clientes  
- ✅ Diagnóstico médico (doente/saudável)
- ✅ Aprovação de crédito
- ✅ Detecção de fraude

**🧠 Dica Final do Pedro:** A regressão logística é como um **juiz matemático** - ela pesa todas as evidências (features) e dá um veredicto probabilístico. É simples, interpretável e funciona muito bem na prática!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-06_img_06.png)

In [None]:
# Código final: Comparação de todos os conceitos

fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(16, 12))

# 1. Evolução: Linear → Logística
x = np.linspace(-4, 4, 100)
y_linear = x
y_logistic = sigmoid(x)

ax1.plot(x, y_linear, 'b--', linewidth=2, label='Regressão Linear', alpha=0.7)
ax1.plot(x, y_logistic, 'r-', linewidth=3, label='Regressão Logística')
ax1.axhline(y=0, color='gray', linestyle='-', alpha=0.3)
ax1.axhline(y=1, color='gray', linestyle='-', alpha=0.3)
ax1.fill_between(x, 0, 1, alpha=0.1, color='green', label='Zona de probabilidades válidas')
ax1.set_xlabel('Combinação Linear (z)')
ax1.set_ylabel('Saída do Modelo')
ax1.set_title('📈 Evolução: Linear → Logística')
ax1.legend()
ax1.grid(True, alpha=0.3)

# 2. Transformações: Probabilidade ↔ Logit
p = np.linspace(0.01, 0.99, 100)
logits = np.log(p / (1 - p))

ax2.plot(p, logits, 'g-', linewidth=3, label='p → logit')
ax2.axhline(y=0, color='r', linestyle='--', alpha=0.7, label='Ponto neutro')
ax2.set_xlabel('Probabilidade')
ax2.set_ylabel('Logit')
ax2.set_title('🔄 Transformação Logit')
ax2.legend()
ax2.grid(True, alpha=0.3)

# 3. Comparação de Performance dos Modelos
modelos = ['Chuva', 'Spam', 'Streaming']
acuracias = [acc_proprio, accuracy, accuracy_stream]  # Substitua pelas suas variáveis

bars = ax3.bar(modelos, acuracias, color=['skyblue', 'lightcoral', 'lightgreen'], alpha=0.8)
ax3.set_ylabel('Acurácia')
ax3.set_title('🏆 Performance dos Modelos')
ax3.set_ylim(0, 1)

# Adicionando valores nas barras
for bar, acc in zip(bars, acuracias):
    height = bar.get_height()
    ax3.text(bar.get_x() + bar.get_width()/2., height + 0.01,
             f'{acc:.1%}', ha='center', va='bottom', fontweight='bold')

ax3.grid(True, alpha=0.3, axis='y')

# 4. Resumo Visual da Sigmoide
z_range = np.linspace(-6, 6, 1000)
prob_range = sigmoid(z_range)

ax4.plot(z_range, prob_range, 'purple', linewidth=4, label='σ(z)')
ax4.fill_between(z_range, 0, prob_range, where=(prob_range < 0.5), 
                alpha=0.3, color='red', label='Classe 0')
ax4.fill_between(z_range, prob_range, 1, where=(prob_range > 0.5), 
                alpha=0.3, color='blue', label='Classe 1')

# Pontos importantes
pontos_z = [-2, 0, 2]
for pz in pontos_z:
    prob = sigmoid(pz)
    ax4.plot(pz, prob, 'ko', markersize=8)
    ax4.annotate(f'({pz}, {prob:.2f})', (pz, prob), 
                xytext=(5, 5), textcoords='offset points', fontsize=10)

ax4.set_xlabel('z (Combinação Linear)')
ax4.set_ylabel('σ(z) (Probabilidade)')
ax4.set_title('🎯 A Função Sigmoide: Coração da Regressão Logística')
ax4.legend()
ax4.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print "\n" + "="*70
print "🎉 PARABÉNS! Você dominou a Regressão Logística!"
print "="*70
print "\n🚀 Próximo destino: Módulo 7 - Amostragem e Erro!"
print "   Vamos aprender como tirar conclusões sobre populações usando amostras!\n"
print "💡 Lembre-se: A regressão logística é sua ferramenta para transformar")
print "   qualquer problema de classificação em probabilidades interpretáveis!\n")
print "🧠 Dica final: Na vida real, sempre valide seus modelos com dados")
print "   que o modelo nunca viu. A matemática é linda, mas a realidade")
print "   é o teste final! 🎯")