# 📈 Regressão Linear Simples: A Linha que Tenta Prever o Futuro

## *Módulo 4 - Estatística para IA*

**Pedro Nunes Guth**

---

E aí, pessoal! Bora falar de uma das técnicas mais importantes da estatística e IA? A regressão linear simples é tipo aquele amigo que sempre tenta adivinhar o que vai acontecer baseado no que já rolou antes.

Imagina que você tá tentando prever o preço de um apartamento baseado no tamanho dele. Ou quanto você vai gastar de gasolina baseado na distância que vai viajar. É exatamente isso que a regressão linear faz: ela desenha uma linha no meio dos pontos tentando capturar a relação entre duas variáveis!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-04_img_01.png)

In [None]:
# Setup inicial - bora importar as bibliotecas que vamos usar!
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import seaborn as sns

# Configurando o matplotlib para ficar bonitinho
plt.style.use('default')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

# Para reproduzir os mesmos resultados
np.random.seed(42)

print("Tudo carregado! Bora começar a diversão! 🚀")

## 🎯 O que é Regressão Linear Simples?

Tá, mas o que é regressão linear simples mesmo? É basicamente uma técnica que tenta encontrar a **melhor linha reta** que passa pelos nossos dados. Essa linha vai nos ajudar a fazer previsões!

Pensa assim: você tem um monte de pontos espalhados num gráfico (como chuva de confete no carnaval), e você quer desenhar uma linha reta que "resume" onde esses pontos estão. Essa linha é nossa **linha de regressão**!

### A equação da reta que você aprendeu na escola:

$$y = ax + b$$

Na regressão linear, a gente escreve assim:

$$\hat{y} = \beta_0 + \beta_1 x$$

Onde:
- $\hat{y}$ = valor previsto (o "y chapéu")
- $\beta_0$ = intercepto (onde a linha corta o eixo Y)
- $\beta_1$ = coeficiente angular (inclinação da linha)
- $x$ = variável independente (entrada)

**Dica do Pedro:** Lembra dos módulos anteriores? Aqui vamos usar muito a correlação que estudamos! Se duas variáveis têm correlação forte, a regressão linear vai funcionar melhor!

In [None]:
# Vamos criar dados sintéticos para entender melhor
# Imagine que estamos prevendo o preço de casas baseado no tamanho (em m²)

# Tamanho das casas (variável X)
tamanho_casa = np.array([50, 70, 80, 100, 120, 140, 160, 180, 200, 220])

# Preço das casas (variável Y) - com um pouco de ruído para ficar realista
preco_casa = 2000 * tamanho_casa + 50000 + np.random.normal(0, 20000, len(tamanho_casa))

print("Dados das casas:")
print(f"Tamanhos: {tamanho_casa}")
print(f"Preços: {preco_casa.astype(int)}")

# Vamos visualizar esses dados
plt.figure(figsize=(10, 6))
plt.scatter(tamanho_casa, preco_casa, color='blue', alpha=0.7, s=100)
plt.xlabel('Tamanho da Casa (m²)')
plt.ylabel('Preço da Casa (R$)')
plt.title('Relação entre Tamanho e Preço das Casas')
plt.grid(True, alpha=0.3)
plt.show()

print("\nOlha só! Dá pra ver que existe uma relação entre tamanho e preço, né?")

## 🧮 A Matemática por Trás: Método dos Mínimos Quadrados

Agora vem a parte mais interessante! Como a gente encontra a **melhor linha**? 

A resposta é: usando o **Método dos Mínimos Quadrados**. É tipo um jogo onde você quer minimizar a "raiva" dos pontos em relação à linha.

### O que são os "erros" ou "resíduos"?

Para cada ponto, temos:
- $y_i$ = valor real
- $\hat{y_i}$ = valor previsto pela nossa linha
- $e_i = y_i - \hat{y_i}$ = erro (resíduo)

### A função que queremos minimizar:

$$SSE = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y_i})^2$$

**SSE** = Soma dos Quadrados dos Erros (Sum of Squared Errors)

### As fórmulas mágicas para encontrar β₀ e β₁:

$$\beta_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

$$\beta_0 = \bar{y} - \beta_1\bar{x}$$

Onde $\bar{x}$ e $\bar{y}$ são as médias que estudamos no Módulo 1!

**Dica do Pedro:** Essa fórmula do β₁ é praticamente a covariância dividida pela variância! Lembra desses conceitos? Vamos ver eles mais a fundo no próximo módulo!

In [None]:
# Vamos implementar o cálculo manual dos coeficientes!
# Isso vai nos ajudar a entender a matemática por dentro

def calcular_regressao_manual(x, y):
    """
    Calcula os coeficientes da regressão linear usando as fórmulas matemáticas
    """
    n = len(x)
    
    # Calculando as médias (Módulo 1!)
    x_media = np.mean(x)
    y_media = np.mean(y)
    
    print(f"Média de X (tamanho): {x_media:.2f} m²")
    print(f"Média de Y (preço): {y_media:.2f} R$")
    
    # Calculando β₁ (coeficiente angular)
    numerador = np.sum((x - x_media) * (y - y_media))
    denominador = np.sum((x - x_media) ** 2)
    
    beta_1 = numerador / denominador
    
    # Calculando β₀ (intercepto)
    beta_0 = y_media - beta_1 * x_media
    
    print(f"\nCoeficientes calculados:")
    print(f"β₁ (inclinação): {beta_1:.2f}")
    print(f"β₀ (intercepto): {beta_0:.2f}")
    
    return beta_0, beta_1

# Calculando nossos coeficientes
beta_0, beta_1 = calcular_regressao_manual(tamanho_casa, preco_casa)

print(f"\nInterpretação:")
print(f"- Para cada m² a mais, o preço aumenta R$ {beta_1:.2f}")
print(f"- Uma casa de 0 m² custaria R$ {beta_0:.2f} (intercepto)")

## 📊 Visualizando a Linha de Melhor Ajuste

Agora que temos nossos coeficientes, vamos desenhar a linha de regressão! É aqui que a mágica acontece - vamos ver como nossa linha "tenta" passar o mais próximo possível de todos os pontos.

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-04_img_02.png)

In [None]:
# Vamos criar a linha de regressão usando nossos coeficientes
x_linha = np.linspace(min(tamanho_casa), max(tamanho_casa), 100)
y_linha = beta_0 + beta_1 * x_linha

# Calculando os valores previstos para nossos pontos originais
y_previsto = beta_0 + beta_1 * tamanho_casa

# Criando o gráfico
plt.figure(figsize=(12, 8))

# Pontos originais
plt.scatter(tamanho_casa, preco_casa, color='blue', alpha=0.7, s=100, label='Dados Reais')

# Linha de regressão
plt.plot(x_linha, y_linha, color='red', linewidth=2, label=f'Linha de Regressão: y = {beta_1:.0f}x + {beta_0:.0f}')

# Valores previstos
plt.scatter(tamanho_casa, y_previsto, color='red', alpha=0.5, s=50, label='Valores Previstos')

# Linhas mostrando os erros (resíduos)
for i in range(len(tamanho_casa)):
    plt.plot([tamanho_casa[i], tamanho_casa[i]], [preco_casa[i], y_previsto[i]], 
             color='gray', linestyle='--', alpha=0.5)

plt.xlabel('Tamanho da Casa (m²)')
plt.ylabel('Preço da Casa (R$)')
plt.title('Regressão Linear: Tamanho vs Preço das Casas')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("Liiindo! As linhas cinzas pontilhadas mostram os 'erros' - a diferença entre o valor real e o previsto.")
print("A nossa linha tenta minimizar a soma dos quadrados desses erros!")

## 🔢 Calculando as Métricas de Avaliação

Tá, mas como sabemos se nossa linha é boa? Precisamos de algumas métricas para avaliar!

### 1. Erro Quadrático Médio (MSE - Mean Squared Error):
$$MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y_i})^2$$

### 2. Raiz do Erro Quadrático Médio (RMSE):
$$RMSE = \sqrt{MSE}$$

### 3. Coeficiente de Determinação (R²):
$$R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{\sum(y_i - \hat{y_i})^2}{\sum(y_i - \bar{y})^2}$$

O **R²** vai de 0 a 1:
- R² = 1: Modelo perfeito!
- R² = 0: Modelo não explica nada
- R² = 0.8: Modelo explica 80% da variação dos dados

**Dica do Pedro:** O R² está relacionado com a correlação que vimos antes! Na regressão linear simples, R² = correlação²

In [None]:
# Vamos calcular as métricas de avaliação

def avaliar_modelo(y_real, y_previsto):
    """
    Calcula métricas de avaliação do modelo
    """
    # MSE - Erro Quadrático Médio
    mse = np.mean((y_real - y_previsto) ** 2)
    
    # RMSE - Raiz do Erro Quadrático Médio
    rmse = np.sqrt(mse)
    
    # R² - Coeficiente de Determinação
    ss_res = np.sum((y_real - y_previsto) ** 2)  # Soma dos quadrados dos resíduos
    ss_tot = np.sum((y_real - np.mean(y_real)) ** 2)  # Soma total dos quadrados
    r2 = 1 - (ss_res / ss_tot)
    
    return mse, rmse, r2

# Calculando as métricas
mse, rmse, r2 = avaliar_modelo(preco_casa, y_previsto)

print("📊 MÉTRICAS DE AVALIAÇÃO:")
print(f"MSE (Erro Quadrático Médio): {mse:,.2f}")
print(f"RMSE (Raiz do Erro Quadrático Médio): {rmse:,.2f} R$")
print(f"R² (Coeficiente de Determinação): {r2:.4f}")

print(f"\n📈 INTERPRETAÇÃO:")
print(f"- Em média, nossos erros são de R$ {rmse:,.0f}")
print(f"- Nosso modelo explica {r2*100:.1f}% da variação nos preços!")

# Vamos calcular também a correlação para comparar com R²
correlacao = np.corrcoef(tamanho_casa, preco_casa)[0, 1]
print(f"\n🔗 BONUS - Correlação: {correlacao:.4f}")
print(f"Correlação²: {correlacao**2:.4f} (bem próximo do R²!)")

## 🛠️ Usando o Scikit-learn

Tá bom, agora que entendemos a matemática, vamos ver como fazer isso de forma mais prática usando o scikit-learn! É tipo usar uma calculadora depois de aprender a fazer conta na mão.

```mermaid
graph TD
    A[Dados de Entrada X,Y] --> B[LinearRegression]
    B --> C[Fit - Treinar o Modelo]
    C --> D[Coeficientes β₀, β₁]
    D --> E[Predict - Fazer Previsões]
    E --> F[Métricas de Avaliação]
    F --> G[Modelo Pronto!]
```

**Dica do Pedro:** O sklearn faz exatamente a mesma matemática que implementamos, só que otimizada e mais rápida!

In [None]:
# Usando o scikit-learn para comparar com nosso cálculo manual

# Preparando os dados (sklearn precisa de arrays 2D)
X = tamanho_casa.reshape(-1, 1)  # Variável independente
y = preco_casa  # Variável dependente

# Criando e treinando o modelo
modelo = LinearRegression()
modelo.fit(X, y)

# Obtendo os coeficientes
beta_0_sklearn = modelo.intercept_
beta_1_sklearn = modelo.coef_[0]

# Fazendo previsões
y_previsto_sklearn = modelo.predict(X)

print("🔬 COMPARAÇÃO - Manual vs Scikit-learn:")
print(f"β₀ (intercepto):")
print(f"  Manual: {beta_0:.2f}")
print(f"  Sklearn: {beta_0_sklearn:.2f}")

print(f"\nβ₁ (inclinação):")
print(f"  Manual: {beta_1:.2f}")
print(f"  Sklearn: {beta_1_sklearn:.2f}")

# Métricas usando sklearn
mse_sklearn = mean_squared_error(y, y_previsto_sklearn)
r2_sklearn = r2_score(y, y_previsto_sklearn)

print(f"\n📊 MÉTRICAS (Sklearn):")
print(f"MSE: {mse_sklearn:,.2f}")
print(f"R²: {r2_sklearn:.4f}")

print("\n✅ Perfeito! Os resultados são praticamente idênticos!")

## 🎯 Fazendo Previsões

Agora vem a parte divertida! Vamos usar nosso modelo para prever o preço de casas de tamanhos que não temos nos dados originais.

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-04_img_03.png)

In [None]:
# Vamos fazer algumas previsões interessantes!

def fazer_previsao(tamanho, modelo):
    """
    Faz previsão do preço baseado no tamanho
    """
    tamanho_2d = np.array([[tamanho]])
    preco_previsto = modelo.predict(tamanho_2d)[0]
    return preco_previsto

# Testando alguns tamanhos
tamanhos_teste = [60, 90, 150, 250, 300]

print("🏠 PREVISÕES DE PREÇOS:")
print("-" * 40)

for tamanho in tamanhos_teste:
    preco_pred = fazer_previsao(tamanho, modelo)
    print(f"Casa de {tamanho:3d} m²: R$ {preco_pred:8,.0f}")

# Vamos visualizar essas previsões
plt.figure(figsize=(12, 8))

# Dados originais
plt.scatter(tamanho_casa, preco_casa, color='blue', alpha=0.7, s=100, label='Dados Originais')

# Linha de regressão estendida
x_estendido = np.linspace(40, 320, 100)
y_estendido = modelo.predict(x_estendido.reshape(-1, 1))
plt.plot(x_estendido, y_estendido, color='red', linewidth=2, label='Linha de Regressão')

# Previsões
precos_teste = [fazer_previsao(t, modelo) for t in tamanhos_teste]
plt.scatter(tamanhos_teste, precos_teste, color='green', s=150, marker='^', 
           label='Previsões', edgecolor='black', linewidth=2)

# Anotações das previsões
for i, (tamanho, preco) in enumerate(zip(tamanhos_teste, precos_teste)):
    plt.annotate(f'{tamanho}m²\nR${preco:,.0f}', 
                xy=(tamanho, preco), 
                xytext=(10, 20), textcoords='offset points',
                fontsize=9, ha='center',
                bbox=dict(boxstyle='round,pad=0.3', fc='yellow', alpha=0.7))

plt.xlabel('Tamanho da Casa (m²)')
plt.ylabel('Preço da Casa (R$)')
plt.title('Regressão Linear: Dados Originais + Previsões')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("\n🎯 Atenção: Cuidado com extrapolações muito distantes dos dados originais!")

## 📈 Analisando os Resíduos

Uma parte importante da regressão linear é analisar os **resíduos** (erros). Eles nos contam muito sobre a qualidade do nosso modelo!

### O que queremos ver nos resíduos:
1. **Distribuição Normal** (lembra do Módulo 2?)
2. **Média próxima de zero**
3. **Variância constante** (homocedasticidade)
4. **Sem padrões óbvios**

**Dica do Pedro:** Se os resíduos não seguem esses padrões, pode ser que a regressão linear simples não seja o melhor modelo para os dados!

In [None]:
# Analisando os resíduos do nosso modelo

# Calculando os resíduos
residuos = preco_casa - y_previsto_sklearn

# Criando subplots para várias análises
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Resíduos vs Valores Previstos
axes[0, 0].scatter(y_previsto_sklearn, residuos, alpha=0.7)
axes[0, 0].axhline(y=0, color='red', linestyle='--')
axes[0, 0].set_xlabel('Valores Previstos')
axes[0, 0].set_ylabel('Resíduos')
axes[0, 0].set_title('Resíduos vs Valores Previstos')
axes[0, 0].grid(True, alpha=0.3)

# 2. Histograma dos Resíduos
axes[0, 1].hist(residuos, bins=8, alpha=0.7, color='skyblue', edgecolor='black')
axes[0, 1].axvline(x=0, color='red', linestyle='--')
axes[0, 1].set_xlabel('Resíduos')
axes[0, 1].set_ylabel('Frequência')
axes[0, 1].set_title('Distribuição dos Resíduos')
axes[0, 1].grid(True, alpha=0.3)

# 3. Q-Q Plot (comparando com distribuição normal)
from scipy import stats
stats.probplot(residuos, dist="norm", plot=axes[1, 0])
axes[1, 0].set_title('Q-Q Plot (Normalidade dos Resíduos)')
axes[1, 0].grid(True, alpha=0.3)

# 4. Resíduos vs Ordem (para detectar padrões temporais)
axes[1, 1].scatter(range(len(residuos)), residuos, alpha=0.7)
axes[1, 1].axhline(y=0, color='red', linestyle='--')
axes[1, 1].set_xlabel('Ordem dos Dados')
axes[1, 1].set_ylabel('Resíduos')
axes[1, 1].set_title('Resíduos vs Ordem')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estatísticas dos resíduos
print("📊 ESTATÍSTICAS DOS RESÍDUOS:")
print(f"Média dos resíduos: {np.mean(residuos):,.2f}")
print(f"Desvio padrão dos resíduos: {np.std(residuos):,.2f}")
print(f"Mínimo: {np.min(residuos):,.2f}")
print(f"Máximo: {np.max(residuos):,.2f}")

# Teste de normalidade (Shapiro-Wilk)
shapiro_stat, shapiro_p = stats.shapiro(residuos)
print(f"\n🧪 TESTE DE NORMALIDADE (Shapiro-Wilk):")
print(f"Estatística: {shapiro_stat:.4f}")
print(f"P-valor: {shapiro_p:.4f}")
if shapiro_p > 0.05:
    print("✅ Resíduos seguem distribuição normal (p > 0.05)")
else:
    print("⚠️ Resíduos podem não seguir distribuição normal (p ≤ 0.05)")

## 🎮 Exercício Prático 1: Seu Primeiro Modelo

Agora é sua vez! Vamos criar um dataset de **horas de estudo vs nota na prova** e você vai implementar uma regressão linear do zero!

**Desafio:**
1. Calcule os coeficientes β₀ e β₁ manualmente
2. Faça previsões para 3 valores diferentes
3. Calcule o R²
4. Interprete os resultados

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-04_img_04.png)

In [None]:
# EXERCÍCIO 1: Horas de Estudo vs Nota na Prova

# Dataset: Horas de estudo e notas correspondentes
horas_estudo = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
notas_prova = np.array([4.2, 5.1, 5.8, 6.5, 7.2, 7.8, 8.4, 8.9, 9.1, 9.5])

print("📚 DADOS DO EXERCÍCIO:")
print(f"Horas de Estudo: {horas_estudo}")
print(f"Notas da Prova: {notas_prova}")

# TODO: Sua implementação aqui!
# 1. Calcule β₀ e β₁ usando as fórmulas matemáticas

# Suas variáveis:
# x_media = ?
# y_media = ?
# beta_1 = ?
# beta_0 = ?

print("\n🎯 COMPLETE O EXERCÍCIO ACIMA!")
print("Dica: Use as fórmulas que vimos anteriormente")

# Visualize os dados primeiro
plt.figure(figsize=(10, 6))
plt.scatter(horas_estudo, notas_prova, color='purple', s=100, alpha=0.7)
plt.xlabel('Horas de Estudo')
plt.ylabel('Nota na Prova')
plt.title('Relação: Horas de Estudo vs Nota na Prova')
plt.grid(True, alpha=0.3)
plt.show()

## 🚀 Exemplo Avançado: Dataset Real

Vamos trabalhar com um exemplo mais realista! Vou simular dados de **consumo de combustível vs distância percorrida** de um carro.

Aqui vamos ver como a regressão linear se comporta com dados que têm mais variabilidade, mais próximos da realidade.

In [None]:
# Criando um dataset mais realista: Consumo de Combustível
np.random.seed(123)

# Distância percorrida (km)
distancia_km = np.random.uniform(50, 500, 50)  # 50 viagens diferentes

# Consumo de combustível (litros) - baseado na distância + ruído
# Assumindo um consumo médio de 0.08 litros por km
consumo_base = 0.08 * distancia_km
ruido = np.random.normal(0, 1.5, len(distancia_km))
consumo_litros = consumo_base + ruido
consumo_litros = np.maximum(consumo_litros, 0)  # Garantir que não seja negativo

# Criando DataFrame para melhor visualização
df_combustivel = pd.DataFrame({
    'Distancia_km': distancia_km,
    'Consumo_litros': consumo_litros
})

print("🚗 DATASET DE COMBUSTÍVEL:")
print(df_combustivel.head(10))
print(f"\nTotal de viagens: {len(df_combustivel)}")

# Estatísticas descritivas (Módulo 1!)
print("\n📊 ESTATÍSTICAS DESCRITIVAS:")
print(df_combustivel.describe())

In [None]:
# Análise exploratória dos dados

fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# 1. Gráfico de dispersão
axes[0].scatter(df_combustivel['Distancia_km'], df_combustivel['Consumo_litros'], 
               alpha=0.6, color='green')
axes[0].set_xlabel('Distância (km)')
axes[0].set_ylabel('Consumo (litros)')
axes[0].set_title('Dispersão: Distância vs Consumo')
axes[0].grid(True, alpha=0.3)

# 2. Histograma da distância
axes[1].hist(df_combustivel['Distancia_km'], bins=15, alpha=0.7, color='blue', edgecolor='black')
axes[1].set_xlabel('Distância (km)')
axes[1].set_ylabel('Frequência')
axes[1].set_title('Distribuição das Distâncias')
axes[1].grid(True, alpha=0.3)

# 3. Histograma do consumo
axes[2].hist(df_combustivel['Consumo_litros'], bins=15, alpha=0.7, color='orange', edgecolor='black')
axes[2].set_xlabel('Consumo (litros)')
axes[2].set_ylabel('Frequência')
axes[2].set_title('Distribuição do Consumo')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Calculando a correlação
correlacao_combustivel = df_combustivel['Distancia_km'].corr(df_combustivel['Consumo_litros'])
print(f"\n🔗 CORRELAÇÃO: {correlacao_combustivel:.4f}")
if correlacao_combustivel > 0.8:
    print("✅ Correlação muito forte! Regressão linear deve funcionar bem.")
elif correlacao_combustivel > 0.6:
    print("✅ Correlação forte! Regressão linear é uma boa opção.")
elif correlacao_combustivel > 0.3:
    print("⚠️ Correlação moderada. Regressão linear pode funcionar.")
else:
    print("❌ Correlação fraca. Regressão linear pode não ser a melhor opção.")

In [None]:
# Implementando a regressão linear no dataset de combustível

# Preparando os dados
X_combustivel = df_combustivel['Distancia_km'].values.reshape(-1, 1)
y_combustivel = df_combustivel['Consumo_litros'].values

# Treinando o modelo
modelo_combustivel = LinearRegression()
modelo_combustivel.fit(X_combustivel, y_combustivel)

# Fazendo previsões
y_pred_combustivel = modelo_combustivel.predict(X_combustivel)

# Coeficientes
beta_0_comb = modelo_combustivel.intercept_
beta_1_comb = modelo_combustivel.coef_[0]

print("🚗 RESULTADOS DA REGRESSÃO - COMBUSTÍVEL:")
print(f"β₀ (intercepto): {beta_0_comb:.4f} litros")
print(f"β₁ (inclinação): {beta_1_comb:.4f} litros/km")
print(f"\nInterpretação:")
print(f"- Para cada km rodado, o consumo aumenta {beta_1_comb:.4f} litros")
print(f"- Consumo base (0 km): {beta_0_comb:.2f} litros")

# Métricas de avaliação
mse_comb = mean_squared_error(y_combustivel, y_pred_combustivel)
r2_comb = r2_score(y_combustivel, y_pred_combustivel)
rmse_comb = np.sqrt(mse_comb)

print(f"\n📊 MÉTRICAS:")
print(f"MSE: {mse_comb:.4f}")
print(f"RMSE: {rmse_comb:.4f} litros")
print(f"R²: {r2_comb:.4f} ({r2_comb*100:.1f}% da variação explicada)")

# Visualizando o resultado
plt.figure(figsize=(12, 8))

# Pontos originais
plt.scatter(df_combustivel['Distancia_km'], df_combustivel['Consumo_litros'], 
           alpha=0.6, color='green', s=60, label='Dados Reais')

# Linha de regressão
x_range = np.linspace(df_combustivel['Distancia_km'].min(), 
                     df_combustivel['Distancia_km'].max(), 100)
y_range = modelo_combustivel.predict(x_range.reshape(-1, 1))
plt.plot(x_range, y_range, color='red', linewidth=3, 
         label=f'Regressão: y = {beta_1_comb:.4f}x + {beta_0_comb:.2f}')

plt.xlabel('Distância Percorrida (km)')
plt.ylabel('Consumo de Combustível (litros)')
plt.title(f'Regressão Linear: Consumo vs Distância (R² = {r2_comb:.3f})')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"\n🎯 Modelo final: Consumo = {beta_1_comb:.4f} × Distância + {beta_0_comb:.2f}")

## 🎮 Exercício Prático 2: Análise Completa

Seu desafio final! Vou dar dados de **temperatura vs vendas de sorvete** e você vai fazer uma análise completa:

**Tarefas:**
1. Análise exploratória
2. Implementar regressão linear
3. Avaliar o modelo
4. Analisar resíduos
5. Fazer 3 previsões
6. Dar sua conclusão final

**Dica do Pedro:** Use tudo que aprendemos até aqui! É sua chance de brilhar! 🌟

In [None]:
# EXERCÍCIO 2: Temperatura vs Vendas de Sorvete
np.random.seed(456)

# Dados: Temperatura (°C) vs Vendas de Sorvete (unidades)
temperatura = np.array([18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40])
vendas_sorvete = np.array([45, 55, 65, 78, 85, 95, 110, 125, 140, 155, 170, 180]) + \
                np.random.normal(0, 8, len(temperatura))

print("🍦 DADOS: TEMPERATURA VS VENDAS DE SORVETE")
print("Temperatura (°C):", temperatura)
print("Vendas (unidades):", vendas_sorvete.astype(int))

# TODO: Sua análise completa aqui!

# 1. ANÁLISE EXPLORATÓRIA
print("\n📊 1. ANÁLISE EXPLORATÓRIA:")
# Calcule estatísticas descritivas
# Faça gráfico de dispersão
# Calcule correlação

# 2. REGRESSÃO LINEAR
print("\n🔢 2. REGRESSÃO LINEAR:")
# Implemente ou use sklearn
# Encontre β₀ e β₁
# Interprete os coeficientes

# 3. AVALIAÇÃO DO MODELO
print("\n📈 3. AVALIAÇÃO:")
# Calcule MSE, RMSE, R²
# Faça gráfico com linha de regressão

# 4. ANÁLISE DE RESÍDUOS
print("\n🔍 4. RESÍDUOS:")
# Analise os resíduos
# Verifique normalidade

# 5. PREVISÕES
print("\n🎯 5. PREVISÕES:")
# Preveja vendas para: 25°C, 35°C, 42°C

# 6. CONCLUSÃO
print("\n💭 6. SUA CONCLUSÃO:")
# O modelo é bom? Por quê?
# Quais são as limitações?

print("\n🚀 MÃOS À OBRA! Complete todas as seções acima.")

## ⚠️ Limitações e Cuidados da Regressão Linear

Antes de terminar, é importante conhecer as **limitações** da regressão linear simples:

### 🚨 Pressupostos da Regressão Linear:

1. **Linearidade**: A relação entre X e Y deve ser linear
2. **Independência**: As observações devem ser independentes
3. **Homocedasticidade**: Variância dos resíduos deve ser constante
4. **Normalidade**: Resíduos devem seguir distribuição normal
5. **Ausência de Outliers**: Pontos extremos podem distorcer o modelo

### 🔍 Quando NÃO usar Regressão Linear:
- Relação não-linear entre variáveis
- Dados categóricos (use regressão logística - Módulo 6!)
- Múltiplas variáveis independentes (use regressão múltipla)
- Dados com muitos outliers

**Dica do Pedro:** A regressão linear é poderosa, mas não é martelo para todo parafuso! Sempre analise seus dados primeiro.

In [None]:
# Exemplo de quando a regressão linear NÃO funciona bem

# Criando dados com relação não-linear (quadrática)
x_nao_linear = np.linspace(-3, 3, 50)
y_nao_linear = x_nao_linear**2 + np.random.normal(0, 0.5, len(x_nao_linear))

# Tentando ajustar regressão linear em dados não-lineares
modelo_ruim = LinearRegression()
modelo_ruim.fit(x_nao_linear.reshape(-1, 1), y_nao_linear)
y_pred_ruim = modelo_ruim.predict(x_nao_linear.reshape(-1, 1))

# R² vai ser baixo!
r2_ruim = r2_score(y_nao_linear, y_pred_ruim)

plt.figure(figsize=(12, 5))

# Subplot 1: Dados não-lineares com linha linear
plt.subplot(1, 2, 1)
plt.scatter(x_nao_linear, y_nao_linear, alpha=0.6, color='red', label='Dados Reais')
plt.plot(x_nao_linear, y_pred_ruim, color='blue', linewidth=2, label='Regressão Linear')
plt.xlabel('X')
plt.ylabel('Y')
plt.title(f'❌ Regressão Linear em Dados Não-Lineares\n(R² = {r2_ruim:.3f})')
plt.legend()
plt.grid(True, alpha=0.3)

# Subplot 2: Resíduos mostram padrão claro
residuos_ruim = y_nao_linear - y_pred_ruim
plt.subplot(1, 2, 2)
plt.scatter(y_pred_ruim, residuos_ruim, alpha=0.6, color='red')
plt.axhline(y=0, color='blue', linestyle='--')
plt.xlabel('Valores Previstos')
plt.ylabel('Resíduos')
plt.title('❌ Resíduos com Padrão Claro\n(Indica modelo inadequado)')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"⚠️ EXEMPLO DE MODELO INADEQUADO:")
print(f"R² = {r2_ruim:.3f} (muito baixo!)")
print(f"Os resíduos mostram um padrão claro - sinal de que o modelo linear não é adequado.")
print(f"\nSolução: Usar modelos não-lineares ou transformar os dados!")

## 🎊 Resumo e Conexões com o Curso

Liiindo! Chegamos ao final do Módulo 4! Vamos recapitular o que aprendemos:

### 🧠 O que vimos hoje:
1. **Conceito**: Regressão linear encontra a melhor linha reta nos dados
2. **Matemática**: Método dos mínimos quadrados minimiza os erros ao quadrado
3. **Fórmulas**: β₁ e β₀ calculados com base nas médias e variâncias
4. **Avaliação**: MSE, RMSE e R² nos dizem quão bom é o modelo
5. **Resíduos**: Análise dos erros revela problemas do modelo

### 🔗 Conexões com módulos anteriores:
- **Módulo 1**: Usamos média, variância e desvio padrão nas fórmulas
- **Módulo 2**: Assumimos distribuição normal dos resíduos
- **Módulo 3**: Aplicamos conceitos de probabilidade condicional

### 🚀 Preparando para os próximos módulos:
- **Módulo 5**: Vamos aprofundar correlação e covariância
- **Módulo 6**: Regressão logística para classificação
- **Módulo 7**: Amostragem e generalização dos resultados

```mermaid
graph LR
    A[Dados X,Y] --> B[Análise Exploratória]
    B --> C[Verificar Correlação]
    C --> D[Calcular β₀ e β₁]
    D --> E[Fazer Previsões]
    E --> F[Avaliar com R², MSE]
    F --> G[Analisar Resíduos]
    G --> H[Modelo Final!]
```

**Dica do Pedro Final**: A regressão linear é a base de muitos algoritmos de machine learning! Dominando ela, você tem uma base sólida para algoritmos mais complexos.

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/estatística-para-ia-modulo-04_img_05.png)

In [None]:
# 🎉 PARABÉNS! Você completou o Módulo 4!

# Vamos criar um certificado visual do que você aprendeu
fig, ax = plt.subplots(figsize=(12, 8))

# Dados para demonstração final
x_final = np.linspace(0, 10, 100)
y_final = 2 * x_final + 1 + np.random.normal(0, 1, 100)

# Regressão final
modelo_final = LinearRegression()
modelo_final.fit(x_final.reshape(-1, 1), y_final)
y_pred_final = modelo_final.predict(x_final.reshape(-1, 1))

# Gráfico bonito
ax.scatter(x_final, y_final, alpha=0.5, color='lightblue', s=30)
ax.plot(x_final, y_pred_final, color='red', linewidth=3)

ax.set_xlabel('Variável Independente (X)', fontsize=14)
ax.set_ylabel('Variável Dependente (Y)', fontsize=14)
ax.set_title('🎓 REGRESSÃO LINEAR SIMPLES - MÓDULO 4 CONCLUÍDO!\n' + 
            'Você agora sabe como encontrar a linha que prevê o futuro!', 
            fontsize=16, pad=20)

# Anotações educativas
ax.annotate('Pontos = Dados Reais', xy=(2, 6), xytext=(3, 15),
            arrowprops=dict(arrowstyle='->', color='blue'),
            fontsize=12, color='blue')

ax.annotate('Linha Vermelha = Modelo de Regressão', 
            xy=(7, 15), xytext=(5, 20),
            arrowprops=dict(arrowstyle='->', color='red'),
            fontsize=12, color='red')

ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print("🎉 PARABÉNS! VOCÊ DOMINOU A REGRESSÃO LINEAR SIMPLES!")
print("\n✅ Checklist do que você aprendeu:")
print("   • Conceitos matemáticos por trás da regressão")
print("   • Método dos mínimos quadrados")
print("   • Cálculo de β₀ e β₁")
print("   • Métricas de avaliação (MSE, RMSE, R²)")
print("   • Análise de resíduos")
print("   • Implementação prática com Python")
print("   • Limitações e cuidados")
print("\n🚀 PRÓXIMO MÓDULO: Correlação e Covariância - Onde as Variáveis se Encontram")
print("\nBora continuar essa jornada incrível pela estatística! 📊✨")