# Regressão Linear

## Introdução

A regressão linear é um dos algoritmos mais fundamentais do machine learning.

## Objetivos

- Compreender os conceitos de regressão linear
- Implementar regressão linear simples e múltipla
- Avaliar modelos de regressão


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

np.random.seed(42)

## 1. Regressão Linear Simples

Vamos começar com um exemplo simples de uma variável.


In [None]:
# Gerar dados sintéticos
n_samples = 100
X = np.random.randn(n_samples, 1)
y = 2 * X.ravel() + 1 + 0.5 * np.random.randn(n_samples)

print(f"Forma de X: {X.shape}")
print(f"Forma de y: {y.shape}")

In [None]:
# Visualizar os dados
plt.figure(figsize=(8, 6))
plt.scatter(X, y, alpha=0.6)
plt.xlabel("X")
plt.ylabel("y")
plt.title("Dados para Regressão Linear Simples")
plt.grid(True, alpha=0.3)
plt.show()

## 2. Ajustando o Modelo


In [None]:
# Dividir dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Criar e treinar o modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Fazer previsões
y_pred = model.predict(X_test)

print(f"Coeficiente (slope): {model.coef_[0]:.3f}")
print(f"Intercepto: {model.intercept_:.3f}")

## 3. Avaliando o Modelo


In [None]:
# Calcular métricas
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse:.3f}")
print(f"R² Score: {r2:.3f}")

In [None]:
# Visualizar resultados
plt.figure(figsize=(12, 5))

# Subplot 1: Dados e linha de regressão
plt.subplot(1, 2, 1)
plt.scatter(X_test, y_test, alpha=0.6, label="Dados reais")
plt.scatter(X_test, y_pred, alpha=0.6, color="red", label="Previsões")
# Linha de regressão
X_line = np.linspace(X.min(), X.max(), 100).reshape(-1, 1)
y_line = model.predict(X_line)
plt.plot(X_line, y_line, "r-", linewidth=2, label="Linha de regressão")
plt.xlabel("X")
plt.ylabel("y")
plt.title("Regressão Linear")
plt.legend()
plt.grid(True, alpha=0.3)

# Subplot 2: Resíduos
plt.subplot(1, 2, 2)
residuals = y_test - y_pred
plt.scatter(y_pred, residuals, alpha=0.6)
plt.axhline(y=0, color="r", linestyle="--")
plt.xlabel("Valores preditos")
plt.ylabel("Resíduos")
plt.title("Análise de Resíduos")
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 4. Regressão Linear Múltipla

Agora vamos trabalhar com múltiplas variáveis.


In [None]:
# Carregar dados de exemplo (Boston Housing)
# Como o dataset Boston está deprecated, vamos usar dados sintéticos
np.random.seed(42)
n_samples = 500
n_features = 3

X_multi = np.random.randn(n_samples, n_features)
true_coef = np.array([1.5, -2.0, 0.5])
y_multi = X_multi @ true_coef + 0.5 * np.random.randn(n_samples)

print(f"Forma de X: {X_multi.shape}")
print(f"Coeficientes verdadeiros: {true_coef}")

In [None]:
# Dividir dados e treinar modelo
X_train_multi, X_test_multi, y_train_multi, y_test_multi = train_test_split(
    X_multi, y_multi, test_size=0.2, random_state=42
)

model_multi = LinearRegression()
model_multi.fit(X_train_multi, y_train_multi)

y_pred_multi = model_multi.predict(X_test_multi)

print(f"Coeficientes estimados: {model_multi.coef_}")
print(f"Intercepto: {model_multi.intercept_:.3f}")

In [None]:
# Avaliar modelo múltiplo
mse_multi = mean_squared_error(y_test_multi, y_pred_multi)
r2_multi = r2_score(y_test_multi, y_pred_multi)

print(f"MSE (múltipla): {mse_multi:.3f}")
print(f"R² (múltipla): {r2_multi:.3f}")

## 5. Conclusões

- A regressão linear é um método simples mas poderoso
- O R² nos indica a qualidade do ajuste
- A análise de resíduos é importante para validar as suposições
- Funciona bem para relações lineares entre variáveis
