# Tutorial de Regressão Linear

Este notebook demonstra conceitos e aplicações práticas de regressão linear usando Python.

## Conteúdo
1. Regressão Linear Simples
2. Regressão Linear Múltipla
3. Análise de Resíduos
4. Métricas de Avaliação

## Teoria

A regressão linear modela a relação entre variáveis através da equação:

$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p + \epsilon $$

Onde:
- $y$ é a variável dependente
- $x_i$ são as variáveis independentes
- $\beta_i$ são os coeficientes
- $\epsilon$ é o termo de erro

## Referências
- James, G., et al. (2013). An Introduction to Statistical Learning.
- Montgomery, D. C., & Runger, G. C. (2010). Applied Statistics and Probability for Engineers.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from conceitos.intermediarios.regressao_linear import RegressaoLinear, criar_dados_exemplo

# Configuração para visualizações
plt.style.use('seaborn')
sns.set_palette('husl')

## 1. Regressão Linear Simples

Vamos começar com um exemplo simples usando dados sintéticos:

In [None]:
# Criar dados de exemplo
X, y = criar_dados_exemplo(n_samples=100, n_features=1, noise=0.5)

# Criar e treinar modelo
modelo = RegressaoLinear()
modelo.fit(X, y)

# Plotar resultados
modelo.plot_regression(X, y, ['Variável X'])

# Avaliar modelo
metricas = modelo.evaluate(X, y)
print('\nMétricas de Avaliação:')
for metrica, valor in metricas.items():
    print(f'{metrica}: {valor:.4f}')

## 2. Regressão Linear Múltipla

Agora vamos trabalhar com múltiplas variáveis independentes:

In [None]:
# Criar dados com múltiplas features
X_multi, y_multi = criar_dados_exemplo(n_samples=100, n_features=3)

# Criar e treinar modelo
modelo_multi = RegressaoLinear()
modelo_multi.fit(X_multi, y_multi)

# Mostrar coeficientes
print('Coeficientes do modelo:')
for i, coef in enumerate(modelo_multi.coef_):
    print(f'β{i}: {coef:.4f}')
print(f'Intercepto: {modelo_multi.intercept_:.4f}')

# Avaliar modelo
metricas_multi = modelo_multi.evaluate(X_multi, y_multi)
print('\nMétricas de Avaliação:')
for metrica, valor in metricas_multi.items():
    print(f'{metrica}: {valor:.4f}')

## 3. Análise de Resíduos

A análise de resíduos é crucial para validar os pressupostos da regressão linear:

1. Normalidade dos resíduos
2. Homocedasticidade (variância constante)
3. Independência dos erros

In [None]:
# Calcular resíduos
y_pred = modelo.predict(X)
residuos = y - y_pred

# Plot de distribuição dos resíduos
plt.figure(figsize=(12, 4))

plt.subplot(121)
sns.histplot(residuos, kde=True)
plt.title('Distribuição dos Resíduos')

plt.subplot(122)
stats.probplot(residuos, dist='norm', plot=plt)
plt.title('Q-Q Plot dos Resíduos')

plt.tight_layout()
plt.show()