# Regressão Linear Simples - Exemplos Práticos

Este notebook contém exemplos práticos e interativos de Regressão Linear Simples.

## Conteúdo
1. Configuração e Importações
2. Exemplo 1: Vendas de Sorvete vs Temperatura
3. Exemplo 2: Preço de Imóvel vs Área
4. Exemplo 3: Nota vs Horas de Estudo
5. Análise Completa de Resíduos
6. Exercícios Práticos

## 1. Configuração e Importações

In [None]:
# Importar bibliotecas necessárias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo de gráficos
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 11

print("✓ Bibliotecas importadas com sucesso!")

## 2. Exemplo 1: Vendas de Sorvete vs Temperatura

**Contexto:** Uma sorveteria quer entender como a temperatura diária afeta suas vendas.

In [None]:
# Gerar dados simulados
np.random.seed(42)
n_amostras = 50

temperatura = np.random.normal(25, 5, n_amostras)
vendas = 100 + 3 * temperatura + np.random.normal(0, 10, n_amostras)

df_sorvete = pd.DataFrame({
    'Temperatura': temperatura,
    'Vendas': vendas
})

print("Dataset de Vendas de Sorvete")
print("=" * 50)
print(f"Número de observações: {len(df_sorvete)}\n")
print(df_sorvete.head(10))
print("\nEstatísticas Descritivas:")
print(df_sorvete.describe())

In [None]:
# Visualização inicial: Gráfico de dispersão
plt.figure(figsize=(10, 6))
plt.scatter(df_sorvete['Temperatura'], df_sorvete['Vendas'], 
            alpha=0.6, s=100, edgecolors='black')
plt.xlabel('Temperatura (°C)', fontsize=12)
plt.ylabel('Vendas de Sorvete (R$)', fontsize=12)
plt.title('Relação entre Temperatura e Vendas de Sorvete', 
          fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Calcular correlação
correlacao = df_sorvete['Temperatura'].corr(df_sorvete['Vendas'])
print(f"\nCorrelação de Pearson: {correlacao:.4f}")
print(f"Interpretação: Correlação {'positiva forte' if correlacao > 0.7 else 'positiva moderada'}")

In [None]:
# Ajustar modelo de regressão
X = df_sorvete[['Temperatura']]
y = df_sorvete['Vendas']

modelo_sorvete = LinearRegression()
modelo_sorvete.fit(X, y)
y_pred = modelo_sorvete.predict(X)

# Extrair coeficientes
intercepto = modelo_sorvete.intercept_
coef_angular = modelo_sorvete.coef_[0]

print("Resultados do Modelo")
print("=" * 50)
print(f"Intercepto (β₀): {intercepto:.2f}")
print(f"Coeficiente Angular (β₁): {coef_angular:.2f}")
print(f"\nEquação: Vendas = {intercepto:.2f} + {coef_angular:.2f} × Temperatura")
print("\nInterpretação:")
print(f"• Para cada 1°C de aumento na temperatura,")
print(f"  as vendas aumentam em R$ {coef_angular:.2f}")

In [None]:
# Visualizar linha de regressão
plt.figure(figsize=(10, 6))
plt.scatter(df_sorvete['Temperatura'], df_sorvete['Vendas'], 
            alpha=0.6, s=100, edgecolors='black', label='Dados observados')
plt.plot(df_sorvete['Temperatura'], y_pred, 
         color='red', linewidth=2, 
         label=f'Y = {intercepto:.1f} + {coef_angular:.1f}X')
plt.xlabel('Temperatura (°C)', fontsize=12)
plt.ylabel('Vendas de Sorvete (R$)', fontsize=12)
plt.title('Regressão Linear: Vendas vs Temperatura', 
          fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Métricas de avaliação
r2 = r2_score(y, y_pred)
rmse = np.sqrt(mean_squared_error(y, y_pred))
mae = mean_absolute_error(y, y_pred)
mape = np.mean(np.abs((y - y_pred) / y)) * 100

print("Métricas de Avaliação")
print("=" * 50)
print(f"R² (Coeficiente de Determinação): {r2:.4f}")
print(f"  → O modelo explica {r2*100:.2f}% da variabilidade nas vendas")
print(f"\nRMSE: R$ {rmse:.2f}")
print(f"MAE: R$ {mae:.2f}")
print(f"MAPE: {mape:.2f}%")

## 3. Exemplo 2: Preço de Imóvel vs Área

**Contexto:** Imobiliária quer estabelecer preço de apartamentos baseado na área.

In [None]:
# Gerar dados de imóveis
np.random.seed(123)
n = 80

area = np.random.normal(70, 20, n)  # Área em m²
preco = 150000 + 2500 * area + np.random.normal(0, 30000, n)  # Preço em reais

df_imoveis = pd.DataFrame({
    'Area_m2': area,
    'Preco_R$': preco
})

print("Dataset de Preços de Imóveis")
print("=" * 50)
print(df_imoveis.head(10))
print("\nEstatísticas:")
print(df_imoveis.describe())

In [None]:
# Análise visual
plt.figure(figsize=(10, 6))
plt.scatter(df_imoveis['Area_m2'], df_imoveis['Preco_R$'], 
            alpha=0.6, s=100, edgecolors='black')
plt.xlabel('Área (m²)', fontsize=12)
plt.ylabel('Preço (R$)', fontsize=12)
plt.title('Relação entre Área e Preço de Imóveis', 
          fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

correlacao = df_imoveis['Area_m2'].corr(df_imoveis['Preco_R$'])
print(f"Correlação: {correlacao:.4f}")

In [None]:
# Ajustar modelo
X_imoveis = df_imoveis[['Area_m2']]
y_imoveis = df_imoveis['Preco_R$']

modelo_imoveis = LinearRegression()
modelo_imoveis.fit(X_imoveis, y_imoveis)
y_pred_imoveis = modelo_imoveis.predict(X_imoveis)

# Resultados
b0 = modelo_imoveis.intercept_
b1 = modelo_imoveis.coef_[0]

print("Modelo de Precificação de Imóveis")
print("=" * 50)
print(f"Intercepto: R$ {b0:,.2f}")
print(f"Coeficiente: R$ {b1:,.2f} por m²")
print(f"\nEquação: Preço = {b0:,.0f} + {b1:,.0f} × Área")
print("\nInterpretação:")
print(f"• Cada m² adicional aumenta o preço em R$ {b1:,.2f}")

# Exemplos práticos
print("\nExemplos de Precificação:")
for area_ex in [50, 70, 100, 150]:
    preco_est = b0 + b1 * area_ex
    print(f"  Apartamento de {area_ex}m²: R$ {preco_est:,.2f}")

In [None]:
# Visualizar com linha de regressão
plt.figure(figsize=(10, 6))
plt.scatter(df_imoveis['Area_m2'], df_imoveis['Preco_R$'], 
            alpha=0.6, s=100, edgecolors='black', label='Dados')
plt.plot(df_imoveis['Area_m2'], y_pred_imoveis, 
         color='red', linewidth=2, label='Modelo de regressão')
plt.xlabel('Área (m²)', fontsize=12)
plt.ylabel('Preço (R$)', fontsize=12)
plt.title('Modelo de Precificação de Imóveis', 
          fontsize=14, fontweight='bold')
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

r2_imoveis = r2_score(y_imoveis, y_pred_imoveis)
print(f"\nR² do modelo: {r2_imoveis:.4f}")
print(f"O modelo explica {r2_imoveis*100:.2f}% da variação nos preços")

## 4. Exemplo 3: Nota vs Horas de Estudo

**Contexto:** Estudante quer entender o impacto das horas de estudo na nota final.

In [None]:
# Dados de estudo
horas_estudo = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
notas = np.array([45, 52, 58, 63, 68, 73, 78, 82, 86, 90, 93, 95])

df_estudo = pd.DataFrame({
    'Horas_Estudo': horas_estudo,
    'Nota': notas
})

print("Dataset: Horas de Estudo vs Nota")
print("=" * 50)
print(df_estudo)

# Análise visual
plt.figure(figsize=(10, 6))
plt.scatter(df_estudo['Horas_Estudo'], df_estudo['Nota'], 
            alpha=0.7, s=150, edgecolors='black', color='green')
plt.xlabel('Horas de Estudo por Semana', fontsize=12)
plt.ylabel('Nota Final', fontsize=12)
plt.title('Relação entre Horas de Estudo e Nota Final', 
          fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.ylim(40, 100)
plt.tight_layout()
plt.show()

In [None]:
# Modelo de regressão
X_estudo = df_estudo[['Horas_Estudo']]
y_estudo = df_estudo['Nota']

modelo_estudo = LinearRegression()
modelo_estudo.fit(X_estudo, y_estudo)
y_pred_estudo = modelo_estudo.predict(X_estudo)

# Coeficientes
b0_estudo = modelo_estudo.intercept_
b1_estudo = modelo_estudo.coef_[0]

print("Modelo: Nota vs Horas de Estudo")
print("=" * 50)
print(f"Intercepto: {b0_estudo:.2f}")
print(f"Coeficiente: {b1_estudo:.2f} pontos por hora")
print(f"\nEquação: Nota = {b0_estudo:.2f} + {b1_estudo:.2f} × Horas")
print("\nInterpretação:")
print(f"• Cada hora adicional de estudo aumenta a nota em {b1_estudo:.2f} pontos")
print(f"• Um estudante que não estuda espera-se nota de {b0_estudo:.2f}")

# Avaliar modelo
r2_estudo = r2_score(y_estudo, y_pred_estudo)
print(f"\nR²: {r2_estudo:.4f}")
print(f"O modelo tem um ajuste {'excelente' if r2_estudo > 0.9 else 'bom'}!")

In [None]:
# Visualização com linha de regressão
plt.figure(figsize=(10, 6))
plt.scatter(df_estudo['Horas_Estudo'], df_estudo['Nota'], 
            alpha=0.7, s=150, edgecolors='black', color='green', 
            label='Dados observados')
plt.plot(df_estudo['Horas_Estudo'], y_pred_estudo, 
         color='red', linewidth=2, 
         label=f'Nota = {b0_estudo:.1f} + {b1_estudo:.1f}×Horas')
plt.xlabel('Horas de Estudo por Semana', fontsize=12)
plt.ylabel('Nota Final', fontsize=12)
plt.title('Modelo de Predição de Nota', 
          fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.ylim(40, 100)
plt.tight_layout()
plt.show()

# Fazer predições
print("\nPredições para diferentes cargas de estudo:")
for h in [5, 8, 15]:
    nota_pred = b0_estudo + b1_estudo * h
    print(f"  {h} horas/semana → Nota esperada: {nota_pred:.1f}")

## 5. Análise Completa de Resíduos

In [None]:
# Usar o exemplo de sorvetes para análise de resíduos
residuos = y - y_pred

# Criar figura com 4 subplots
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. Resíduos vs Valores Preditos
axes[0, 0].scatter(y_pred, residuos, alpha=0.6, s=100, edgecolors='black')
axes[0, 0].axhline(y=0, color='red', linestyle='--', linewidth=2)
axes[0, 0].set_xlabel('Valores Preditos', fontsize=11)
axes[0, 0].set_ylabel('Resíduos', fontsize=11)
axes[0, 0].set_title('Resíduos vs Valores Preditos\n(Verificar Homocedasticidade)', 
                      fontsize=12, fontweight='bold')
axes[0, 0].grid(True, alpha=0.3)

# 2. Histograma dos Resíduos
axes[0, 1].hist(residuos, bins=15, alpha=0.7, edgecolor='black', color='skyblue')
axes[0, 1].axvline(x=0, color='red', linestyle='--', linewidth=2)
axes[0, 1].set_xlabel('Resíduos', fontsize=11)
axes[0, 1].set_ylabel('Frequência', fontsize=11)
axes[0, 1].set_title('Distribuição dos Resíduos\n(Verificar Normalidade)', 
                      fontsize=12, fontweight='bold')
axes[0, 1].grid(True, alpha=0.3)

# 3. Q-Q Plot
stats.probplot(residuos, dist="norm", plot=axes[1, 0])
axes[1, 0].set_title('Q-Q Plot\n(Verificar Normalidade)', 
                      fontsize=12, fontweight='bold')
axes[1, 0].grid(True, alpha=0.3)

# 4. Resíduos vs Ordem
axes[1, 1].scatter(range(len(residuos)), residuos, alpha=0.6, s=100, edgecolors='black')
axes[1, 1].axhline(y=0, color='red', linestyle='--', linewidth=2)
axes[1, 1].set_xlabel('Ordem das Observações', fontsize=11)
axes[1, 1].set_ylabel('Resíduos', fontsize=11)
axes[1, 1].set_title('Resíduos vs Ordem\n(Verificar Independência)', 
                      fontsize=12, fontweight='bold')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("Análise Visual dos Resíduos:")
print("=" * 50)
print("✓ Gráfico 1: Sem padrão de cone → homocedasticidade")
print("✓ Gráfico 2: Distribuição aproximadamente simétrica → normalidade")
print("✓ Gráfico 3: Pontos próximos à linha → normalidade")
print("✓ Gráfico 4: Sem padrão temporal → independência")

In [None]:
# Testes estatísticos formais
print("Testes Estatísticos dos Pressupostos")
print("=" * 50)

# Teste de Normalidade (Shapiro-Wilk)
shapiro_stat, shapiro_p = stats.shapiro(residuos)
print(f"\n1. Teste de Normalidade (Shapiro-Wilk):")
print(f"   Estatística: {shapiro_stat:.4f}")
print(f"   Valor-p: {shapiro_p:.4f}")
if shapiro_p > 0.05:
    print(f"   ✓ Resíduos seguem distribuição normal (p > 0.05)")
else:
    print(f"   ✗ Resíduos NÃO seguem distribuição normal (p ≤ 0.05)")

# Estatísticas dos resíduos
print(f"\n2. Estatísticas dos Resíduos:")
print(f"   Média: {residuos.mean():.6f} (deve estar próximo de 0)")
print(f"   Desvio padrão: {residuos.std():.4f}")
print(f"   Mínimo: {residuos.min():.4f}")
print(f"   Máximo: {residuos.max():.4f}")

## 6. Exercícios Práticos

Agora é sua vez! Pratique com os exercícios abaixo.

### Exercício 1: Salário vs Anos de Experiência

Use os dados abaixo para criar um modelo que prevê salário baseado em anos de experiência.

In [None]:
# Dados fornecidos
anos_experiencia = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
salario = np.array([2500, 2800, 3200, 3500, 3800, 4200, 4500, 4800, 5200, 5500])

# TODO: Crie um DataFrame
# TODO: Faça um gráfico de dispersão
# TODO: Calcule a correlação
# TODO: Ajuste o modelo de regressão
# TODO: Interprete os coeficientes
# TODO: Calcule o R²
# TODO: Faça uma predição para 12 anos de experiência

### Exercício 2: Análise de Resíduos

Use o modelo do Exercício 1 para fazer uma análise completa de resíduos.

In [None]:
# TODO: Calcule os resíduos
# TODO: Crie os 4 gráficos de diagnóstico
# TODO: Faça o teste de normalidade
# TODO: Interprete os resultados

### Exercício 3: Compare Diferentes Cenários

Crie dados simulados com diferentes tipos de correlação e compare os modelos.

In [None]:
# TODO: Crie 3 conjuntos de dados:
# 1. Correlação forte (r ≈ 0.9)
# 2. Correlação moderada (r ≈ 0.6)
# 3. Correlação fraca (r ≈ 0.3)

# TODO: Ajuste modelos para cada um
# TODO: Compare os R²
# TODO: Visualize os três cenários juntos

## Conclusão

Neste notebook, você aprendeu:

✅ Como implementar regressão linear simples em Python  
✅ Como interpretar coeficientes e métricas  
✅ Como fazer análise de resíduos  
✅ Como verificar pressupostos do modelo  
✅ Como fazer predições e intervalos de confiança  

**Próximos Passos:**
- Explore Regressão Linear Múltipla
- Aprenda Regressão Polinomial
- Estude técnicas de regularização (Ridge, Lasso)

---
*Notebook criado como parte do repositório de Análise de Dados*