# Projeto Real: Regressão Linear Simples

Este notebook aplica regressão linear simples em um dataset aberto (exemplo: altura vs. peso) e explica cada etapa para leigos e técnicos.

In [None]:
# Importar bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
# Carregar e explorar o dataset
# Exemplo fictício: substitua pelo caminho do seu dataset real
# df = pd.read_csv('datasets/altura_peso.csv')
df = pd.DataFrame({
    'altura': [160, 165, 170, 175, 180, 185, 190, 195, 200],
    'peso':   [60, 65, 70, 75, 80, 85, 90, 95, 100]
})
print('Primeiras linhas do dataset:')
print(df.head())
print('\nResumo estatístico:')
print(df.describe())

In [None]:
# Pré-processamento dos dados
print('Valores ausentes por coluna:')
print(df.isnull().sum())
# Selecionar apenas as colunas relevantes
X = df[['altura']].values
y = df['peso'].values

In [None]:
# Visualização dos dados
plt.figure(figsize=(8,5))
sns.scatterplot(x=df['altura'], y=df['peso'])
plt.title('Relação entre Altura e Peso')
plt.xlabel('Altura (cm)')
plt.ylabel('Peso (kg)')
plt.show()

In [None]:
# Treinar modelo de regressão linear
modelo = LinearRegression()
modelo.fit(X, y)
y_pred = modelo.predict(X)
print(f"Coeficiente angular (a): {modelo.coef_[0]:.2f}")
print(f"Coeficiente linear (b): {modelo.intercept_:.2f}")

In [None]:
# Avaliar o modelo
mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)
print(f"Erro quadrático médio (MSE): {mse:.2f}")
print(f"Coeficiente de determinação (R²): {r2:.2f}")

# Gráfico de resíduos
residuos = y - y_pred
plt.figure(figsize=(8,5))
plt.scatter(df['altura'], residuos)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('Altura (cm)')
plt.ylabel('Resíduo (Peso real - Peso previsto)')
plt.title('Gráfico de Resíduos')
plt.show()

## Interpretação dos Resultados

- O coeficiente angular indica o quanto o peso aumenta para cada centímetro de altura.
- O coeficiente linear representa o peso estimado para altura zero (não faz sentido físico, mas é útil para o modelo).
- O MSE mostra o erro médio das previsões; quanto menor, melhor.
- O R² indica o quanto o modelo explica a variação dos dados (próximo de 1 é ótimo).
- O gráfico de resíduos deve mostrar dispersão aleatória em torno de zero.

### Limitações
- Relações não lineares exigem outros modelos (polinomial, logarítmico, etc).
- Outliers podem distorcer o ajuste.
- Dataset pequeno pode limitar a generalização.

### Possíveis Melhorias
- Testar outros tipos de regressão.
- Usar mais dados reais.
- Realizar validação cruzada.

---

Este notebook pode ser adaptado para outros datasets e modelos conforme necessidade.