
# Regressão Linear Múltipla com Scikit-Learn

Este notebook mostra como implementar uma regressão linear múltipla em Python usando a biblioteca `scikit-learn`.
Vamos usar um conjunto de dados fictício contendo informações sobre o preço de casas com base em seus atributos.

---



## 1. Importação de bibliotecas

Importamos as bibliotecas necessárias para análise e visualização dos dados:
- `numpy` para manipulação de arrays numéricos
- `matplotlib.pyplot` para criação de gráficos
- `pandas` para manipulação de dados em formato de tabela
- `sklearn.model_selection.train_test_split` para dividir os dados em treino e teste
- `sklearn.linear_model.LinearRegression` para criar o modelo de regressão
- `sklearn.metrics` para avaliação do modelo


In [None]:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score



## 2. Criação do dataset

Criamos um dataset fictício com 3 variáveis independentes (x1, x2 e x3) e uma variável dependente (y).
Essas variáveis representam características hipotéticas de uma casa, como tamanho, número de quartos, idade, etc.


In [None]:

# Criando variáveis independentes (features)
x1 = np.array([1500, 1800, 2400, 3000, 3500])
x2 = np.array([3, 4, 3, 5, 4])
x3 = np.array([10, 15, 20, 8, 12])

# Variável dependente (target) - preço da casa, por exemplo
y = np.array([400000, 500000, 600000, 650000, 700000])

# Juntando as variáveis independentes em uma única matriz
X = np.column_stack((x1, x2, x3))



## 3. Divisão dos dados em treino e teste

Separar os dados entre conjunto de treino e teste ajuda a avaliar o desempenho do modelo em dados que ele nunca viu antes.

- `test_size=0.2` indica que 20% dos dados serão usados para teste.
- `random_state=42` garante que a divisão seja reproduzível.


In [None]:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



## 4. Treinamento do modelo de Regressão Linear

Instanciamos e treinamos o modelo `LinearRegression` com os dados de treino.


In [None]:

# Instanciando o modelo
model = LinearRegression()

# Treinando o modelo
model.fit(X_train, y_train)



## 5. Previsão com os dados de teste

Usamos o modelo treinado para prever os valores de `y` com base em `X_test`.


In [None]:

# Fazendo previsões
y_pred = model.predict(X_test)



## 6. Avaliação do Modelo

Avaliamos o desempenho do modelo usando as métricas:
- **MAE (Erro absoluto médio)**
- **MSE (Erro quadrático médio)**
- **RMSE (Raiz do erro quadrático médio)**
- **R² (Coeficiente de Determinação)**

Essas métricas ajudam a entender o quão próximo o modelo chegou dos valores reais.


In [None]:

mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print("MAE:", mae)
print("MSE:", mse)
print("RMSE:", rmse)
print("R²:", r2)



## 7. Coeficientes e Intercepto

Verificamos os coeficientes (pesos) aprendidos pelo modelo para cada variável independente e o valor do intercepto.


In [None]:

print("Coeficientes (pesos):", model.coef_)
print("Intercepto:", model.intercept_)
