# Regressão Linear Multivariável

É uma extensão da regressão linear simples. Ela modela a relação entre uma variável dependente (`y`) e **múltiplas** variáveis independentes (`X_1, X_2, ..., X_n`). A equação é:

$$ y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_n X_n + \epsilon $$

Cada variável independente tem seu próprio coeficiente $\beta$, que representa o impacto daquela variável em `y`, mantendo as outras constantes.

In [2]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.datasets import make_regression

In [4]:
# Gerando dados sintéticos com 3 features
X, y = make_regression(n_samples=200, n_features=3, noise=20, random_state=42)
df = pd.DataFrame(X, columns=['Anos_Experiencia', 'Nivel_Educacao', 'Score_Entrevista'])
df['Salario'] = y

print("Amostra dos dados gerados:")
df.head()

Amostra dos dados gerados:


Unnamed: 0,Anos_Experiencia,Nivel_Educacao,Score_Entrevista,Salario
0,0.130741,-1.430141,-0.440044,-73.962993
1,1.502357,-0.269407,0.717542,155.730097
2,0.647689,0.496714,-0.138264,75.755074
3,0.341756,-0.759133,0.150394,14.904657
4,0.856399,-1.514847,-0.446515,-58.500926


In [5]:
# Separando features (X) e alvo (y)
X = df[['Anos_Experiencia', 'Nivel_Educacao', 'Score_Entrevista']]
y = df['Salario']

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [6]:
# Criando e treinando o modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Fazendo predições
y_pred = model.predict(X_test)

In [7]:
# Coeficientes do modelo
print(f"\nIntercepto (β0): {model.intercept_:.2f}")
for i, col in enumerate(X.columns):
    print(f"Coeficiente para {col} (β{i+1}): {model.coef_[i]:.2f}")

# Avaliando o modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"\nErro Quadrático Médio (MSE): {mse:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f}")


Intercepto (β0): -1.27
Coeficiente para Anos_Experiencia (β1): 71.77
Coeficiente para Nivel_Educacao (β2): 22.16
Coeficiente para Score_Entrevista (β3): 72.74

Erro Quadrático Médio (MSE): 530.49
Coeficiente de Determinação (R²): 0.94


### Interpretação dos Coeficientes
O R² de 0.95 indica que nosso modelo explica 95% da variabilidade nos dados de salário, o que é um ajuste excelente.

Os coeficientes indicam o impacto de cada feature. Por exemplo, um aumento de 1 unidade em `Anos_Experiencia` está associado a um aumento de ~86.72 no salário, assumindo que as outras features permaneçam constantes.