# Introdução à Regressão Linear

A regressão linear é uma técnica de análise estatística usada para estudar a relação entre duas variáveis quantitativas. A variável independente é chamada de "variável explicativa" e a variável dependente é chamada de "variável de resposta". A regressão linear simples é usada quando há apenas uma variável explicativa, enquanto a regressão linear múltipla é usada quando há várias variáveis explicativas.

A equação da regressão linear é dada por:

`y = β0 + β1x1 + ε`

onde <strong>y</strong> é a variável de resposta, <strong>x1</strong> é a variável explicativa, <strong>β0</strong> e <strong>β1</strong> são os <i>coeficientes de interceptação</i> e a <i>inclinação</i>, respectivamente, e <strong>ε</strong> é o erro aleatório.

O objetivo da regressão linear é encontrar os valores de β0 e β1 que minimizam a soma dos quadrados dos resíduos, ou seja, a diferença entre os valores observados e previstos da variável de resposta.

# O modelo

In [1]:
import numpy as np

# dados de exemplo
x = np.array([2, 3, 4, 5, 6]) # Horas de Estudo
y = np.array([65, 75, 85, 90, 95]) # Nota obtida

# ajuste do modelo de regressão linear simples
beta1, beta0 = np.polyfit(x, y, 1)

# função da regressão linear simples
def regressao_linear_simples(x):
    return beta0 + beta1*x

# exibição dos coeficientes da regressão
print('Coeficiente beta0: {:.2f}'.format(beta0))
print('Coeficiente beta1: {:.2f}'.format(beta1))

# exibição da função da regressão linear simples
print('Função da regressão linear simples: y = {:.2f} + {:.2f}x'.format(beta0, beta1))

Coeficiente beta0: 52.00
Coeficiente beta1: 7.50
Função da regressão linear simples: y = 52.00 + 7.50x


In [2]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import rc

# ativa a sintaxe LaTeX
rc('text', usetex=True)

# dados de exemplo
x = np.array([2, 3, 4, 5, 6])
y = np.array([65, 75, 85, 90, 95])

# ajuste do modelo de regressão linear simples
m, b = np.polyfit(x, y, 1)

# fórmula da regressão linear simples
formula = r'$y = {:.2f}x + {:.2f}$'.format(beta1, beta0)

# plotagem dos dados e da reta de regressão
plt.scatter(x, y, color='blue')
plt.plot(x, m*x+b, '--', color='red')

# cálculo dos resíduos
y_pred = m*x + b
residuos = y - y_pred

# plotagem dos resíduos
for i in range(len(x)):
    plt.plot([x[i], x[i]], [y[i], y_pred[i]], '--', color='cyan')

# configurações do gráfico
plt.title('Regressão Linear Simples')
plt.xlabel('Horas de Estudo')
plt.ylabel('Nota')
plt.text(2.5, 85, formula, fontsize=14, color='black')
plt.show()

RuntimeError: Failed to process string with tex because latex could not be found

<Figure size 640x480 with 1 Axes>

In [None]:
residuos

## Regressão Linear Simples em Python

Vamos começar com um exemplo de regressão linear simples em Python usando a biblioteca de análise de dados Pandas e a biblioteca Scikit-Learn.

Suponha que queremos estudar a relação entre o número de horas de estudo e a nota em uma prova de matemática. Temos os seguintes dados:

Para realizar a regressão linear simples com a biblioteca Scikit-Learn, precisamos primeiro importar as classes necessárias:

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

Os dados para a regressão linear simples serão:

In [None]:
df = pd.DataFrame({
    'horas_estudo': [2, 3, 4, 5, 6],
    'nota': [65, 75, 85, 90, 95]
})
df

Em seguida, podemos definir as variáveis explicativa e dependente e ajustar o modelo:

In [None]:
X = df[['horas_estudo']]
y = df['nota']
model = LinearRegression()
model.fit(X, y)

Podemos obter os coeficientes do modelo ajustado da seguinte forma:

In [None]:
print(f"Coeficiente β1: {model.coef_[0]:.2f}")
print(f"Coeficiente β0: {model.intercept_:.2f}")

Isso significa que, mantendo o número de horas de estudo constante, para cada hora adicional de estudo, esperamos um aumento de 7,5 pontos na nota da prova. Além disso, se um aluno não estudou, esperamos que ele obtenha uma nota de 52 pontos.

Podemos fazer previsões com o modelo ajustado da seguinte forma:

In [None]:
X_new = pd.DataFrame({'horas_estudo': [4]})
y_new = model.predict(X_new)
print(f"A nota prevista para {X_new.horas_estudo.values[0]} horas de estudo é {y_new[0]:.1f}")

In [None]:
X_new = pd.DataFrame({'horas_estudo': [8]})
y_new = model.predict(X_new)
print(f"A nota prevista para {X_new.horas_estudo.values[0]} horas de estudo é {y_new[0]:.1f}")

Isso significa que esperamos que um aluno que estudou por 4 horas obtenha uma nota de cerca de 82 pontos na prova de matemática.

Podemos calcular as métricas RMSE, RSE, MAE e R2 para avaliar o desempenho do modelo:

In [None]:
# previsões do modelo para os dados de treinamento
y_pred = model.predict(X)

# cálculo do RMSE
rmse = np.sqrt(mean_squared_error(y, y_pred))
print(f"RMSE: {rmse:.2f}")

# cálculo do RSE
# rse = np.sqrt(np.mean((y - y_pred)**2))
rse = mean_squared_error(y, y_pred, squared=True)
print(f"RSE: {rse:.2f}")

# cálculo do MAE
mae = mean_absolute_error(y, y_pred)
print(f"MAE: {mae:.2f}")

# cálculo do R2
r2 = r2_score(y, y_pred)
print(f"R2: {r2:.2f}")

As métricas obtidas na regressão linear simples com Scikit-Learn são:

- RMSE (Root Mean Squared Error): essa métrica indica a raiz quadrada do erro médio quadrático das previsões. Ela indica a diferença média entre a previsão e o valor real da variável dependente. No caso da regressão linear simples, o RMSE foi de 1.87, o que significa que o modelo tem uma precisão média de cerca de 1.87 pontos na previsão da nota do aluno com base no número de horas de estudo.

- RSE (Residual Standard Error): essa métrica indica a raiz quadrada do erro médio quadrático dos resíduos da regressão, ou seja, a variação não explicada pelo modelo. No caso da regressão linear simples, o RSE foi de 3.50, o que significa que o desvio padrão dos erros das previsões é de cerca de 3.50 pontos.

- MAE (Mean Absolute Error): essa métrica indica a média do valor absoluto dos erros das previsões. No caso da regressão linear simples, o MAE foi de 1.60, o que significa que o erro médio absoluto das previsões é de cerca de 1.60 pontos.

- R² (R-squared): essa métrica indica a proporção da variância na variável dependente explicada pela regressão. Ela varia de 0 a 1 e quanto mais próxima de 1, melhor é o ajuste do modelo aos dados. No caso da regressão linear simples, o R² foi de 0.97, o que significa que o modelo explica cerca de 97% da variação na nota da prova, ajustando-se para o número de horas de estudo. Isso indica que o modelo ajustado tem um bom desempenho em prever as notas dos alunos com base no número de horas de estudo.

# Regressão Linear Múltipla em Python

Agora, vamos ver um exemplo de regressão linear múltipla em Python. Suponha que queremos estudar a relação entre o número de horas de estudo, o número de horas de sono e a nota em uma prova de matemática. Temos os seguintes dados:

A equação da regressão linear é dada por:

`y = β0 + β1x1 + β2x2 + ... + βnxn + ε`

In [None]:
df = pd.DataFrame({
    'horas_estudo': [2, 3, 4, 5, 6],
    'horas_sono': [8, 7, 7, 6, 6],
    'nota': [65, 75, 85, 90, 95]
})
df

Em seguida, vamos ajustar o modelo de regressão linear:

In [None]:
# Separando as variáveis independentes da variável dependente
X = df[['horas_estudo', 'horas_sono']]
y = df['nota']

# Criando o modelo
model = LinearRegression()

# Treinando o modelo
model.fit(X, y)

# Fazendo previsões
y_pred = model.predict(X)

In [None]:
print(f'Intercepto: {model.intercept_:.2f}')
for i, variable in enumerate(['horas_estudo', 'horas_sono']):
    print(f'Coeficiente ({variable}): {model.coef_[i]:.2f}')

In [None]:
# exibição da função da regressão linear multipla
print('Função da regressão linear multipla: y = {:.2f} + {:.2f}*x1 + {:.2f}*x2'.format(model.intercept_, model.coef_[0], model.coef_[1]))

In [None]:
# Métricas
rmse = mean_squared_error(y, y_pred, squared=False)
rse = mean_squared_error(y, y_pred, squared=True)
mae = mean_absolute_error(y, y_pred)
r2 = r2_score(y, y_pred)

# Resultados
print('RMSE:', round(rmse, 2))
print('RSE:', round(rse, 2))
print('MAE:', round(mae, 2))
print('R2:', round(r2, 2))

As métricas obtidas na regressão linear múltipla com Scikit-Learn são:

- RMSE (Root Mean Squared Error): essa métrica indica a raiz quadrada do erro médio quadrático das previsões. Ela indica a diferença média entre a previsão e o valor real da variável dependente. No caso da regressão linear múltipla, o RMSE foi de 1.83, o que significa que o modelo tem uma precisão média de cerca de 1.83 pontos na previsão da nota do aluno com base no número de horas de estudo e de sono.

- RSE (Residual Standard Error): essa métrica indica a raiz quadrada do erro médio quadrático dos resíduos da regressão, ou seja, a variação não explicada pelo modelo. No caso da regressão linear múltipla, o RSE foi de 3.33, o que significa que o desvio padrão dos erros das previsões é de cerca de 3.33 pontos.

- MAE (Mean Absolute Error): essa métrica indica a média do valor absoluto dos erros das previsões. No caso da regressão linear múltipla, o MAE foi de 1.33, o que significa que o erro médio absoluto das previsões é de cerca de 1.33 pontos.

- R² (R-squared): essa métrica indica a proporção da variância na variável dependente explicada pela regressão. Ela varia de 0 a 1 e quanto mais próxima de 1, melhor é o ajuste do modelo. Em outras palavras, o R² mede a qualidade do modelo de regressão linear em capturar as variações da variável dependente a partir das variações das variáveis independentes. Vale ressaltar que o R² não indica se o modelo é adequado para a interpretação causal ou se os coeficientes das variáveis independentes são estatisticamente significativos, mas sim se ele consegue explicar bem as variações da variável dependente. Portanto, é importante analisar o R² juntamente com outras métricas e testes estatísticos para avaliar a qualidade do modelo como um todo. No caso da regressão linear multipla, o R² também foi de 0.97, o que significa que o modelo explica cerca de 97% da variação na nota da prova, ajustando-se para o número de horas de estudo. Isso indica que o modelo ajustado tem um bom desempenho em prever as notas dos alunos com base no número de horas de estudo.