# *Linear Regression*
### Na análise de dados e na construção de modelos preditivos, a regressão linear é uma ferramenta fundamental. Neste contexto, a divisão dos dados em conjuntos de treinamento e teste, bem como a avaliação do desempenho do modelo, desempenham um papel crucial. Uma métrica frequentemente utilizada para avaliar o ajuste do modelo é o coeficiente de determinação, ou R², que varia de 0 a 1. Através deste coeficiente, podemos medir o quão bem o modelo explica a variabilidade nos dados observados. Neste contexto, exploraremos a importância da divisão de dados, do treinamento de um modelo de regressão linear e da avaliação do seu desempenho usando o R².

# *Treinamento de Regressão Linear*
### O treinamento de um modelo de regressão linear envolve o uso de dados de treinamento para ajustar uma linha ou hiperplano que melhor se adapte aos dados, minimizando o erro entre as previsões e os valores reais.

In [2]:
# Importando as bibliotecas necessárias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Gerando dados de exemplo
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando um modelo de regressão linear
model = LinearRegression()

# Treinando o modelo
model.fit(X_train, y_train)

# *Divisão de Dados*
### Os dados são divididos em conjuntos de treinamento e teste para avaliar o desempenho do modelo. O conjunto de treinamento é usado para treinar o modelo, enquanto o conjunto de teste é usado para avaliar a precisão das previsões.

In [3]:
# Importando as bibliotecas necessárias
from sklearn.model_selection import train_test_split

# Gerando dados de exemplo
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# *Métrica R² (Coeficiente de Determinação)*
### O R² é uma métrica comumente usada para avaliar o ajuste do modelo. Varia de 0 a 1, onde 1 indica um ajuste perfeito. O R² mede a proporção da variabilidade explicada pelo modelo em relação à variabilidade total dos dados.

In [4]:
# Importando as bibliotecas necessárias
from sklearn.metrics import r2_score

# Fazendo previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calculando o coeficiente de determinação (R²)
r2 = r2_score(y_test, y_pred)

# Imprimindo o resultado
print(f'Coeficiente de Determinação (R²): {r2}')

Coeficiente de Determinação (R²): 0.8072059636181392


# *Avaliação do Modelo*
### Após o treinamento, o modelo é avaliado no conjunto de teste, e as métricas, como R² e RMSE, são usadas para determinar quão bem o modelo faz previsões em relação aos valores reais. O R² próximo a 1 indica um bom ajuste do modelo aos dados.

In [5]:
# Importando as bibliotecas necessárias
from sklearn.metrics import mean_squared_error, r2_score

# Fazendo previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calculando o erro médio quadrático
mse = mean_squared_error(y_test, y_pred)

# Calculando o coeficiente de determinação (R²)
r2 = r2_score(y_test, y_pred)

# Imprimindo os resultados
print(f'Erro Médio Quadrático (MSE): {mse}')
print(f'Coeficiente de Determinação (R²): {r2}')

Erro Médio Quadrático (MSE): 0.6536995137170021
Coeficiente de Determinação (R²): 0.8072059636181392


# A regressão linear, apesar de ser um método simples e amplamente utilizado, tem algumas limitações. Algumas delas são:

# Assunção de Linearidade: A regressão linear assume uma relação linear entre as variáveis independentes e dependentes. Se a relação é não linear, a regressão linear pode não ser capaz de modelar adequadamente os dados.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Gerando dados não lineares
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + 0.5 * X**2 + np.random.randn(100, 1)

# Ajustando um modelo de regressão linear
model = LinearRegression()
model.fit(X, y)

# Plotando os dados e a linha de regressão
plt.scatter(X, y, color='black')
plt.plot(X, model.predict(X), color='blue', linewidth=3)
plt.title('Regressão Linear em Dados Não Lineares')
plt.show()

# Sensibilidade a Outliers: A presença de outliers nos dados pode ter um impacto significativo nos coeficientes da regressão linear e, consequentemente, nas previsões do modelo.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Gerando dados com um outlier
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)
y[95] += 20  # Adicionando um outlier

# Ajustando um modelo de regressão linear
model = LinearRegression()
model.fit(X, y)

# Plotando os dados e a linha de regressão
plt.scatter(X, y, color='black')
plt.plot(X, model.predict(X), color='blue', linewidth=3)
plt.title('Regressão Linear Sensível a Outliers')
plt.show()

# Assunção de Homocedasticidade: A regressão linear assume homocedasticidade, o que significa que a variância dos erros é constante em todos os níveis da variável independente. Se a variância dos erros é heterocedástica, os resultados da regressão podem ser enviesados.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Gerando dados com variância crescente
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1) + 0.5 * X**2

# Ajustando um modelo de regressão linear
model = LinearRegression()
model.fit(X, y)

# Plotando os dados e a linha de regressão
plt.scatter(X, y, color='black')
plt.plot(X, model.predict(X), color='blue', linewidth=3)
plt.title('Regressão Linear com Heterocedasticidade')
plt.show()

# Multicolinearidade: A regressão linear pode ser sensível à multicolinearidade, que ocorre quando duas ou mais variáveis independentes estão altamente correlacionadas. Isso pode levar a coeficientes instáveis e difíceis de interpretar.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Gerando dados com multicolinearidade
np.random.seed(42)
X1 = 2 * np.random.rand(100, 1)
X2 = 0.5 * X1 + np.random.randn(100, 1)
y = 4 + 3 * X1 + 2 * X2 + np.random.randn(100, 1)

# Ajustando um modelo de regressão linear
model = LinearRegression()
model.fit(np.column_stack((X1, X2)), y)

# Não é possível visualizar a multicolinearidade diretamente em um gráfico

# Coeficientes estimados
print(f'Coeficientes: {model.coef_}')

# Assunção de Normalidade dos Resíduos: A regressão linear assume que os resíduos (diferenças entre os valores reais e previstos) são normalmente distribuídos. Se os resíduos não seguem uma distribuição normal, as inferências estatísticas podem ser afetadas.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Gerando dados com resíduos não normalmente distribuídos
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.exponential(scale=1, size=(100, 1))

# Ajustando um modelo de regressão linear
model = LinearRegression()
model.fit(X, y)

# Obtendo os resíduos
residuals = y - model.predict(X)

# Histograma dos resíduos
plt.hist(residuals, bins=20, color='blue', edgecolor='black')
plt.title('Histograma dos Resíduos')
plt.show()