# **Regressão Linear**

*Prof. Orlando Junior*

A análise de regressão linear é usada para prever o valor de uma variável com base no valor de outra. A variável que deseja prever é chamada de variável dependente. A variável que é usada para prever o valor de outra variável é chamada de variável independente.

Essa forma de análise estima os coeficientes da equação linear, envolvendo uma ou mais variáveis independentes que melhor preveem o valor da variável dependente. A regressão linear se ajusta a uma linha reta ou superficial que minimiza as discrepâncias entre os valores de saída previstos e reais. Há calculadoras de regressão linear simples que usam um método dos mínimos quadrados para descobrir a linha de melhor ajuste para um conjunto de dados emparelhados. Em seguida, o valor de X (variável dependente) de Y (variável independente) é estimado.

## Evolução da Diabetes

**Diabetes** é uma doença causada pela produção insuficiente ou má absorção de insulina, hormônio que regula a glicose no sangue e garante energia para o organismo. A insulina é um hormônio que tem a função de quebrar as moléculas de glicose(açúcar) transformando-a em energia para manutenção das células do nosso organismo. O diabetes pode causar o aumento da glicemia e as altas taxas podem levar a complicações no coração, nas artérias, nos olhos, nos rins e nos nervos. Em casos mais graves, o diabetes pode levar à morte.

De acordo com a Sociedade Brasileira de Diabetes, existem atualmente, no Brasil, mais de 13 milhões de pessoas vivendo com a doença, o que representa 6,9% da população nacional. A melhor forma de prevenir é praticando atividades físicas regularmente, mantendo uma alimentação saudável e evitando consumo de álcool, tabaco e outras drogas. Comportamentos saudáveis evitam não apenas o diabetes, mas outras doenças crônicas, como o câncer.

![picture](https://newslab.com.br/wp-content/uploads/2021/11/960x720-71.png)

Neste problema, usaremos um conjunto de dados com 10 variáveis preditoras (idade, sexo, índice de massa corporal, pressão arterial média e seis medições de soro sanguíneo) que foram obtidas para cada um dos 442 pacientes com diabetes, bem como a resposta de interesse, que é uma medida quantitativa da progressão da doença um ano após as condições iniciais observadas.

**Variáveis explicativas do conjunto de dados:**

* age – age in years
* sex
* bmi – body mass index
* bp – average blood pressure
* s1 – tc, total serum cholesterol
* s2 – ldl, low-density lipoproteins
* s3 – hdl, high-density lipoproteins
* s4 – tch, total cholesterol / HDL
* s5 – ltg, possibly log of serum triglycerides level
* s6 – glu, blood sugar level

## Bibliotecas

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
from sklearn.datasets import load_diabetes

In [None]:
from sklearn.preprocessing import StandardScaler # normalização

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
from sklearn.dummy import DummyRegressor
from sklearn.linear_model import LinearRegression

In [None]:
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

## Dados

In [None]:
X, y = load_diabetes(return_X_y=True, as_frame=True)

In [None]:
# Informações do conjunto de dados
X.info()

In [None]:
# Conjunto de dados de entrada (X)
X.head()

In [None]:
# Estatísticas e medidas-resumo
X.describe().T

In [None]:
X['sex'].value_counts()

In [None]:
# Plota um boxplot da entrada
X.plot.box()
plt.show()

In [None]:
# Conjunto de dados de saída (y)
y.head()

In [None]:
# Plota um boxplot da saída
y.plot.box()
plt.show()

In [None]:
# Mostra as medidas resumo da saída
y.describe()

In [None]:
# Separação em treinamento/teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Normaliza os dados antes da modelagem
std_scaler = StandardScaler()
X_train_std = std_scaler.fit_transform(X_train)
X_test_std = std_scaler.transform(X_test)

In [None]:
pd.DataFrame(X_train_std).describe().T

## Regressão Linear Simples

In [None]:
# bmi vs. y
X_train_simples = X_train_std[:,2].reshape(-1, 1)
X_test_simples = X_test_std[:,2].reshape(-1, 1)

In [None]:
plt.figure(figsize=(8,5))
plt.scatter(X_train_simples, y_train, s=10, color='green')
plt.xlabel("bmi")
plt.ylabel("target")
plt.show()

In [None]:
# Ajusta um modelo de regressão linear simples aos dados
reglin_simples = LinearRegression(fit_intercept=True)
reglin_simples.fit(X_train_simples, y_train)

In [None]:
# Coeficiente
print(reglin_simples.coef_)

In [None]:
# Intercepto
print(reglin_simples.intercept_)

In [None]:
# Equação final
str_eq = "y = %.3fx + %.3f" % (reglin_simples.coef_[0], reglin_simples.intercept_)
print(str_eq)

In [None]:
# Predição
y_pred_simples = reglin_simples.predict(X_test_simples)

In [None]:
plt.figure(figsize=(8,5))
plt.scatter(X_test_simples, y_test, color='green', s=10)
plt.plot(X_test_simples, y_pred_simples, color='red', linewidth=1, linestyle='dotted')
plt.text(1.8, 310, str_eq, color='red', fontsize=9)
plt.xlabel("bmi")
plt.ylabel("target")
plt.show()

In [None]:
# Avaliação de desempenho
print("R2   = %.3f" % r2_score(y_test, y_pred_simples))
print("MAE  = %.3f" % mean_absolute_error(y_test, y_pred_simples))
print("MSE  = %.3f" % mean_squared_error(y_test, y_pred_simples))
print("RMSE = %.3f" % mean_squared_error(y_test, y_pred_simples, squared=False))

## Regressão Linear Múltipla

In [None]:
X_train

In [None]:
#df_train = pd.concat([X_train, pd.DataFrame(y_train)], axis=1)
#df_test = pd.concat([X_test, pd.DataFrame(y_test)], axis=1)
#X_train = df_train[['s1', 's5', 's2', 'bmi']]
#X_test = df_test[['s1', 's5', 's2', 'bmi']]

In [None]:
# Ajusta um modelo de regressão linear múltipla aos dados
reglin = LinearRegression(fit_intercept=True)
reglin.fit(X_train, y_train)

In [None]:
# Coeficientes
print(reglin.coef_)

In [None]:
# Intercepto
print(reglin.intercept_)

In [None]:
# Predição
y_pred = reglin.predict(X_test)

In [None]:
# Avaliação de desempenho
print("R2   = %.3f" % r2_score(y_test, y_pred))
print("MAE  = %.3f" % mean_absolute_error(y_test, y_pred))
print("MSE  = %.3f" % mean_squared_error(y_test, y_pred))
print("RMSE = %.3f" % mean_squared_error(y_test, y_pred, squared=False))

In [None]:
# Importância dos atributos
y_pos = np.arange(len(X_train.columns))
plt.barh(y_pos, reglin.coef_, color='springgreen')
plt.axvline(x=0, color='black')
plt.yticks(y_pos, X_train.columns)
plt.show()

## Regressor Dummy

Para fins experimentais e de comparação, iremos comparar a regressão linear múltipla e o regressor dummy.

In [None]:
dummy = DummyRegressor()
dummy.fit(X_train, y_train)

In [None]:
y_pred_dummy = dummy.predict(X_test)

In [None]:
# Avaliação de desempenho
print("R2   = %.3f" % r2_score(y_test, y_pred_dummy))
print("MAE  = %.3f" % mean_absolute_error(y_test, y_pred_dummy))
print("MSE  = %.3f" % mean_squared_error(y_test, y_pred_dummy))
print("RMSE = %.3f" % mean_squared_error(y_test, y_pred_dummy, squared=False))