

SciKit Learn


#Regressão Linear - uma aplicação bem simples



In [None]:
import matplotlib.pyplot as plt

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression

X = np.array([[1,1], [1,2], [2,2], [2,3], [3,4], [5,6], [7,9], [3,6], [8,4], [7,8]])
# y = 1 * x_0 + 2 * x_1 + 3
X    # Estes são os nossos dados de entrada

In [None]:
y = np.dot(X, np.array([1, 2])) + 3
y  # estes são os dados de saída, ou dados reais

In [None]:
import pandas as pd
df = pd.DataFrame({'x0':X[:,0], 'x1':X[:,1], 'y':y})

In [None]:
df

In [None]:
reg = LinearRegression().fit(X, y)

A nossa equação com os parâmetros já calculados é

y = 1 * x0 + 2 * x1 + 3

In [None]:
reg.coef_  # coeficientes de x0 e x1

In [None]:
reg.intercept_   # intercepto, inclinação ou slope

In [None]:
reg.predict(np.array([[3, 5]]))

In [None]:
reg.score(X, y)  # é o R2

# **Regressão Linear**

Agora, vamos usar uma base pública do Kaggle feita para estudar um pouco mais de Regressão Linear com a biblioteca Scikit-Learn

A base está no link: https://www.kaggle.com/andonians/random-linear-regression



https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

Vamos começar importando as bibliotecas e chamando a base de dados para um DataFrame.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv("/content/train.csv")
df.head(10)

In [None]:
df.shape

In [None]:
df = df.dropna()
print(df.shape)

**Dados de entrada e saída**

O modelo de regressão linear vai usar os dados da coluna x para prever os dados da coluna y.

A primeira etapa é separar os dados de entrada (X) e de saída (y).

In [None]:
X = df[["x"]]  #passando um novo dataframe [[]]
y = df["y"]    # passando uma Série

In [None]:
type(X)

In [None]:
type(y)

**A) Vamos dividir os dados de X e y em dados de treino e dados de teste**

Para dividir o conjunto de treino e de teste, usaremos uma função pronta do Scikit-Learn (sklearn.model_selection.train_test_split)

O tamanho da base de treino será de 70% do total.

In [None]:
from sklearn.model_selection import train_test_split  # divide arrays ou matrizes em subconjuntos aleatórios de treino e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

**B) Vamos criar e treinar o modelo**

Será usada uma função de regressão linear pronta do Scikit-Learn.

In [None]:
# Importar a função.
from sklearn.linear_model import LinearRegression

# Chamar a função de regressão linear.
lm = LinearRegression()

# Treinar o modelo com os dados de treino.
lm.fit(X_train,y_train)  # o fit nada mais é do que o modelo sendo treinado

**C) Vamos analisar o resultado do modelo**

Em um gráfico da resposta correta vs valor predito, quanto mais próximo da reta Y = X for, melhor é o resultado.

In [None]:
# Encontrar as predições para os dados de teste.

predictions = lm.predict(X_test) # O predict serve para predizer a resposta do modelo treinado

In [None]:
# Comparar os dados preditos com os dados corretos em um gráfico.

plt.scatter(y_test, predictions)   # real x predito
plt.xlabel('y_test')
plt.ylabel('predictions')
plt.show;


In [None]:
df = pd.DataFrame({"X": X_test.x , "Real": y_test, "Predictions": predictions})
df.sort_values(by = 'X', ascending=True, inplace=True)

In [None]:
# Plot the linear fit
df.plot(x='X', y='Predictions', kind='scatter', xticks=(0,100))
df.plot(x='X', y='Predictions', c="r")
# Set the title
plt.title("X vs. predito")
# Set the y-axis label
plt.ylabel('Predictions')
# Set the x-axis label
plt.xlabel('X')
plt.plot;

In [None]:
df

Na função y = w.x + b, nós temos que a e b são:

In [None]:
print("w =" ,lm.coef_)
print("b =", lm.intercept_)

Ou seja, para esse caso a reta predita, ou seja, calculada a partir dos exemplos dados no consjunto de treinamento, é: 

y = 1.000 x - 0.198

**Como avaliar numéricamente o resultado?**

As métricas mais comuns para problemas de regressão:

**Mean absolute error ** (erro absoluto médio) (MAE) é a média do valor absoluto dos erros: (média)

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

** Mean Squared Error ** (erro médio quadrático) (MSE) é a média dos erros quadrados: (variância)

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

** Root Mean Square Error ** (raiz do erro quadrático médio) (RMSE) é a raiz quadrada da média dos erros quadrados: (desvio padrão)

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

Comparando estas métricas:

- **MAE** é o mais fácil de entender, porque é o erro médio.
- **MSE** é mais popular que o MAE, porque a MSE "puniria" erros maiores, o que tende a ser útil no mundo real.
- **RMSE** é ainda mais popular do que MSE, porque o RMSE é interpretável nas unidades "y".

Um valor mais baixo de MAE, MSE e RMSE implica maior precisão de um modelo de regressão. Entretanto, um valor mais alto de R quadrado é considerado desejável. R2 = 1 é o melhora valor de ajuste possível.

In [None]:
# Importar função do Scikit-Learn para métricas de erro.
from sklearn import metrics

print('MAE:', metrics.mean_absolute_error(y_test, predictions))
print('MSE:', metrics.mean_squared_error(y_test, predictions))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, predictions)))

In [None]:
print("Regressão Linear (original)")
print("Coeficiente R^2 na base de treinamento: {:.2f}".format(lm.score(X_train, y_train)))
print("Coeficiente R^2 na base de teste: {:.2f}".format(lm.score(X_test, y_test)))

print("Descrição do modelo: ")
s = ["{0:0.2f}".format(v) for v in lm.coef_]
print("w: {}  b: {:.2f}".format(s, lm.intercept_))

E se eu quiser saber o valor predito de uma valor qualquer?

In [None]:
x= 3

In [None]:
y = 1.000 * x - 0.198
y

In [None]:
lm.predict(np.array([[3]]))