# **🧪 Laboratório # 8**

### ASSUNTO: 📈 Regressão Linear usando Python

---


### 📚 Materiais de apoio

- [Scikit Learn](scikit-learn.org/)
- [Regressão Linear em Python por Jones Granatyr](https://www.youtube.com/watch?v=tksi1oZY6Qs)
- [Material bem interessante para Regressão Linear em Python (inglês)](https://realpython.com/linear-regression-in-python/#simple-linear-regression-with-scikit-learn)

### 📥 Importando as bibliotecas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt 
import numpy as np 
from sklearn.linear_model import LinearRegression 
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

### 📄 Lendo o arquivo com os dados

Fazendo a leitura do arquivo que contém os dados (dataframe - df) que serão analisados nesse notebook.

In [None]:
url = 'https://raw.githubusercontent.com/JenniferDominique/machine-learning/main/data/house.csv'

# leitura de dados (CSV), separados por ponto e vírgula no nesse caso
df = pd.read_csv(url, delimiter=';', error_bad_lines=False)
df #Exibindo todos os dados do dataframe

Unnamed: 0,houseSize,lotSize,bedrooms,granite,bathroom,sellingPrice
0,3529,9191,6,0,0,205000
1,3247,10061,5,1,1,224900
2,4032,10150,5,0,1,197900
3,2397,14156,4,1,0,189900
4,2200,9600,4,0,1,195000
5,3536,19994,6,1,1,325000
6,2983,9365,5,0,1,230000


In [None]:
y = 'sellingPrice' # Target value
# Coluna que estamos tentando prever

x = df.drop([y], axis=1) # Features
# Excluindo a coluna de 'SellingPrice' das features

y = df[y]

print("X: \n", x)
print("Y: \n", y)

X: 
    houseSize  lotSize  bedrooms  granite  bathroom
0       3529     9191         6        0         0
1       3247    10061         5        1         1
2       4032    10150         5        0         1
3       2397    14156         4        1         0
4       2200     9600         4        0         1
5       3536    19994         6        1         1
6       2983     9365         5        0         1
Y: 
 0    205000
1    224900
2    197900
3    189900
4    195000
5    325000
6    230000
Name: sellingPrice, dtype: int64


### 🧫 Separando os entre treino e teste

In [None]:
Xtrain, Xval, Ytrain, Yval = train_test_split(x, y, test_size=0.3, random_state=0)
# Separando os dados em 70% para treino e 30% para teste

print(Xtrain.shape, Xval.shape, Ytrain.shape, Yval.shape)
# O vetorno vai ser de (linhas, colunas)
# os dois últimos valores, que são de Y, ficam sem o número das colunas 
# porque eles têm zero dimensões, ou seja, apenas 1 coluna 

(4, 5) (3, 5) (4,) (3,)


### 📈 Criação do modelo de Regressão linear

In [None]:
model = LinearRegression() 

Treino do modelo com os Dados

In [None]:
model.fit(Xtrain, Ytrain) 

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

### 🧮 Cálculo do Coeficiente de Determinação R2.

🚧 Quanto mais próximo de 1, melhor o modelo é.

Foco no acerto

In [None]:
r_sq = model.score(Xtrain, Ytrain) 

print('Coefficient of determination:', r_sq)

Coefficient of determination: 1.0


### 🧮 Cálculo de MSE (Mean Squared Error) 

Foco no erro

Fazendo a média na "mão":

In [None]:
np.mean((model.predict(Xval)-Yval)**2)

1108340796.4604123

Ou fazendo a média utilizando das métricas do sklearn o mean_squared_error:

In [None]:
mean_squared_error(Yval, model.predict(Xval)) # (valores reais, previsão)

1108340796.4604123

### 🧮 Admitindo a Equação da Regressão Linear: `𝑓(𝑥) = 𝑏₀ + 𝑏₁𝑥`

In [None]:
print('b0 ou intercept:', model.intercept_) 

print('b1 ou coeficiente (slope):', model.coef_) 

b0 ou intercept: -17986.476495571493
b1 ou coeficiente (slope): [ 2.51367438e+01  9.24595053e+00  8.21656269e+03 -1.61182250e+04
  3.60582642e+04]
