# ML&DL - Regressão linear Multipla

In [None]:
!pip install plotly --upgrade

In [None]:
import plotly.express as px
import plotly.graph_objects as go
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
base_casas = pd.read_csv('data/house_prices.csv')
base_casas

In [None]:
base_casas.describe()

In [None]:
base_casas.isnull().sum()

In [None]:
base_casas.corr()

In [None]:
figura = plt.figure(figsize=(20,20))
sns.heatmap(base_casas.corr(), annot=True);

In [None]:
X_casas = base_casas.iloc[:, 3:19]
X_casas

In [None]:
y_casas = base_casas.iloc[:, 2]
y_casas

In [None]:
from sklearn.model_selection import train_test_split
X_casas_treinamento, X_casas_teste, y_casas_treinamento, y_casas_teste = train_test_split(X_casas, y_casas, test_size = 0.3, random_state = 0)

In [None]:
X_casas_treinamento.shape, X_casas_teste.shape

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
regressor_multiplo_casas = LinearRegression()
regressor_multiplo_casas.fit(X_casas_treinamento, y_casas_treinamento)

In [None]:
regressor_multiplo_casas.intercept_

In [None]:
regressor_multiplo_casas.coef_

In [None]:
coeff_df = pd.DataFrame(regressor_multiplo_casas.coef_,X_casas.columns,columns=['Coefficient'])
coeff_df

In [None]:
len(regressor_multiplo_casas.coef_)

## Predições do nosso modelo

Vamos pegar as previsões em nosso conjunto de testes e ver o quão bem!

In [None]:
regressor_multiplo_casas.score(X_casas_treinamento, y_casas_treinamento)

In [None]:
regressor_multiplo_casas.score(X_casas_teste, y_casas_teste)

In [None]:
predictions = regressor_multiplo_casas.predict(X_casas_teste)
predictions

## Métricas de avaliação de regressão


Aqui estão três métricas de avaliação comuns para problemas de regressão:

**Mean absolute error ** (erro absoluto médio) (MAE) é a média do valor absoluto dos erros:

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

** Mean Squared Error ** (erro médio quadrático) (MSE) é a média dos erros quadrados:

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

** Root Mean Square Error ** (raiz do erro quadrático médio) (RMSE) é a raiz quadrada da média dos erros quadrados:

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

Comparando estas métricas:

- **MAE** é o mais fácil de entender, porque é o erro médio.
- **MSE** é mais popular que o MAE, porque a MSE "puniria" erros maiores, o que tende a ser útil no mundo real.
- **RMSE** é ainda mais popular do que MSE, porque o RMSE é interpretável nas unidades "y".

Todas estas são ** funções de perda **, porque queremos minimizá-las.

In [None]:
from sklearn import metrics

In [None]:
print('MAE:', metrics.mean_absolute_error(y_casas_teste, predictions))
print('MSE:', metrics.mean_squared_error(y_casas_teste, predictions))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_casas_teste, predictions)))