# Regressão linear


O seu vizinho é um agente imobiliário e quer alguma ajuda para prever os preços das casas para as regiões nos EUA. Seria bom criar um modelo que lhe permita colocar algumas caraterísticas de uma casa e retornar uma estimativa do valor da casa.

A Regressão linear pode ser um bom caminho para resolver este problema.

O seu vizinho, dá-lhe algumas informações sobre várias casas em regiões dos Estados Unidos (Casas_USA.csv do original USA_Housing.csv).

Os dados contêm as seguintes colunas:

* 'Avg. Area Income': Média da renda dos residentes de onde a casa está localizada.
* 'Avg. Area House Age': Média de idade das casas da mesma cidade.
* 'Avg. Area Number of Rooms': Número médio de quartos para casas na mesma cidade.
* 'Avg. Area Number of Bedrooms': Número médio de quartos para casas na mesma cidade
* 'Area Population': A população da cidade onde a casa está localizada.
* 'Price': Preço de venda da casa.
* 'Address': Endereço da casa

### Importar Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
print(pd.__version__)
print(np.__version__)
print(sns.__version__)

### Importar os dados

In [None]:
casasUSA = pd.read_csv('Casas_USA.csv')

In [None]:
casasUSA.head()

In [None]:
casasUSA.info()

In [None]:
casasUSA.describe()

In [None]:
casasUSA.columns

# Pair Plot

Verificar os dados

In [None]:
sns.pairplot(casasUSA)

## Treinar um modelo de regressão linear

Vamos agora começar a treinar o modelo de regressão. 
Em primeiro lugar, precisamos de dividir os dados numa matriz X que contém os recursos a treinar, e uma matriz Y com a variável alvo, neste caso, a coluna Preço. 
Vamos descartar a coluna "Address" porque só tem informações de texto que o modelo de regressão linear não pode utilizar.

### Arrays X e Y

In [None]:
X = casasUSA[['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms',
               'Avg. Area Number of Bedrooms', 'Area Population']]

In [None]:
Y = casasUSA['Price']

## Split de treino

Agora, dividem-se os dados num conjunto de treino e num conjunto de testes. 
Vamos criar o modelo utilizando o conjunto de treino e depois usaremos o conjunto de testes para avaliar o modelo.

O método train_test_split fará a divisão dos dados.

Recebe por parâmetro o X e o Y.

O parâmetro test_size representa a quantidade de dados para teste (neste caso 40% dos dados serão considerados para teste).


In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=101)

## Criar e treinar o modelo

Utilizar a classe LinearRegression e instanciar o objeto.

Utilizar o método fit para encontrar os parâmetros para o modelo linear. Recebe por parâmetro os dados de treino.

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lm = LinearRegression()

In [None]:
lm.fit(X_train,y_train)

## Avaliação do modelo

Vamos avaliar o modelo ao verificar os coeficientes.

In [None]:
# Print da interceção
print(lm.intercept_)

In [None]:
#Print dos coeficientes
print(lm.coef_)

In [None]:
coeff_df = pd.DataFrame(lm.coef_,X.columns,columns=['Coefficient'])
coeff_df

Interpretar os coeficientes:

- Mantendo todas as outras variáveis constantes, um aumento de 1 unidade em ** Avg. Area Income ** está associado a um **aumento de \$ 21,52**.
- Mantendo todas as outras variáveis constantes, um aumento de 1 unidade em ** Avg. Area House Age ** está associada a um ** aumento de \$ 164883.28 **.
- Mantendo todas as outras variáveis constantes, um aumento de 1 unidade em ** Avg. Area Number of Bedrooms ** está associada a um ** aumento de \$ 122368.67 **.
- Mantendo todas as outras variáveis constantes, um aumento de 1 unidade em ** Avg. Area Number of Bedrooms ** está associada a um ** aumento de \$ 2233.80 **.
- Mantendo todas as outras variáveis constantes, um aumento de 1 unidade em ** Area Population ** está associado a um ** aumento de \$ 15.15 **.

## Predições do modelo

In [None]:
predictions = lm.predict(X_test)
predictions

### Scatter Plot com os valores reais das casas e com os valores que o modelo irá prever, dado que este aprendeu com os valores das primeiras casas

In [None]:
plt.figure(figsize=(12, 6))
plt.scatter(y_test,predictions)

## Métricas de avaliação de regressão


Três métricas de avaliação comuns para problemas de regressão:

**Mean absolute error ** (erro absoluto médio) (MAE) é a média do valor absoluto dos erros:

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

** Mean Squared Error ** (erro médio quadrático) (MSE) é a média dos erros quadrados:

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

** Root Mean Square Error ** (raiz do erro quadrático médio) (RMSE) é a raiz quadrada da média dos erros quadrados:

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

Comparando estas métricas:

- **MAE** é o mais fácil de entender, porque é o erro médio.
- **MSE** é mais popular que o MAE, porque a MSE "puniria" erros maiores, o que tende a ser útil no mundo real.
- **RMSE** é ainda mais popular do que MSE, porque o RMSE é interpretável nas unidades "y".

Todas estas são ** funções de perda **, porque queremos minimizá-las.

In [None]:
from sklearn import metrics

In [None]:
print('MAE:', metrics.mean_absolute_error(y_test, predictions))
print('MSE:', metrics.mean_squared_error(y_test, predictions))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, predictions)))

### Cálculo de valores de vendas para 5 casas

In [None]:
casas5 = pd.read_csv('Casas_USA cotacao.csv')

In [None]:
X5 = casas5[['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms',
               'Avg. Area Number of Bedrooms', 'Area Population']]
Y5 = casas5['Price']

In [None]:
X5 = casasUSA[['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms',
               'Avg. Area Number of Bedrooms', 'Area Population']][:5]
Y5 = casasUSA['Price'][:5]

In [None]:
predictions5 = lm.predict(X5)
predictions5

In [None]:
casasUSA['Price'][:5]