<a href="https://colab.research.google.com/github/marcelodepaoli/11_Regressao_Linear/blob/main/01_Regress%C3%A3o_Linear_com_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regressão Linear com Python

Seu vizinho é um corretor de imóveis e quer ajuda para prever os preços dos imóveis para regiões dos EUA. Seria ótimo se você pudesse criar um modelo que dadas algumas características de uma casa ele retornasse uma estimativa de por quanto a casa deve vendida.

Ele perguntou se você poderia ajudá-lo com suas novas habilidades de ciência de dados. Você diz que sim e decide que a Regressão Linear pode ser um bom caminho para resolver esse problema!

Seu vizinho então lhe dá algumas informações sobre um monte de casas em regiões dos Estados Unidos, está tudo no conjunto de dados: USA_Housing.csv.

Os dados contêm as seguintes colunas:

* 'Avg. Area Income': média da renda dos moradores da cidade onde a casa está localizada
* 'Avg. Area House Age': idade média das casas na mesma cidade
* 'Avg. Area Number of Rooms': Número médio de cômodos das casas na mesma cidade
* 'Avg. Area Number of Bedrooms': Número médio de quartos das casas na mesma cidade
* 'Area Population': população da cidade em que a casa está localizada
* 'Price': preço a que a casa foi vendida
* 'Address': Endereço da casa

**Vamos começar!**
##Confira os dados

Conseguimos obter alguns dados do seu vizinho para preços de moradias como um conjunto csv, vamos preparar nosso ambiente com as bibliotecas que precisamos e depois importar os dados!

### Importe as Bibliotecas

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

### Confira os Dados

In [None]:
# Esse trecho do código é obrigatório para quem estiver fazendo tudo pelo colab
# Caso você esteja utilizando o jupyter pode comentar/apagar
import os
from google.colab import drive

drive.mount('/content/drive')
os.chdir("drive/My Drive/Colab Notebooks/IA/11_Regressão_Linear")
os.listdir()

In [None]:
USAhousing = pd.read_csv('USA_Housing.csv')

In [None]:
USAhousing.head()

In [None]:
USAhousing.info()

In [None]:
USAhousing.describe()

In [None]:
USAhousing.columns

#Exploratory Data Analysis (EDA)

Vamos criar alguns gráficos simples para conferir os dados!

In [None]:
sns.pairplot(USAhousing)

In [None]:
sns.displot(USAhousing['Price'],kde=True)

##Treinando um modelo de regressão linear

Vamos agora começar a treinar o modelo de regressão! Precisaremos primeiro dividir nossos dados em um array X que contém os recursos para treinar e um array y com a variável de destino, neste caso a coluna Price. Iremos descartar a coluna Endereço porque ela tem apenas informações de texto que o modelo de regressão linear não pode usar.

###Arrays X e y

In [None]:
X = USAhousing[['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms',
       'Avg. Area Number of Bedrooms', 'Area Population']]

y = USAhousing['Price']

##Train Test Split

Agora vamos dividir os dados em um conjunto de treinamento e um conjunto de teste. Vamos treinar o modelo no conjunto de treinamento e, em seguida, usar o conjunto de teste para avaliar o modelo.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=101)

##Criando e Treinando o modelo

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lm = LinearRegression()

lm.fit(X_train,y_train)

##Avaliação do Modelo

Vamos avaliar o modelo verificando seus coeficientes e como podemos interpretá-los.

In [None]:
print(lm.intercept_)

In [None]:
coeff_df = pd.DataFrame(lm.coef_,X.columns,columns=['Coefficient'])
coeff_df

Interpretando os coeficientes:

- Mantendo todos os outros parâmetros fixos, um aumento de 1 unidade na **Avg. Area Income** está associado a um **aumento de \$21.52**.
- Mantendo todos os outros parâmetros fixos, um aumento de 1 unidade na **Avg. Area House Age** está associado a um **aumento de \$164883.28**.
- Mantendo todos os outros parâmetros fixos, um aumento de 1 unidade na **Avg. Area Number of Rooms** está associado a um **aumento de \$122368.67**.
- Mantendo todos os outros parâmetros fixos, um aumento de 1 unidade na **Avg. Area Number of Bedrooms** está associado a um **aumento de \$2233.80**.
- Mantendo todos os outros parâmetros fixos, um aumento de 1 unidade na **Area Population** está associado a um **aumento de \$15.15**.

Isso faz sentido? Provavelmente não porque estes dados são inventados. Se você deseja que dados reais repitam esse tipo de análise, confira o [boston dataset](http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html):



    from sklearn.datasets import load_boston
    boston = load_boston()
    print(boston.DESCR)
    boston_df = boston.data

##Previsões do nosso modelo

Vamos pegar as previsões do nosso conjunto de testes e ver o quão bem ele se saiu!

In [None]:
predictions = lm.predict(X_test)

plt.scatter(y_test,predictions)

**Histograma Residual**

In [None]:
sns.displot((y_test-predictions),bins=50,kde=True)

##Métricas de Avaliação de Regressão


Aqui estão três métricas de avaliação comuns para problemas de regressão:

**Mean Absolute Error** (MAE) é a média do valor absoluto dos erros:

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

**Mean Squared Error** (MSE) é a média dos erros ao quadrado:

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

**Root Mean Squared Error** (RMSE) é a raiz quadrada da média dos erros ao quadrado:

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

Comparando essas métricas:

- **MAE** é o mais fácil de entender, porque é o erro médio.
- **MSE** é mais popular que o MAE, porque o MSE "pune" erros maiores, o que tende a ser útil no mundo real.
- **RMSE** é ainda mais popular que o MSE, porque o RMSE é interpretável nas unidades de "y".

Todas essas são **funções de perda** (loss functions), porque queremos minimizá-las.

In [None]:
from sklearn import metrics

In [None]:
print('MAE: ', metrics.mean_absolute_error(y_test, predictions))
print('MSE: ', metrics.mean_squared_error(y_test, predictions))
print('RMSE: ', np.sqrt(metrics.mean_squared_error(y_test, predictions)))

Parabéns por ajudar seu vizinho! Vá em frente e explore o Boston Dataset mencionado anteriormente se esse conjunto de dados específico for interessante para você!