<a href="https://colab.research.google.com/github/morecodelesstalk/data_science_linear_regression_USA_housing/blob/main/USAHousing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Problema

Seu vizinho é um agente imobiliário e quer alguma ajuda a prever os preços das casas para as regiões nos EUA. Seria ótimo se você pudesse de alguma forma criar um modelo para ela que lhe permita colocar algumas características de uma casa e retornar uma estimativa de quanto a casa venderia.

Ela perguntou se você poderia ajudá-la com suas novas habilidades de ciência de dados. Você diz sim e decide que a Regressão Linear pode ser um bom caminho para resolver esse problema.

Seu vizinho, em seguida, dá-lhe algumas informações sobre um monte de casas em regiões dos Estados Unidos. tudo está contido no arquivo: USA_Housing.csv.

Os dados contém as seguintes colunas:

* 'Avg. Area Income': Média da renda dos residentes de onde a casa está localizada.
* 'Avg. Area House Age': Média de idade das casas da mesma cidade.
* 'Avg. Area Number of Rooms': Número médio de quartos para casas na mesma cidade.
* 'Avg. Area Number of Bedrooms': Número médio de quartos para casas na mesma cidade
* 'Area Population': A população da cidade onde a casa está localizada.
* 'Price': Preço de venda da casa.
* 'Address': Endereço da casa;

### Imports

In [None]:
# importar bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn as sk

%matplotlib inline

### Dataset

In [None]:
arquivo = "USA_Housing.csv"

In [None]:
dados_casa = pd.read_csv(arquivo)

### Data analysis

In [None]:
dados_casa

In [None]:
dados_casa.columns

input (X) numerical columns:

- 'Avg. Area Income',
- 'Avg. Area House Age',
- 'Avg. Area Number of Rooms',
- 'Avg. Area Number of Bedrooms',
- 'Area Population',


output (y):
- 'Price'


In [None]:
# Show first elements of our dataset
dados_casa.head(3)

In [None]:
# Show last elements of our dataset
dados_casa.tail(3)

In [None]:
dados_casa.info()

In [None]:
dados_casa.describe()

In [None]:
type(dados_casa)

In [None]:
sns.pairplot(dados_casa)

In [None]:
sns.displot(dados_casa['Price'])

In [None]:
correlacoes = dados_casa.corr()
correlacoes

In [None]:
sns.heatmap( correlacoes )

### Train test split

In [None]:
dados_casa.columns

In [None]:
X_coluna = ['Avg. Area Income',
            'Avg. Area House Age',
            'Avg. Area Number of Rooms',
            'Avg. Area Number of Bedrooms',
            'Area Population']

In [None]:
y_coluna = ['Price']

In [None]:
X = dados_casa[ X_coluna ]
X

In [None]:
y = dados_casa['Price']
y

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_treino, X_teste, y_treino, y_teste  = train_test_split(X, y, test_size = 0.2)

In [None]:
X_treino

In [None]:
X_teste

In [None]:
y_treino

In [None]:
y_teste

### Fit

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
modelo_regressao_linear = LinearRegression()

In [None]:
modelo_regressao_linear.fit(X_treino, y_treino)

In [None]:
print('Coeficientes (angulares) do modelo de regressão linear ', modelo_regressao_linear.coef_)

In [None]:
print('Coeficiente linear do modelo de regressão linear ', modelo_regressao_linear.intercept_)

In [None]:
# x1 - Avg. Area Income
# x2 - Avg. Area House Age
# x3 - Avg. Area Number of Rooms
# x4 - Avg. Area Number of Bedrooms
# x5 - Area Population


equacao_modelo = '''
                  y = 2.15669494e+01 * X1 => coef[1] * Avg. Area Income
                    + 1.64796333e+05 * x2 => coef[2] * Avg. Area House Age
                    + 1.19513029e+05 * x3 => coef[3] * Avg. Area Number of Rooms
                    + 2.18188514e+03 * x4 => coef[4] * Avg. Area Number of Bedrooms
                    + 1.51379912e+01 * x5 => coef[5] * Area Population
                    + -2622798.165901833 => intercept
                 '''

print('A equacao do nosso modelo é ', equacao_modelo)

In [None]:
coeficientes_df = pd.DataFrame(modelo_regressao_linear.coef_, X.columns, columns=['Coeficientes'])

print(coeficientes_df)

In [None]:
coeficientes_df.to_csv('coeficientes_modelo_casa.csv')

### Prediction

In [None]:
predicoes = modelo_regressao_linear.predict(X_teste)

### Metrics

In [None]:
plt.scatter(y_teste, predicoes)

In [None]:
from sklearn import metrics

In [None]:
mae = metrics.mean_absolute_error(y_teste, predicoes)

print('MAE(mean absolute error) - Erro médio absoluto ', mae)

In [None]:
mse = metrics.mean_squared_error(y_teste, predicoes)

print('MSE (mean square error) - Erro quadrático médio ', mse)

In [None]:
rmse = np.sqrt(mse)

print('RMSE (root mean square error) - Raiz rrro quadrático médio ', rmse)

### Test our algoritm

In [None]:
X.columns

In [None]:
print('Entre com Renda média')
renda_media = float(input())
print('Entre com Média da idade casa')
idade_casa = float(input())
print('Entre com  Média número de quartos')
numero_quartos = float(input())
print('Entre com Média de banheiros')
banheiros = float(input())
print('Entre com Populacao')
populacao = float(input())

In [None]:
np.shape(X_treino)

In [None]:
dados_entrada_usuario = [renda_media, idade_casa, numero_quartos, banheiros, populacao]

In [None]:
dados_entrada_usuario = np.reshape(dados_entrada_usuario, (1,5))

In [None]:
np.shape(dados_entrada_usuario)

In [None]:
previsao_preco_casa = modelo_regressao_linear.predict(dados_entrada_usuario)

In [None]:
maximo = previsao_preco_casa + mae
minimo = previsao_preco_casa - mae

print('A previsa do valor da casa é ', previsao_preco_casa, ' há a possibilidade do valor estar entre ', maximo, minimo)

In [None]:
valores_coef = coeficientes_df['Coeficientes'].values

valores_coef[0]

In [None]:
y = valores_coef[0] * renda_media + valores_coef[1] * idade_casa + valores_coef[2] * numero_quartos + valores_coef[3] * banheiros + valores_coef[4] * populacao + -2629350.688948173

In [None]:
y

In [None]:
print('O valor da predição foi ', y)