# Problema
Seu vizinho é um agente imobiliário e quer alguma ajuda a prever os preços das casas para as regiões nos EUA. Seria ótimo se você pudesse de alguma forma criar um modelo para ela que lhe permita colocar algumas características de uma casa e retornar uma estimativa de quanto a casa venderia.

Ela perguntou se você poderia ajudá-la com suas novas habilidades de ciência de dados. Você diz sim e decide que a Regressão Linear pode ser um bom caminho para resolver esse problema.

Seu vizinho, em seguida, dá-lhe algumas informações sobre um monte de casas em regiões dos Estados Unidos. tudo está contido no arquivo: USA_Housing.csv.

Os dados contém as seguintes colunas:

* 'Avg. Area Income': Média da renda dos residentes de onde a casa está localizada.
* 'Avg. Area House Age': Média de idade das casas da mesma cidade.
* 'Avg. Area Number of Rooms': Número médio de quartos para casas na mesma cidade.
* 'Avg. Area Number of Bedrooms': Número médio de quartos para casas na mesma cidade
* 'Area Population': A população da cidade onde a casa está localizada.
* 'Price': Preço de venda da casa.
* 'Address': Endereço da casa;

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# importar bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn as sk

%matplotlib inline

In [None]:
arquivo = "/content/drive/MyDrive/ceub/curso_introducao_aprendizagem_de_maquina/02_Regressao_Linear/USA_Housing.csv"

In [None]:
# link do arquivo no google do professor USA_Housing.csv  "https://drive.google.com/file/d/19SnIhZZ9oLWTRV-x-0QNkhNnqGQ1ePtJ/view?usp=sharing"

link = 'https://drive.google.com/uc?export=download&id=19SnIhZZ9oLWTRV-x-0QNkhNnqGQ1ePtJ'

dados_casa_link = pd.read_csv(link)

dados_casa_link

In [None]:
#  Esta linha pode dar um erro caso você não o arquivo USA_Housing.csv no seu drive
# o valor da variável arquivo contém "/content/drive/MyDrive/ceub/curso_introducao_aprendizagem_de_maquina/02_Regressao_Linear/
# Caso você não tenha a pasta ceub/curso_introducao_aprendizagem_de_maquina/ no seu drive vai ocorrer erro
# Então você pode comentar esta célula
dados_casa = pd.read_csv(arquivo)

In [None]:
dados_casa

In [None]:
dados_casa.columns

Dado de entrada (X) serão dados numéricos

'Avg. Area Income', 
'Avg. Area House Age', 
'Avg. Area Number of Rooms',
'Avg. Area Number of Bedrooms', 
'Area Population',


Dado de saída Y
'Price'


In [None]:
# Exibir os primeiros elemementos do nosso dados
dados_casa.head(3)

In [None]:
# Exibir os últimos elemementos do nosso dados
dados_casa.tail(3)

In [None]:
# Vamos entender nossos dados

In [None]:
# Vamos se temos dados ausentes
# nossos dados possuem 5000 linhas e non-null significa que a coluna de dados não tem dados ausentes
dados_casa.info()

In [None]:
# count significa que cada coluna tem 5000 dados
# mean significa a média dos valores da coluna. Ex: 68583.108984 é a média da Avg. Area Income	
# std significa o desvio padrão dos valores da coluna
# min é o valor mínimo de uma coluna
# max é o valor máximo de uma coluna
# 25%,50% e 70% são os quartis
dados_casa.describe()

In [None]:
# Vamos fazer uma análise exploratória em cima dos dados

In [None]:
# dados_casa é um DataFrame
type(dados_casa)

Como eu quero prever o preço(price) eu irei olhar a linha onde está price se relacionando com cada coluna
Vamos olhar o pairplot para tentar verificar se o modelo de regressão linear é adequado para resolver seu problema

In [None]:
sns.pairplot(dados_casa)

In [None]:
sns.distplot(dados_casa['Price'])

In [None]:
correlacoes = dados_casa.corr()
correlacoes

In [None]:
sns.heatmap( correlacoes )

In [None]:
dados_casa.columns

# Definindo X(dados de entrada) e y(dados de saída)
# Este nosso modelo usa aprendizado supervisionado, pois informamos para o algoritmo os valores de saída esperado

In [None]:
# vou definir quais colunas serão os valores para X e y

X_coluna = ['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms','Avg. Area Number of Bedrooms', 'Area Population']
y_coluna = ['Price']

In [None]:
# meus dados de entrada serão X
X = dados_casa[ X_coluna ]

In [None]:
# vou definir meus dados de saída. São estes dados que o algoritmo precisa prever a partir dos valores de entrada (X)
y = dados_casa['Price']

In [None]:
X

In [None]:
y

In [None]:
# Nossos modelos podem sofrer Overfitting ou sobreajuste
# Isso acontece quando o algoritmo fica tendencioso para determinados dados
# Vamos evitar esse problema

In [None]:
# Para resolver vamos fazer uma divisão de dados entre treino e teste
# Vamos dividir o nosso dado em duas partes. Dados de treino e dados de teste
# Vamos utilizar train_test_split do sklearn

In [None]:
# https://scikit-learn.org/stable/
from sklearn.model_selection import train_test_split

In [None]:
# Você informa para o train_test_split o dado de entrada X e o dado de saída 
# y
# test_size=0.2 significa que estou querendo um tamanho de dado de teste de 20%(0.2*100)
X_treino, X_teste, y_treino, y_teste  = train_test_split(X, y, test_size=0.2)

In [None]:
X_treino, X_teste, y_treino, y_teste  = sk.model_selection.train_test_split(X, y, test_size=0.2)

In [None]:
# train_test_split fez uma divisão dos dados de 4000 para treino e 1000 para teste
# O algoritmo vai aprender apenas com dados de treino

In [None]:
X_treino

In [None]:
X_teste

In [None]:
y_treino

In [None]:
y_teste

# Vamos criar nosso primeiro modelo de machine. No caso que é regressão linear

In [None]:
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html?highlight=linearregression#sklearn.linear_model.LinearRegression
from sklearn.linear_model import LinearRegression

In [None]:
modelo_regressao_linear = LinearRegression() # instanciando o modelo

# modelo_regressao_linear = sk.linear_model.LinearRegression() # instanciando o modelo

In [None]:
# Vamos fazer nosso algoritmo aprender
# Vamos fornecer para o algoritmo os dados para treinamento
modelo_regressao_linear.fit(X_treino, y_treino)

In [None]:
print('Coeficientes (angulares) do modelo de regressão linear ',modelo_regressao_linear.coef_)
print('Coeficiente linear do modelo de regressão linear ',modelo_regressao_linear.intercept_)
# x1 - Avg. Area Income	
# x2 - Avg. Area House Age	
# x3 - Avg. Area Number of Rooms	
# x4 - Avg. Area Number of Bedrooms	
# x5 - Area Population
equacao_modelo = "y = 2.15271349e*X1 + 1.65050227*x2 + 1.20618096*x3 + 1.54313734e*x4 + 1.51753510*x5 + -2629350.688948173"
print('A equacao do nosso modelo é ',equacao_modelo)

In [None]:
modelo_regressao_linear.coef_

In [None]:
X_treino

In [None]:
coeficientes_df = pd.DataFrame(modelo_regressao_linear.coef_, X.columns, columns=['Coeficientes'])
print(coeficientes_df)

PASTA_DRIVE = '/content/drive/MyDrive/ceub/curso_introducao_aprendizagem_de_maquina/02_Regressao_Linear/'
coeficientes_df.to_csv(PASTA_DRIVE+'coeficientes_modelo_casa_aula5fev2022.csv')

# Vamos fazer uma previsão do modelo

In [None]:
# Vamos usar o método predict para prever valores com dados que o algoritmo não viu durante o treino
predicoes = modelo_regressao_linear.predict(X_teste)

In [None]:
# vamos criar um gráfico para entender as predições do modelo

In [None]:
# y_teste é o valor real que o algoritmo deveria prever
# predicoes estão os valores que o algoritmo encontrou
plt.scatter(y_teste, predicoes)

In [None]:
print('y_teste[0]',y_teste.values[0], 'predicao[0]', predicoes[0])

predicoes[0]-y_teste.values[0] # 67054.62979957717
predicoes[1]-y_teste.values[1] # 31165.315860119183

# (67054.62979957717 + 31165.315860119183) / 2

soma = 0
quantidade_valores = len(y_teste.values)
for i in range(quantidade_valores):
  soma = soma + np.abs(predicoes[i] - y_teste.values[i])

media = soma / quantidade_valores

print('MAE - erro médio absoluto', media)

Vamos avaliar o algoritmo

Significa avaliar as métricas do algoritmo

No caso regressão linear MAE mean absolute error - erro médio absoluto

# MAE - erro médio absoluto
# MSE - erro quadrático médio
# RMSE - raiz do erro quadrático médio


In [None]:
from sklearn import metrics

In [None]:
# Não precisa programar porque isso já tem pronto
mae = metrics.mean_absolute_error(y_teste, predicoes)
print('MAE(mean absolute error) - Erro médio absoluto ',mae)


In [None]:
mse = metrics.mean_squared_error(y_teste, predicoes)
print('MSE (mean square error) - Erro quadrático médio ', mse)

In [None]:
rmse = np.sqrt(mse)
print('RMSE (root mean square error) - Raiz rrro quadrático médio ', rmse)

# Vamos testar o algoritmo como um usuário

In [None]:
X.columns

In [None]:
print('Entre com Renda média')
renda_media = float(input())
print('Entre com Média da idade casa')
idade_casa = float(input())
print('Entre com  Média número de quartos')
numero_quartos = float(input())
print('Entre com Média de banheiros')
banheiros = float(input())
print('Entre com Populacao')
populacao = float(input())

In [None]:
np.shape(X_treino)

In [None]:
dados_entrada_usuario = [renda_media, idade_casa, numero_quartos, banheiros, populacao]

In [None]:
dados_entrada_usuario = np.reshape(dados_entrada_usuario, (1,5))

In [None]:
np.shape(dados_entrada_usuario)

In [None]:
previsao_preco_casa = modelo_regressao_linear.predict(dados_entrada_usuario)

In [None]:
maximo=previsao_preco_casa+mae
minimo=previsao_preco_casa-mae
print('A previsa do valor da casa é ', previsao_preco_casa, ' há a possibilidade do valor estar entre ', maximo, minimo)

In [None]:
# C, python, javascript, 

y = 2.15271349*renda_media + 1.65050227*idade_casa + 1.20618096*numero_quartos + 1.54313734*banheiros + 1.51753510*populacao + -2629350.688948173

In [None]:
valores_coef = coeficientes_df['Coeficientes'].values
valores_coef[0]

In [None]:
y = valores_coef[0]*renda_media + valores_coef[1]*idade_casa + valores_coef[2]*numero_quartos + valores_coef[3]*banheiros + valores_coef[4]*populacao + -2629350.688948173

In [None]:
y

In [None]:
print('O valor da predição foi ', y)