 ## Modelo de Regressão - Previsão Preço de Casas - Boston, EUA

## Problema de Negócio

Criação de um modelo preditivo que seja capaz de prever o preço de casas com base nas características de diversas casas em um bairro de Boston, EUA

### Descrição do dataset

Nome: The Boston Housing Dataset

Fonte: https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

Descrição: o dataset contem informações coletadas pelo U.S Census Service

Input: Possui 14 atributos (em inglês)

 - 1.CRIM - per capita crime rate by town
 - 2.ZN - proportion of residential land zoned for lots over 25,000 sq.ft.
 - 3.INDUS - proportion of non-retail business acres per town.
 - 4.CHAS - Charles River dummy variable (1 if tract bounds river; 0 otherwise)
 - 5.NOX - nitric oxides concentration (parts per 10 million)
 - 6.RM - average number of rooms per dwelling
 - 7.AGE - proportion of owner-occupied units built prior to 1940
 - 8.DIS - weighted distances to five Boston employment centres
 - 9.RAD - index of accessibility to radial highways
 - 10.TAX - full-value property-tax rate per 10,000
 - 11.PTRATIO - pupil-teacher ratio by town
 - 12.B - 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
 - 13.LSTAT - % lower status of the population
 - 14.MEDV - Median value of owner-occupied homes in 1000's
 
Output: Valor númerico (Preço)
###### - Tipo de aprendizagem: Regressão
- Principais Métricas para algoritmos de regressão:
 - Mean Squared Error (MSE)
 - Root Mean Squared Error (RMSE)
 - Mean Absolute Error (MAE)
 - R Squared (R²)
 - Adjusted R Squared (R²)
 - Mean Square Percentage Error (MSPE)
 - Mean Absolute Percentage Error (MAPE)
 - Root Mean Squared Logarithmic Error (RMSLE)

In [5]:
#Mean Squared Error (MSE)

# Import dos módulos
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression

# Carregando os dados
arquivo = 'data/boston-houses.csv'
colunas = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO','B', 'LSTAT', 'MEDV']
dados = read_csv(arquivo, delim_whitespace = True, names = colunas)
array = dados.values

# Separando o array em componentes de input e output
X = array[:,0:13]
Y = array[:,13]

# Divide os dados em treino e teste
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.33, random_state = 5)

# Criando o modelo
modelo = LinearRegression()

# Treinando o modelo
modelo.fit(X_train, Y_train)

# Fazendo previsões
Y_pred = modelo.predict(X_test)

# Resultado
mse = mean_squared_error(Y_test, Y_pred)
print("O MSE do modelo é:", mse)


O MSE do modelo é: 28.53045876597469


In [6]:
# Mean Absolute Error

# Import dos módulos
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn.linear_model import LinearRegression

# Carregando os dados
arquivo = 'data/boston-houses.csv'
colunas = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO','B', 'LSTAT', 'MEDV']
dados = read_csv(arquivo, delim_whitespace = True, names = colunas)
array = dados.values

# Separando o array em componentes de input e output
X = array[:,0:13]
Y = array[:,13]

# Divide os dados em treino e teste
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.33, random_state = 5)

# Criando o modelo
modelo = LinearRegression()

# Treinando o modelo
modelo.fit(X_train, Y_train)

# Fazendo previsões
Y_pred = modelo.predict(X_test)

# Resultado
mae = mean_absolute_error(Y_test, Y_pred)
print("O MAE do modelo é:", mae)

O MAE do modelo é: 3.455034932248351


In [7]:
# R^2
# Essa métrica fornece uma indicação do nível de precisão das previsões em relação aos valores observados.
# Também chamado de coeficiente de determinação.
# Valores entre 0 e 1, sendo 0 o valor ideal.

# Import dos módulos
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

# Carregando os dados
arquivo = 'data/boston-houses.csv'
colunas = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO','B', 'LSTAT', 'MEDV']
dados = read_csv(arquivo, delim_whitespace = True, names = colunas)
array = dados.values

# Separando o array em componentes de input e output
X = array[:,0:13]
Y = array[:,13]

# Divide os dados em treino e teste
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.33, random_state = 5)

# Criando o modelo
modelo = LinearRegression()

# Treinando o modelo
modelo.fit(X_train, Y_train)

# Fazendo previsões
Y_pred = modelo.predict(X_test)

# Resultado
r2 = r2_score(Y_test, Y_pred)
print("O R2 do modelo é:", r2)

O R2 do modelo é: 0.6956551656111596


## Algoritmos de Regressão

-  Regressão Linear: Melhor modelo para dados não pré-processados
-  Lasso: Extensão para a regressão linear onde a loss function é modificada para minimizar a complexidade do modelo



In [20]:
#Import dos Módulos
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso

#Carregando os dados
arquivo = 'data/boston-houses.csv'
colunas = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
dados = read_csv(arquivo, delim_whitespace = True, names = colunas)
array = dados.values

#Separando o array em componentes de input e output
X = array[:,0:13]
Y = array[:,13]

#Devidindo os dados em treino e teste
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.33, random_state = 5)

#Criando os modelos
modelo_lr = LinearRegression()
modelo_ridge = Ridge()

#Treinando o modelo
modelo_lr.fit(X_train, Y_train)
modelo_ridge.fit(X_train, Y_train)

#Fazendo previsões
Y_pred_lr = modelo_lr.predict(X_test)
Y_pred_ridge = modelo_ridge.predict(X_test)

#Resultados
mse_lr = mean_squared_error(Y_test, Y_pred_lr)
mse_ridge = mean_squared_error(Y_test, Y_pred_ridge)

print("O MSE com LR do modelo é: ", mse_lr)
print("O MSE com Ridge do modelo é: ", mse_ridge)


O MSE com LR do modelo é:  28.53045876597469
O MSE com Ridge do modelo é:  29.29406201348503


### Otimização do Modelo

In [22]:
# Random Search Parameter Tuning

# Import dos módulos
from pandas import read_csv
import numpy as np
from scipy.stats import uniform
from sklearn.linear_model import Ridge
from sklearn.model_selection import RandomizedSearchCV

# Carregando os dados
arquivo = 'data/boston-houses.csv'
colunas = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO','B', 'LSTAT', 'MEDV']
dados = read_csv(arquivo, delim_whitespace = True, names = colunas)
array = dados.values

# Separando o array em componentes de input e output
X = array[:,0:8]
Y = array[:,8]

# Definindo os valores que serão testados
valores_grid = {'alpha': uniform()}
seed = 7

# Criando o modelo
modelo = Ridge()
iterations = 100
rsearch = RandomizedSearchCV(estimator = modelo, 
                             param_distributions = valores_grid, 
                             n_iter = iterations, 
                             random_state = seed)
rsearch.fit(X, Y)

# Print do resultado
print("Melhores Parâmetros do Modelo:\n", rsearch.best_estimator_)

Melhores Parâmetros do Modelo:
 Ridge(alpha=0.9779895119966027)


### Salvando o trabalho final

In [25]:
# Import dos módulos
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Ridge
import pickle

# Carregando os dados
arquivo = 'data/boston-houses.csv'
colunas = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO','B', 'LSTAT', 'MEDV']
dados = read_csv(arquivo, delim_whitespace = True, names = colunas)
array = dados.values

# Separando o array em componentes de input e output
X = array[:,0:13]
Y = array[:,13]

# Definindo os valores para o número de folds
teste_size = 0.35
seed = 7

# Criando o dataset de treino e de teste
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, test_size = teste_size, random_state = seed)

# Criando o modelo
modelo = Ridge()

# Treinando o modelo
modelo.fit(X_treino, Y_treino)

# Salvando o modelo
arquivo = 'modelos/modelo_regressor_final.sav'
pickle.dump(modelo, open(arquivo, 'wb'))
print("Modelo salvo!")

# Carregando o arquivo
modelo_regressor_final = pickle.load(open(arquivo, 'rb'))
print("Modelo carregado!")

# Print do resultado
# Fazendo previsões
Y_pred = modelo_regressor_final.predict(X_test)

# Resultado
mse = mean_squared_error(Y_test, Y_pred)
print("O MSE do modelo é:", mse)

Modelo salvo!
Modelo carregado!
O MSE do modelo é: 27.323167137174885
