In [1]:
                ####### MACHINE LEARNING EM PYTHON - REGRESSAO (ALGORTIMOS E METRICAS) #######

In [2]:
import sklearn as sl
import warnings
warnings.filterwarnings("ignore")
sl.__version__

'0.21.2'

In [3]:
### DEFINIÇÃO DO PROBLEMA DE NEGÓCIO - Vamos criar um modelo preditivo que seja capaz de prever o preço de casas com base em uma série de variáveis (caracteristicas) sobre diversas casas em um bairro do Boston, codade dos EUA

In [4]:
#### AVALIANDO A PERFORMANCE - As métricas que nos escolhemos para avaliar a performance do modelo vão influenciar a forma como a performance é medida e comparada com modelos criados com outros algortimos ####

# MÉTRICAS PARA ALGORTIMOS DE REGRESSÃO #

# . Mean Squared Error (MSE)
# . Root Mean Squared Error (RMSE)
# . Mean Absolute Error (MAE)
# . R Squared (R²)
# . Adjusted R Squared (R²)
# . Mean Square Percentage Error (MSPE)
# . Mean Absolute Percentage Error (MAPE)
# . Root Mean Squared Logarithmic Error (RMSLE)

In [5]:
## MSE (MEAN SQUARED ERROR) -> É talvez a metrica mais simples e comum para a avaliação de regressão, mas tambem provavelmente a menos util. O MSE basicamente mede o erro quadrado médio de nossas previsões. Para cada ponto, calcula a diferença quadrada entre as previsões e o valor real da variável alvo e, em seguida, calcula a média desses valores."Arquivos do Cap"

# Quanto maior esse valor, pior é o modelo. Esse valore nunca será negativo, ja que estamos elevando ao quadrado os erros individuais de previsão, mas seria zero para um modelo perfeito.

In [30]:
# MSE - Mean Squared Error
# Similar ao MAE, fornece a magnitude do erro do modelo.
# Quanto maior, poir é o modelo.
# Ao extrairmos a raiz quadrada do MSE convertemos as unidades de volta ao original,
# o que pode ser util para descrição e apresenteção. Isso é chamado RMSE (Root Mean Squared Error)

# Import dos modulos
from pandas import read_csv

# Carrgando o dataset
arquivo = "boston-houses.csv"
colunas = ["CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIO", "B", "LSTAT", "MEDV"]
dados = read_csv(arquivo, delim_whitespace = True, names = colunas)
dados.head(20)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2
5,0.02985,0.0,2.18,0,0.458,6.43,58.7,6.0622,3,222.0,18.7,394.12,5.21,28.7
6,0.08829,12.5,7.87,0,0.524,6.012,66.6,5.5605,5,311.0,15.2,395.6,12.43,22.9
7,0.14455,12.5,7.87,0,0.524,6.172,96.1,5.9505,5,311.0,15.2,396.9,19.15,27.1
8,0.21124,12.5,7.87,0,0.524,5.631,100.0,6.0821,5,311.0,15.2,386.63,29.93,16.5
9,0.17004,12.5,7.87,0,0.524,6.004,85.9,6.5921,5,311.0,15.2,386.71,17.1,18.9


In [20]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression

# Separando o array em dados de input e output
array = dados.values
x = array[:,0:13]
y = array[:,13]

# Definindo os parametro do split
test_size = 0.33
seed = 5

# Dividindo em dados de treino e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = test_size, random_state = seed)

# Criando o modelo
linearModel = LinearRegression()

# Treinando o modelo
linearModel.fit(x_treino, y_treino)
previsoes = linearModel.predict(x_teste)

# Medindo a performance do modelo 
mse = mean_squared_error(y_teste, previsoes)

# Print das metricas
print("Valor do MSE: %.2f%%" % (mse))

Valor do MSE: 28.53%


In [24]:
# MAE
# Mean Absolute Error
# É a soma da diferença absoluta entre previsões e valores reais.
# Fornece uma ideia de quão erradas estão nossas previsoes.
# Valor igual a 0 indica que não há erro a previsão perfeita

# Import dos modulos
from sklearn.metrics import mean_absolute_error

# Carregando os dados
array = dados.values

# Separando o array em componentes de input e output
x = array[:,0:13]
y = array[:,13]

# Definindo os valores para o split
test_size = 0.33
seed = 5

# Dividindo em dados de treino e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = test_size, random_state = seed)

# Criando o modelo
linearModel = LinearRegression()

# Treinando o modelo
linearModel.fit(x_treino, y_treino)
previsoes = linearModel.predict(x_teste)

# Calculando o MAE
MAE = mean_absolute_error(y_teste, previsoes)

# Visualizando os resultados
print("Valor do MAE: %.2f%%" % MAE)

Valor do MAE: 3.46%


In [28]:
# R^2 -> Coeficiente e Determinação
# Essa métrica fornece uma indicação do nível de precisão das previsões em relação aos valores observados
# Também chamado de coeficiente de determinação
# Valores entre 0 e 1, sendo 0 o valor ideal

# Import do modulo
from sklearn.metrics import r2_score

# Carregando os dados
array = dados.values

# Separando as variaveis input e output
x = array[:,0:13]
y = array[:,13]

# Definindo os parametros de Split
test_size = 0.33
seed= 5

# Split dos dados
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = test_size, random_state = seed)

# Criando o modelo
linearModel = LinearRegression()

# Treinando o modelo
linearModel.fit(x_treino, y_treino)
previsoes = linearModel.predict(x_teste)

# Calculando  o R^2
r2 = r2_score(y_teste, previsoes)

# Visualizando o resultado
print("R² Score: %.2f%%" % r2)

R² Score: 0.70%


In [31]:
### ALGORITMOS DE REGRESSÃO ### 

In [32]:
# REGRESSÃO LINEAR -> Assume que os dados estão em Distribuição Normal e tambem assume que as variáveis são relevantes para a construção do modelo e que não sejam colineares, ou seja, variáveis com alta correlação (cabe aos Cientistas de Dados, entregar ao algoritmo as variáveis realmente relevantes)

In [49]:
# Import dos módulos
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression

# Carregando os dados
array = dados.values

# Separando os dados
x = array[:,0:13]
y = array[:,13]

# Split dos dados
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.33, random_state = 5)

# Criaçao do modelo
linearModel = LinearRegression()

# Treinando o modelo
linearModel.fit(x_treino, y_treino)
previsoes = linearModel.predict(x_teste)

# Verificar a Precisão do modelo
mse = mean_squared_error(y_teste, previsoes)

# Visualizando a precisão do modelo
print("MSE: %.2f%%" % mse) 

MSE: 28.53%


In [37]:
## RIDGE REGRESSION -> Extensão para a regressão linear onde a loss function é modificada para minimizar a complexidade do modelo.

In [39]:
# Import dos módulos
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Ridge

# Carregando os dados
array = dados.values

# Separando os dados
x = array[:,0:13]
y = array[:,13]

# Split dos dados
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.33, random_state = 5)

# Criaçao do modelo
ridgeModel = Ridge()

# Treinando o modelo
ridgeModel.fit(x_treino, y_treino)
previsoes = ridgeModel.predict(x_teste)

# Verificar a Precisão do modelo
mse = mean_squared_error(y_teste, previsoes)

# Visualizando a precisão do modelo
print("MSE: %.2f%%" % mse) 

MSE: 29.29%


In [40]:
### LASSO REGRESSION (Least Absolute Shrinkeage and Selection Operator) -> É uma modificação da regressao linear e assim como a Ridge Regression, a loss function é modificada para minimizar a complexidade do modelo 

In [48]:
# Import dos módulos
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Lasso

# Carregando os dados
array = dados.values

# Separando os dados
x = array[:,0:13]
y = array[:,13]

# Split dos dados
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.33, random_state = 5)

# Criaçao do modelo
lassoModel = Lasso()

# Treinando o modelo
lassoModel.fit(x_treino, y_treino)
previsoes = lassoModel.predict(x_teste)

# Verificar a Precisão do modelo
mse = mean_squared_error(y_teste, previsoes)

# Visualizando a precisão do modelo
print("MSE: %.2f%%" % mse) 

MSE: 33.39%


In [47]:
# Import dos módulos
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import ElasticNet

# Carregando os dados
array = dados.values

# Separando os dados
x = array[:,0:13]
y = array[:,13]

# Split dos dados
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.33, random_state = 5)

# Criaçao do modelo
elasticModel = ElasticNet()

# Treinando o modelo
elasticModel.fit(x_treino, y_treino)
previsoes = elasticModel.predict(x_teste)

# Verificar a Precisão do modelo
mse = mean_squared_error(y_teste, previsoes)

# Visualizando a precisão do modelo
print("MSE: %.2f%%" % mse) 

MSE: 33.27%


In [46]:
#### KNN #####

# Import dos módulos
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.neighbors import KNeighborsRegressor

# Carregando os dados
array = dados.values

# Separando os dados
x = array[:,0:13]
y = array[:,13]

# Split dos dados
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.33, random_state = 5)

# Criaçao do modelo
knnModel = KNeighborsRegressor()

# Treinando o modelo
knnModel.fit(x_treino, y_treino)
previsoes = knnModel.predict(x_teste)

# Verificar a Precisão do modelo
mse = mean_squared_error(y_teste, previsoes)

# Visualizando a precisão do modelo
print("MSE: %.2f%%" % mse) 

MSE: 47.71%


In [45]:
#### CART #####

# Import dos módulos
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor

# Carregando os dados
array = dados.values

# Separando os dados
x = array[:,0:13]
y = array[:,13]

# Split dos dados
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.33, random_state = 5)

# Criaçao do modelo
dTreeModel = DecisionTreeRegressor()

# Treinando o modelo
dTreeModel.fit(x_treino, y_treino)
previsoes = dTreeModel.predict(x_teste)

# Verificar a Precisão do modelo
mse = mean_squared_error(y_teste, previsoes)

# Visualizando a precisão do modelo
print("MSE: %.2f%%" % mse) 

MSE: 34.45%


In [50]:
#### SVM #####

# Import dos módulos
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.svm import SVR

# Carregando os dados
array = dados.values

# Separando os dados
x = array[:,0:13]
y = array[:,13]

# Split dos dados
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.33, random_state = 5)

# Criaçao do modelo
svm_Model = SVR()

# Treinando o modelo
svm_Model.fit(x_treino, y_treino)
previsoes = svm_Model.predict(x_teste)

# Verificar a Precisão do modelo
mse = mean_squared_error(y_teste, previsoes)

# Visualizando a precisão do modelo
print("MSE: %.2f%%" % mse) 

MSE: 93.22%


In [51]:
## OTIMIZAÇÃO DO MODELO -> AJUSTE DOS HIPERPARÂMETROS -> Todos os algoritmos de Machine Learning são parametrizados, o que significa que nos podemos ajustar a performance do nosso modelo preditivo, atraves do tuning(ajuste fino) dos parâmetros. Nosso trabalho é encontrar a melhor combinação entre os parametros em cada algortimo de Machine Learning. Esse processo tambem é chamado de Otimização de Hyperparâmetro. O sckit-learn oferece dois métodos para otimização automatica dos parametros: Grid Search Parameter Tuning e Random Search Parameter Tuning.

In [53]:
## GRID SEARCH PARAMETER TUNING -> Este metodo realiza metodicamente combinações entre todos os parametros do algoritmo, criando uma grid. Vamos experimentar este metodo utilizando o algortim ode regressao ridge.

# Import dos módulos
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV

# Carregando os dados
array = dados.values

# Separando os dados
x = array[:,0:13]
y = array[:,13]

# Definindo os valores que serao testedos
valores_alphas = np.array([1, 0.1, 0.01, 0.001, 0.0001, 0])
valores_grid = dict(alpha = valores_alphas)

# Criaçao do modelo
ridgeModel = Ridge()

# Criando o grid
grid = GridSearchCV(estimator = ridgeModel, param_grid = valores_grid)
grid.fit(x, y)

# Visualizando os melhores parametros
print("Melhores Parametros do Modelo: ", grid.best_estimator_) 

Melhores Parametros do Modelo:  Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
      normalize=False, random_state=None, solver='auto', tol=0.001)


In [55]:
## GRID SEARCH PARAMETER TUNING -> Este metodo gera amostras a dos parametros dos algortimos a partir de uma distribuição randomica uniforme para um numero fixo de iterações. Um modelo é construido e testado para cada combinação de parametros. Neste exemplo veremos que o valor muito proximo de 1 para o parametro alpha é o que vai apresentar os melhores resultados

# Import dos módulos
import numpy as np
from scipy.stats import uniform
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import RandomizedSearchCV

# Carregando os dados
array = dados.values

# Separando os dados
x = array[:,0:13]
y = array[:,13]

# Definindo os valores que serao testedos
valores_grid = {"alpha": uniform()}
seed = 7

# Criaçao do modelo
ridgeModel = Ridge()
iterations = 100

# Criando o grid
rsearch = RandomizedSearchCV (
    estimator = ridgeModel,
    param_distributions = valores_grid,    
    n_iter = iterations,
    random_state = seed
)   

rsearch.fit(x, y)

# Visualizando os melhores parametros
print("Melhores Parametros do Modelo: ", rsearch.best_estimator_) 

Melhores Parametros do Modelo:  Ridge(alpha=0.9779895119966027, copy_X=True, fit_intercept=True, max_iter=None,
      normalize=False, random_state=None, solver='auto', tol=0.001)


In [60]:
## SALVANDO O RESULTADO DO TRABALHO ##

# Import dos módulos
import pickle
from scipy.stats import uniform
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import RandomizedSearchCV

# Carregando os dados
array = dados.values

# Separando os dados
x = array[:,0:13]
y = array[:,13]

# Definindo os valores para os folds
test_size = 0.35
seed = 7

# Split dos dados
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = test_size, random_state = seed)

# Criaçao do modelo
ridgeModel = Ridge()

# Treinando o modelo
ridgeModel.fit(x_treino, y_treino)

# Salvando o modelo
arquivo = "modelo_regressor_final.sav"
pickle.dump(ridgeModel, open(arquivo, "wb"))
print("Modelo Salvo!")

# Carregando o arquivo
modelo_regressor_final = pickle.load(open(arquivo, "rb"))
print("Modelo Carregado!")

# Print dos resutados
# Fazendo previsoes
previsoes = modelo_regressor_final.predict(x_teste)

# Resutado
mse = mean_squared_error(y_teste, previsoes)
print("MSE:", mse)

Modelo Salvo!
Modelo Carregado!
MSE:  24.8581631211166
