#Validação do Modelo

Após construir um Modelo, é necessário validá-lo, conforme os passos descritos no capítulo 2 - Meu Primeiro Modelo de ML.

Para isso, vamos verificar a acurácia preditiva do modelo. Ou seja, o quão perto o modelo está do que realmente acontece.



A primeira métrica que iremos testar a qualidade do modelo é o **Mean Absolute Error (MAE)** ou Erro médio absoluto, dado pela seguinte equação:

error=actual−predicted

Calculamos cada erro e ao final, fazemos a média de todos os erros e, em caso de erro negativo, convertemos para positivo (módulo - por isso absoluto no nome da métrica).

Agora vamos para a prática!


Vamos carregar o modelo feito no capítulo anterior, porém com mais características selecionadas:

In [14]:
import pandas as pd

file_path='/content/drive/MyDrive/Data Science/notebooks/Intro_to_Machine_Learning_Kagle/melbourne-housing-snapshot/melb_data.csv'

dados_melbourne=pd.read_csv(file_path) #Leitura e armazenamento dos dados csv no DataFrame intitulado dados_melbourne

dados_melbourne=dados_melbourne.dropna(axis=0) #Remove valores vazios

y=dados_melbourne.Price #alvo de predição

X=dados_melbourne[['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude', 'Longtitude']] #Características selecionadas

In [15]:
from sklearn.tree import DecisionTreeRegressor

modelo_melbourne= DecisionTreeRegressor(random_state=1) #Defini o modelo e especifiquei o random_state=1

modelo_melbourne.fit(X, y) #Ajustando o modelo

##O problema com "In-Sample" Scores

É importante lembrar de separar os dados em treino e teste, pois caso o contrário, seu modelo ficará enviesado. 

O motivo está na utilização dos mesmos dados de treino como teste (como se fosse uma única amostra - chamado também de in-sample score), gerando resultados precisos por não ter variado os dados. Ao testar dados diferentes deste, o resultado será um modelo totalmente fora do padrão e impreciso para prever o preço das casas. 

Veja o exemplo abaixo calculando a acurácia através do **MAE** utilizando o in-sample score:

In [16]:
from sklearn.metrics import mean_absolute_error

predicao_casas=modelo_melbourne.predict(X) #Realizei a predição
mean_absolute_error(y, predicao_casas)

434.71594577146544

Para conseguirmos um modelo que faça predições sobre novos dados, é necessário separar uma quantidade dos dados para treino e outra quantidade para testes, tendo assim dados diferentes para ambas as etapas. Os dados de teste também são chamados de dados de validação.

A biblioteca scikit-learn possui a função **train_test_split** para realizar a separação em dados de teste e de treino (ou seja, separar os dados em 2 partes).

Então vamos calcular o **MAE** utilizando um modelo que foi treinado de forma correta:

In [18]:
from sklearn.model_selection import train_test_split

#Separação em dados de treino e de validação/teste
treino_X, val_X, treino_y, val_y= train_test_split(X,y, random_state=0) 

#Definição do modelo
modelo_melbourne= DecisionTreeRegressor(random_state=1) 

#Ajuste do modelo
modelo_melbourne.fit(treino_X,treino_y) 

#Predição dos preços 
predicao_val=modelo_melbourne.predict(val_X)

print(mean_absolute_error(val_y,predicao_val))



262494.3027759845


Ao comparar as duas formas, vemos que a predição do preço de uma cada acaba sendo bem errônea ao treinar o modelo sem separação entre dados de treino e de validação. Portanto é importante sempre realizarmos esta separação.