#Underfitting e Overfitting

Agora iremos abordar o conceito de Underfitting e Overfitting.

Utilizando como exemplo o modelo que adotamos, a árvore de decisão, temos que ela se ramifica a cada decisão que ela deve tomar. Não é comum uma árvore ter mais do que 10 ramificações. Ou seja, caso você tenha 10 ramificações e cada ramificações gerando duas folhas, você terá 2 elevado a 10, resultando em 1024 folhas. 

Esta grande ramificação, gera uma baixa quantidade de dados em cada ramificação, podendo gerar **overfitting (ou sobreajuste)**. Aparentemente este modelo parece ser perfeito com os dados treinados, mas ao testar nos dados de validação, o resultado será bem diferente de quando treinado, gerando resultados muito fora da realidade.



Se tivermos uma quantidade de ramificações muito baixa, isto resulta em uma grande quantidade de dados em cada folha. Essa grande quantidade de dados, pode gerar resultados falhos por não ter uma boa distinção de características e padrões. Isto se chama **underfitting ou subajuste**.

Então o que procuramos, é o meio termo entre o overfitting e underfitting.

In [13]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error

def resultado_mae(max_folhas, treino_X, val_X, treino_y, val_y):
  #Escolha do modelo
  modelo=DecisionTreeRegressor(max_leaf_nodes=max_folhas, random_state=0)
  #Ajuste do modelo
  modelo.fit(treino_X, treino_y)
  #Predição
  predicao_val=modelo.predict(val_X)
  #Validação
  mae=mean_absolute_error(val_y,predicao_val)
  return mae 


In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split

file_path='/content/drive/MyDrive/Data Science/notebooks/Intro_to_Machine_Learning_Kagle/melbourne-housing-snapshot/melb_data.csv'

#Leitura e armazenamento dos dados csv no DataFrame intitulado dados_melbourne
dados_melbourne=pd.read_csv(file_path)

#Remoção de valores vazios
dados_melbourne=dados_melbourne.dropna(axis=0) 

#Alvo de predição
y=dados_melbourne.Price 

#Selecionando as características
X=dados_melbourne[['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                   'YearBuilt', 'Lattitude', 'Longtitude']] 

treino_X, val_X, treino_y, val_y=train_test_split(X, y, random_state=0)

Agora vamos testar a nossa função de acurácia para diferentes quantidades de folhas das ramificações (ou seja, vamos fazer um loop):

In [22]:
for max_folhas in [5, 50, 500, 5000]:
  mae=resultado_mae(max_folhas, treino_X, val_X, treino_y, val_y)
  print("Número máximo de folhas de ramificações: {0:d} \t\t Mean Absolute Error: {1:.2f}".format(max_folhas, mae))

Número máximo de folhas de ramificações: 5 		 Mean Absolute Error: 347380.34
Número máximo de folhas de ramificações: 50 		 Mean Absolute Error: 258171.21
Número máximo de folhas de ramificações: 500 		 Mean Absolute Error: 243495.96
Número máximo de folhas de ramificações: 5000 		 Mean Absolute Error: 255575.13


Quando utilizamos o MAE, esperamos encontrar o menor erro absoluto médio. O menor MAE foi de 243495.96. 

Logo, podemos concluir que o número máximo de folhas de ramificações (testado) que produz maior acurácia é o de 500 folhas.

O último caso, de 5000 folhas de ramificações, acaba sendo interessante, pois entra no que foi falado no começo deste capítulo sobre um número muito alto de folhas (>1024) causar overfitting. Ao validar o modelo, o MAE consequentemente aumenta por conta deste fator. 