# Underfitting e Overfitting
- Underfitting (Subajuste): Ocorre quando um modelo de machine learning é muito simples para capturar as complexidades nos dados. Isso significa que o modelo não se ajusta bem aos dados de treinamento e, como resultado, tem um desempenho ruim tanto nos dados de treinamento quanto nos dados de teste. É como se o modelo estivesse "subajustado" aos dados.

- Overfitting (Superajuste): Ocorre quando um modelo é excessivamente complexo e se ajusta muito bem aos dados de treinamento, incluindo o ruído nos dados. No entanto, esse ajuste excessivo não se generaliza bem para novos dados não vistos, o que significa que o modelo tem um desempenho ruim nos dados de teste. É como se o modelo estivesse "superajustado" aos dados de treinamento.


Lembre-se da primeira lição deste curso que a profundidade de uma árvore é uma medida de quantas divisões ela faz antes de chegar a uma previsão. Esta é uma árvore relativamente rasa

## Class

#### Explanation - Explicação
Este é um fenômeno chamado overfitting , onde um modelo corresponde quase perfeitamente aos dados de treinamento, mas tem um desempenho ruim na validação e em outros dados novos. Por outro lado, se deixarmos a nossa árvore muito rasa, ela não dividirá as casas em grupos muito distintos. 

### max_leaf_nodes - máximo de nós folha

In [1]:
from sklearn.metrics import mean_absolute_error
from sklearn.tree import DecisionTreeRegressor

def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

In [2]:
# Data Loading Code Runs At This Point
import pandas as pd
    
# Load data
melbourne_file_path = 'CSV/exerc-2/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
# Filter rows with missing values
filtered_melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)


In [4]:
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

# 500 é o valor ideal

Max leaf nodes: 5  		 Mean Absolute Error:  347380
Max leaf nodes: 50  		 Mean Absolute Error:  258171
Max leaf nodes: 500  		 Mean Absolute Error:  243495
Max leaf nodes: 5000  		 Mean Absolute Error:  255575


### Summary - Resumo
- Overfitting: captura de padrões falso que não se repetirão no futuro, levando a previsões menos precisas ou
- Underfitting: falha na captura de padrões relevantes, levando novamente a previsões menos precisas.


## Exercise: Underfitting and Overfitting

In [None]:
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

In [None]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

In [6]:
file_path = 'CSV/exerc-2/home-data-for-ml-course/train.csv'
home_data = pd.read_csv(file_path)

y = home_data.SalePrice
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]

train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)


iowa_model = DecisionTreeRegressor(random_state=1)
iowa_model.fit(train_X, train_y)

val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE: {:,.0f}".format(val_mae))

Validation MAE: 29,653


In [24]:
candidate_max_leaf_nodes = [5, 25, 50, 100, 250, 500]

scores = {}

for max_leaf_nodes in candidate_max_leaf_nodes:
    score = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)

    scores[max_leaf_nodes] = score


print(scores)
best_tree_size = min(scores, key=scores.get)  #pega o melhor valor, referente ao dado da chave e não a chave menor
print(best_tree_size)

{5: 35044.51299744237, 25: 29016.41319191076, 50: 27405.930473214907, 100: 27282.50803885739, 250: 27893.822225701646, 500: 29454.18598068598}
100


In [28]:
final_model = DecisionTreeRegressor(max_leaf_nodes=best_tree_size, random_state=1) # max_leaf_nodes=100
final_model.fit(X, y) # agora que sei o meu melhor "nó" treino com todos os dados
