# 5. Underfitting and Overfitting

## Overfitting
- 트리를 예로 들자면, 트리의 레벨이 깊어질수록 각 leaf에 남는 데이터는 적어진다. 각 leaf들의 값은 실제 값에 매우 근접하나, 새로운 데이터에 대한 예측력 신뢰도는 매우 떨어진다. 이러한 현상을 'overfitting'이라고 한다.
- "Leaves with very few houses will make predictions that are quite close to those homes' actual values, but they may make very unreliable predictions for new data (because each prediction is based on only a few houses)."

## Underfitting
- 트리의 레벨이 너무 낮으면, 해당 모델은 training data에서조차 데이터의 패턴을 찾지 못한다. 당연히 이러한 모델은 validation data에서도 훌륭한 예측력을 갖지 못한다. 이를 'underfitting'이라고 한다.
- "When a model fails to capture important distinctions and patterns in the data, so it performs poorly even in training data, that is called underfitting."

## Exercise

In [9]:
# basic settings

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

df = pd.read_csv('data/home_data.csv', index_col='Id')
y = df.SalePrice
X_cols = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = df[X_cols]

train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)
model = DecisionTreeClassifier(random_state=1)

In [12]:
# 트리 레벨에 따른 mae 결과를 비교하기 위한 함수 정의

def get_mae(max_leaf, train_X, val_X, train_y, val_y):
    model = DecisionTreeClassifier(random_state=1)
    model.fit(train_X, train_y)
    predicted = model.predict(val_X)
    mae = mean_absolute_error(val_y, predicted)
    return mae

In [15]:
# 트리 레벨에 따른 mae 확인해보기

max_leaves = [5, 25, 50, 100, 250, 500]
best_result = [float('inf'), -1]    # mae, max_leaf
result_all = []                     # 모든 결과를 넣을 리스트

for max_leaf in max_leaves:
    result = get_mae(max_leaf, train_X, val_X, train_y, val_y)
    result_all.append([result, max_leaf])
    if result < best_result[0]:
        best_result[0], best_result[1] = result, max_leaf

print(best_result)
print(result_all)

[32035.317808219177, 5]
[[32035.317808219177, 5], [32035.317808219177, 25], [32035.317808219177, 50], [32035.317808219177, 100], [32035.317808219177, 250], [32035.317808219177, 500]]


In [None]:
# build final model

final_model = DecisionTreeClassifier(
    max_leaf_nodes=best_result[1],
    random_state=1
)

final_model.fit(X, y)   # validation 데이터를 나누지 않고 모든 데이터 넣기