# 다양한 파라미터의 모델 실험해보기

오버피팅(과적합)
- 학습용 데이터를 너무나도 완벽하게 학습한 경우. 다른 데이터 따위는 나몰라
- => 학습용 데이터셋에서는 지나치게 좋은 성능 & 검증용 데이터셋에서는 지나치게 허접한 성능

언더피팅(과소적합)
- 학습 자체가 거의 안됨. 더 학습되어야 함
- => 학습용 & 검증용 데이터셋 모두에서 지나치게 허접한 성능

![underfitting_overfitting](http://i.imgur.com/2q85n9s.png)

# 예제
디시전트리를 만들 되, *max_leaf_nodes* 파라미터를 다양하게 구성해 비교한다:


In [None]:
from sklearn.metrics import mean_absolute_error
from sklearn.tree import DecisionTreeRegressor

# 모델을 만들 때마다 매번 아래 네 줄의 코드를 적기 귀찮으니
# 함수로 묶는다
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

The data is loaded into **train_X**, **val_X**, **train_y** and **val_y** using the code you've already seen (and which you've already written).

In [None]:
import pandas as pd
    
# 데이터 로드
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 

# 누락된 값의 행 제거
filtered_melbourne_data = melbourne_data.dropna(axis=0)

# 타깃 및 특징 선택
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# 데이터 분할
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

We can use a for-loop to compare the accuracy of models built with different values for *max_leaf_nodes.*

In [None]:
# 네 종류의 max_leaf_nodes 값으로 실험
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes 개수: %d    \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

네 개의 모델 중 max_leaf_nodex가 500인 경우의 성능이 그나마 가장 좋음

---


# Your Turn

Try **[optimizing the model you've previously built](https://www.kaggle.com/kernels/fork/1259126)**.

---




*Have questions or comments? Visit the [Learn Discussion forum](https://www.kaggle.com/learn-forum/161285) to chat with other Learners.*