**このノートブックは[Introduction to Machine Learning](https://www.kaggle.com/learn/intro-to-machine-learning)のコースです。 このノートのチュートリアルはこちら-> [this link](https://www.kaggle.com/dansbecker/underfitting-and-overfitting).**

---


## Recap
最初のモデルを構築したので、今度はより良い予測をするためにツリーのサイズを最適化してみましょう。このセルを実行して、前のステップが終了したところで、コーディング環境を整えます。

In [None]:
# データの読み込みに使用したことのあるコード
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor


# 読み込みファイル
iowa_file_path = '../input/home-data-for-ml-course/train.csv'

home_data = pd.read_csv(iowa_file_path)
# 目的変数を作成し、それをyと呼ぶ
y = home_data.SalePrice
# Xをつくる
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]

# 検証データとトレーニングデータに分割
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# モデルの定義
iowa_model = DecisionTreeRegressor(random_state=1)
# モデルをfitする
iowa_model.fit(train_X, train_y)

# 検証予測を行い、平均絶対誤差MAEを算出
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE: {:,.0f}".format(val_mae))

# コードチェックを確認
from learntools.core import binder
binder.bind(globals())
from learntools.machine_learning.ex5 import *
print("\nSetup complete")

# Exercises
関数 `get_mae` を自分で書くこともできるんですよ。今のところ、こちらで作ったものを使いましょう。これは、前のレッスンで読んだのと同じ関数です。以下のセルを実行するだけです。

In [None]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

## Step 1: 異なるツリーサイズの比較
*max_leaf_nodes*に可能な値を入力し、以下の値を試みるループを書きます。

max_leaf_nodesの各値で*get_mae*関数を呼び出す。データに対して最も正確なモデルを与える`max_leaf_nodes`の値を選択できるように、何らかの方法で出力を保存してください。
検証予測を行い、平均絶対誤差を算出


In [None]:
candidate_max_leaf_nodes = [5, 25, 50, 100, 250, 500]
# candidate_max_leaf_nodesから理想的なツリーサイズを求めるループを書く
_

# max_leaf_nodesの最適な値を格納する（5、25、50、100、250、500のいずれかになる）
best_tree_size = ____

# 答えを確認する
step_1.check()

In [None]:
# 以下の行がヒントやソリューションコードになります。（ヒントを見たい場合は.hint()の行をコメントアウト、答えを見る場合は.solutionの行をコメントアウトしてください。
# step_1.hint() 
# step_1.solution()

## Step 2: 全データを使ってモデルをフィット
最適なツリーサイズが先ほどわかりました。
もし、このモデルを実際に使用するのであれば、すべてのデータを使用して、そのツリーサイズを維持することで、さらに精度の高いモデルにすることができます。 つまり、すべてのモデルを決定した今、検証データを用意する必要はないのです。
検証予測を行い、平均絶対誤差を算出します


In [None]:
# 最適なサイズになるように引数を記入し、コメントアウトしてください。
# final_model = DecisionTreeRegressor(____)

# 最終の完成版モデルに合わせて、次の2行をコメントアウトしてください。
# final_model.fit(____, ____)

# Check your answer
step_2.check()

In [None]:
# step_2.hint()
# step_2.solution()

あなたはこのモデルをチューニングし、結果を改善しました。しかし、私たちはまだ決定木モデルを使用しており、最近の機械学習の基準ではあまりうまくいっていません。次のステップでは、ランダムフォレストを使ってモデルをさらに改善する方法を学びます。

# Keep Going

こちらをみてください-> **[Random Forests](https://www.kaggle.com/dansbecker/random-forests).**


---




*Have questions or comments? Visit the [Learn Discussion forum](https://www.kaggle.com/learn-forum/161285) to chat with other Learners.*