# モデル評価の意義

## 過学習(overfitting)

訓練データでは高い精度が出るのに、未知のデータではそれほど精度が出ないことがよくある。この状態を過学習(overfitting)といい、訓練データに対して過剰に適合した結果である。

未知のデータでも訓練データと同じような精度が出るモデルは汎化(generalization)能力が高い。

訓練データでも未知のデータでも求める精度が出ない状態のことは未学習(underfitting)という。

モデルのパラメータが多く過学習しやすいモデルのことを高バリアンス(high variance)、逆にパラメータが少なく未学習が起きやすいモデルのことを高バイアス(high bias)であるという。

過学習は、訓練データに対してモデルが複雑すぎる(高バリアンス)ために起きる。

||訓練データで高精度|訓練データで低精度|
|:-:|:-:|:-:|
|未知のデータで高精度|理想|-|
|未知のデータで低精度|過学習・高バリアンス|未学習・高バイアス|

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
import matplotlib.pyplot as plt

np.random.seed(0)

n_sample = 9
x = np.linspace(-2, 2, n_sample)
y = x * (x - 1) * (x + 1) + np.random.normal(scale=.2, size=n_sample)
z = np.linspace(-2, 2, 100).reshape((-1, 1))

fig, axes = plt.subplots(1, 4, figsize=(12,3))

titles = ['sample', 'underfitting', 'fitting', 'overfitting']
for i, ax in enumerate(axes):
    ax.set_title(titles[i])
    ax.set_xlim(x.min() - .1, x.max() + .1)
    ax.set_ylim(y.min() - .1, y.max() + .1)
    ax.set_xticks(())
    ax.set_yticks(())

    ax.scatter(x, y, color='red', marker='x')

    if i == 0:
        continue
    elif i == 1:
        pred = LinearRegression().fit(x[:, np.newaxis], y).predict(z)
    elif i == 2:
        pred = z * (z - 1) * (z + 1)
    else:
        model = Pipeline([('transform', PolynomialFeatures(degree=11)), ('linear', LinearRegression())])
        pred = model.fit(x[:, np.newaxis], y).predict(z)

    ax.plot(z, pred)

plt.show()