# モデル評価の意義

## 過学習(overfitting)<a name="overfitting"></a>

訓練データでは高い精度が出るのに、未知のデータではそれほど精度が出ないことがよくある。この状態を過学習(overfitting)といい、訓練データに対して過剰に適合した結果である。

未知のデータでも訓練データと同じような精度が出るモデルは汎化(generalization)能力が高い。

訓練データでも未知のデータでも求める精度が出ない状態のことは未学習(underfitting)という。

モデルのパラメータが多く過学習しやすいモデルのことを高バリアンス(high variance)、逆にパラメータが少なく未学習が起きやすいモデルのことを高バイアス(high bias)であるという。

過学習は、訓練データに対してモデルが複雑すぎる(高バリアンス)ために起きる。

||訓練データで高精度|訓練データで低精度|
|:-:|:-:|:-:|
|未知のデータで高精度|理想|-|
|未知のデータで低精度|過学習・高バリアンス|未学習・高バイアス|

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
import matplotlib.pyplot as plt

n_sample = 9

np.random.seed(0)

def get_y(x, noise=True):
    return x * (x - 1) * (x + 1) + (np.random.normal(scale=.2, size=x.shape) if noise else 0)

x = np.linspace(-2, 2, n_sample)
y = get_y(x)
xx = np.linspace(-2, 2, 100)[:, np.newaxis]

fig, axes = plt.subplots(1, 4, figsize=(12,3))

titles = ['sample', 'underfitting', 'fitting', 'overfitting']
margin = .1
x_min, x_max = x.min() - margin, x.max() + margin
y_min, y_max = y.min() - margin, y.max() + margin
for i, ax in enumerate(axes):
    ax.set_title(titles[i])
    ax.set_xlim(x_min, x_max)
    ax.set_ylim(y_min, y_max)
    ax.set_xticks(())
    ax.set_yticks(())

    ax.scatter(x, y, color='red', marker='x')

    if i == 0:
        continue
    elif i == 1:
        pred = LinearRegression().fit(x[:, np.newaxis], y).predict(xx)
    elif i == 2:
        pred = get_y(xx, noise=False)
    else:
        model = Pipeline([('transform', PolynomialFeatures(degree=11)), ('linear', LinearRegression())])
        pred = model.fit(x[:, np.newaxis], y).predict(xx)

    ax.plot(xx, pred)

plt.show()