## 最小2乗法

実験値のような誤差を含むデータ集合から最も確からしい関係を推論する方法

#### 最小2乗法について

データ群から最も近く、しかもなめらかな曲線(回帰曲線)を多項式で表すことを考える。

![007_graph01](007_graph01.png)

In [13]:
using Plots

gr()
x = [0.0 1.0 2.0 3.0 3.1 5.0]
y = [0.0 1.1 2.5 4.0 4.1 5.0]
plot(x, y, seriestype = :scatter)
# savefig("007_graph01.png")

例：データ群として、$(2, 2)$、$(3, 4)$、$(5, 6)$を近似する最も確からしい直線を求める。

まず、求める直線を

$$y = a_0 + a_1 x\tag{1}$$

とする。

この直線と3点との$y$座標の差はそれぞれ、

$$
\begin{array}{}
\Delta y_1 & = & 2 - (a_0 + 2 a_1)\\
\Delta y_2 & = & 4 - (a_0 + 3 a_1)\\
\Delta y_3 & = & 6 - (a_0 + 5 a_1)
\end{array}
$$

これらが最小となる係数$a_0$と$a_1$を求めればよい。

しかし、これらの値には正負の符号が付くので、その2乗和$S$が最小となるように考える。

$$
\begin{array}{}
S & = & (\Delta y_1)^2 + (\Delta y_2)^2 + (\Delta y_3)^2\\
  & = & (a_0 + 2a_1 -2)^2 + (a_0 + 3a_1 -4)^2 + (a_0 + 5a_1 -6)^2
\end{array}
$$

この2乗和を最小にするためには、$S$を$a_0$と$a_1$で偏微分したものが$0$であればよいから

$$
\begin{array}{}
\frac{\partial S}{\partial a_0} & = & (a_0 + 2a_1 -2) + (a_0 + 3a_1 -4) + (a_0 + 5a_1 -6) & = & 0\\
\frac{\partial S}{\partial a_1} & = & 2(a_0 + 2a_1 -2) + 3(a_0 + 3a_1 -4) + 5(a_0 + 5a_1 -6) & = & 0
\end{array}
$$

この2式を整理すると、

$$
\left \{
\begin{array}{}
(1 + 1 + 1)a_0 + (2 + 3 + 5)a_1 -(2 + 4 + 6) & = & 0\\
(2 + 3 + 5)a_0 + (2^2 + 3^2 + 5^2)a_1 -(2 \cdot 2 + 3 \cdot 4 + 5 \cdot 6) & = & 0
\end{array}
\right.
$$

$$
\left \{
\begin{array}{}
3a_0 + 10a_1 -12 & = & 0\\
10a_0 + 38a_1 -46 & = & 0
\end{array}
\right.
$$

$$
\left \{
\begin{array}{}
a_0  & = & - \frac{2}{7}\\
a_1  & = & \frac{9}{7}
\end{array}
\right.
$$

以上から、求める直線の方程式は

$$y = -\frac{2}{7} + \frac{9}{7}x$$

考えを一般化して、近似曲線を多項式で表すことを考える。

データ集合$(x_k, y_k)$、$k = 0, 1, \ldots ,n$において$x$を独立変数、$y$を$x$の従属変数とする。そして、$x_k$における多項式の値とデータ$y_k$との差を$\Delta y_k$とする。

この$\Delta y_k$は、$k=0,1,\ldots,n$の$(n+1)$個ある。これらの2乗の総和が最小になるように多項式の係数$a_0, a_1, \ldots, a_n$を決定すればよい。

$(n+1)$個のデータ集合を$(x_0, y_0)$、$(x_1, y_1)$、$\ldots$、$(x_n, y_n)$、とし、これらの点から得られる最も確からしい曲線(回帰曲線)の方程式を以下の多項式で表わす。

$$y=a_0 + a_1x^1 + a_2x^2 + \cdots + a_mx^m$$

$$
\begin{array}{}
\Delta y_k & = &(データ群中のy_kの値) - (x_kにおける多項式の値)\\
           & = & y_k - (a_0 + a_1{x_k}^1 + a_2{x_k}^2 + \cdots + a_m{x_k}^m)
\end{array}
$$

よって、$k$について$\Delta y_k$の2乗の総和$S$は

$$S = \sum (\Delta y_k)^2 = \sum_{k=0}^{n}\{ y_k - (a_0 + a_1{x_k}^1 + a_2{x_k}^2 + \cdots + a_m{x_k}^m) \}^2$$

$S$を多項式の係数$a_i、(i= 0, 1 ,\ldots,m)$でおのおの偏微分して$0$とすればよい。

$$
\left.
\begin{array}{}
a_0(n+1)         & + a_1 \sum x_k         & + a_2 \sum {x_k}^2     & + \cdots + a_m \sum {x_k}^m     & = \sum y_k\\
a_0 \sum x_k     & + a_1 \sum {x_k}^2     & + a_2 \sum {x_k}^3     & + \cdots + a_m \sum {x_k}^{m+1} & = \sum x_k y_k\\
                 &                        & \vdots                 &                                 &   \\
a_0 \sum {x_k}^m & + a_1 \sum {x_k}^{m+1} & + a_2 \sum {x_k}^{m+2} & + \cdots + a_m \sum {x_k}^{2m}    &= \sum {x_k}^m y_k
\end{array}
\right\}
$$

これは$a_i$についての多元連立1次方程式になっているので、ガウス-ジョルダン法などで解けば、回帰曲線の係数$a_i$はただちに求まる。


回帰曲線の次数$m$はデータ数より小さければよく、データ数より1だけ小さい場合の回帰曲線は補間曲線と一致する。

しかし、データには誤差が含まれているのが一般的なので、その近似曲線として厳密に高次多項式で表わすことは意味がなく、特別な場合を除き、1次や2次程度の回帰を行なうのが一般的である。

### 最小2乗法のプログラム

例：データ群$(0.0, 0.0)$、$(1.0, 1.1)$、$(2.0, 2.5)$、$(3.0, 4.0)$、$(3.1, 4.1)$、$(5.0, 5.0)$から次数$M=4$の回帰曲線を求める。

![007_最小2乗法フローチャート](007_最小2乗法フローチャート.jpg)

In [65]:
using Printf

const EPS = 0.0001  # 許容誤差
M = 4  # 回帰曲線の次数

struct Point
    x::Float64
    y::Float64
end

data = [Point(0.0, 0.0)
        Point(1.0, 1.1)
        Point(2.0, 2.5)
        Point(3.0, 4.0)
        Point(3.1, 4.1)
        Point(5.0, 5.0)]
N = length(data)
m = M + 1
n = M + 2
a = zeros(Float64, m, n)  # 多項式の係数

function main()
    for i = 1:(n-1)
        for j = 1:m
            for k = 1:N
                a[j,i] += (data[k].x)^(i+j-2)
            end
        end
    end

    for j = 1:m
        for k = 1:N
            a[j,n] += (data[k].y) * ((data[k].x)^(j-1))
        end
    end

    if(jordan() == 1)
        return 1
    end

    for i = 1:m
        @printf("A%2d = %7.3lf\n", (i - 1), a[i,n])
    end
    return 0
end

function jordan()
    for i = 1:m
        pivot = a[i,i]   # ピボットの設定
        if abs(pivot) < EPS
            println("ピボットが許容誤差以下")
            return 1
        end
        a[i,:] = a[i,:] ./ pivot # 正規化
        for k = myrange(1, m, i)
            a[k,:] = a[k,:] - (a[i,:] .* a[k,i]) # 第k式から第i項を消去
        end
    end
    return 0
end

function myrange(start, stop, skip)
    [n for n = start:stop if n != skip]
end

main()

A 0 =   0.000
A 1 =   0.928
A 2 =   0.158
A 3 =   0.022
A 4 =  -0.010


0

In [56]:
M=4
N = 6
s = zeros(Float64, M+1, M+2)
s[2,M+2]

0.0