# 最小二乗法

$N$個のデータ$(x_1,y_1),\cdots,(x_N,y_N)$に対してある直線をあてはたい。
各データを近似できる直線を以下のように定義する。

$$
y = ax+b
$$

この直線の $a$ と $b$ を求めたい。

点 $(x_n,y_n)$における、近似された直線の$y$軸の値$y'_n$の値は

$
y'_{n} = ax_n + b
$

であるから、実際の点と近似された点との誤差 $t$は

$
t = y'_{n} - ( ax_n + b )　\tag{1.1}
$

と表すことができる。
$t$ はプラスとマイナスの誤差で打ち消されていまうので<br>
この2乗和を考え、各点の誤差の合計を最も小さくする変数　$a,b$　を求められれば良い。

$$
J = \sum_{n=1}^{N}(  y'_{n} - ( ax_n + b ) )^2 \tag{1.2}
$$

式(1.2)を最小化する　$a,b$ を求める。



式(1.2)　をそれぞれ$a$ , $b$ で偏微分で得られた導関数が０となる解を求めれば良い。

$$
\frac{\partial J}{\partial a} = 0 , \frac{\partial J}{\partial b} = 0 , 
$$

具体的に偏微分してみると<br>

$$
\frac{\partial J}{\partial a} = a\sum_{n=1}^{N}x_n^2 + b\sum_{n=1}^{N}x_n - \sum_{n=1}^{N}x_ny_n \tag{1.3}
$$

$$
\frac{\partial J}{\partial b} = a\sum_{n=1}^{N}x_n + b\sum_{n=1}^{N}1 - \sum_{n=1}^{N}y_n \tag{1.4}
$$



## 解法１


式(1.3)(1.4)は、これは連立1次方程式の形であり、これを解いて$a,b$を求めればよい。


$$
a\sum_{n=1}^{N}x_n^2 + b\sum_{n=1}^{N}x_n = \sum_{n=1}^{N}x_ny_n \tag{1.5}
$$

$$
a\sum_{n=1}^{N}x_n + b\sum_{n=1}^{N}1 = \sum_{n=1}^{N}y_n \tag{1.6}
$$

## Numpyの連立１次方程式を解く関数を使う

In [None]:
import numpy as np
import random

y = np.array([ 3 * x + 5.0 +random.random()*6 for x in range(10)])
x = np.arange(10)


In [None]:
%matplotlib inline
from matplotlib import pyplot as plt
plt.scatter( [x for x in range (10)], y)

In [None]:
(x,y)

In [None]:
sum_XX = np.sum(x**2)　
sum_X = np.sum(x)
sum_1 = 10
sum_XY = np.sum( x * y)
sum_Y = np.sum(y)


In [None]:
X= np.array([[sum_XX,sum_X],[sum_X,sum_1]])
Y = np.array([sum_XY,sum_Y])
a,b = np.linalg.solve(X,Y)
print(a)
print(b)

In [None]:
%matplotlib inline
from matplotlib import pyplot as plt
plt.scatter( [x for x in range (10)], y)
plt.plot( [x for x in range(10)],[ x*a + b for x in range(10)],c='r')