# レポート問題



## 問題1.

あるデータを直線でfitすることを考える。
直線の係数$a,b$の"最適値"を**最小二乗法**、つまり誤差の二乗和を最小化する。

$$
L \equiv \sum_{i=1}^n (y_i - (ax_i + b))^2
$$

これを$a,b$について微分して0とおく(極値を求めるための式を書く)と、
$$
\sum_{i=1}^n (y_i - (ax_i + b))x_i = 0 \\
\sum_{i=1}^n (y_i - (ax_i + b)) = 0
$$
となる。これを解くと、
$$
a = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}\\
b = \bar{y} - a \bar{x}
$$
となる。

上の、単回帰分析の係数の最適値を求める式を導出せよ。

導出は、markdownセルに書いても良いし、手書きであればscanして画像を貼り付けること。
(画像を貼り付ける場合は、画像ファイルを第３者が閲覧できるようにすること。)


### 解答

$$
\bar{x} = \sum_{i=1}^n x_i \\
\bar{y} = \sum_{i=1}^n y_i \\
0 = \sum_{i=1}^n (y_i - (ax_i + b))  = n \bar{y} - a n \bar{x} - b n 
$$ 
から
$$
b = \bar{y} - a \bar{x}
$$
が得られる。次に、1式目を変形していこう。

$$
\sum^n_{i=1} ( y_i - \bar{y} ) x_i + a \bar{x} x_i -a x^2_i = 0
$$

$$
0 = \sum_{i=1}^n (y_i x_i - a x^2_i - \bar{y}x_i + a \bar{x}x_i) = 
\sum_{i=1}^n ( (y_i - \bar{y})(x_i - \bar{x}) + \bar{x}y_i - \bar{x}\bar{y} - a (x_i - \bar{x})^2 )= 0
$$
ここで、$\bar{x}y_i - \bar{x}\bar{y}$は、和を取ると0になるので
$$
a = \frac{\sum_{i=1}^n ( (y_i - \bar{y})(x_i - \bar{x})  }{\sum^n_{i=1} (x_i - \bar{x})^2 }
$$


## 問題3-1

(a). 任意の二次元ベクトル$w$(但し$w_2 \neq 0$)とスカラー$b$、適当な区間で定義されたベクトル$\boldsymbol{x}$を入力に、上の二次元平面上に$w_1 x + w_2 y + b =0$を表す直線をプロットする関数を作成し、$w=(1,1.2), b=-220$の場合について描画せよ。
但し、xの区間は[20,80]とすること(np.linspaceなら始点と終点の2点で良い)

(b). 次に、$w$が未定の場合について、直線$w_1 x + w_2 y + b =0$の係数$w_1,w_2$を求める関数を作成せよ。  
ただし、$(x,y)=(20, 180),(80, 120)$の2点について既知とし、$b=1$とする。




**解答**

(a) xplotに対してyplotを計算するコードを作成し、その出力をプロットしてやれば良い。
但し、$w_2=0$のときは、例外を出すなど、別途対応が必要になる。

(b) $w_1 (x_1-x_2) + w_2 (y_1-y_2) = 0 $から$w_2 = \frac{w_1 (x_2-x_1)}{y_1-y_2}$という関係が得られる。
これを$w_2$に代入すると$w_1 x_1 + \frac{w_1 (x_2-x_1)}{y_1-y_2} (y_1) + 1 = 0$となるので、$w_1=-1/(x_1 + (x_2-x_1)y_1/(y_1-y_2))$と求めることができる。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def return_yplot(w, b, x):
    if w[1] == 0:
        raise ValueError("w[1] must be non-zero")
        return None
    else:
        y = - w[0]/w[1]*x - b/w[1]
        return y

def calc_w(xy_known):
    x_1, y_1 = xy_known[0]
    x_2, y_2 = xy_known[1]
    w_1 = -1 / (x_1 + (x_2-x_1)*y_1/(y_1-y_2))
    w_2 = w_1 * (x_2 - x_1)/(y_1 - y_2)
    return np.array([w_1, w_2])
    
xplot = np.linspace(20,80,2) #直線なので2点でよい
print("xplot=",xplot)


# グラフの描画
b = - 220
w = [1.0, 1.2]
yplot_a = return_yplot(w,b,xplot)

fig = plt.figure()
plt.scatter(data_o20[1],data_o20[0],marker="o",color="k",alpha=0.7)
plt.scatter(data_u20[1],data_u20[0],marker="o",color="k",alpha=0.7)
plt.plot(xplot,yplot_a,color="r")
plt.ylabel("height")
plt.xlabel("weight")
plt.show()
plt.close()

#問題B
b = 1
xy_known = [ [20, 180], [80, 120] ]
w = calc_w(xy_known)
yplot_b = return_yplot(w,b,xplot)

fig = plt.figure()
plt.scatter(data_o20[1],data_o20[0],marker="o",color="k",alpha=0.7)
plt.scatter(data_u20[1],data_u20[0],marker="o",color="k",alpha=0.7)
plt.scatter(xy_known[0][0],xy_known[0][1],marker="x",color="b")
plt.scatter(xy_known[1][0],xy_known[1][1],marker="x",color="b")
plt.plot(xplot,yplot_a,color="r",label="a")
plt.plot(xplot,yplot_b,color="b",label="b")
plt.ylabel("height")
plt.xlabel("weight")
plt.legend()
plt.show()
plt.close()