<a href="https://colab.research.google.com/github/wf-yamaday/machine-learning/blob/master/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%83%BB%E6%B7%B1%E5%B1%A4%E5%AD%A6%E7%BF%92%E8%AB%96/03_Regression0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 回帰問題

$y = ax + b$ を題材に

In [0]:
import numpy as np
import matplotlib.pylab as plt
import seaborn as sns; sns.set()

## データの生成

$N$ 点のデータを $[0, 1)$ の区間に生成し， $x$ とする．
真のデータを $y_{\text{true}} = a x + b$ で生成し，　ガウスノイズ $\epsilon \sim \cal{N}(\epsilon\mid 0, \sigma^2)$ を重畳した
値 $y = y_{\text{true}} + \epsilon$ を観測データとする

In [0]:
# N 点のデータを [0, 1) の区間に生成
# ytrue = ax + b で真値データを生成
# y = ytrue + e で観測データを生成

N = 30

a = 1.0
b = 0.0
sigma = 0.1

x = np.random.rand(N) # xに [0, 1) の乱数を N 個生成

ytrue = a * x + b #真値を生成して

y = ytrue + np.random.randn(N) * sigma #真値にノイズを載せて観測データを模擬する

In [0]:
# とりあえず，データを眺めてみる

# 青点は観測データ
plt.scatter(x, y)
plt.xlim((-0.2, 1.2))
plt.ylim((-0.2, 1.2))

# 真の直線も描画してみる
# 緑線はデータを生成している直線

xx = np.linspace(-0.2, 1.2, 128)
yy = a * xx + b

plt.plot(xx, yy, 'g-')

# 念の為座標軸も描いておく
plt.axhline()
plt.axvline()

# sigma の値を変えていろいろ描画してみること

## データの中心化

前処理として

In [0]:
# データの前処理
# 中心化 (centering) を行ってみる

# もとのデータを保存
xorg = x
yorg = y


# 中心座標を求める
Ex = np.mean(x)
Ey = np.mean(y)

x = x - Ex
y = y - Ey

In [0]:
plt.plot(x, y, 'bo')
plt.xlim((-0.7, 0.7))
plt.ylim((-0.7, 0.7))

# 念の為座標軸も描いておく
plt.axhline()
plt.axvline()

# 最小二乗法のために

二乗誤差を計算してみるために関数 $E(a, b)$ を定義して描画してみる

In [0]:
# 最小二乗法のために

def E(a, b, xobs, yobs):
    Ex = np.mean(xobs)
    Ey = np.mean(yobs)
    Exx = np.mean(xobs**2)
    Eyy = np.mean(yobs**2)
    Exy = np.mean(xobs * yobs)
    
    return 0.5 * (Eyy - 2 * a * Exy - 2 * b * Ey + a**2 * Exx + 2 * a * b * Ex + b**2)


In [0]:
# E(a, b=0)  と E(a, b=1) とを描画してみよう

aa = np.linspace(-4, 4, 128)

plt.plot(aa, E(aa, b=0, xobs=x, yobs=y))
plt.plot(aa, E(aa, b=1, xobs=x, yobs=y))


In [0]:
# E(a=0, b)  と E(a=1, b) とを描画してみよう

bb = np.linspace(-4, 4, 128)

plt.plot(bb, E(a = 0, b = bb, xobs=x, yobs=y))
plt.plot(bb, E(a = 1, b = bb, xobs=x, yobs=y))


In [0]:
# 等高線を使ってみてみる

t = np.linspace(-4, 4, 64)
aa, bb = np.meshgrid(t, t)


# 指数関数を書いてみよう
vv = np.exp( - E(aa, bb, xobs = x, yobs = y))

h = plt.contour(aa, bb, vv)

plt.scatter(a, b)
plt.xlabel('a')
plt.ylabel('b')


In [0]:
# 中心化しないデータを使って等高線を使ってみてみる

t = np.linspace(-4, 4, 64)
aa, bb = np.meshgrid(t, t)


# 指数関数を書いてみよう
vv = np.exp( - E(aa, bb, xobs = xorg, yobs = yorg))

h = plt.contour(aa, bb, vv)

plt.scatter(a, b)
plt.xlabel('a')
plt.ylabel('b')