In [1]:
# 8章：勾配下降法
# データサイエンスとは、ある状況に対して最も適したモデルを探し出すこと。
# そして「最も適した」とは、誤りが最小である、もしくは可能性が最大であること。
# 言い換えると、データサイエンスとは最適化問題を解くことである。

In [2]:
# 8.1
# 入力として１つの実数ベクトルを受け取り、1つの実数を返す関数を考える

def sum_of_squares(v):
    """vは実数ベクトル"""
    """vの各要素の二乗を合計する"""
    return sum(v_i ** 2 for v_i in v)

# 最大または最小の値をもたらす、入力vを見つけ出す。
# このような関数において、購買とは関数が最も急速に増加する方向

In [3]:
# 8.2
# fが1関数の変数であった場合、xにおける微分係数は、
# xを小さく変化させた際のf(x)の変化で求められる
#　微分係数　=　(x,f(x))における接線の傾き

def difference_quotient(f,x,h):
    return (f(x + h) - f(x)) / h

In [4]:
def plot_estimated_derivative():
    
    #　二乗する関数squareの場合
    def square(x):
        return x * x

    #　導関数は次のようになる
    def derivative(x):
        return 2 * x

    derivative_estimate = lambda x: difference_quotient(square, x, h=0.00001)

    #　図示する。基本的に両者は同じ値。
    import matplotlib.pyplot as plt
    %matplotlib inline
    x = range(-10,10)
    plt.title("Actual Derivatives vs. Estimates")
    plt.plot(x, map(derivative, x), 'rx', label='Actual') #赤のX
    plt.plot(x, map(derivative_estimate, x), 'b+', label="Estimate") #青の＋
    plt.legend(loc=9)
    plt.show()

In [5]:
def partial_difference_quotient(f,v,i,h):
    """関数fと変数ベクトルvに対するi番目の差分商を計算する"""
    w = [ v_j + (h if j == i else 0) #vのi番目の要素をhに加える
         for j, v_j in enumerate(v) ]
    return (f(w) - f(v)) / h

def estimate_gradient(f,v,h=0.00001):
    return [ partial_difference_quotient(f,v,i,h)
           for i, _ in enumerate(v)]

In [6]:
import random, math

def step(v, direction, step_size):
    """vからdirection方向にstep_size移動する"""
    return [v_i + step_size * direction_i
           for v_i, direction_i in zip(v, direction)]

def sum_of_squares_gradient(v):
    return [2 * v_i for v_i in v]

v = [ random.randint(-10,10) for i in range(3) ]

tolerance = 0.0000001

def distance(v, w):
    return math.sqrt(squared_distance(v, w))

def squared_distance(v, w):
    return sum_of_squares(vector_subtract(v, w))

def sum_of_squares(v):
    """v_1 * v_1 + ... + v_n * v_n"""
    return dot(v, v)

def vector_subtract(v, w):
    """subtracts two vectors componentwise"""
    return [v_i - w_i for v_i, w_i in zip(v,w)]

def dot(v, w):
    """v_1 * w_1 + ... + v_n * w_n"""
    return sum(v_i * w_i for v_i, w_i in zip(v, w))

while True:
    gradient = sum_of_squares_gradient(v)
    next_v = step(v, gradient, -0.01)
    if distance(next_v, v) < tolerance:
        break
    print(v)
    v = next_v

print("minimum v", v)
print("minimum value", sum_of_squares(v))

[7, -4, -6]
[6.86, -3.92, -5.88]
[6.7228, -3.8416, -5.7623999999999995]
[6.588344, -3.764768, -5.647151999999999]
[6.45657712, -3.68947264, -5.534208959999999]
[6.327445577600001, -3.6156831872, -5.423524780799999]
[6.200896666048001, -3.543369523456, -5.315054285183999]
[6.076878732727041, -3.47250213298688, -5.208753199480319]
[5.9553411580725, -3.4030520903271424, -5.104578135490713]
[5.83623433491105, -3.3349910485205996, -5.0024865727808985]
[5.71950964821283, -3.2682912275501876, -4.90243684132528]
[5.605119455248573, -3.202925402999184, -4.804388104498774]
[5.493017066143602, -3.1388668949392002, -4.708300342408799]
[5.383156724820729, -3.076089557040416, -4.614134335560623]
[5.275493590324315, -3.0145677658996077, -4.5218516488494105]
[5.169983718517829, -2.9542764105816155, -4.431414615872423]
[5.066584044147472, -2.8951908823699832, -4.342786323554974]
[4.965252363264523, -2.8372870647225836, -4.255930597083875]
[4.865947315999232, -2.7805413234281318, -4.170811985142198]
[4.

In [16]:
#8.4

step_sizes = [100,10,1,0.1,0.01,0.001,0.0001,0.00001]

def safe(f):
    """fと等価であるが、無効な入力に対する振る舞いとして
    無限大を返すような、新しい関数を返す"""
    def safe_f(*args, **kwargs):
        try:
            return f(*args, **kwargs)
        except:
            return float('inf')
    return safe_f

In [19]:
#8.5　勾配下降法を実装する

def minimize_batch(target_fn, gradient_fn, theta_0, tolerance=0.000001):
    """目的関数target_fnを最小化するthetaを勾配下降法を使って求める"""
    
    step_sizes = [100,10,1,0.1,0.01,0.001,0.0001,0.00001]
    
    theta = theta_0 #thetaに初期値を設定
    target_fn = safe(target_fn) #target_fnの安全版
    value = target_fn(theta)  #valueの値を最小化する
    
    while True:
        gradient = gradient_fn(theta)
        next_thetas = [step(theta, gradient, -step_size) for step_size in step_sizes]
        
        #誤差関数を最小化する値を選ぶ
        next_theta = min(next_thetas, key=target_fn)
        next_value = target_fn(next_theta)
        
        #収束したなら、終了する
        if abs(value - next_value) < tolerance:
            return theta
        else:
            theta, value = next_theta, next_value

print("using minimize_batch")

v = [random.randint(-10,10) for i in range(3)]
print(v)

result = minimize_batch(sum_of_squares, sum_of_squares_gradient, v)
print(result)

using minimize_batch
[10, -8, -1]
[0.001063382396627933, -0.0008507059173023465, -0.00010633823966279331]


In [20]:
#max

def negate(f):
    """あらゆる入力xに対する-f(x)に相当する関数を返す"""
    return lambda *args, **kwargs: -f(*args, **kwargs)

def negate_all(f):
    """fが数値リストを返す場合のnegate関数"""
    return lambda *args, **kwargs: [-y for y in f(*args, **kwargs)]

def maximize_batch(target_fn, gradient_fn, theta_0, tolerance=0.000001):
    return minimize_batch(negate(target_fn),negate_all(gradient_fn),theta_0, tolerance)

In [None]:
#8.6　確率的勾配下降法

def in_random_order(data):
    """データの要素を無作為な順番で返すジェネレータ"""
    indexes = [i for i, _ in enumerate(data)]
    random.shuffle(indexes) #インデックスのリストを作る
    for i in indexes: #無作為に並べ替える
        yield data[i] #データをその順番に返す
        
def minimize_stochastic(target_fn, gradient_fn, x, y, theta_0, alpha_0=0.01):
    data = list(zip(x,y))
    theta = theta_0 #初期推定値
    alpha = alpha_0 #初期ステップ量
    min_theta, min_value = none, float("inf") #現時点での最小値
    iterations_with_no_improvement = 0
    
    #100回繰り返しても改善しなければストップする
    while iterations_with_no_improvement < 100:
        value = sum( target_fn(x_i, y_i, theta) for x_i, y_i in data )
        
        if value < min_value:
            #新しい最小値が見つかれば、それを記憶して最初のステップ量に戻す
            min_theta, min_value = theta, value
            iterations_with_no_implovement = 0
            alpha = alpha _0
        else:
            #そうでなければ改善が見られないため、ステップ量を小さくする
            iterations_with_no_implovement += 1
            alpha *= 0.9
            
        #各データポイントに対して勾配ステップを適用する
        for x_i, y_i in in_random_order(data):
            gradient_i = gradient_fn(x_i, y_i, theta)
            theta = vector_subtract(theta, scalar_multiply(alpha, gradient_i))
            
    return

def maximize_stochastic(target_fn, gradient_fn, x,y,theta_0,alpha_0=0.01):
    return minimize_stochastic(negate(target_fn),
                              negate_all(gradient_fn),
                              x,y,theta_0,alpha_0)