In [1]:
import numpy as np
import pandas as pd
import tensorflow as tf

In [2]:
X_data = [1, 2, 3, 4, 5]
y_data = [1, 2, 3, 4, 5]

# 초기값은 임의의 값을 부여.
W = tf.Variable(2.9)
b = tf.Variable(0.5)

# 단순선형회귀에 대한 가설식.
hypothesis = W * X_data + b

# 단순선형회귀에 대한 비용함수 MSE.
# reduce_mean은 한 차원 줄인 상태에서의 평균을 구하는 것이다.
cost = tf.reduce_mean(tf.square(hypothesis - y_data))

In [3]:
learning_rate = 0.01

for i in range(100):
    # GradientTape는 with과 함께 사용하며, 변수에 대한 변화 정보는 tape에 기록한다.
    # with 구문 안에 변수를 포함한 식(여기선 cost)을 설정한 다음, tape.gradient(식, 변수들)을 넣어주면 식에 대해 각 변수를 편미분한 결과를 리턴한다.
    with tf.GradientTape() as tape:
        hypothesis = W * X_data + b
        cost = tf.reduce_mean(tf.square(hypothesis - y_data))

    # tape.gradient(cost, [W, b])를 하면 비용함수에 대해 각 변수들의 편미분 값을 리턴한다.
    W_grad, b_grad = tape.gradient(cost, [W, b])

    # learning_rate는 반영율을 의미한다. 이 값이 너무 크면 최소 지점으로 못갈수도 있고 너무 작으면 최적화까지 시간이 너무 오래 걸릴 수 있다.
    # learning_rate * 기울기만큼을 기존의 변수에 빼주면 된다.
    W.assign_sub(learning_rate * W_grad)
    b.assign_sub(learning_rate * b_grad)

    if not i % 10:
        print('{:5}|{:10.4f}|{:10.4}|{:10.6f}'.format(i, W.numpy(), b.numpy(), cost))


    0|    2.4520|     0.376| 45.660004
   10|    1.1036|  0.003398|  0.206336
   20|    1.0128|  -0.02091|  0.001026
   30|    1.0065|  -0.02184|  0.000093
   40|    1.0059|  -0.02123|  0.000083
   50|    1.0057|  -0.02053|  0.000077
   60|    1.0055|  -0.01984|  0.000072
   70|    1.0053|  -0.01918|  0.000067
   80|    1.0051|  -0.01854|  0.000063
   90|    1.0050|  -0.01793|  0.000059


In [4]:
# predict 5 and 2.5
print(W * 5 + b)
print(W * 2.5 + b)

tf.Tensor(5.0066934, shape=(), dtype=float32)
tf.Tensor(2.4946523, shape=(), dtype=float32)


In [5]:
X = np.array([1, 2, 3])
y = np.array([1, 2, 3])

def cost_func(W, X, y):
    c = 0
    for i in range(len(X)):
        c += (W * X[i] - y[i]) ** 2
    return c / len(X)

for feed_W in np.linspace(-3, 5, num=15):
    curr_cost = cost_func(feed_W, X, y)
    print("{:6.3f} | {:10.5f}".format(feed_W, curr_cost))

-3.000 |   74.66667
-2.429 |   54.85714
-1.857 |   38.09524
-1.286 |   24.38095
-0.714 |   13.71429
-0.143 |    6.09524
 0.429 |    1.52381
 1.000 |    0.00000
 1.571 |    1.52381
 2.143 |    6.09524
 2.714 |   13.71429
 3.286 |   24.38095
 3.857 |   38.09524
 4.429 |   54.85714
 5.000 |   74.66667


In [6]:
X = np.array([1, 2, 3])
y = np.array([1, 2, 3])

def cost_func(W, X, y):
    hypothesis = X * W
    return tf.reduce_mean(tf.square(hypothesis - y))

W_values = np.linspace(-3, 5, num=15)
cost_values = []

for feed_W in W_values:
    curr_cost = cost_func(feed_W, X, y)
    cost_values.append(curr_cost)
    print("{:6.3f} | {:10.5f}".format(feed_W, curr_cost))

-3.000 |   74.66667
-2.429 |   54.85714
-1.857 |   38.09524
-1.286 |   24.38095
-0.714 |   13.71429
-0.143 |    6.09524
 0.429 |    1.52381
 1.000 |    0.00000
 1.571 |    1.52381
 2.143 |    6.09524
 2.714 |   13.71429
 3.286 |   24.38095
 3.857 |   38.09524
 4.429 |   54.85714
 5.000 |   74.66667


In [7]:
alpha = 0.01
gradient = tf.reduce_mean(tf.multiply(tf.multiply(W, X) - y, X))
descent = W - tf.multiply(alpha, gradient)
W.assign(descent)

<tf.Variable 'UnreadVariable' shape=() dtype=float32, numpy=1.0045917>

In [8]:
W.numpy()

1.0045917

In [26]:
# tf.set_random_seed(0)

X_data = [1., 2., 3., 4.]
y_data = [1., 3., 5., 7.]

# W = tf.Variable(tf.random.normal([1], -100., 100.))
W = tf.Variable([5.0])

for step in range(300):
    hypothesis = W * X_data
    cost = tf.reduce_mean(tf.square(hypothesis - y_data))

    learning_rate = 0.01
    gradient = tf.reduce_mean(tf.multiply(hypothesis - y_data, X_data))
    descent = W - tf.multiply(learning_rate, gradient)
    W.assign(descent)

    if step % 10 == 0:
        print('{:5} | {:10.4f} | {:10.6f}'.format(step, cost.numpy(), W.numpy()[0]))

    0 |    83.5000 |   4.750000
   10 |    17.6915 |   3.080629
   20 |     3.8521 |   2.315085
   30 |     0.9417 |   1.964020
   40 |     0.3297 |   1.803027
   50 |     0.2009 |   1.729199
   60 |     0.1739 |   1.695343
   70 |     0.1682 |   1.679817
   80 |     0.1670 |   1.672697
   90 |     0.1667 |   1.669432
  100 |     0.1667 |   1.667935
  110 |     0.1667 |   1.667248
  120 |     0.1667 |   1.666933
  130 |     0.1667 |   1.666789
  140 |     0.1667 |   1.666723
  150 |     0.1667 |   1.666692
  160 |     0.1667 |   1.666678
  170 |     0.1667 |   1.666672
  180 |     0.1667 |   1.666669
  190 |     0.1667 |   1.666668
  200 |     0.1667 |   1.666667
  210 |     0.1667 |   1.666667
  220 |     0.1667 |   1.666667
  230 |     0.1667 |   1.666667
  240 |     0.1667 |   1.666667
  250 |     0.1667 |   1.666667
  260 |     0.1667 |   1.666667
  270 |     0.1667 |   1.666667
  280 |     0.1667 |   1.666667
  290 |     0.1667 |   1.666667
