# Chap 2. Linear Regression

## 1. Linear regression
- 통계학에서 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다.
- 선형 회귀는 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정한다. 이렇게 만들어진 회귀식을 선형 모델이라고 한다.
- Hypothesis는 일차 방정식의 그래프로 표현된다.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/53/Linear_least_squares_example2.png/220px-Linear_least_squares_example2.png" alt="" title="" />


## 2. Hypothesis
\begin{equation*}
H({x})=W({x}) + b
\end{equation*}
- H = hypothesis, 가설, 예측
- W = weight, 기울기
- b = bias, 절편
- x = 입력 데이터


## 3. Cost function
\begin{equation*}
Cost(W, b)=\frac{1}{m}\sum_{i=1}^{m}(H({x})^i - y^i)^2
\end{equation*}
- cost는 W와 b의 함수로서 H(x)와 y의 차의 제곱에 평균한 값이다. 즉 W와 b에 따라 cost가 바뀐다.
- machine learning은 cost를 minimize 하기위한 W, b를 찾는데 목적이 있다.
- cost 함수는 구현 방법에 상관없이 맞는 예측일 때 적은 비용을, 틀린 예측일 때 많은 비용을 부과하는 속성을 가져야 한다. 미분을 통해 비용이 적은 방향으로 진행할 수 있다. (Chapter 3에서 다를 것이다.)
- H(x)와 출력 y의 차를 제곱하는 목적은 양의(음수의 제곱은 양수) 값을 갖도록 하는데 목적이 있다.
- H(x) = 예측값
- y = 실측된 결과값
- m = 데이터의 갯수


## 4. Lab1: Linear regression

In [55]:
import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np

# Step1: Build graph using TF operation
# Training data
x_train = [1, 2, 3, 4]
y_train = [2.1, 3.1, 4.1, 5.1]

# Model parameters
W = tf.Variable(tf.random_normal([1]), name='weight')
b = tf.Variable(tf.random_normal([1]), name='bias')

# Model input and output
x = tf.placeholder(tf.float32)
y = tf.placeholder(tf.float32)

# Hypothesis model
hypothesis = (W * x) + b

# cost/loss function
cost = tf.reduce_sum(tf.square(hypothesis - y))  # sum of the squares
                                                                                
# optimizer
learning_rate = 0.01
optimizer = tf.train.GradientDescentOptimizer(learning_rate)
train = optimizer.minimize(cost)

# Step2: Feed data and run graph
# Step3: Update variables in graph and return values
# training loop
init = tf.global_variables_initializer()    # over rev 1.0 api
#init = tf.initialize_all_variables() # under rev 1.0 api
sess = tf.Session()
sess.run(init)  # reset values to wrong
for i in range(1001):
    sess.run(train, {x: x_train, y: y_train})
    
    if i % 100 == 0:
        # evaluate training accuracy
        curr_W, curr_b, curr_cost = sess.run([W, b, cost], {x: x_train, y: y_train})
        print("i: %s\tW: %s\tb: %s\tcost: %s" % (i, curr_W, curr_b, curr_cost))

sess.close()

i: 0	W: [1.4721154]	b: [-1.675474]	cost: 11.292932
i: 100	W: [1.268302]	b: [0.31115928]	cost: 0.41570657
i: 200	W: [1.0804249]	b: [0.86354095]	cost: 0.037352555
i: 300	W: [1.0241078]	b: [1.0291201]	cost: 0.0033562337
i: 400	W: [1.0072263]	b: [1.0787536]	cost: 0.00030155777
i: 500	W: [1.0021663]	b: [1.093631]	cost: 2.7096963e-05
i: 600	W: [1.0006493]	b: [1.0980908]	cost: 2.434575e-06
i: 700	W: [1.0001945]	b: [1.0994278]	cost: 2.1871529e-07
i: 800	W: [1.0000583]	b: [1.0998285]	cost: 1.9573235e-08
i: 900	W: [1.0000175]	b: [1.0999483]	cost: 1.7876687e-09
i: 1000	W: [1.0000051]	b: [1.0999848]	cost: 1.5052137e-10


- 입력 x와 출력 y의 데이터를 살펴보면 기울기 1, y절편 0.1의 그래프라는 것을 쉽게 알수 있다.
- 이러한 데이터를 기반으로 machine learing을 1001번 학습할때, 약 500회 때부터 cost가 0에 가까와 지는 것을 확인할수 있다. 즉, W와 b의 값을 잘 찾아가고 있다는 것을 확인할수 있다.
- 최종적으로 학습이 종료되었을때 W 는 1일때, b 는 1.1일때 cost가 가장 낮고 예측 모델이 잘 동작 되었다는 것을 확인할수 있다.