# Chapter 2. 텐서플로 설치와 주피터 노트북

## 2.1 파이썬 및 필수 라이브러리 설치하기

```sh
$ pip install --upgrade tensorflow
$ pip install install numpy matplotlib pillow
```

## 2.3 주피터 노트북

웹 브라우저상에서 파이썬 코드를 단계적으로 쉽게 실행하고, 시각적으로 빠르게 확인해 볼 수 있도록 해주는 프로그램입니다.

```sh
$ pip3 install jupyter
$ jupyter notebook
```




# Chapter 3. 텐서플로 프로그래밍 101

tensorflow는 그래프 형태의 수학식 계산을 수행하는 핵심 라이브버리 위에 딥러닝을 포함한 여러 머신러닝을 쉽게 할 수 있는 라이브러리들을 올린 형태로 구성되어있습니다.

![https://image.slidesharecdn.com/tensorflowkeras-170818142907/95/tensorflow-and-keras-an-overview-6-638.jpg?cb=1503066611](https://image.slidesharecdn.com/tensorflowkeras-170818142907/95/tensorflow-and-keras-an-overview-6-638.jpg?cb=1503066611)

이를 위해 텐서 플로는 일반적인 프로그래밍과는 다른 개념을 몇개 포함합니다.

- tensor
- placeholder
- variable
- operation
- graph 실행

## 3.1 tensor와 graph 실행

말로 해도 못 알아 먹을거 같으니 코드를 입력해가며 해봅니다.

In [2]:
import tensorflow as tf

In [3]:
hello = tf.constant('Hello, TensorFlow!')
print(hello)
# hello 변수는 Tensor라는 자료형이고 상수를 담고 있다는 것을 알 수 있다.

Tensor("Const:0", shape=(), dtype=string)


tensor는 tensorflow에서 다양한 수학식을 계산하기 위한 가장 기본적이고 중요한 자료형이다.

tensorflow에서는 matrix 연산을 빈번하게 수행합니다. 그렇기에 자료형 tensor에서는 기본적으로 matrix를 지원합니다.

- Rank : 차원의 수를 나타냅니다.
    - Rank가 0이면 Scala
    - 1이면 Vector
    - 2이면 Matrix, 행렬
    - 3 이상이면 n-Tensor
- Shape : 각 차원의 element 개수, 즉 tensor의 구조 설명
- dtype : tensor에 담긴 element들의 자료형, string, float, int 등

![image/3_tensor.png](image/3_tensor.png)

In [5]:
a = tf.constant(10)
b = tf.constant(32)
c = tf.add(a, b)
print(a)
print(b)
print(c)

Tensor("Const_1:0", shape=(), dtype=int32)
Tensor("Const_2:0", shape=(), dtype=int32)
Tensor("Add:0", shape=(), dtype=int32)


일반적인 프로그램과 다르게 tensorflow는 다음의 두 가지로 분리되어 있습니다.

1. Graph 생성
2. Graph 실행

![image/3_tensorflow_program.png](image/3_tensorflow_program.png)

Graph는 Tensor들의 연산 모음입니다. 

- tensorflow는 tensor와 tensor의 연산들을 먼저 정의하여 Graph를 만들고
- 이후 필요할 때 연산을 실행하는 코드를 넣어 **원하는 시점**에 실제 연산을 수행

> 이러한 방식을 lazy evaluation이라고 하며 functional programming에서 많이 사용됨

이런 방식을 통해 실제 계산은 C++로 구현한 코어 라이브러리에서 수행하므로 높은 성능을 보여줍니다. 또한 모델 구성과 실행을 분리해 프로그램을 깔끔하게 작성할 수 있습니다.

Graph의 실행은 Session 안에서 이뤄져야 하며 run 메서드를 이용합니다.

In [6]:
sess = tf.Session()

print(sess.run(hello))
print(sess.run([a, b, c]))

sess.close()

b'Hello, TensorFlow!'
[10, 32, 42]


### 전체 코드

In [7]:
import tensorflow as tf

hello = tf.constant('Hello, TensorFlow!')
print(hello)

a = tf.constant(10)
b = tf.constant(32)
c = tf.add(a, b)
print(c)

sess = tf.Session()

print(sess.run(hello))
print(sess.run([a, b, c]))

sess.close()

Tensor("Const_3:0", shape=(), dtype=string)
Tensor("Add_1:0", shape=(), dtype=int32)
b'Hello, TensorFlow!'
[10, 32, 42]


## 3.2 Placeholder와 Variable

Placeholder는 Graph에 사용할 입력값을 나중에 받기 위해 사용하는 Parameter로 사용되는 Tensor입니다.

Variable은 Graph를 최적화하는 용도로 Tensorflow가 학습한 결과를 갱신하기 위해 사용하는 Tensor입니다. 이 Variable의 값들이 Neural Network의 성능을 좌우합니다.

![https://irenelizihui.files.wordpress.com/2016/05/13219756_798986766903560_704317321_n.jpg?w=840](https://irenelizihui.files.wordpress.com/2016/05/13219756_798986766903560_704317321_n.jpg?w=840)

먼저 Placeholder를 먼저 사용해 보겠습니다.

In [7]:
# None은 아직 크기가 정해지지 않았다는 의미
X = tf.placeholder(tf.float32, [None, 3])
print(X)

Tensor("Placeholder:0", shape=(?, 3), dtype=float32)


나중에 Placeholder X에 넣을 자료를 정의해보겠습니다.

앞에서 tensor 모양을 (?, 3)으로 정의했으므로 두 번째 차원은 3개의 element를 가지고 있어야 합니다.

In [8]:
x_data = [[1, 2, 3], [4, 5, 6]]

다음은 Variable을 정의해보겠습니다

- W는 [3, 2] Matrix 형태의 Tensor
- b는 [2, 1] Matrix 형태의 Tensor

normal distribution의 무작위 값으로 초기화합니다.

물론 `tf.Variable([[0.1, 0.1], [0.2, 0.2], [0.3, 0.3]])` 처럼 지정할 수도 있습니다

In [9]:
W = tf.Variable(tf.random_normal([3, 2]))
b = tf.Variable(tf.random_normal([2, 1]))

다음으로 수식을 작성해보겠습니다.

In [10]:
expr = tf.matmul(X, W) + b

여기서 Matrix Multiply에 대해서 하나 알아두면 좋습니다.

- 행렬곱 A x B에 대하여, A의 Column(열)의 수와 B의 Row(행)의 수는 같아야 한다.
- 행렬곱 A x B를 계산한 행렬 AB의 크기는 A의 Row(행) 개수와 B의 Column(열) 개수가 된다

![image/3_matrix_muliply.png](image/3_matrix_muliply.png)

X는 [2, 3] 이고 W는 [3, 2]이므로 곱한 결과의 형태는 [2, 2]가 된다 

In [12]:
sess = tf.Session()
# variable을 초기화하는 함수
# 기존에 학습한 값을 가져와서 사용하는 경우가 아니고 
# 처음 실행할 때는, 연산 실행 전에 이 함수를 이용해 변수를 초기화 해야 한다.
sess.run(tf.global_variables_initializer())

print("=== x_data ===")
print(x_data)
print("=== W ===")
print(sess.run(W))
print("=== b ===")
print(sess.run(b))
print("=== expr ===")
# Graph를 실행할 때 feed_dict로 
# Placeholder로 input data를 제공한다.
print(sess.run(tf.matmul(X, W), feed_dict={X: x_data}))
print(sess.run(expr, feed_dict={X: x_data}))

sess.close()

=== x_data ===
[[1, 2, 3], [4, 5, 6]]
=== W ===
[[-0.35214731 -1.3938725 ]
 [-0.48391855  0.54696041]
 [ 0.38931513 -0.2313734 ]]
=== b ===
[[-0.73635834]
 [ 0.83228809]]
=== expr ===
[[-0.15203905 -0.99407184]
 [-1.49229145 -4.22892857]]
[[-0.8883974  -1.73043013]
 [-0.66000336 -3.39664054]]


### 전체 코드

In [14]:
import tensorflow as tf

X = tf.placeholder(tf.float32, [None, 3])
print(X)

x_data = [[1, 2, 3], [4, 5, 6]]

W = tf.Variable(tf.random_normal([3, 2]))
b = tf.Variable(tf.random_normal([2, 1]))

expr = tf.matmul(X, W) + b

sess = tf.Session()
sess.run(tf.global_variables_initializer())

print("=== x_data ===")
print(x_data)
print("=== W ===")
print(sess.run(W))
print("=== b ===")
print(sess.run(b))
print("=== expr ===")
print(sess.run(expr, feed_dict={X: x_data}))

sess.close()

Tensor("Placeholder_1:0", shape=(?, 3), dtype=float32)
=== x_data ===
[[1, 2, 3], [4, 5, 6]]
=== W ===
[[-1.49374366 -1.87383628]
 [ 0.72828573 -2.28003216]
 [-0.72790271 -2.66243052]]
=== b ===
[[-0.72137994]
 [-1.62915206]]
=== expr ===
[[ -2.9422605  -15.1425724 ]
 [ -8.33011436 -36.49923706]]


## 3.3 Linear Regression 모델 구현하기

Linear Regression이란 주어진 x와 y 값을 가지고 서로 간의 관계를 파악하는 것입니다.

- 이 관계를 알고 나면 새로운 x 값이 주어졌을 때 y 값을 쉽게 알 수 있습니다.

![image/3_linear_regression.png](image/3_linear_regression.png)

이제 한번 Linear Regression 모델을 만들고 실행해봅시다.

- 여기서는 x_data와 y_data의 상관관계를 파악해봅니다

In [13]:
x_data = [1, 2, 3]
y_data = [1, 2, 3]

먼저 x와 y의 상관관계를 설명하기 위한 Variable들인 W와 b를 무작위 값으로 초기화합니다.

In [14]:
W = tf.Variable(tf.random_uniform([1], -1.0, 1.0))
b = tf.Variable(tf.random_uniform([1], -1.0, 1.0))

또 자료를 입력 받을 Placeholder를 설정합니다.

In [15]:
X = tf.placeholder(tf.float32, name='X')
Y = tf.placeholder(tf.float32, name='Y')

X와 Y의 상관관계를 분석하기 위한 가설(hypothesis)를 작성합니다.

- 여기서는 X가 주어졌을 때 Y가 만들어지는 W와 b를 찾습니다.
- W는 weight(가중치), b는 bias(편향)라 합니다.
- 이 수식은 Linear Regression 부터 딥러닝까지 기본이 되는 수식입니다

In [20]:
hypothesis = W * X + b

이제 loss function(cost function)을 작성해보겠습니다.

- loss function은 data에 대한 손실값를 계산하는 함수입니다.
- 손실값란 실제 값과 모델로 예측한 값이 얼마나 차이가 나는가를 나타내는 값
- 즉 손실값이 작을수록 그 모델이 관계를 잘 설명하고 있다는 뜻입니다.
- 이 손실을 전체 데이터에 대해 구한 경우 이를 cost라고 합니다.

즉 Training이란 Variable의 값을 다양하게 넣어 계산하면서, 이 cost를 최소화하는 W와 b의 값을 구하는 것입니다.

이 loss function으로는 **에측값과 실제 값의 거리**를 가장 많이 사용합니다.

여기서는 유클리드 거리를 사용합니다

- 모든 데이터로 `(예측값-실제값)^2` 를 구해 평균을 cost로 삼음

![http://cfile5.uf.tistory.com/image/2329983A55CD88660CDD94](http://cfile5.uf.tistory.com/image/2329983A55CD88660CDD94)


In [16]:
cost = tf.reduce_mean(tf.square(hypothesis - Y))

NameError: name 'hypothesis' is not defined

마지막으로 gradient descent optimizer로 cost를 최소화하는 연산 Graph를 생성합니다.

In [23]:
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.1)
train_op = optimizer.minimize(cost)

최적화 함수란 cost를 최소화하는 최적화된 Weight와 bias 값을 찾아주는 함수입니다.

> 이 때 무작위로 변경하면서 찾으면 효율이 떨어집니다. 그래서 다양한 방법들을 사용합니다.

Gradient Descent Algorithm은 최적화 방법 중 가장 기본적인 알고리즘입니다.

loss function에서 기울기를 구하고 기울기가 낮은 쪽으로 계속 이동시킵니다. 

![https://rasbt.github.io/mlxtend/user_guide/general_concepts/gradient-optimization_files/ball.png](https://rasbt.github.io/mlxtend/user_guide/general_concepts/gradient-optimization_files/ball.png)

learning_rate는 얼마나 학습을 할지를 결정하는 hyperparameter입니다.

- 너무 크면 최적의 cost를 찾지 못하고 지나쳐버리거나 학습이 튀어버리고
- 너무 작으면 속도가 매우 느려집니다.

> **hyperparameter**
>
> Training을 진행하는 과정에 영향을 주는 변수를 의미하며, 이 값에 따라 학습 속도나 성능이 크게 달라질 수 있다. ML에서는 이 값을 잘 튜닝하는 것이 중요하다.

이제 Linear Regression 모델을 다 만들었으니, Graph를 실행해 학습을 시킵니다.

- 최적화를 수행하는 Graph인 train_op를 실행하고, 실행 시마다 변화하는 cost를 출력합니다.
- 학습은 100번 수행하며, feed_dict로 x_data와 y_data를 전달합니다

In [17]:
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    
    for step in range(1000):
        _, cost_val = sess.run([train_op, cost], feed_dict={X: x_data, 
                                                           Y: y_data})
        if step % 10 is not 0: continue
        print(step, cost_val, sess.run(W), sess.run(b))
    
    print("==" * 30)
    # 모델이 잘 동작하는지 확인해 보겠습니다.
    print("X: 5, Y:", sess.run(hypothesis, feed_dict={X: 5}))
    print("X: 2.5, Y:", sess.run(hypothesis, feed_dict={X: 2.5}))

NameError: name 'train_op' is not defined

### 전체 코드

In [33]:
import tensorflow as tf

x_data = [1, 2, 3]
y_data = [1, 2, 3]

W = tf.Variable(tf.random_uniform([1], -1.0, 1.0))
b = tf.Variable(tf.random_uniform([1], -1.0, 1.0))

X = tf.placeholder(tf.float32, name='X')
Y = tf.placeholder(tf.float32, name='Y')

hypothesis = W * X + b

cost = tf.reduce_mean(tf.square(hypothesis - Y))
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.1)
train_op = optimizer.minimize(cost)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    
    for step in range(100):
        _, cost_val = sess.run([train_op, cost], feed_dict={X: x_data, 
                                                           Y: y_data})
        if step % 10 is not 0: continue
        print(step, cost_val, sess.run(W), sess.run(b))
    
    print("==" * 30)
    print("X: 5, Y:", sess.run(hypothesis, feed_dict={X: 5}))
    print("X: 2.5, Y:", sess.run(hypothesis, feed_dict={X: 2.5}))

0 2.04304 [ 0.55748618] [ 1.16262317]
10 0.119726 [ 0.60778624] [ 0.89159399]
20 0.0735928 [ 0.69249934] [ 0.69902128]
30 0.0452358 [ 0.75891548] [ 0.5480417]
40 0.0278054 [ 0.81098664] [ 0.42967176]
50 0.0170913 [ 0.85181111] [ 0.33686826]
60 0.0105056 [ 0.88381797] [ 0.26410908]
70 0.00645755 [ 0.90891176] [ 0.20706496]
80 0.0039693 [ 0.92858559] [ 0.16234164]
90 0.00243984 [ 0.9440102] [ 0.12727796]
X: 5, Y: [ 4.87735558]
X: 2.5, Y: [ 2.48980069]
