# 텐서플로 기초

> 인공지능의 겨울(AI Winter) 이라 불리는 시기가 두 차례 있었는데 그 중 첫 번째는 퍼셉트론의 한계를 지적한 책 **퍼셉트론**의 발간이 영향을 미쳤다.
> 
> AND, OR, XOR 연산

## 난수 Random Number
* 신경망의 초깃값을 지정해주는 것을 **초기화(Initialization)** 이라 한다.
* 현재 가장 많이 쓰이는 방법은 **Xavier 초기화(Xavier Initialization)**, **He 초기화(He Initialization)** 인데, 이 방법들은 랜덤하지만 어느 정도 규칙성이 있는 범위 내에서 난수를 지정한다.

### 균일 분포 Unifrom distribution
* 균일 분포란 최솟값과 최댓값 사이의 모든 수가 나올 확률이 동일한 분포
* tf.random.uniform() 메서드 사용
* 첫번째 인자는 결괏값의 shape, 두번째 인자는 최솟값, 세번째 인자는 최대값

In [1]:
# 텐서플로 버전 확인
import tensorflow as tf 
print(tf.__version__) 

2.0.0


In [2]:
rand = tf.random.uniform([4,2],0,1)
print(rand)

tf.Tensor(
[[0.58848536 0.295534  ]
 [0.00541425 0.890815  ]
 [0.71302915 0.16843092]
 [0.7595056  0.8317784 ]], shape=(4, 2), dtype=float32)


### 정규 분포 Normal Distribution
* 정규 분포는 가운데가 높고 양극단으로 갈수록 낮아지는 분포
* tf.random.normal() 메서드 사용
* 두번째 인자는 정규 분포의 평균, 세번째 인자는 정규 분포의 표준 편차
    + 평균이 0이고 표준 편차가 1일 때 표준 정규 분포라고 한다.

In [3]:
# mean = 0, std = 1
rand = tf.random.normal([4],0,1)
print(rand)

tf.Tensor([ 1.0066879  -0.70320606 -0.26885486 -0.61595273], shape=(4,), dtype=float32)


## 뉴런
* 입력 ➡️ 뉴런 ➡️ 출력
* 입력 x ➡️ 가중치 w ➡️ 활성화함수 f ➡️ 출력 y
* 뉴런에서 학습할 때 변하는 것은 가중치로 처음에는 초기화를 통해 랜덤한 값을 넣고 학습 과정에서 점차 일정한 값으로 수렴하게 된다.
* 학습이 잘 된다는 것은 좋은 가중치를 얻어서 원하는 출력에 점점 가까운 값을 얻는 것을 말한다.
* 활성화 함수는 시그모이드, ReLU 등이 쓰인다.
    + 신경망 초창기에는 시그모이드가 주로 쓰였으니 은닉층이 다수 사용되며 ReLU가 더 많이 쓰인다.
* 딥러닝에서 오류를 역전파(Backpropagate) 할 때 시그모이드 함수가 값이 점점 작아지는 문제로 인해 [ReLU 함수](https://www.cs.toronto.edu/~fritz/absps/reluICML.pdf)가 대안으로 제시되었다.


In [4]:
# Sigmoid activation function
import math
def sigmoid(x):
    return 1 / (1+math.exp(-x))

In [5]:
x = 1    # 입력값
y = 0    # 출력값
w = tf.random.normal([1],0,1)  # 초기 가중치

output = sigmoid(x * w)        # 예측값  
print(output)

0.6211952105557321


### 경사 하강법 Gradient Descent
* 실제 출력값(Output)과 기대 출력(y)의 차이를 에러(Error)라고 한다.
* 경사 하강법은 w에 입력과 학습률(a)과 에러를 곱해주는 방법으로 *w = w + x * a * error* 라고 나타낸다.
    + 학습률(Learning rate)는 w를 업데이트하는 정도로 큰 값으로 설정하면 학습 속도가 빠르지만 과도한 학습으로 적정 수치를 벗어날 우려가 있고 너무 작은 값은 학습 속도가 너무 느려질 수 있다.
* 경사 하강법의 경사는 손실 곡선의 기울기를 의미한다.
* 경사 하강법은 손실 곡선을 미분한 다음 그 값을 이용하여 가중치가 손실이 가장 낮아지는 지점에 도달하도록 반복적으로 계산한다.

In [6]:
# Using gradient descent to calculate output

# learning rate = 0.1
a = 0.1
# epoch = 1000
for i in range(1000): 
    output = sigmoid(x * w) 
    error = y - output
    # Training/Update
    w = w + x * a * error

    # Only print 99-th output (ex 99, 199, 299, ..., 999)
    if i % 100 == 99:
        print('반복 횟수 {0} : , 에러값 : {1}, 결과값 : {2}'.format(i, error, output))

반복 횟수 99 : , 에러값 : -0.11086699299456661, 결과값 : 0.11086699299456661
반복 횟수 199 : , 에러값 : -0.05468309685183154, 결과값 : 0.05468309685183154
반복 횟수 299 : , 에러값 : -0.03588433292958755, 결과값 : 0.03588433292958755
반복 횟수 399 : , 에러값 : -0.026614284678820134, 결과값 : 0.026614284678820134
반복 횟수 499 : , 에러값 : -0.02111997140483474, 결과값 : 0.02111997140483474
반복 횟수 599 : , 에러값 : -0.01749297036828408, 결과값 : 0.01749297036828408
반복 횟수 699 : , 에러값 : -0.014922679994953019, 결과값 : 0.014922679994953019
반복 횟수 799 : , 에러값 : -0.01300735249812159, 결과값 : 0.01300735249812159
반복 횟수 899 : , 에러값 : -0.01152559058929319, 결과값 : 0.01152559058929319
반복 횟수 999 : , 에러값 : -0.010345576912598629, 결과값 : 0.010345576912598629


In [7]:
# 입력이 0이고 출력이 1

x = 0
y = 1
#w = tf.random.normal([1], 0,1) 
#w = tf.random.uniform([1], 0,1)

a = 0.1
for i in range(1000): 
    output = sigmoid(x * w) 
    error = y - output
    w = w + x * a * error
    
    if i % 100 == 99:
        print('반복 횟수 {0} : , 에러값 : {1}, 결과값 : {2}'.format(i,error, output))
        
        

반복 횟수 99 : , 에러값 : 0.5, 결과값 : 0.5
반복 횟수 199 : , 에러값 : 0.5, 결과값 : 0.5
반복 횟수 299 : , 에러값 : 0.5, 결과값 : 0.5
반복 횟수 399 : , 에러값 : 0.5, 결과값 : 0.5
반복 횟수 499 : , 에러값 : 0.5, 결과값 : 0.5
반복 횟수 599 : , 에러값 : 0.5, 결과값 : 0.5
반복 횟수 699 : , 에러값 : 0.5, 결과값 : 0.5
반복 횟수 799 : , 에러값 : 0.5, 결과값 : 0.5
반복 횟수 899 : , 에러값 : 0.5, 결과값 : 0.5
반복 횟수 999 : , 에러값 : 0.5, 결과값 : 0.5


> error값도 결과값도 0.5에서 변하지 않는다. 왜냐하면 입력으로 넣은 수가 0이기 때문에 w가 갱신되지 않는다.


### 편향 Bias
* 편향은 입력으로는 늘 한쪽으로 치우친 고정된 값(b = 1)을 받아서 입력으로 0을 받았을 때 뉴런이 아무것도 배우지 못하는 상황을 방지한다.
* 편향 역시 w처럼 난수로 초기화되서 뉴런에 더해져서 출력을 계산하게 된다.
* 편향이 더해진 뉴런의 출력 계산식은 *Y = f(X * w + 1 * b)* 라고 나타낸다.

![b](https://user-images.githubusercontent.com/28593767/111951384-f3c93500-8b26-11eb-977f-6d60e3d2d39b.png)

In [8]:
# 편향 추가

x = 0
y = 1
w = tf.random.normal([1], 0,1) 
b = tf.random.uniform([1], 0,1)

a = 0.1
for i in range(1000): 
    output = sigmoid(x * w + 1 * b) 
    error = y - output
    w = w + x * a * error
    b = b + 1 * a * error
    
    if i % 100 == 99:
        print('반복 횟수 {0} : , 에러값 : {1}, 결과값 : {2}'.format(i,error, output))

반복 횟수 99 : , 에러값 : 0.09497587048894318, 결과값 : 0.9050241295110568
반복 횟수 199 : , 에러값 : 0.05030887107118531, 결과값 : 0.9496911289288147
반복 횟수 299 : , 에러값 : 0.03391498004509497, 결과값 : 0.966085019954905
반복 횟수 399 : , 에러값 : 0.025506195247583796, 결과값 : 0.9744938047524162
반복 횟수 499 : , 에러값 : 0.020412600693768157, 결과값 : 0.9795873993062318
반복 횟수 599 : , 에러값 : 0.017003248766216505, 결과값 : 0.9829967512337835
반복 횟수 699 : , 에러값 : 0.01456395253830911, 결과값 : 0.9854360474616909
반복 횟수 799 : , 에러값 : 0.012733469788436591, 결과값 : 0.9872665302115634
반복 횟수 899 : , 에러값 : 0.011309796894496293, 결과값 : 0.9886902031055037
반복 횟수 999 : , 에러값 : 0.010171179452362344, 결과값 : 0.9898288205476377
