# 퍼셉트론(Perceptron)

퍼셉트론(perceptron)은 인공신경망의 한 종류로서, 1957년에 코넬 항공 연구소(Cornell Aeronautical Lab)의 프랑크 로젠블라트 (Frank Rosenblatt)에 의해 고안되었다. 이것은 가장 간단한 형태의 피드포워드(Feedforward) 네트워크 - 선형분류기- 으로도 볼 수 있다.

퍼셉트론이 동작하는 방식은 다음과 같다. 각 노드의 가중치와 입력치를 곱한 것을 모두 합한 값이 활성함수에 의해 판단되는데, 그 값이 임계치(보통 0)보다 크면 뉴런이 활성화되고 결과값으로 1을 출력한다. 뉴런이 활성화되지 않으면 결과값으로 -1을 출력한다.

마빈 민스키와 시모어 페퍼트는 저서 "퍼셉트론"에서 단층 퍼셉트론은 XOR 연산이 불가능하지만, 다층 퍼셉트론으로는 XOR 연산이 가능함을 보였다.

https://ko.wikipedia.org/wiki/%ED%8D%BC%EC%85%89%ED%8A%B8%EB%A1%A0


# 역전파 알고리즘(Back-propagation Algorithm)

민스키가 역설한 퍼셉트론의 문제점을 해결하기 위해 제시된 방식으로, 
입력에 대한 학습 결과를 토대로 거꾸로 학습을 시키는 방식

# 콘볼루션 신경망(Convolutional Neural Network)

고양이의 시신경을 이용한 연구 결과를 토대로, 이를 기계학습에 적용한 방식

부분 부분을 담당하는 Layer들을 이용해 이미지를 처리하고, 후반부에 
부분 결과들을 합쳐서 최종 결과를 도출하는 방식

# 역전파 알고리즘을 이용했을 때 다층 퍼셉트론의 문제

Layer가 많아질수록 학습이 잘 되지 않는 문제가 발견되었고, 이를 해결하는 방법을 찾지 못bbb해
인공지능 연구의 침체기가 오게 되었음  

In [10]:
# https://www.tensorflow.org/api_guides/python/array_ops
import tensorflow as tf
import numpy as np
import pprint

tf.set_random_seed(777)  # for reproducibility

pp = pprint.PrettyPrinter(indent=4)
sess = tf.InteractiveSession()

In [9]:
t = np.array([0., 1., 2., 3., 4., 5., 6.])

pp.pprint(t)
print(t)

print(t.ndim)            # print rank
print(t.shape)           # print shape of tensor
print(t[0], t[1], t[-1]) # -1 used for last element
print(t[2:5], t[4:-1])   # [a:b] user as mathmetically [a, b)
print(t[:3], t[4:])      # blank used as begin or end

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.])
[ 0.  1.  2.  3.  4.  5.  6.]
1
(7,)
0.0 1.0 6.0
[ 2.  3.  4.] [ 4.  5.]
[ 0.  1.  2.] [ 4.  5.  6.]


In [11]:
t = np.array([[1., 2., 3.], [4., 5., 6.], [7., 8., 9.], [10., 11., 12.]])
pp.pprint(t)
print(t.ndim) # rank
print(t.shape) # shape

array([[  1.,   2.,   3.],
       [  4.,   5.,   6.],
       [  7.,   8.,   9.],
       [ 10.,  11.,  12.]])
2
(4, 3)


In [12]:
t = tf.constant([1,2,3,4])
tf.shape(t).eval()

array([4])

In [13]:
t = tf.constant([[1,2],
                 [3,4]])
tf.shape(t).eval()

array([2, 2])

In [15]:
t = tf.constant([
    [
        [ 
            [1, 2, 3, 4], 
            [5, 6, 7, 8], 
            [9, 10, 11, 12] 
        ], 
        [ 
            [13, 14, 15, 16], 
            [17, 18, 19, 20], 
            [21, 22, 23, 24] 
        ]
    ]
])

tf.shape(t).eval()

array([1, 2, 3, 4])

In [16]:
matrix1 = tf.constant([[3., 3.]])
matrix2 = tf.constant([[2.],[2.]])

tf.matmul(matrix1, matrix2).eval()

array([[ 12.]], dtype=float32)

In [17]:
(matrix1*matrix2).eval()

# [2. * [3., 3.],
# 2. * [3., 3.]]

array([[ 6.,  6.],
       [ 6.,  6.]], dtype=float32)

In [19]:
# Broadcasting (암시적 데이터 형변환) Example1

matrix1 = tf.constant([[3., 3.]])
matrix2 = tf.constant([[2.],[2.]])
(matrix1+matrix2).eval()

array([[ 5.,  5.],
       [ 5.,  5.]], dtype=float32)

In [20]:
# Broadcasting (암시적 데이터 형변환) Example2

matrix1 = tf.constant([[3., 3.]])
matrix2 = tf.constant([[2., 2.]])
(matrix1+matrix2).eval()

array([[ 5.,  5.]], dtype=float32)

In [21]:
tf.random_normal([3]).eval()

array([ 0.29841048,  1.3267436 , -1.28733027], dtype=float32)

In [22]:
tf.random_uniform([2]).eval()

array([ 0.68183362,  0.85058272], dtype=float32)

In [23]:
tf.random_uniform([2, 3]).eval()

array([[ 0.44877207,  0.67982817,  0.19171011],
       [ 0.56397057,  0.24419773,  0.01089573]], dtype=float32)

In [24]:
# reduce_mean 사용시 Parameter가 int32 인지 float32 인지 주의

tf.reduce_mean([1, 2], axis=0).eval()   # 1 -> int32
                                        # 2 -> int32

1

In [25]:
# reduce_mean 사용시 Parameter가 int32 인지 float32 인지 주의

tf.reduce_mean([1.0, 2], axis=0).eval() # 1.0 -> float32 
                                        # 2 -> int32

1.5