# 신경망

신경망의 성질 : **가중치 매개변수의 적절한 값을 데이터로부터 자동으로 학습**

## 퍼셉트론에서 신경망으로


### 신경망의 구성
* 입력층
* 은닉층
* 출력층

신경망을 구성하는 층의 갯수를 기준으로 언급할 때는 `3층 신경망`,
가중치를 갖는 층의 갯수를 기준으로 언급할 때는 `2층 신경망`이라고 한다.

### 활성화 함수


* Chapter2에서 출력신호의 세기를 `입력신호의 세기*가중치`의 합으로써 다음과 같이 `y = b + w1*x1 + w2*x2` 로 나타낼 수 있다고 언급했었는데, `b + w1*x1 + w2*x2`를 x에 대한 함수 h(x)로도 표현할 수 있다. 
  * 따라서, 출력신호는 `y = h(x)`와 같이 간결하게 나타낼 수 있다.
* h(x)와 같이 입력 신호의 총합을 출력 신호로 변환하는 함수를 `활성화 함수`라고 한다. 
  * `활성화 함수(activation function)`는 입력신호의 총합이 활성화를 일으키는지 결정하는 역할을 한다.


## 활성화 함수

* 계단 함수 : 임계값을 경계로 출력이 바뀜.
  * 퍼셉트론에서는 활성화 함수로 계단 함수를 이용한다.
  * 신경망에서는? 활성화 함수 대신 다른 함수를 이용할 수 있다!

### 시그모이드 함수

`h(x) = 1 / (1 + exp(-x))`


신경망에서는 활성화 함수로 시그모이드 함수를 이용하여 신호를 변환하고, 그 변환된 신호를 다음 뉴런에 전달한다.

#### 계단 함수 구현하기

In [4]:
def step_function(x):
    if x > 0:
        return 1
    else:
        return 0

실수는 인수로 받을 수 있지만, 넘파이 배열을 인수로 넣을 수 없기 때문에 다음과 같이 수정할 필요가 있다.

In [7]:
def step_function(x):
    y = x > 0
    return y.astype(np.int)

In [5]:
import numpy as np
x = np.array([-1.0, 1.0, 2.0])
x

array([-1.,  1.,  2.])

In [6]:
y = x > 0
y

array([False,  True,  True], dtype=bool)

In [46]:
y = y.astype(np.int) # bool 형에서 int 형으로 변환
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0])

#### 계단 함수의 그래프

In [42]:
import numpy as np
import matplotlib.pylab as plt


def step_function(x):
    return np.array(x > 0, dtype=np.int)

x = np.arange(-5.0, 5.0, 0.1) # -5.0에서 5.0 전까지 0.1 간격의 numpy 배열 생성
y = step_function(x)
plt.plot(x, y)
plt.ylim(-0.1, 1.1) # y축 범위 지정 y + limit
plt.show()

RuntimeError: Python is not installed as a framework. The Mac OS X backend will not be able to function correctly if Python is not installed as a framework. See the Python documentation for more information on installing Python as a framework on Mac OS X. Please either reinstall Python as a framework, or try one of the other backends. If you are Working with Matplotlib in a virtual enviroment see 'Working with Matplotlib in Virtual environments' in the Matplotlib FAQ

#### 시그모이드 함수 구현하기

In [38]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x)) 

x = np.array([-1.0, 1.0, 2.0])
sigmoid(x)

array([ 0.26894142,  0.73105858,  0.88079708])

~~Wow, Such awesome broadcast feature, wow~~

브로드캐스트 기능은 numpy 배열과 스칼라값의 연산을 numpy 배열의 원소 각각과 스칼라값의 연산으로 바꿔 수행하도록 해준다.
##### 브로드캐스트 복습

In [39]:
t = np.array([1.0, 2.0, 3.0])
1.0 + t

array([ 2.,  3.,  4.])

In [40]:
1.0 / t

array([ 1.        ,  0.5       ,  0.33333333])

In [45]:
x = np.arange(-5.0, 5.0, 0.1)
y = sigmoid(x)
plt.plot(x, y)
plt.ylim(-0.1, 1.1)
plt.show()

AttributeError: module 'matplotlib' has no attribute 'pyplot'

#### 시그모이드 함수 VS 계단 함수
* 시그모이드 함수
  * 매끄러운 곡선 모양 
  * 입력에 따라 출력이 연속적으로 변화
* 계단 함수
  * 입력에 따른 급격한 변화. 0 아니면 1
  

입력이 작으면 0에 가깝고, 입력이 커지면 1에 가까워지는 점은 같다.


#### 비선형 함수
시그모이드 함수는 곡선, 계단 함수는 계단처럼 구부러진 직선으로 나타나며, 동시에 비선형 함수로 분류된다.

* 신경망에서 왜 활성화 함수로 비선형 함수를 사용해야 하는가?
  * 선형 함수를 이용하면 신경망의 층을 깊게 하는 의미가 없어지기 때문
* 선형함수의 문제는 층을 아무리 깊게 해도 '은닉층이 없는 네트워크'로도 똑같은 기능을 할 수 있다는 것.
  * 선형 함수들의 합성함수는 결국에는 선형이다.... 
  * 예시) h(x) = a*x + b, g(x) = c*x + d, f(x) = e*x + t. (h*g*f)(x) = a*c*e*x + b + a*d + a*c*t 
  * 따라서, 층을 쌓는 혜택을 얻으려면 활성화 함수로 비선형 함수를 쓰는게 개이득!

#### ReLU 함수
* Rectified Linear Unit 렐루 함수 : 입력이 0을 넘으면 그대로 출력하고, 0 이하이면 0을 출력하는 함수
  * 이용되는 빈도가 많은 편

In [47]:
def relu(x):
    return np.maximum(0, x)

## 다차원 배열의 계산
다차원 배열도 역시 본질적으로 숫자의 집합. 한 줄로 늘어서든(1차원), 직사각형으로 늘어놓든(2차원), 여기서 좀 더 일반화한 N차원으로 나열하든 통틀어서 다차원배열

In [48]:
import numpy as np
A = np.array([1,2,3,4])
print(A)

[1 2 3 4]


In [49]:
np.ndim(A) # 배열의 차원 수를 확인한다

1

In [50]:
A.shape # 배열의 형상

(4,)

In [51]:
A.shape[0]

4

배열의 형상은 튜플로 나타내게 되는데, 이는 1차원 배열이라도 다차원 배열일 때와 통일된 형태로 결과를 반환하기 위함이다.
2차월 배열일때는 (4,3), 3차원 배열일 때는 (4,3,2) 같은 튜플을 반환한다. 

In [52]:
B = np.array([[1,2], [3,4], [5,6]])
print(B)

[[1 2]
 [3 4]
 [5 6]]


In [53]:
np.ndim(B)

2

In [54]:
B.shape

(3, 2)

#### 행렬의 곱셈
행렬의 곱셈을 계산할 때는 `np.dot(A, B)`를 이용한다. 수식에서 행렬을 나타낼때 대문자 볼드체로 표기하는게 일반적이기 때문에, 파이썬 코드에서의 변수명과 구별하기 위해 대문자로 표기한다.

In [55]:
A = np.array([[1,2],[3,4]])
A.shape

(2, 2)

In [56]:
B = np.array([[5,6],[7,8]])
B.shape

(2, 2)

In [57]:
np.dot(A,B)

array([[19, 22],
       [43, 50]])

다음은 2X3 행렬과 3X2 행렬의 곱셈을 파이썬으로 구현한 모습이다.

In [58]:
A = np.array([[1,2,3],[4,5,6]])
A.shape

(2, 3)

In [59]:
B = np.array([[1,2],[3,4],[5,6]])
B.shape

(3, 2)

In [60]:
np.dot(A, B)

array([[22, 28],
       [49, 64]])

행렬의 곱셈은 '대응하는 차원의 원소 수를 일치' 시키는 것이 핵심이다.
* 2X'3' 행렬과 '3'X2 행렬의 곱셈은 성립하지만, 2X'2' 행렬과 '1'X3 행렬의 곱셈은 성립하지 않는다.

#### 신경망의 내적

In [61]:
X = np.array([1,2]) # 입력 신호
X.shape

(2,)

In [62]:
W = np.array([[1,3,5],[2,4,6]]) # 가중치
print(W)

[[1 3 5]
 [2 4 6]]


In [63]:
W.shape

(2, 3)

In [66]:
Y = np.dot(X, W)

In [65]:
print(Y)

[ 5 11 17]


## 3층 신경망 구현하기

#### 표기법 설명

#### 각 층의 신호 전달 구현하기