***참고 링크 : http://www.wildml.com/2015/09/implementing-a-neural-network-from-scratch/***

### non-linear 문제 해결
- non-linear 문제를 해결하기 위해서는 Logistic Regression 이 적합하지 않음
- polynomials 로 해결할 수는 있지만 feature 를 뽑는 번거로움을 겪어야 함
- 이럴 때 feature engineering 을 신경써야 함
- neural network의 hidden layer 가 이 번거로움을 해결해 줄 것임

<img src="https://github.com/dennybritz/nn-from-scratch/blob/master/nn-3-layer-network.png?raw=true" />
### neural network 의 구조
- 이 예제에서는 input layer 노드 2개, hidden layer 노드 5개, output layer 노드 2개로 이루어진 neural network 를 사용할 것임
- output 은 0(female), 1(male) 로 두 가지임
- hidden layer 의 차원(노드의 개수)를 증가시킴으로써 정확도를 높일 수 있지만, 더 많은 계산양을 요구하고 overfitting 되기 쉬워짐
- 이 hidden layer 의 개수를 정하는 것은 해결하려는 문제에 따라 다름
- 명확하게 정해져있지는 않은데, 사실 이것은 science 보다는 art 에 가까움

### activation function
- hidden layer 를 위한 activation function 을 정해야함
- tanh, sigmoid function, RELU 등이 있음
- 여기서는 tanh를 사용할 것임
- tanh는 꽤 많은 상황에 적용할 수 있음
- 이 tanh 에서 nice 한 점은 미분한 값을 원래 함수 값을 통해 다시 계산할 수 있다는 것임
- 예를 들어 tanh x 의 미분값은 1 - tanh x ^ 2 인데, 한 번만 계산하여 값을 다시 사용할 수 있음

### softmax
- 이런 미분을 하는 이유는, 나중에 output layer 에서 확률값을 얻기 위해 softmax를 사용할 것이기 때문임
- softmax 는 일반 값을 확률값으로 바꿔줌

## HOW OUR NETWORK MAKES PREDICTIONS
- forward propagation 을 이용하여 값을 예측할 것임
- 이것은 단순히 행렬 곱의 묶음이고, 우리가 위에서 정의한 activation function 을 적용한 것임
- 식은 다음과 같음(자세한 설명은 생략)
<img src="http://s0.wp.com/latex.php?latex=%5Cbegin%7Baligned%7D++z_1+%26+%3D+xW_1+%2B+b_1+%5C%5C++a_1+%26+%3D+%5Ctanh%28z_1%29+%5C%5C++z_2+%26+%3D+a_1W_2+%2B+b_2+%5C%5C++a_2+%26+%3D+%5Chat%7By%7D+%3D+%5Cmathrm%7Bsoftmax%7D%28z_2%29++%5Cend%7Baligned%7D&bg=ffffff&fg=000&s=0" />

## LEARNING THE PARAMETERS
- parameter 를 학습한다는 것은 training data에서 error 를 최소화하는 값(W1, b1, W2, b2)을 찾는다는 것임
- 이 error 를 줄이는 function 을 보통 error 또는 cost function 이라고 함
- softmax 와 함께 사용되는 것은 주로 cross-entropy loss(negative log likelihood) 임
- N개의 training examples 와 C개의 class 가 있을 때 식은 다음과 같음
<img src="http://s0.wp.com/latex.php?latex=%5Cbegin%7Baligned%7D++L%28y%2C%5Chat%7By%7D%29+%3D+-+%5Cfrac%7B1%7D%7BN%7D+%5Csum_%7Bn+%5Cin+N%7D+%5Csum_%7Bi+%5Cin+C%7D+y_%7Bn%2Ci%7D+%5Clog%5Chat%7By%7D_%7Bn%2Ci%7D++%5Cend%7Baligned%7D++&bg=ffffff&fg=000&s=0" />
- 공식은 굉장히 복잡해 보이지만, 실제로 하는 것은 training examples를 합치고 만약 잘못된 값으로 에측했다면 그것을 loss에 더하는 것임
- 두 개의 확률분포 y와 ^y 의 차이가 클수록 loss 가 커짐

### Gradient Descent
- loss 를 최소로하는 parameter 값을 찾기 위해서 사용
- 여기서는 batch gradient descent 라고도 불리는 learning rate 가 고정된 것을 사용함
- 이에 대한 변종으로 SGD (stochastic gradient descent)나 minibatch gradient descent 등은 일반적으로 실전에서 더 좋은 성능을 보임
- gradient descent 는 input으로 gradients (vector of derivatives) of the loss function 가 필요함
<img src="http://s0.wp.com/latex.php?latex=%5Cfrac%7B%5Cpartial%7BL%7D%7D%7B%5Cpartial%7BW_1%7D%7D&bg=ffffff&fg=000&s=0" />
- 이 gradient 를 계산하기 위해서 유명한 backpropagation algorithm을 사용함
- 이것은 output에서 시작해서 gradient를 효율적으로 계산하기 위한 방법임
- 일반적인 공식은 아래와 같음
<img src="http://s0.wp.com/latex.php?latex=%5Cbegin%7Baligned%7D++%26+%5Cdelta_3+%3D+%5Chat%7By%7D+-+y+%5C%5C++%26+%5Cdelta_2+%3D+%281+-+%5Ctanh%5E2+z_1%29+%5Ccirc+%5Cdelta_3W_2%5ET+%5C%5C++%26+%5Cfrac%7B%5Cpartial%7BL%7D%7D%7B%5Cpartial%7BW_2%7D%7D+%3D+a_1%5ET+%5Cdelta_3+%5C%5C++%26+%5Cfrac%7B%5Cpartial%7BL%7D%7D%7B%5Cpartial%7Bb_2%7D%7D+%3D+%5Cdelta_3%5C%5C++%26+%5Cfrac%7B%5Cpartial%7BL%7D%7D%7B%5Cpartial%7BW_1%7D%7D+%3D+x%5ET+%5Cdelta2%5C%5C++%26+%5Cfrac%7B%5Cpartial%7BL%7D%7D%7B%5Cpartial%7Bb_1%7D%7D+%3D+%5Cdelta2+%5C%5C++%5Cend%7Baligned%7D++&bg=ffffff&fg=000&s=0" />

## import modules

In [3]:
import numpy as np
from sklearn import datasets, linear_model
import matplotlib.pyplot as plt