## 신경망 학습
* train data로부터 자동으로 weight를 최적의 값으로 자동으로 획득
* 학습을 하려면
    * loss function의 결과값을 가장 작게 만드는 weight를 찾아야한다.
        * loss function을 찾는 방법 : 경사하강법
* ex) 손글씨 5를 보고 -> 5를 분류하는 프로그램 => 알고리즘??
    * 숨은 규칙성을 명확한 로직으로 풀기 어렵다.
    * 기계학습 : 이미지에서 feature를 추출 (사람) -> vector (input data에서 중요한 data추출) -> classification(SVM,KNN)
        * data로부터 규칙을 기계가 찾아낸다. 하지만 feature는 사람이 한다.
    * 딥러닝 : 사람 개입x
        * 이미지를 있는 그대로 학습 -> 특징까지 스스로 학습
        * (end-to-end machine learning)

## data 취급의 주의점
* in 기계학습
    * train data & test data
        * train data : 최적의 weight를 찾도록
        * test data를 이용해서 generalization 확인 -> 성능이 엉망이라면 : overfitting (학습데이터에 과적합)


## Loss function
* 신경망학습에서는 현재의 상태를 '하나의 지표'로 표현
* 그 지표를 가장 좋게 만들어주는 weight 값을 선택한다.
* loss function을 기준으로 최적의 weight 탐색

### SSE (오차 제곱 합)
* E  = 0.5 * np.sum((y-t)**2)
    * y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
    * t = [0,0,1,0,0,0,0,0,0,0]
    * E = 0.5 * (0.1^2 + 0.05^2 + 0.4^2 + 0.05^2 + 0.1^2 + 0.1^2)

In [21]:
import numpy as np

In [22]:
def sse(y,t):
    return -0.5 * np.sum((y-t)**2)

### Cross-entropy-error
* E = -np.sum(t*np.log(y))
    * t = [0,0,1,0,0,0,0,0,0,0]
    * y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
    * E = -log(0.6) = 0.51
    * x가 1에 가까울 수록 y는 0에 가까워지는 함수

In [23]:
def Cross_entropy_error(y,t):
    delta = 1e-7
    return -np.sum(t*log(y + delta))
# delta : log(0) 일경우 -inf가 되어 계산을 못하기 때문에 작은 수 delta를 더해준다.

## mini batch 학습
* 최적의 weight updata를 위해선 모든 data에 대한 loss function을 알아야한다.
* ex) Cross Entropy Error
    * E = $\frac {1}{N} \Sigma_n \Sigma_k t_{nk} log{y_{nk}}$
    * data N개 -> row
    * k번째에 정답 -> col 선택해서
* train data 중에서 일부만 골라 학습

In [26]:
import sys,os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist

(X_train,t_train),(X_test,t_test) = load_mnist(normalize=True, one_hot_label=True)

print(X_train.shape)
print(t_train.shape)
print(X_test.shape)
print(t_test.shape)
# 784 = 28x28

(60000, 784)
(60000, 10)
(10000, 784)
(10000, 10)


## train data에서 무작위로 10장 뽑기

In [30]:
train_size = X_train.shape[0] #60000
batch_size = 10
batch_mask = np.random.choice(train_size, batch_size) #60000중에서 무작위로 10개의 숫자 선택해서 list

x_batch = X_train[batch_mask]
t_batch = t_train[batch_mask]

print(x_batch.shape)
print(t_batch.shape)

(10, 784)
(10, 10)


In [31]:
x_batch.size

7840

In [32]:
x_batch.ndim

2

#### 시청률도 전체를 조사하는 것이 아니라 경기지방에서 무작위로 1000가구를 선정해서 전체 시청률로 근사시킨다. 이와 비슷한 것

## batch용 Cross Entropy error

In [None]:
def crross_entropy_error(y,t):
    if y.ndim == 1:
        y = y.reshape(1,y.size)
        t = t.reshape(1,t.size) #입력된 데이터가 1차원일 경우 2차원으로 바꿔주는 함수
        
    batch_size = y.shape[0] #10
    return -np.sum(t*np.log(y + 1e-7)) / batch_size

## 왜 손실함수를 설정하는가?
* 높은 정확도를 끌어내는 weight를 찾는 것
* 손실함수의 값으로 정확도를 대신한다.
    * 미분 : 최적의 weight를 탐색할 때 손실함의 값을 가능한 작게하는 weight를 찾는다.
        * weight의 미분을 계산 -> 미분값을 이용해서 weight를 update하는 과정을 반복
    * 미분 : 가중치의 매개변수값을 아주 조금 변화시켰을 때 손실함수가 얼마나 변하는지 알수 있다.
* 정확도를 지표로 삼을 경우 : 매개변수를 조금 변화시켜도 정확도는 거의 변하지 않기 때문에 미분이 대부분의 장소에서 0이되기 때문에 학습을 할 수가 없다.

## 손실함수를 사용하는 것과 비슷하게 Step function Vs Sigmoid
* step function은 대부분의 장소에서 미분 = 0 -> 의미x
    * why? weight의 작은 변화가 주는 파장을 step function이 없앤다.
* But
* Sigmoid는 연속적으로 변화 -> 곡선의 기울기도 연속적
    * 어떤 곳이든 미분 != 0
        * 신경망이 학습을 할 수 있다.

## 경사법 (Gradient Descent)
* 최적의 매개변수(weight, bias)를 찾아야한다.
    * loss가 최솟값일 때 매개변수
* 기울기를 이용하여 찾기
* But
* 기울기가 가리키는 곳에 최솟값이 있는지 보장할수는 없다.
    * 경사법은 기울기가 0인 장소를 찾지만, 0인 곳은 지역최소값일 수도 있고 안장점일 수도 있기 때문이다.
* 기울어진 방향으로 일정거리($\eta$)만큼 이동을 반복
    * $x = x - \frac {\partial f} {\partial x}$def Gradient(f,x):
    h=1e-4
    grad = np.zeros_like(x)
    
    for idx in range(x.size):
        tmp_val = x[idx]
        x[idx] = tmp_val + h
        fxh1 = f(x) # f(x+h) 계산
        
        x[idx] = tmp_val - h
        fxh2 = f(x) # f(x-h) 계산
        
        grad[idx] = (fxh1 - fxh2) / 2*h
        x[idx] = tmp_val # 원상복구
    return grad

In [67]:
def numerical_gradient(f,x):
    h=1e-4
    grad = np.zeros_like(x)
    
    for idx in range(x.size):
        tmp_val = x[idx]
        x[idx] = tmp_val + h
        fxh1 = f(x) # f(x+h) 계산
        
        x[idx] = tmp_val - h
        fxh2 = f(x) # f(x-h) 계산
        
        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val # 원상복구
    return grad

In [68]:
def function_2(x):
    return x[0]**2 + x[1]**2 # == np.sum(x**2)

In [69]:
def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x
    
    for i in range(step_num):
        grad = numerical_gradient(f,x)
        x -= lr * grad
        
    return x

In [70]:
import numpy as np

init_x = np.array([-3.0,4.0])
init_x


array([-3.,  4.])

In [71]:
numerical_gradient(function_2,np.array([0.0,2.0]))

array([0., 4.])

In [72]:
gradient_descent(function_2,init_x=init_x,lr=0.1,step_num=100)

array([-6.11110793e-10,  8.14814391e-10])

## $\eta$ (learning rate)
* learning rate가 너무 크면 : 발산
* learning rate가 너무 작으면 : 학습이 너무 오래걸린다. (epoch가 다 돌아도 최저점에 도달하지 못한다.)
* 적절한 learning rate가 중요
* $\eta$와 같은 사람이 정해주는 파라미터를
    * 하이퍼 파라미터라고 한다.

In [73]:
init_x = np.array([-3.0,4.0])
gradient_descent(function_2,init_x=init_x,lr=10.0,step_num=100)
#학습률이 너무 크다

array([-2.58983747e+13, -1.29524862e+12])

In [74]:
init_x = np.array([-3.0,4.0])
gradient_descent(function_2,init_x=init_x,lr=1e-10,step_num=100)
#학습률이 너무작다.

array([-2.99999994,  3.99999992])