## 신경망 학습 

**학습**이란 훈련데이터로부터 가중치 매개변수의 최적값을 자동으로 획득하는 것을 뜻한다. 

신경망의 특징은 데이터를 보고 학습할 수 있다는 점이다. 데이터에서 학습한다는 것은 가중치 매개변수의 값을 데이터를 보고 자동으로 결정한다는 뜻이다. 

<img src="https://media.vlpt.us/post-images/dscwinterstudy/651fbfd0-419a-11ea-bfff-032d2a744144/image.png" width="350" height="150"/> 

규칙을 사람이 만드는 방식에서 기계가 데이터로부터 배우는 방식으로의 패러다임 전환, 신경망은 이미지를 있는 그래로 학습한다. 기계학습은 특징을 사람이 설계하지만 신경망은 이미지에 포함된 중요한 특징까지도 기계가 스스로 학습  

**딥러닝을 종단간 기계학습(end-to-end machine learning)이라고 한다.** 처음부터 끝까지 데이터에서 목표한 결과를 사람의 개입 없이 얻는다는 뜻

### 손실함수 

손실함수는 신경망 성능의 나쁨을 나타내는 지표로, 현재의 신경망이 훈련 데이터를 얼마나 잘 처리하지 못하느냐를 나타낸다.   

#### 오차 제곱합 
$
\text{e} = \frac{1}{2}\sum\limits_{k}\left(\mathbf{y}^{(k)}) - t^{(k)} \right)^{2}
$

yk는 신경망의 출력(신경망이 추정한 값), tk는 정답레이블, k는 데이터의 차원수를 나타낸다. 


In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings(action='ignore')

In [2]:
y = [0.1, 0.05,0.6, 0.0,0.05, 0.1,0.0, 0.1,0.0,0.0]
t = [0,0,1,0,0,0,0,0,0,0]


def sum_squres_error(y ,t) :
    return 0.5 * np.sum((y -t)**2)

In [3]:
sum_squres_error(np.array(y), np.array(t))

0.09750000000000003

### 교차 엔트로피 오차 

<img src="https://mblogthumb-phinf.pstatic.net/MjAyMDAxMTFfNTgg/MDAxNTc4NjY5OTU3NjYy.GMjKGwWNgKcFdb75IcFJxeLjNW0WIvFmZGp6YnKIQvUg.JPglqFuo8NK124RcgPY26K8Ku0ahhL-cy29vRtIrro0g.PNG.kkang9901/image.png?type=w800" width="150" height="150"/> 


log는 밑이 e인 자연로그이다. yk는 신경망의 출력, tk는 정답레이블.  
tk는 정답에 해당하는 인덱스의 원소만 1이고 나머지는 0이다.(원핫인코딩). 
실질적으로 정답일 때의 추정(tk가 1일 때의 y)는 자연로그를 계산하는 식이 된다. 

In [4]:
def cross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t * np.log(y + delta))

In [5]:
cross_entropy_error(np.array(y), np.array(t))

0.510825457099338

In [6]:
y = [0.1 , 0.05, 0.1, 0.0, 0.05, 0.1,0.0,0.6, 0.0,0.0]

cross_entropy_error(np.array(y), np.array(t))

2.302584092994546

첫 번째 예는 정답일 때의 출력이 0.6인경우로, 이떄의 교차 엔트로피 오차는 약 0.51 이다. 그 다음 정답일 때의 출력이 0.1인경우로,  이때의 교차 엔트로피 오차는 무려 2.3이다. 즉 결과(오차값)이 더 작은 첫번째 추정이 정답일 가능성이 높아고 판단한 것으로 오차 제곱합의 판단과 일치 한다.

### 미니 배치 학습 

기계 학습 문제는 훈련 데이터를 사용해 학습한다. 구체적으로 훈련데이터에 대한 손실 함수의 값을 구하고, 그 값을 최대한 줄여주는 매개변수를 찾아낸다. 이렇게 하기 위해서는 모든 훈련 데이터를 대상으로 손실 함수 값을 구해야 한다. 즉 훈련데이터가 100개 있으면 그로부터 계산한 100개의 손실 함수 값들의 합을 지표로 삼는다.

But 많은 데이터를 대상으로 일일이 손실 함수를 계산하는 것은 비현실적이다. 이런 경우 데이터의 일부를 추려 전체의 '근사치'로 이용할 수 있다. 신경망 학습에서도 훈련데이터로부터 일부만 골라 학습을 수행한다. 이를 **미니 배치**라고 한다.  

가령 6만장의 훈련데이터 중에서 100장을 무작위로 뽑아 그 100장을 사용하여 학습한다. 이러한 학습 방법을 **미니배치 학습**이라고 한다.

In [7]:
# sys 모듈은 파이썬 인터프리터가 제공하는 변수와 함수를 직접 제어할 수 있게 해주는 모듈
# OS 모듈은 환경 변수나 디렉터리, 파일 등의 OS 자원을 제어할 수 있게 해주는 모
import sys, os

# 현재 디렉토리의 부모디렉토리를 가리킨다.
sys.path.append(os.pardir)

from dataset.mnist import load_mnist

(X_train, t_train) , (X_test, t_test) = load_mnist(normalize = True, one_hot_label= True)

print(X_train.shape)
print(t_train.shape)

(60000, 784)
(60000, 10)


In [8]:
train_size = X_train.shape[0]
batch_size = 10 
batch_mask = np.random.choice(train_size , batch_size)
X_batch = X_train[batch_mask]
t_batch = t_train[batch_mask]

In [9]:
# 0이상 60000미만의 수 중에서 무작위로 10를 골라낸다. 
print(np.random.choice(60000, 10))

[43576 30087 19866 15358  6927 37703  1734   632  7521 25135]


### 교차 엔트로피 오차 구현하기 

In [10]:
def cross_entropy_error (y , t) :
    if y.ndim == 1 :
        t = t.reshape(1, t.size)
        y = y.reshape(1 ,y.size)
        
    batch_size = y.reshape[0]
    return -np.sum(t * np.log(y + 1e-7)) / batch_size

y는 신경망의 출력 , t는 정답레이블, y가 1차원이라면 , 즉 데이터 하나당 교차 엔트로피 오차를 구하는 경우는 reshape 함수로 데이터의 형상을 바꿔준다. 배치의 크기로 나눠 정규화하고 이미지 1장당 평균의 교차 엔트로피 오차를 계산한다.

In [11]:
def cross_entropy_error (y , t) :
    if y.ndim == 1 :
        t = t.reshape(1, t.size)
        y = y.reshape(1 ,y.size)
        
    batch_size = y.reshape[0]
    return -np.sum(np.log(y[np.arange(batch_size),t] + 1e-7)) / batch_sizeh

구현에서는 원핫인코딩일 때 t가 0인 원소는 교차 엔트로피 오차도 0이므로, 그 계산은 무시도 좋다는 것이 핵심이다. 정답에 해당하는 신경망의 출력만으로 교차 엔트로피 오차를 계산할 수 있다.   

원핫인코딩 시 t * np.log(y)였던 부분을 레이블 표현일때는 np.log(y[np.arange(batch_size) ,t]로 구현 한다. 

np.arange(batch_size)는 0부터 batch_size -1까지 배열을 생성, 즉 batch_size가 5이면 np.arange(batch_size)는 [0,1,2,3,4]라는 넘파이 배열을 생성한다. t에는 레이블이 [2,7,0,9,4]와 같이 저장되어 있으므로 y[np.arange(batch_size) .t]는 각 데이터의 정답 레이블에 해당하는 신경망의 출력을 추출한다. 

## 수치 미분

### 미분 

한순간의 변화량을 표시한 것.  

<img src="https://blog.kakaocdn.net/dn/ojsOS/btqL3wFGsOY/1egyy8qTwZwadLdUZiv7X1/img.png" width="200" height="150"/> 



In [12]:
# 나쁜 구현 예 
# 1e-50은 0.00...1형태에서 소수점 아래 0이 50개라는의미
# 반올림 오차라는 문제가 존재
# 작은 값이 생략되어 최종 계산 오차가 날 수 있음 

def numerical_diff(f, x) :
    h = 1e-50
    return (f(x + h) - f(x)) / h 