# CHEPTER 4 신경망 학습
---
- 학습: 훈련 데이터로부터 가중치 매개변수의 최적값을 자동으로 획득하는 것.
- 손실 함수: 신경망이 학습할 수 있도록 해주는 지표  
    -> 손실함수의 결괏값을 가장 작게 만들어야 함.
- 경사법: 함수의 기울기를 활용하여 손실 함수의 값을 가급적 작게 만드는 것.

## 4.1 데이터에서 학습한다!

- 신경망은 데이터를 보고 학습할 수 있다는 특징을 갖는다.  
    즉, 가중치 매개변수의 값이 데이터를 보고 자동으로 결정이 된다.

### 4.1.1 데이터 주도 학습

- 기계학습: 데이터에서 답을 찾고 패턴을 발견하고 이야기를 만드는 것. 데이터 매우 중요!!  
    -> 데이터가 이끄는 접근 방식 덕에 사람 중심 접근에서 벗어날 수 있었음.

- 문제를 해결하는 방법  
    -> 기존 프로그램: 문제 - 사람이 생각한 알고리즘 - 결과  
    -> 기계 학습: 문제 - 사람이 생각한 특징(SIFT, HOG 등) - 기계학습(SVM, KNN 등) - 결과  
    -> 신경망(딥러닝): 문제 - 신경망(딥러닝) - 결과

- 기계 학습은 '사람'이 적절한 특징을 생각해 내고 모아진 데이터로부터 기계학습을 통해 규칙을 찾아내야 했음.
- 신경망은 이미지를 '있는 그대로' 학습. 사람이 생각했던 특징들까지 '기계' 스스로 학습 (=> 종단간 기계학습(end-to-end machine learning)이라고도 함.)

### 4.1.2 훈련 데이터와 시험 데이터

- 기계 데이터를 취급할 때 주의할 점  
범용 능력(아직 보지 못한 데이터로 문제를 올바르게 풀어내는 능력)을 제대로 평가하기 위해 훈련 데이터와 시험 데이터를 분리한다.
    - 훈련 데이터: 최적의 매개변수를 찾기 위한 데이터
    - 시험 데이터: 앞서 훈련한 모델의 실력을 평가하기 위한 데이터  
(오버피팅: 한 데이터셋에만 지나치게 최적화된 상태)


## 4.2 손실 함수

- 신경망에서는 '하나의 지표'를 기준으로 최적의 매개변수 값을 탐색하는데, 신경망 학습에서 사용하는 지표를 손실함수라고 한다.  
    손실함수는 일반적으로 오차제곱합과 교차 엔트로피 오차를 사용.  

### 4.2.1 오차제곱합

- 원-핫 인코딩: 한 원소만 1로 하고 그 외에는 0으로 나타내는 표기법

In [1]:
# 오차제곱합

import numpy as np

def sum_squares_error(y, t):    # y, t는 넘파이 배열
    return 0.5 * np.sum((y - t)**2)

In [2]:
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0] # 정답은 '2'

y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]    # 2일 확률이 가장 높다고 추정

print(sum_squares_error(np.array(y), np.array(t)))

y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]    # 7일 확률이 가장 높다고 추정

print(sum_squares_error(np.array(y), np.array(t)))

# 첫 번째 예의 추정 결과가 호차가 더 작으므로 정답에 더 가까울 것임.

0.09750000000000003
0.5975


### 4.2.2 교차 엔트로피 오차

- 교차 엔트로피 오차는 정답일 때의 출력이 전체 값을 정한다.

In [3]:
# 교차 엔트로피 오차

import numpy as np

def coross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t * np.log(y +delta))

In [4]:
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
coross_entropy_error(np.array(y), np.array(t))

y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0] 
coross_entropy_error(np.array(y), np.array(t))

2.302584092994546

### 4.2.3 미니배치 학습

- 미니배치: 훈련 데이터로부터 일부만 골라 학습을 수행하는 것
- 미니배치 학습: 많은 데이터 중 일부만을 가지고 학습하는 학습 방법



In [None]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from

### 4.2.5 왜 손실 함수를 설정하는가?

신경망 학습에서는 최적의 배개변수(가중치와편향)를 탐색할 때 손실 함수의 값을 가능한 한 작게 하는 매개변수 값을 찾는다.  
이때 매개변수의 미분(기울기)를 계산하고, 그 미분 값을 단서로 매개변수의 값을 서서히 갱신하는 과정 반복.  

- 지표로 정확도를 사용하게 되면 매개변수의 미분이 대부분의 장소에서 0이 되므로 사용하지 않는다.( 연속이 아니라 불연속적인 값을 가지므로)  
    이는 활성화 함수로 계단 함수를 사용하지 않는 이유와도 들어맞는다.