# 머신러닝
- 알고리즘 짜기 어렵기 때문에 데이터를 대신 활용
- 사람이 특징 추출 직접 설계
- 기계가 직접 패턴 학습
- 문제에 적합한 특징을 사용하지 않는 경우, 특징 설계를 하지 않은 경우 -> 좋은 결과물을 얻기 어렵다.

# 딥러닝
- 머신러닝의 한 종류
- 사람이 특징 추출 설계할 필요 X
- 신경망이 알아서

end-to-end machine learning : 종단간 기계학습
- 데이터에서 목표한 결과를 처음부터 끝까지 사람의 개입없이 얻어낼 수 있다.

# 신경망의 학습
- 훈련 데이터로부터 패턴을 찾아
- 가중치 매개변수(가중치-w, 편향-b)의 최적값을 자동으로 획득하는 것
- 사람이 직접 매개변수 설정하지 X
- 학습지표 : 손실함수(loss function, cost function)
- 학습의 목적 : 손실함수값을 가장 작게 만드는 가중치 매개변수를 찾는 것

수많은 데이터셋을 위해 사람이 직접 가중치 설정하는 것 불가능.

신경망의 학습을 통해 가중치 매개변수 자동 설정됨.

머신러닝에서는 사람의 개입을 최소화, 수집한 데이터를 토대로 패턴을 찾으려 시도.

hyper parameter를 사람이 입력 X

단, 이미지를 벡터화하는 경우도 많은 데 벡터로 변환할 때 사용하는 특징 추출은 사람이 직접 설계해야한다.

문제에 적합한 특징 사용 X 또는 특징 설계 X -> 좋은 결과물을 얻기 어렵다.

ex) 개, 고양이의 얼굴 구분

## 신경망 학습지표 : 손실함수(loss function)
- 신경망 성능의 **나쁨**을 나타내는 지표
- MSE(평균제곱오차)
- cross entropy(교차 엔트로피 오차)

### MSE
- $\begin{align}
E = \frac{1}{2}\sum_{k}(y_k-t_k)^2
\end{align}$
  - $y_k$ : 신경망의 예측값
  - $t_k$ : 정답 label. target.
  - $k$ : 데이터의 차원 수

In [24]:
# 예시
import numpy as np
y1 = np.array([0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0])
# 신경망의 softmax 함수의 출력물
# 예측값
# 2번 클래스가 될 확률이 제일 크다.

t = np.array([0, 0, 1, 0, 0, 0, 0, 0, 0, 0])
# 정답
# 2번 클래스

In [25]:
# MSE 식을 구현해보자.
def mean_squared_error(y, t):
  return 0.5 * np.sum((y - t) ** 2)

In [26]:
# 위의 y1이 정답이 2번 클래스인데
# 예측도 2번 클래스로 했으니까
# 맞게 예측했을 때의 MSE 값을 구해보자.
mse1 = mean_squared_error(y1, t)
print(mse1)

0.09750000000000003


In [27]:
# 손실함수값이 매우 낮다는 걸 알 수 있다.

# 그러면 임의로 잘못 예측했을 때의 MSE 값은 어떻게 나오는지 해보자.

y2 = np.array([0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0])
# 7번 클래스로 잘못 예측했다.

mse2 = mean_squared_error(y2, t)
print(mse2)

0.5975


In [28]:
# 정답을 맞게 예측했을 때의 MSE 값보다 훨씬 큰 것을 알 수 있다.

### CEE(Cross Entropy Error) - 교차 엔트로피 오차
- $\begin{align}
E = -\sum_{k}t_klog\;y_k
\end{align}$
- 여기서의 $log$는 $log_e$
- $y_k$ : 신경망의 출력(예측값)
- $t_k$ : 정답 label(One-hot Encoding 된 형태). target


- $t_k$가 원핫인코딩되있는 형태이기 때문에 1일때. 즉, 정답을 맞춘 경우들만 계산을 하는 형태이다.
- 즉, 정답일 때의 출력이 전체 값을 정하게 된다.


- MSE 값보다 결과를 더 극대화시킨다.

In [29]:
# CEE(교차 엔트로피 오차)를 구현해보자.
def cross_entropy_error(y, t):
  delta = 1e-7
  return -np.sum(t * np.log(y + delta))

In [30]:
# 아주 작은 값인 delta를 더하는 이유?
# log(0) = -np.inf 이다.
# 따라서, 더이상 계산할 수 없기 때문에 아주 작은 값을 더해, 절대 0이 되지 않도록 막아주는 역할을 한다.

In [31]:
# 아까의 y1, y2, t를 이번에는 CEE(교차 엔트로피 오차)를 이용해서 구해보자.
# 단, t가 One-hot encoding 된 상태인지 우선 확인하자.
# CEE(교차 엔트로피 오차)는 t값으로 One-hot Encoding된 값을 사용한다.
print(t)

[0 0 1 0 0 0 0 0 0 0]


In [32]:
# One-hot Encoding이 되어있는 상태가 맞다.

In [33]:
cee1 = cross_entropy_error(y1, t)  # 정답을 맞췄을 때
cee2 = cross_entropy_error(y2, t)  # 정답을 맞추지 못했을 때
print(cee1, cee2)

0.510825457099338 2.302584092994546


In [34]:
# 정답을 맞췄을 때보다 맞추지 못했을 때의 CEE 값. 교차 엔트로피 오차값이 훨씬 큰 것을 알 수 있다.
# 아까 MSE 값과 지금의 CEE 값의 차이가 있는 지 봐보자.
print(mse1, cee1)
print(mse2, cee2)

0.09750000000000003 0.510825457099338
0.5975 2.302584092994546


In [35]:
# 정답을 맞췄을 때와, 맞추지 못했을 때
# 두 경우 모두
# MSE < CEE 를 만족한다.

print(cee1/mse1)
print(cee2/mse2)

# 정답을 맞췄을 때보다 맞추지 못했을 때 CEE 값이 훨씬 더 커진다.
# MSE 값보다 CEE 값이 더 결과를 극대화시킨다.

5.239235457429106
3.853697226769114


## 미니배치 학습
- 위의 CEE 공식은 모든 데이터에 대한 손실함수를 적용시킨 것
- 만약에 배치 학습을 시키게 된다면
- 데이터가 batch_size 만큼씩 묶음으로 된다.
- 그 묶음마다 손실함수를 구하고, 총 손실함수들의 평균을 구하게 되면 **평균 손실 함수**가 된다.
- $\begin{align}
E = -\frac{1}{N}\sum_n\;\sum_{k}t_{nk}log\;y_{nk}
\end{align}$
  - $N$ : 데이터의 갯수
  - $y_nk$ : 신경망의 출력
  - $t_nk$ : 정답 label

빅데이터의 모든 데이터의 손실함수를 계산하는 것은 힘들다.

따라서, 데이터의 일부만을 뽑은 후, 손실함수를 계산해 원래 손실함수의 근사치로 활용한다.

미니배치 : 그 뽑힌 일부의 데이터

배치 : 컴퓨터의 데이터 처리 형태의 하나. 처리해야 할 데이터를 일정기간동안 일정량 정리하여 처리하는 것

일 단위, 월 단위마다 모아두고 그것을 **하나로 종합**하여 처리하는 것

배치학습=일괄처리

미니배치처리= 온라인학습 : 인공지능이 학습을 할 때 거대한 양의 데이터를 한꺼번에 학습하지 않고 단위별로 쪼개서 하는 것




In [36]:
# 아까는 tensorflow.keras.datasets에 담겨있는 mnist 를 불러오는 식으로 MNIST 신경망을 만들었었다.

# 이번에는 mnist.py 파일을 이용해서 로드해보자.

In [37]:
import sys
sys.path

['',
 '/env/python',
 '/usr/lib/python36.zip',
 '/usr/lib/python3.6',
 '/usr/lib/python3.6/lib-dynload',
 '/usr/local/lib/python3.6/dist-packages',
 '/usr/lib/python3/dist-packages',
 '/usr/local/lib/python3.6/dist-packages/IPython/extensions',
 '/root/.ipython',
 'C:\\Users\\geunho\\Downloads',
 'C:\\Users\\geunho\\Downloads']

In [38]:
sys.path.append("C:\\Users\\geunho\\Downloads")
# 컴퓨터의 Downloads 폴더를 sys.path에 추가

In [41]:
sys.path  # 내가 지정한 path가 시스템의 path에 추가되었는 지 확인

['',
 '/env/python',
 '/usr/lib/python36.zip',
 '/usr/lib/python3.6',
 '/usr/lib/python3.6/lib-dynload',
 '/usr/local/lib/python3.6/dist-packages',
 '/usr/lib/python3/dist-packages',
 '/usr/local/lib/python3.6/dist-packages/IPython/extensions',
 '/root/.ipython',
 'C:\\Users\\geunho\\Downloads',
 'C:\\Users\\geunho\\Downloads',
 'C:\\Users\\geunho\\Downloads']

In [40]:
import mnist  # mnist.py 파일 import

ModuleNotFoundError: ignored

In [None]:
dir(mnist)

In [None]:
(X_train, y_train), (X_test, y_test) = mnist.load_mnist(normalize=True, flatten=True, one_hot_label=True)
# 인수
# normalize : 입력 이미지의 픽셀 값을 0~1 사이의 값으로 정규화할지?
# 원래는 픽셀값 0 ~ 255라서 정규화 필요
# flatten : 입력 이미지를 평탄화해서 1차원 배열로 만들지?
# 28*28이미지를 가로로 쭉 펴준다.
# one_hot_label : label을 One-hot Encoding한 상태로 저장할지?
# 정답 위치의 원소만 1, 나머지는 0인 배열

In [None]:
X_train

In [None]:
print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)

In [None]:
# 데이터가 잘 불러와진 것 확인

In [None]:
y_test
# one_hot_label=True 라고 써서
# one-hot encoding 된 결과로 출력된다.

In [None]:
X_train[0]

In [None]:
# 미니배치 학습은 전체 데이터 중에서 일부를 추려서 원본 데이터의 근사치로 사용하는 것이니까
# 일부만 떼내도록 하자.

In [None]:
# 미니배치 사이즈를 10으로 해서 빼오자.
train_size = X_train.shape[0]  # 훈련 데이터 이미지 갯수
batch_size = 10  # 미니배치 사이즈. 미니배치 학습에 사용되는 데이터의 갯수.
# 학습 데이터 60000개 중에서 10개만 사용하겠다.

batch_mask = np.random.choice(train_size, batch_size)
# np.random.choice(a, size, replace=True, p=None)
# a : 1차원 배열
# size : 갯수
# replace : 복원추출할지?
# p : 각각원소가 뽑힐 확률 지정?

# 전체 훈련 데이터 중에서 지정한 batch_size. 즉, 10개만 랜덤으로 숫자를 뽑아준다.

X_batch = X_train[batch_mask]
y_batch = y_train[batch_mask]

In [None]:
# 전체 데이터 60000개의 이미지 중에서 랜덤으로 숫자를 10개 뽑아서
# 그 index에 해당하는 미니배치를 뽑았다.
print(X_batch)

In [None]:
# 이제, 미니배치 학습을 하였을 때
# 손실함수값은 어떻게 되는지 알아보자.

### 배치용 교차 엔트로피 구현

In [None]:
def cross_entropy_error_v1(y, t):
  if y.ndim == 1:
    t = t.reshape(1, t.size)
    y = y.reshape(1, y.size)
  
  batch_size = y.shape[0]
  return -np.sum(t * np.log(y)) / batch_size
  # 배치 크기로 나눠 정규화
  # 이미지 1장당 평균의 교차 엔트로피 오차 계산

In [None]:
# y : 신경망의 출력. 예측값
# t : 정답 label. target.
