# 지도학습

* 지도 학습에서는 좋은 모델을 만들기 위해 학습 과정에서 데이터를 이용한 예측값과 실제값을 맞춰 보는 과정이 핵심 구조라고 할 수 있다.
* 지도 학습은 데이터에 대응하는 라벨(label) 혹은 목푯값(target value)이라고 불리는 실제 정답을 가지고 있어야 하기 때문에 실제값이 없을 경우에는 모델 구축 이전에 실제값을 정의해야만 한다.
* 우리가 데이터를 가지고 지도 학습을 하기 위해서는 어떤 사진이 어떤 동물인지 표시를 하는 라벨링 작업(labelling 혹은 annotation)을 하거나 폴더 정리를 거쳐야만 한다.
* 지도 학습의 목표는 학습을 통해 적절한 모델의 가중치와 편향을 찾는 것이다.

# 손실 함수 (Loss Function)
* 실제값과 예측값이 얼마나 차이가 나는지를 측정하는 척도로써 문제에 따라 적절한 손실 함수를 정해주는 것이 중요하다.
* 현재 예측을 통해 얻은 손실 함숫값 보다 다음 학습 시 더 작은 손실 함숫값을 얻기 위해 이전 가중치와 편향을 좀 더 적절한 가중치와 편향으로 최적화(Optimization)하게 된다.


# 역전파(Back-propagation)
* 미분 계산으로 구성된 역전파를 통해 손실 함수의 최소 지점을 찾게 된다.
* 이 과정에서 새로운 가중치와 편향으로 다시 예측값을 구해서 손실 함수를 계산하고 역전파를 통해 다시 가중치와 편향을 업데이트하는 일련의 과정을 반복하게 된다.


In [3]:
train_data = ...
train_loader = ...
# 반복 학습
for epoch in range(num_epochs): # 전체 데이터에 대한 반복 학습
  for inputs, labels in train_loader: # 입력값과 실제값 - 배치 데이터
    optimizer.zero_grad() # 최적화 초기화
    outputs  = model(inputs) # 예측값 산출
    loss = criterion(outputs, labels) # 손실 함수 계산
    loss.backward() # 손실 함수 기준으로 역전파 설정
    optimizer.step() # 모델 가중치 업데이트

NameError: name 'num_epochs' is not defined

# 배치(Batch) 데이터
* 많은 양의 데이터를 한 번에 계산하면 메모리 문제가 발생할 수 있다.
* 따라서 데이터를 분할해서 학습에 사용한다.
* 예를 들어 50000개의 학습 데이터가 있다면 20개씩 나눠 2500번의 내부 for문을 돌게 된다.

# 회귀 문제(Regression)
* 우리가 원하는 결과값이 연속적인 변수인 것을 예측하는 문제이다.
* 집값 예측, 온도 예측, 대기질 예측


# 분류 문제(Classification)
* 우리가 원하는 결과값이 클래스(Class)라고 하는 유한한모임으로 분류되는 문제다.
* 질병 예측(양성(1) 또는 음성(0)), 만족도 예측(1, 2, 3점)이 있다.
* 만족도를 1, 2, 3이라고 구분 짓는 것을 라벨링(Labelling)이라고 한다.
* 만약 1, 2, 3을 0과 1로만 구성된 벡터 (1, 0, 0), (0, 1, 0), (0, 0, 1)로 표현하는 방법을 원-핫 인코딩(One-hot encoding)이라고 부른다.

# 데이터 세트 분할
* 평가 데이터로부터 얻은 결과를 기준으로 가장 좋은 모델을 선택한다면 평가 데이터 외 새로운 데이터에 대해서 예측을 잘못할 수 있기 때문에 학습, 검증(Validation), 평가용으로 데이터를 3 종류로 나누기도 한다.
* 학습 : 검증: 평가 = 6 : 2 : 2로 일반적으로 나눈다.
* 가장 중요한 것은 어떠한 방식으로 데이터를 학습, 검증, 평가 세트로 나누더라도 데이터가 절대 중복으로 들어가서는 안된다.

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split

X, y = np.arange(1000).reshape((100, 10)), np.arange(100)
# test_size = 0.3인 경우에는 평가 데이터가 전체의 30%이므로 100개 중 무작위로 골라
# 70개가 학습 데이터가 되고 나머지 30개가 평가 데이터가 된다.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)