# 4.1 머신러닝의 네가지 분류

## 4.1.1 지도 학습

레이블 된 데이터에 대해 학습하는 것
- 시퀀스 생성: 사진이 주어지면 이를 설명하는 캡션을 생성
- 구문 트리(syntax tree) 예측: 문장이 주어지면 분해된 구문 트리를 예측
- 물체 감지: 사진 안의 특정 물체 주위에 경계 상자를 그림
- 이미지 분할: 픽셀 단위로 특정 물체에 마스킹

## 4.1.2 비지도 학습

차원축소, 군집 등 레이블 없이 진행

## 4.1.3 자기 지도 학습

사람이 만든 레이블을 사용하지 않음. 경험적인 알고리즘(heuristic algorithm) 등을 사용하여 입력데이터로부터 레이블을 직접 생성

오토인코더가 대표적인 예.

지난 프레임이 주어졌을 때 다음 프레임을 예측하는 것이나, 이전 단어가 주어졌을 때 다음 단어를 예측하는 것이 자기지도학습의 예

## 4.1.4 강화 학습

에이전트는 환경에 대한 정보를 받아 보상을 최대화하는 행동을 선택하도록 학습

# 4.4 과대적합과 과소적합

## 4.4.1 네트워크 크기 축소

과대적합을 막는 가장 단순한 방법은 모델의 크기, 즉 모델에 있는 학습 파라미터의 수를 줄이는 것.

파라미터의 수는 층의 수와 각 층의 유닛 수에 의해 결정된다.

In [2]:
# 원본 모델

from keras import models
from keras import layers

model = models.Sequential([
    layers.Dense(16, activation='relu', input_shape=(10000,)),
    layers.Dense(16, activation='relu'),
    layers.Dense(1, activation='sigmoid')
])

In [4]:
# 축소 모델

model = models.Sequential([
    layers.Dense(6, activation='relu', input_shape=(10000,)),
    layers.Dense(6, activation='relu'),
    layers.Dense(1, activation='sigmoid')
])

In [5]:
# 대용량 모델

model = models.Sequential([
    layers.Dense(1024, activation='relu', input_shape=(10000,)),
    layers.Dense(1024, activation='relu'),
    layers.Dense(1, activation='sigmoid')
])

## 4.4.2 가중치 규제 추가

네트워크 복잡도에 제한을 두어 가중치가 작은 값을 가지도록 강제
- L1 규제: 가중치의 절댓값에 비례하는 비용이 추가
- L2 규제: 가중치의 제곱에 비례하는 비용이 추가

In [7]:
# L2 가중치 규제 추가

from keras import regularizers

model = models.Sequential([
    layers.Dense(16, kernel_regularizer=regularizers.l2(0.001), activation='relu', input_shape=(10000,)),
    # l2(0.001)은 가중치 행렬의 모든 원소를 제곱하고 0.001을 곱하여 네트워크 전체 손실에 더해짐
    layers.Dense(16, kernel_regularizer=regularizers.l2(0.001), activation='relu'),
    layers.Dense(1, activation='sigmoid')
])

In [8]:
# L1 규제, L1과 L2 모두 같이 사용한 규제 모두 가능

from keras import regularizers

regularizers.l1(0.001)

regularizers.l1_l2(l1=0.001, l2=0.001)

<keras.regularizers.L1L2 at 0x1b3254e8400>

## 4.4.3 드롭아웃 추가

훈련하는 동안 무작위로 층의 일부 출력 특성을 제외시킴

In [9]:
model = models.Sequential([
    layers.Dense(16, activation='relu', input_shape=(10000,)),
    layers.Dropout(0.5),   # 50%를 버림
    layers.Dense(16, activation='relu'),
    layers.Dropout(0.5),
    layers.Dense(1, activation='sigmoid')
])

# 4.5 보편적인 머신러닝 작업 흐름

## 4.5.1 문제 정의와 데이터셋 수집

## 4.5.2 성공 지표 선택

클래스 분포가 균일한 분류 문제에서는 정확도, ROC, AUC가 일반적

클래스가 균일하지 않은 경우 정밀도와 재현율을 사용

## 4.5.3 평가 방법 선택

- 홀드아웃 검증 세트 분리: 데이터가 풍부할 때 사용
- K-Fold 교차 검증: 홀드아웃을 사용하기에 샘플의 수가 너무 적을 때 사용
- 반복 K-Fold 교차 검증: 데이터가 적고 매우 정확한 모델 평가가 필요할 때 사용

## 4.5.4 데이터 준비

## 4.5.5 기본보다 나은 모델 훈련하기

- 마지막 층의 활성화 함수
- 손실 함수
- 최적화 설정: 일반적으로 rmsprop과 기본 학습률이 무난

등에 대한 선택이 중요

- 이진분류: 시그모이드, binary_crossentropy
- 단일 레이블 다중 분류: 소프트맥스, categorical_crossentropy
- 다중 레이블 다중 분류: 시그모이드, binary_crossentropy
- 임의 값에 대한 회귀: 없음, mse
- 0과 1 사이 값에 대한 회귀: 시그모이드, mse 또는 binary_crossentropy

## 4.5.6 몸집 키우기: 과대적합 모델 구축

## 4.5.7 모델 규제와 하이퍼파라미터 튜닝

- 드롭아웃 추가
- 층을 추가하거나 제거해서 다른 구조 시도
- L1이나 L2 또는 두가지 모두 추가
- 최적의 설정을 찾기 위해 하이퍼파라미터를 변경해서 시도
- 선택적으로 특성공학 시도