# 11.2. 사전훈련된 층 재사용
- 보통 엄청 큰 DNN을 처음부터 새로 훈련하는 것은 좀 그닥...좋은 생각은 아님...
- 해결하려는 것과 비슷한 유형의 문제를 처리한 신경망이 이미 있는지를 우선 찾아보고, 그 신경망의 하위층을 재사용하는 것이 좋음
- 이를 **전이학습**이라고 함
- 이 방법은 훈련 속도와 훈련 데이터양에서 매우 유리함
    - *일반적으로 저수준 특성이 비슷한 입력에서 잘 작동함*
- ![image.png](attachment:image.png)

- 보통 원본 모델의 출력층을 바꿔줘야함
    - 이게 새로운 작업에 가장 쓸 모 없는 층일 가능성이 높고, 애초에 새로운 작업에 필요한 출력 개수와 맞지 않을 수 있음
- 비슷하게 원본 모델의 상위 은닉층은 하위 은닉층보다 덜 유용함
    - 새로운 작업에 유용한 고수준 특성이 원본 작업에서의 유용했던 특성과는 상당히 다를 수 있기 때문
    - 따라서 재사용할 층 개수를 잘 선정할 필요성이 있음    

- 재사용할 층은 모두 동결해야함
    - 즉, 역전파로 파라미터가 재학습되는 것을 방지해야함
- 그 다음 모델을 훈련하고 성능을 평가함
    - 맨 위의 한, 두개의 은닉층의 동결을 해제하고 역전파를 통해 가중치를 조정하여 성능이 향상되는지를 확인
    - 훈련 데이터가 많을 수록 많은 층의 동결을 해제할 수 있음
- 재사용층의 동결을 해제할 때는 학습률을 줄이며, 세밀하게 가중치를 튜닝할 수 있도록 해야함

### 11.2.1. 케라스를 사용한 전이학습
- 모델 A를 로드하고 이 모델의 층을 기반으로 model_B를 만들어보자

In [4]:
# model_A = keras.models.load_model("my_model_A.h5")
# model_B = keras.models.Sequential(model_A.layers[:-1])
# model_B.add(keras.layers.Dense(1, activation = "sigmoid"))

- model_A와 model_B는 일부 층을 공유함
- model_B를 훈련할 떄 model_A도 영향을 받음
    - 이를 원하지 않으면 층을 재사용하기 전에 model_A를 clone하면 됨
- clone_model() 메서드로 모델 A의 구조를 복제한 후 가중치를 복제하면 됨
    - *clone_model메서드는 가중치를 복제하지는 않음*

In [5]:
# model_A_clone = keras.models.clone_model(model_A)
# model_A_clone.set_weights(model_A.get_weights) #모델의 가중치를 복제하지는 않기 때문에 이렇게 복제해와야함

- 이제 새로운 작업을 위해 model_B를 훈련할 수 있음
- 하지만 새로운 출력층이 랜덤하게 초기화되어있으므로, 오차가 클 것
- 따라서 이렇게 발생할 수 있는 큰 오차 그래디언트가 재사용된 가중치를 망칠 수 있음
    - 그래서 이를 피하기 위해 처음 몇 번의 에포크 동안에는 재사용된 층을 동결하고, 새로운 층에게 적절한 가중치를 학습한 시간을 줘도 됨
    - 일단 이를 위해서는 모든 층의 trainable 인자를 False로 지정하고 모델을 컴파일해보자

In [8]:
# for layer in model_B[:-1]:
#     layer.trainable = False
    
# model_B.compile(loss = "binary_crossentropy", optimizer = "sgd", metrics = ["accuarcy"])

- 층을 동결하거나 동결을 해제한 다음에는 반드시 모델을 컴파일해야함

- 이제 몇 번의 에포크 동안은 모델을 우선 훈련시킴
- 그 다음 재사용된 층의 동결을 해제하고 모델을 다시 컴파일해야함
- 그리고 model_B의 가중치를 세밀하게 조정하기 위해 계속 학습해야함
    - 세밀한 조정을 위해 동결을 해제한 다음에는 보통 lr을 낮춤

In [9]:
# hist = model_B.fit(X_tr_B, y_tr_B, epcohs = 4, validation_data = (X_val_B, y_val_B))

# for layer in model_B.layes[:-1]:
#     layer.trainable = True

# optimizer = keras.optimizers.SGD(lr = 1e-4) #기본 학습률이 1e-2로 잡혀있는데 그보다 학습률을 더 낮춤
# model_B.compile(loss = "binary_crossentropy", optimizer = optimizer, metrics = ["accuracy"])
# hist = model_B.fit(X_tr_B, y_tr_B, epochs = 16, validation_data = (X_val_B, y_val_B))

- 그런데 문제는 전이학습이 보통 작은 완전연결 네트워크에서는 잘 작동하지 않음
    - 아마 작은 네트워크는 패턴 수를 적게 학습하고 완전 연결 네트워크는 특정 패턴을 학습하기 때문에 그럴 것
    - 이런 패턴은 다른 작업에 사실 잘 활용할 수 없음
- 전이학습은 좀 더 일반적인 특성을 (특히 아래 층에서) 감지하는 경향이 있는 심층 합성곱 신경망에서 잘 동작함


### 11.2.2. 비지도 사전훈련
- 레이블된 훈련데이터가 많지 않고, 비슷한 작업에 대해 훈련된 모델을 찾을 수 없을 때, 사용할 수 있는 방법
- 만약 레이블되지않은 훈련 데이터를 많이 모을 수 있다면, 이를 이용하여 **오토인코더**나 **생성적 적대 신경망(17장)** 과 같은 비지도 학습 모델을 훈련할 수 있음
- 그 다음 **오토인코더**나 **GAN판별자의 하위층**을 재사용하고 그 위에 새로운 작업에 맞는 출력층을 생성할 수 있음
- 그 다음 지도 학습으로 최종 네트워크를 세밀하게 튜닝하는 방식을 이용할 수 있음
- *상세한 건 뒷 단원들에서 다룰 것*

### 11.2.3. 보조 작업에서 사전훈련
- 레이블된 훈련 데이터가 많지 않을 떄의 마지막 선택 사항은 레이블된 훈련 데이터를 쉽게 얻거나 생성할 수 있는 보조작업에서 첫 신경망을 훈련하는 것
    - 그리고 이 신경망의 하위층을 실제 작업을 위해 재사용 하는 것
    - 첫 신경망의 하위층은 두 번째 신경망에 재사용될 수 있는 특성 추출기를 학습하게 됨
- 예를 들어 얼굴 인식 시스템의 경우 개인별 이미지가 필요하지만, 이게 별로 없다면 좋은 분류기를 훈련할 수는 없음
    - 그래서 무작위로 많은 인물 이미지를 수집한 뒤 두 이미지가 같은지 감지하는 첫 신경망을 훈련할 수 있음
    - 그 다음 이 신경망의 하위층을 재사용해 적은 양의 훈련 데이터에서 얼굴을 잘 구분하는 분류기를 훈련할 수 있음
- 자연어 처리에서도 이런 것들을 많이 사용함