# NLP에서의 사전훈련 (Pre-training)
---

## 사전 훈련된 워드 임베딩
- 임베딩 방법
    1. 임베딩 층을 처음부터 학습
    2. 사전 학습된 임베딩 벡터들을 가져와 사용\
        => 데이터 적을 때
- 이 두 방법들은 하나의 단어의 하나의 벡터로 맵핑\
    => 다의어나 동음이의어 구분 X
- 이 문제 해결하기 위해 => 사전훈련된 언어모델 (ELMo, BERT)

## 사전 훈련된 언어 모델
![](https://wikidocs.net/images/page/108730/image1.PNG)
- 학습 방법
1. 라벨링 없는 데이터셋을 통해 다음 단어를 예측하는 LSTM 언어모델을 사전훈련
2. 그 LSTM모델을 이용해서 실제 task에 파인튜닝

- 사전 훈련없이 바로 실제 task에 훈련시키는 것보다 위의 방법이 더 효과 업

## ELMO
![](https://wikidocs.net/images/page/108730/image2.PNG)
1. 순방향 언어 모델과 역방향 언어 모델을 따로 학습
2. 언어 모델로 부터 임베딩 값 획득\
=> 문맥에 따라 임베딩 벡터 값이 달라짐 굳!

## GPT-1
![](https://wikidocs.net/images/page/108730/image3.PNG)
- Trm: 트랜스포머 디코더
- 디코더 12개층 사용

## 마스크드 언어 모델 (Masked Language Model)
- 입력 텍스트의 단어 집합의 15%를 랜덤 마스킹
- 인공 신경망에게 마스킹된 단어들을 예측하게 함

# BERT (Bidirectional Encoder Representations from Transformers)
- 구글이 공개한 사전 훈련 모델
![](https://wikidocs.net/images/page/35594/%ED%8C%8C%EC%9D%B8%ED%8A%9C%EB%8B%9D.PNG)

![](https://wikidocs.net/images/page/35594/bartbase%EC%99%80large.PNG)

## BERT의 문맥을 반영한 임베딩 (Contextual Embedding)
![](https://wikidocs.net/images/page/115055/%EA%B7%B8%EB%A6%BC2.PNG)
- BERT의 입력 임베딩은 단순 임베딩 층을 거친 벡터
- 출력임베딩은 BERT를 지나고 나서 모든 입력 단어를 참고한후 출력
- 출력임베딩과 입력임베딩은 동일한 차원

![](https://wikidocs.net/images/page/115055/%EA%B7%B8%EB%A6%BC4.PNG)

## BERT의 서브워드 토크나이저: WordPiece
- 바이트 페어 인코딩(BPE)의 유사 알고리즘

## 포지션 임베딩 (Position Embedding)
- 트랜스포머에서는 사인 코사인 함수를 통해 얻고 단어 임베딩과 더함
- BERT는 학습을 통해 얻는 포지션 임베딩 사용
![](https://wikidocs.net/images/page/115055/%EA%B7%B8%EB%A6%BC5.PNG)
- BERT는 문장의 최대길이가 512 이므로 512개의 포지션 벡터를 학습

## BERT의 사전 훈련 (Pre-training)
![](https://wikidocs.net/images/page/35594/bert-openai-gpt-elmo-%EC%B6%9C%EC%B2%98-bert%EB%85%BC%EB%AC%B8.png)
- BERT는 학습방법으로 마스크드 언어모델, 다음문장 예측


### 마스크드 언어 모델 (Masked Language Model, MLM)
- 입력 텍스트의 15%의 단어를 처리
- 80%는 마스크로 변경하고 10%는 단어 변경, 나머지는 그대로\
    => 마스크만 할 경우 실제 예측에서는 마스크가 없기에 사전 학습단계와 파인튜닝 단계의 입력 데이터 불일치 발생
- 입력 텍스트의 15% 단어만 학습에 사용\
아래 그림에서는 마스킹, 변경, 유지 세가지를 실행한 세개의 단어만 학습 
![](https://wikidocs.net/images/page/115055/%EA%B7%B8%EB%A6%BC9.PNG)

### 다음 문장 예측 (Next Sentence Prediction, NSP)
- 두개의 문장을 주고 이어지는 문장인지 아닌지 학습
- 두 문장을 입력으로 받는데 각 문장의 끝에 [SEP]토큰을 넣는다.
- 가장 처음에 [CLS]토큰을 넣고 그 부분에 이진분류 학습\
=> 문장 간의 관계를 이해해야 하는 테스크에 활용하기 위해
![](https://wikidocs.net/images/page/115055/%EA%B7%B8%EB%A6%BC10.PNG)

## 세그먼트 임베딩 (Segment Embedding)
- 문장구분을 위해서 세그먼트 임베딩층 추가
- 첫번째 문장은 0 임베딩, 두번재 문장은 1 임베딩을 더해줌 (임베딩 벡터는 두개만 사용)
- 단 두 문장이 두 문서등로 종류를 자유롭게 할 수도 있고 관계가 필요없으면 임베딩 0으로만 구성할 수 도 있다
![](https://wikidocs.net/images/page/115055/%EA%B7%B8%EB%A6%BC7.PNG)

## BERT의 3개의 임베딩층
- WordPiece Embedding
    - 벡터의 종류는 단어집합크기 30522개
- Position Embedding
    - 벡터의 종류는 최대 문장길이 512개
- Segment Embedding
    - 벡터의 종류는 구분을 위한 2개

## BERT를 파인 튜닝(Fine-tuning) 하기
- 사전 학습된 BERT에 목표 task의 데이터를 추가로 학습하는 단계


### 하나의 텍스트에 대한 텍스트 분류 유형 (Single Text Classification)
- 문서 시작에 [CLS]을 입력하여 그 부분에 Dense를 추가하여 분류 예측
![](https://wikidocs.net/images/page/115055/apply1.PNG)


### 하나의 텍스트에 대한 태깅 작업 (Tagging)
- 입력 텍스트 위치의 Dense를 추가하여 분류 예측
![](https://wikidocs.net/images/page/115055/apply2.PNG)


### 텍스트의 쌍에 대한 분류 또는 회귀 문제 (Text Pair Classification or Regression)
- 텍스트 쌍을 입력받는 태스크
ex) 자연어 추론(Natural language inference): 텍스트간 관계 예측
![](https://wikidocs.net/images/page/115055/apply3.PNG)


### 질의 응답 (Question Answering)
- 질문과 본문을 입력받으면 본문의 일부분을 추출해서 답변
![](https://wikidocs.net/images/page/115055/apply4.PNG)

## 어텐션 마스크 (Attention Mask)
- 어텐션 마스크 입력 추가로 필요
- 패딩 토큰에 어텐션 하지 않도록 하기위해
- 1은 실제 단어 0은 패딩토큰
![](https://wikidocs.net/images/page/115055/%EA%B7%B8%EB%A6%BC11.PNG)

### BERT의 문장 임베딩
- BERT로 부터 문장 벡터를 얻는 방법 세가지
1. [CLS]토큰의 출력벡터를 문장벡터로 간주
    => 문장 분류문제에 사용했음
![](https://wikidocs.net/images/page/156176/%EA%B7%B8%EB%A6%BC1.PNG)
2. BERT의 모든 출력 벡터들의 평균을 문장벡터로 간주
3. 2번의 평균대신 맥스 풀링 사용
![](https://wikidocs.net/images/page/156176/%EA%B7%B8%EB%A6%BC2.PNG)

## 센텐스버트 (Sentence BERT, SBERT)
- BERT의 문장임베딩 성능 개선 모델
- 위의 문장임베딩을 파인튜닝


### 문장 쌍 분류 태스크로 파인 튜닝
- 두 문장의 관계를 맞추는 문제를 학습
- 각 문장을 BERT를 통해 문장임베딩을 획득
- 두 문장임베딩과 mae를 분류문제로 학습\
u, v 가 n차원 이면 dense 입력은 3n차원
![](https://wikidocs.net/images/page/156176/%EA%B7%B8%EB%A6%BC4.PNG)


### 문장 쌍 회귀 태스크로 파인 튜닝
- 두개의 문장으로 의미적 유사성을 구하는 문제 학습
    => 결과 범위는 0 ~ 5
- 두 문장의 BERT 문장 임베딩을 얻고 두 벡터의 코사인 유사도 계산
- 라벨과의 mse를 통한 학습
![](https://wikidocs.net/images/page/156176/%EA%B7%B8%EB%A6%BC5.PNG)