## 딥러닝 기반 자연어 처리 모델

### 기계의 자연어 처리
- 모델 : 입력을 받아 어떤 처리를 수행하는 함수
- 출력 : 확률(어떤 사건이 일어날 가능성, 0~1)
- 입력 : 사람 말, 자연어
**자연어 처리 모델은 자연어를 입력받아서 해당 입쳑이 특정 범주일 확률을 반환하는 확률 함수**
### 딥러닝
- 데이터 패턴을 스스로 익히는 인공지능의 한 갈래
- 이미지 분류, 음성 인식 및 합성, 자연어 처리 등 다양한 분야
- 딥러닝 기반 자연어 처리 모델 중 BERT, GPT가 주목받음
<br>
영화 리뷰의 감성을 맞히는 자연어 처리 모델을 만든다고 가정<br>
- 자연어를 입력받아 복잡한 내부 계산 과정을 거쳐서 해당 문장이 긍정, 중립, 부정일 확률
- 출력된 확률을 후처리해서 자연어 형태로 바꿈

### 딥러닝 모델의 학습
1. 학습 데이터(training data) 준비
- 학습 : 모델이 입력과 출력 사이에 데이터 패턴을 스스로 익히게 하는 과정
    - 출력이 정답에 가까워지도록 모델을 업데이트하는 과정
- 레이블 달아놓은 자료
**단연컨데 이 영화 재미있어요 를 학습하는 과정일때**
- 학습 초기 : 어떤 감성인지 모름
- 출력을 비교해보면 중립 부정 확률 높고 긍정 확률 낮음
- 긍정 점수는 높이고, 중립/부정 점수는 낮추도록 모델 업데이트
- 업데이트 후에도 정답과 차이나면 한번 더 조정
- 여러번 수행하면 종국에는 정답과 가까운 출력
- 이러한 과정으로 모델을 업데이트하는 과정 전체를 '학습'

## 트렌스퍼 러닝

### 트랜스퍼 러닝
- 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법
- 모델이 태스크2를 배울 때 태스크 1을 수행해 봤던 경험을 재활용

### 업스트림 태스크
- 대규모 말뭉치의 문맥을 이해하는 과제
### 다운스트림 태스크
- 우리가 풀고자 하는 자연어 처리의 구체적 문제들
### 프리트레인
- 업스트림 태스크를 학습하는 과정
- 다운스트림 태스크를 수행하기 앞서 학습한다는 의미

### 업스트림 테스트
**지도학습**
- 사람이 만든 정답 데이터로 모델을 학습하는 방법
- 데이터를 만드는 데 비용이 많이 들뿐만 아니라 사람이 실수로 잘못된 레이블을 줄 수도 있음
**자기지도 학습**
- 데이터 내에서 정답을 만들고 이를 바탕으로 학습하는 방법
- 빈칸 채우기 같은 업스트림 태스크는 강력한 힘을 지님
- 뉴스, 웹 문서, 백과사전 등 글만 있으면 수작업 없이 다량의 학습 데이터를 아주 싼 값에 만들 수 있음

### 다운스트림 테스크
- 우리가 풀어야 할 자연어 처리의 구체적 과제들
- 보통 프리트레인을 마친 모델을 구조 변경 없이 그대로 사용하거나 여기에 태스크 모듈을 덧붙인 형태로 수행
**분류**
- 다운스트림 태스크의 본질
- 입력이 어떤 범주에 해당하는지 확률 형태로 반환
- 문장 생성을 제외한 대부분의 과제에서는 프리트레인을 마친 언어 모델(BERT 계열) 사용
**파인 튜닝**
- 프리트레인을 마친 모델을 다운스트림 태스크에 맞게 업데이트 기법

### 문서 분류
- 자연어(문서나 문장)을 입력받아 해당 입력이 어떤 범주(긍정, 중립 부정)에 속하는지 그 확률값을 반환


## 문서 분류 모델
### 문서 분류
- 문서가 주어졌을 때 해당 문서의 범주를 분류하는 과제
    - 뉴스를 입력으로, 정치 경제 연예 등 범주를 맞히거나
    - 영화 리뷰가 긍정/부정 등 어떤 극성을 가지는지 분류
    - 감성 분석
### 모델 구조
- 입력 문장을 토큰화한 뒤 문장 시작과 끝을 알리는 토큰 CLS와 SEP를 각각 토큰 시퀀스 앞뒤에 붙임
- BERT 모델에 입력하고 문장 수준의 벡터 출력
- 추가 태스크 모듈을 붙여 모델 출력을 [문장이 긍정일 확률, 문장이 부정일 확률] 형태로 변환

### 태스크 모듈
- pooler_output 벡터 뒤에 붙은 추가 모듈의 구조
![image.png](attachment:image.png)

## 전이학습(Transfer Learning)/파인 튜닝
- 이미 학습된 Neural Networks의 파라미터를 새로운 Task에 맞게 다시 미세조정 하는 것
- 컴퓨터 비전 문제 영역에서는 ImageNet등의 데이터셋에 미리 Pre-Training시키고 이 파라미터들을 내가 풀고자 하는 문제에 맞게 Fine-Tuning하는 과정이 광범위하게 사용되고 있었음
- 최근에는 BERT, GPT같은 대규모 자연어 처리 모델이 등장하면서 자연어 처리 문제 영역에서도 전이 학습의 개념이 광범위하게 사용되고 있음

## 참고사이트
https://hannibunny.github.io/mlbook/transformer/intent_classification_with_bert.html

#### BERT의 핵심 아이디어 : 대량의 단어 Corpus로 양방향으로(Bidireictional) 
- 학습시킨 Pre-Trained 자연어 처리 모델을 제공하고, 마지막 레이어에 간단한 
- ANN 등의 추가만을 통한 Fine-Tuning을 이용해서 다양한 자연어처리 Task에 대해서 state-of-the-art 성능을 보여줄 수 있음

# 8. BERT로 텍스트 분류 - 한글

- Naver 영화 리뷰 데이터 세트에 대한 감정 분석을 수행하기 위해 텍스트를 적절한 형식으로 사전 처리하는 방법-  - BERT를 Fine Tuning하는 완전한 코드가 포함되어 있습니다.

수행할 작업은 다음과 같습니다.

1. 데이터셋 불러오기
2. TensorFlow Hub에서 BERT 모델 로드
3. BERT와 분류기를 결합하여 나만의 모델 구축
4. BERT를 미세 조정하여 자신만의 모델을 훈련
5. 모델을 저장하고 문장 분류에 사용

코랩 링크<br>
https://ratsgo.github.io/nlpbook/docs/doc_cls/train/