# 자연어 처리

## 딥러닝 기반 자연어 처리 모델

**자연어 처리 모델**
- 자연어를 입력 받아서 해당 입력이 특정 범주일 확률을 반환하는 확률 함수

**딥러닝 기반 자연어 처리 모델**
- BERT, GPT

**자연어 처리 모델 과제**
- 문서 분류
- 문장 쌍 분류
- 개체명 인식
- 질의응답
- 문장 생성

**학습**
- 출력이 정답에 가까워지도록 모델을 업데이트 하는 과정

## 트랜스퍼 러닝

**트랜스퍼 러닝**
- 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법
- 기존보다 모델의 학습 속도 빠르고 새로운 태스크 더 잘 수행하는 경향 있음

**업스트림 태스크**
- 다음 단어 맞히기, 빈칸 채우기 등 대규모 말뭉치의 문맥을 이해하는 과제
- 업스트림 태스크를 학습하는 과정을 프리트레인이라 함 

1. 다음 단어 맞히기 
- GPT 계열 모델(Ex. 티끌 모아 00) 
- 언어 모델 
- 분류 범주 수 학습 대상 언어의 어휘 수만큼 늘어남. 

2. 빈칸 채우기 
- BERT 계열 모델(Ex. 티클 00 태산)
- 앞뒤 문맥을 보고 빈칸에 적합한 단어 알 수 있음 
- 마스크 언어 모델 

3. 자기지도 학습
- 데이터 내에서 정답을 만들고 이를 바탕으로 모델을 학습하는 방법

**다운스트림 태스크**
- 문서 분류, 개체명 인식 등 풀고자 하는 자연어 처리의 구체적 문제
- 프리트레인을 마친 모델을 구조 변경 없이 그대로 사용하거나 태스크 모듈을 덧붙인 형태로 수행

**파인튜닝**
- 프리트레인을 마친 모델을 다운스트림 태스크에 맞게 업데이트하는 기법

1. 문서 분류
- 자연어를 입력받아 해당 입력이 어떤 범주에 속하는지 확률값 반환

2. 자연어 추론
- 문장 2개를 입력받아 두 문장 사이의 관계가 어떤 범주인지 확률값 반환

3. 개체명 인식
- 자연어를 입력받아 단어별로 어떤 개체명 범주에 속하는지 확률값 반환

4. 질의응답
- 자연어를 입력받아 각 단어가 정답의 시작일 확률값과 끝일 확률값을 반환

5. 문장생성
- GPT 계열 언어 몯레이 널리 쓰임
- 자연어를 입력받아 어휘 전체에 대한 확률값 반환

## 학습 파이프라인

- 과제에 상관없이 공통으로 적용
1. 각종 설정값 정하기
2. 데이터 내려받기
3. 프리트레인을 마친 모델 준비하기
4. 토크나이저 준비하기
5. 데이터 로더 준비하기
6. 태스크 정의하기
7. 모델 학습하기

### 1. 각종 설정값 정하기

- 어떤 프리트레인 모델을 사용할지
- 학습에 사용할 데이터는 무엇인지
- 학습 결과는 어디에 저장할지
- 하이퍼파라미터(러닝 레이트, 배치 크기 등)

In [None]:
from ratsnlp.nlpbook.classification import ClassificationTrainArguments
args = nlpbook.TrainArguments(
    pretrained_model_name="beomi/kcbert-base",
    downstream_corpus_name="nsmc",
    downstream_corpus_root_dir="/content/Korpora", # colab
    downstream_model_dir="/gdrive/My Drive/nlpbook/checkpoint-cls",
    learning_rate=5e-5,
    batch_size=32,
)

### 2. 데이터 내려받기

- 다운스트림 데이터로 사용
- NSMC : 네이버 영화 리뷰 말뭉치 

In [None]:
from Korpora import Korpora # 다양한 한국어 말뭉치 쉽게 내려박고 전처리할 수 있는 패키지
Korpora.fetch(
    corpus_name=args.downstream_corpus_name, # 말뭉치 다운
    root_dir=args.downstream_corpus_root_dir, # 말뭉치 저장
    force_download=True,
)

### 3. 프리트레인을 마친 모델 준비하기

- 허깅페이스에서 만든 트랜스포머 패키지 사용
- 단 몇 줄만으로 모델 사용 가능 

In [None]:
from transformers import BertConfig, BertForSequenceClassification
pretrained_model_config = BertConfig.from_pretrained(
    args.pretrained_model_name,
    num_labels=2,
)
model = BertForSequenceClassification.from_pretrained(
        args.pretrained_model_name,
        config=pretrained_model_config,
)

### 4. 토크나이저 준비하기

- 토큰 : 자연어 처리 모델의 입력. 문장보다 작은 단위
- 한 문장은 여러 개의 토큰으로 구성되며 분리 기준은 그때그때 다를 수 있음 
- 띄어쓰기로만 나눌 수도 있고, 의미의 최소 단위인 형태소 단위로 나눌 수도 있음 
- 토큰화 : 문장을 토큰 시퀀스로 분석하는 과정
- 토크나이저 : 토큰화를 수행하는 프로그램

In [None]:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained(
    args.pretrained_model_name,
    do_lower_case=False,
)

### 5. 데이터 로더 준비하기

- 파이토치에는 데이터 로더가 포함됨(반드시 정의)
- 데이터 로더는 데이터를 배치 단위로 모델에 밀어 넣어주는 역할 함
- 전체 데이터 가운데 일부 인스턴스를 뽑아 배치 구성
- 데이터셋은 데이터 로더의 구성 요소 가운데 하나 
- 데이터셋은 여러 인스턴스(문서 + 레이블)를 보유
- 데이터 로더가 배치를 만들 때 인스턴스를 뽑는 방식은 파이토치 사용자가 자유롭게 정할 수 있음 
- 동일한 배치에 있는 문장들의 토큰 개수는 같아야 함

**컬레이트** 
- 배치의 모양 등을 정비해 모델의 최종 입력으로 만들어 주는 과정
- 파이썬 리스트에서 파이토치 텐서로의 변환 등 자료형 변환도 포함 

In [None]:
from torch.utils.data import DataLoader, RandomSampler
from ratsnlp.nlpbook.classification import NsmcCorpus, ClassificationDataset corpus = NsmcCorpus()
train_dataset = ClassificationDataset(
    args=args, 
    corpus=corpus, 
    tokenizer=tokenizer, 
    mode="train",
)
train_dataloader = DataLoader(
    train_dataset,
    batch_size=args.batch_size, 
    sampler=RandomSampler(train_dataset, replacement=False), 
    collate_fn=nlpbook.data_collator,
    drop_last=False,
    num_workers=args.cpu_workers,
)

### 6. 태스크 정의하기

- 파이토치 라이트닝 : 딥러닝 모델을 학습할 때 반복적인 내용을 대신 수행해줘 사용자가 모델 구축에만 신경쓸 수 있도록 돕는 라이브러리
- 모델, 최적화 방법, 학습 과정 등이 정의

### 7. 모델 학습하기

- Trainer는 파이토치 라이트닝에서 제공하는 객체로 실제 학습 수행
- 하드웨어 설정, 학습 기록 로깅, 체크포인트 저장 등 복잡한 설정 알아서 함 

In [None]:
from ratsnlp.nlpbook.classification import ClassificationTask
task = ClassificationTask(model, args)
trainer = nlpbook.get_trainer(args)
trainer.fit(
    task,
    train_dataloader=train_dataloader,
)

## 토큰화

**토큰화**
- 한 문장을 토큰 시퀀스로 나누는 과정
- 수행 대상에 따라 문자, 단어, 서브워드 등 세 가지 방법 존재

**토크나이저**
- 토큰화를 수행하는 프로그램
- 한국어 토크나이저 : 은전한닢(mecab), 꼬꼬마(kkma) 등 

**단어(어절) 단위 토큰화 수행**
- 공백 분리 : 별도로 토크나이저 쓰지 않아도 됨. 어휘 집합의 크기가 매우 커짐
- 학습된 토크나이저 : 어휘 집합 크기 커지는 것 조금 완화
- 어휘 집합의 크기가 커지면 모델 학습 어려워 짐

**문자 단위 토큰화**
- 한글로 표현할 수 있는 글자는 모두 1만 1,172개로 알파벳, 숫자, 기호 등을 고려해도 1만 5000개 넘기 어려움
- 미등록 토큰 문제로부터 자유로움
- 의미있는 단위가 되기 어려움
- 토큰 시퀀스의 길이가 상대적으로 길어짐(학습 어려워져 성능 저하)

**서브워드 단위 토큰화**
- 단어와 문자 단위 토큰화의 중간에 있는 형태
- 어휘 집합 크기가 지나치게 커지지 않으면서도 미등록 토큰 문제를 피하고, 토큰 시퀀스가 너무 길어지지 않게함
- 바이트 페어 인코딩