<a href="https://colab.research.google.com/github/moseskim/bert_nlp/blob/main/section_2/02_pytorch_transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyTorch-Transformers

BERT 구현을 위해 자연 언어 처리 라이브러리인 PyTorch-Transformers를 학습합니다.  
PyTorch-Transformers는 다음 기본 클래스를 중심으로 구성됩니다.  
* `BertModel`
* `BertConfig`
* `BertTokenizer`

## 라이브러리 설치

PyTorch-Transformers와 필요한 라이브러리를 설치합니다.

In [None]:
!pip install folium==0.2.1
!pip install urllib3==1.25.11
!pip install pytorch-transformers==1.2.0

## PyTorch-Transformers 모델

PyTorch-Transformers에서는 다양한 훈련 완료 모델을 다루는 클래스를 제공합니다.  
다음 코드에서는 문장의 일부를 Mask하는 문제, `BertForMaskedLM` 모델을 설정합니다.  
https://huggingface.co/transformers/model_doc/bert.html#bertformaskedlm  

`BertForMaskedLM`은 베이스가 되는 모델인 `PreTrainedModel`을 상속합니다.  
https://huggingface.co/transformers/main_classes/model.html#transformers.PreTrainedModel

그리고 `BertForMaskedLM`은 `nn.Module` 클래스를 상속하고 있으므로, 일반적인 PyTorch의 모델로 사용할 수 있습니다.

In [None]:
import torch
from pytorch_transformers import BertForMaskedLM

msk_model = BertForMaskedLM.from_pretrained('bert-base-uncased')  # 훈련 완료 매개변수
print(msk_model)

최종적으로 단어 수인 `30522` 클래스로 분류하는 문제임을 알 수 있습니다.

마찬가지로 문장을 분류하는 문제, `BertForSequenceClassification` 모델을 설정합니다.  
https://huggingface.co/transformers/model_doc/bert.**html**#bertforsequenceclassification

In [None]:
from pytorch_transformers import BertForSequenceClassification

sc_model = BertForSequenceClassification.from_pretrained('bert-base-uncased')  # 훈련 완료 매개변수 로딩
print(sc_model)

`out_features=2`이므로 문장을 2개 클래스로 분류하는 문제임을 알 수 있습니다.

# BERT 설정

`BertConfig` 클래스를 사용해 모델 설정을 수행할 수 있습니다.

In [None]:
from pytorch_transformers import BertConfig

config = BertConfig.from_pretrained("bert-base-uncased")
print(config)

## Tokenizer

`BertTokenizer` 클래스를 사용해 훈련 완료 데이터에 기반해 형태소 분석을 수행할 수 있습니다.

In [None]:
from pytorch_transformers import BertTokenizer

text = "I have a pen. I have an apple."

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
words = tokenizer.tokenize(text)
print(words)