<a href="https://colab.research.google.com/github/yukinaga/bert_nlp/blob/main/section_2/02_pytorch_transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyTorch-Transformers
BERTの実装へ向けて、自然言語処理ライブラリPyTorch-Transformersを学びます。  
PyTorch-Transformersは以下の基本クラスを中心に構成されます。
* BertModel
* BertConfig
* BertTokenizer

## ライブラリのインストール
PyTorch-Transformers、および必要なライブラリのインストールを行います。

In [None]:
!pip install folium==0.2.1
!pip install urllib3==1.25.11
!pip install pytorch-transformers==1.2.0

## PyTorch-Transformersのモデル
PyTorch-Transformersには、様々な訓練済みのモデルを扱うクラスが用意されています。  
以下のコードでは、文章の一部をMaskする問題、`BertForMaskedLM`のモデルを設定します。  
https://huggingface.co/transformers/model_doc/bert.html#bertformaskedlm  
  
BertForMaskedLMはベースとなるモデル、`PreTrainedModel`を継承しています。  
https://huggingface.co/transformers/main_classes/model.html#transformers.PreTrainedModel  
  
また、`BertForMaskedLM`は`nn.Module `クラスを継承しているので、通常のPyTorchのモデルとして使用することができます。

In [None]:
import torch
from pytorch_transformers import BertForMaskedLM

msk_model = BertForMaskedLM.from_pretrained('bert-base-uncased')  # 訓練済みパラメータの読み込み
print(msk_model)

最終的に、単語の数である30522クラスに分類する問題であることが分かります。  

同様に、文章を分類する問題、`BertForSequenceClassification`のモデルを設定します。  
https://huggingface.co/transformers/model_doc/bert.**html**#bertforsequenceclassification  

In [None]:
from pytorch_transformers import BertForSequenceClassification

sc_model = BertForSequenceClassification.from_pretrained('bert-base-uncased')  # 訓練済みパラメータの読み込み
print(sc_model)

`out_features=2`なので、文章を2クラスに分類する問題であることが分かります。

# BERTの設定
`BertConfig`クラスを使って、モデルの設定を行うことができます。  

In [None]:
from pytorch_transformers import BertConfig

config = BertConfig.from_pretrained("bert-base-uncased")
print(config) 

## Tokenizer
`BertTokenizer`クラスを使って、訓練済みのデータに基づく形態素解析を行うことができます。

In [None]:
from pytorch_transformers import BertTokenizer

text = "I have a pen. I have an apple."

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
words = tokenizer.tokenize(text)
print(words)