<a href="https://colab.research.google.com/github/yukinaga/bert_nlp/blob/main/section_2/02_pytorch_transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyTorch-Transformers
BERTの実装へ向けて、自然言語処理ライブラリPyTorch-Transformersを学びます。  
PyTorch-Transformersは以下の基本クラスを中心に構成されます。  
* BertModel model classes:事前学習済みのパラメータをもつclass  
* BertConfig configuration classes:モデルの設定を行うためのclass  
* BertTokenizer tokenizer classes:tokenizerのclass 語彙の保持、形態素解析のクラス

## ライブラリのインストール
PyTorch-Transformers、および必要なライブラリのインストールを行います。

In [1]:
!pip install folium==0.2.1
!pip install urllib3==1.25.11
!pip install pytorch-transformers==1.2.0



## PyTorch-Transformersのモデル
PyTorch-Transformersには、様々な訓練済みのモデルを扱うクラスが用意されています。  
以下のコードでは、文章の一部をMaskする問題、`BertForMaskedLM`のモデルを設定します。  
https://huggingface.co/transformers/model_doc/bert.html#bertformaskedlm  
  
BertForMaskedLMはベースとなるモデル、`PreTrainedModel`を継承しています。  
https://huggingface.co/transformers/main_classes/model.html#transformers.PreTrainedModel  
  
また、`BertForMaskedLM`は`nn.Module `クラスを継承しているので、通常のPyTorchのモデルとして使用することができます。

In [4]:
import torch
from pytorch_transformers import BertForMaskedLM

msk_model = BertForMaskedLM.from_pretrained('bert-base-uncased')  # 訓練済みパラメータの読み込み-uncased:全て小文字で訓練 AmazonのS3に保存
print(msk_model)

BertForMaskedLM(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=Tr

最終的に、単語の数である30522クラスに分類する問題であることが分かります。  

同様に、文章を分類する問題、`BertForSequenceClassification`のモデルを設定します。  
https://huggingface.co/transformers/model_doc/bert.**html**#bertforsequenceclassification  

In [5]:
from pytorch_transformers import BertForSequenceClassification

sc_model = BertForSequenceClassification.from_pretrained('bert-base-uncased')  # 訓練済みパラメータの読み込み
print(sc_model)

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, element

`out_features=2`なので、文章を2クラスに分類する問題であることが分かります。

# BERTの設定
`BertConfig`クラスを使って、モデルの設定を行うことができます。  

In [7]:
from pytorch_transformers import BertConfig

config = BertConfig.from_pretrained("bert-base-uncased")
print(config) 

{
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "finetuning_task": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "num_labels": 2,
  "output_attentions": false,
  "output_hidden_states": false,
  "pad_token_id": 0,
  "pruned_heads": {},
  "torchscript": false,
  "type_vocab_size": 2,
  "vocab_size": 30522
}



## Tokenizer
`BertTokenizer`クラスを使って、訓練済みのデータに基づく形態素解析を行うことができます。

In [8]:
from pytorch_transformers import BertTokenizer

text = "I have a pen. I have an apple."

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
words = tokenizer.tokenize(text)
print(words)

['i', 'have', 'a', 'pen', '.', 'i', 'have', 'an', 'apple', '.']
