<a href="https://colab.research.google.com/github/takuya-tokumoto/bert_nlp/blob/main/section_2/02_pytorch_transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyTorch-Transformers
BERTの実装へ向けて、自然言語処理ライブラリPyTorch-Transformersを学びます。  
PyTorch-Transformersは以下の基本クラスを中心に構成されます。
* BertModel
* BertConfig
* BertTokenizer

## ライブラリのインストール
PyTorch-Transformers、および必要なライブラリのインストールを行います。

In [1]:
!pip install folium==0.2.1
!pip install urllib3==1.25.11
!pip install pytorch-transformers==1.2.0

Collecting folium==0.2.1
  Downloading folium-0.2.1.tar.gz (69 kB)
[?25l[K     |████▊                           | 10 kB 24.1 MB/s eta 0:00:01[K     |█████████▍                      | 20 kB 29.5 MB/s eta 0:00:01[K     |██████████████                  | 30 kB 23.5 MB/s eta 0:00:01[K     |██████████████████▊             | 40 kB 18.5 MB/s eta 0:00:01[K     |███████████████████████▍        | 51 kB 8.7 MB/s eta 0:00:01[K     |████████████████████████████    | 61 kB 10.1 MB/s eta 0:00:01[K     |████████████████████████████████| 69 kB 5.0 MB/s 
Building wheels for collected packages: folium
  Building wheel for folium (setup.py) ... [?25l[?25hdone
  Created wheel for folium: filename=folium-0.2.1-py3-none-any.whl size=79809 sha256=0b178b245375f6a515caf4ae00274ce9282116c9f3cfd7273114e9ef520289b7
  Stored in directory: /root/.cache/pip/wheels/9a/f0/3a/3f79a6914ff5affaf50cabad60c9f4d565283283c97f0bdccf
Successfully built folium
Installing collected packages: folium
  Attempting u

## PyTorch-Transformersのモデル
PyTorch-Transformersには、様々な訓練済みのモデルを扱うクラスが用意されています。  
以下のコードでは、文章の一部をMaskする問題、`BertForMaskedLM`のモデルを設定します。  
https://huggingface.co/transformers/model_doc/bert.html#bertformaskedlm  
  
BertForMaskedLMはベースとなるモデル、`PreTrainedModel`を継承しています。  
https://huggingface.co/transformers/main_classes/model.html#transformers.PreTrainedModel  
  
また、`BertForMaskedLM`は`nn.Module `クラスを継承しているので、通常のPyTorchのモデルとして使用することができます。

In [2]:
import torch
from pytorch_transformers import BertForMaskedLM

msk_model = BertForMaskedLM.from_pretrained('bert-base-uncased')  # 訓練済みパラメータの読み込み
print(msk_model)

100%|██████████| 433/433 [00:00<00:00, 98350.14B/s]
100%|██████████| 440473133/440473133 [00:12<00:00, 35586607.37B/s]


BertForMaskedLM(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=Tr

最終的に、単語の数である30522クラスに分類する問題であることが分かります。  

同様に、文章を分類する問題、`BertForSequenceClassification`のモデルを設定します。  
https://huggingface.co/transformers/model_doc/bert.**html**#bertforsequenceclassification  

In [3]:
from pytorch_transformers import BertForSequenceClassification

sc_model = BertForSequenceClassification.from_pretrained('bert-base-uncased')  # 訓練済みパラメータの読み込み
print(sc_model)

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, element

`out_features=2`なので、文章を2クラスに分類する問題であることが分かります。

# BERTの設定
`BertConfig`クラスを使って、モデルの設定を行うことができます。  

In [4]:
from pytorch_transformers import BertConfig

config = BertConfig.from_pretrained("bert-base-uncased")
print(config) 

{
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "finetuning_task": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "num_labels": 2,
  "output_attentions": false,
  "output_hidden_states": false,
  "pad_token_id": 0,
  "pruned_heads": {},
  "torchscript": false,
  "type_vocab_size": 2,
  "vocab_size": 30522
}



## Tokenizer
`BertTokenizer`クラスを使って、訓練済みのデータに基づく形態素解析を行うことができます。

In [5]:
from pytorch_transformers import BertTokenizer

text = "I have a pen. I have an apple."

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
words = tokenizer.tokenize(text)
print(words)

100%|██████████| 231508/231508 [00:00<00:00, 898313.52B/s]

['i', 'have', 'a', 'pen', '.', 'i', 'have', 'an', 'apple', '.']



