<a href="https://colab.research.google.com/github/snufkin92/nlp_bert/blob/master/section_02/02_pytorch_transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyTorch-Transformers
BERTの実装へ向けて、自然言語処理ライブラリPyTorch-Transformersを学びます。  
PyTorch-Transformersは以下の基本クラスを中心に構成されます。
* BertModel
* BertConfig
* BertTokenizer

## ライブラリのインストール
PyTorch-Transformers、および必要なライブラリのインストールを行います。

In [1]:
# foliumインストール字、バージョン不整合によりdatascience  0.17.6 のまま
!pip install folium==0.2.1
!pip install urllib3==1.25.11
!pip install pytorch-transformers==1.2.0

Collecting folium==0.2.1
  Downloading folium-0.2.1.tar.gz (69 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.0/70.0 kB[0m [31m1.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: folium
  Building wheel for folium (setup.py) ... [?25l[?25hdone
  Created wheel for folium: filename=folium-0.2.1-py3-none-any.whl size=79794 sha256=21b1b72cef55ff60c7ea2d987c417249add112af37b000c750d2e00d0b4e570f
  Stored in directory: /root/.cache/pip/wheels/00/0c/07/d7792a5444d5bb074361ac27da53cee9d5cce59a07fe9da5dd
Successfully built folium
Installing collected packages: folium
  Attempting uninstall: folium
    Found existing installation: folium 0.14.0
    Uninstalling folium-0.14.0:
      Successfully uninstalled folium-0.14.0
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency co

## PyTorch-Transformersのモデル
PyTorch-Transformersには、様々な訓練済みのモデルを扱うクラスが用意されています。  
以下のコードでは、文章の一部をMaskする問題、`BertForMaskedLM`のモデルを設定します。  
https://huggingface.co/transformers/model_doc/bert.html#bertformaskedlm  
  
BertForMaskedLMはベースとなるモデル、`PreTrainedModel`を継承しています。  
https://huggingface.co/transformers/main_classes/model.html#transformers.PreTrainedModel  
  
また、`BertForMaskedLM`は`nn.Module `クラスを継承しているので、通常のPyTorchのモデルとして使用することができます。

In [5]:
import torch
from pytorch_transformers import BertForMaskedLM

# 文章の一部をマスクして、その箇所の単語を予想する事前学習済のモデルをインスタンス化
# bert-base-uncased の base：bertの比較的小さいサイズのモデル、uncased：全て小文字で訓練したモデル
# awsのs3にモデルが保存されているらしい
msk_model = BertForMaskedLM.from_pretrained('bert-base-uncased')  # 訓練済みパラメータの読み込み

# Bertレイヤーは12
print(msk_model)

100%|██████████| 433/433 [00:00<00:00, 182783.18B/s]
100%|██████████| 440473133/440473133 [00:09<00:00, 44197388.07B/s]


BertForMaskedLM(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_a

最終的に、単語の数である30522クラスに分類する問題であることが分かります。  

同様に、文章を分類する問題、`BertForSequenceClassification`のモデルを設定します。  
https://huggingface.co/transformers/model_doc/bert.**html**#bertforsequenceclassification  

In [6]:
from pytorch_transformers import BertForSequenceClassification

# 文章を分類する事前学習モデル
sc_model = BertForSequenceClassification.from_pretrained('bert-base-uncased')  # 訓練済みパラメータの読み込み
print(sc_model)

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12,

`out_features=2`なので、文章を2クラスに分類する問題であることが分かります。



> (pooler): BertPooler(
      (dense): Linear(in_features=768, out_features=768, bias=True)
      (activation): Tanh()
    )  
  
まではBertForMaskedLMと同じ(BERTの特徴）

> (dropout): Dropout(p=0.1, inplace=False)
  (classifier): Linear(in_features=768, out_features=2, bias=True)

の部分が固有の問題を解いている箇所（今回は2値分類）



# BERTの設定
`BertConfig`クラスを使って、モデルの設定を行うことができます。  

In [7]:
from pytorch_transformers import BertConfig

config = BertConfig.from_pretrained("bert-base-uncased")
print(config)

{
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "finetuning_task": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "num_labels": 2,
  "output_attentions": false,
  "output_hidden_states": false,
  "pad_token_id": 0,
  "pruned_heads": {},
  "torchscript": false,
  "type_vocab_size": 2,
  "vocab_size": 30522
}



## Tokenizer
`BertTokenizer`クラスを使って、訓練済みのデータに基づく形態素解析を行うことができます。

In [8]:
from pytorch_transformers import BertTokenizer

text = "I have a pen. I have an apple."

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
words = tokenizer.tokenize(text)
print(words)

100%|██████████| 231508/231508 [00:00<00:00, 1247132.58B/s]


['i', 'have', 'a', 'pen', '.', 'i', 'have', 'an', 'apple', '.']
