### 大規模言語モデルの基礎

#### GPTをTransformersで使う

In [1]:
import os
os.environ['HF_HOME'] = "/workspaces/LLM/huggingface_cache"
cache_dir = "/workspaces/LLM/huggingface_cache"

In [2]:
from transformers import pipeline

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
from transformers import file_utils

# 現在のキャッシュディレクトリを取得
cache_dir = file_utils.default_cache_path
print(f"Current HuggingFace cache directory: {cache_dir}")

Current HuggingFace cache directory: /workspaces/LLM/huggingface_cache/transformers


In [8]:
# 後続するテキストを予測するpipelineを作成
generator = pipeline(
    "text-generation", model="abeja/gpt2-large-japanese",
    cache_dir=cache_dir
)
# "日本で一番高い山は"に続くテキストを生成
outputs = generator("日本の総理大臣の名前は")
print(outputs[0]["generated_text"])

Downloading config.json: 100%|██████████| 974/974 [00:00<00:00, 7.35MB/s]
Downloading pytorch_model.bin: 100%|██████████| 2.83G/2.83G [02:41<00:00, 18.9MB/s]
Downloading tokenizer_config.json: 100%|██████████| 282/282 [00:00<00:00, 2.04MB/s]
Downloading spiece.model: 100%|██████████| 765k/765k [00:00<00:00, 15.0MB/s]
Downloading special_tokens_map.json: 100%|██████████| 153/153 [00:00<00:00, 1.16MB/s]
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


日本の総理大臣の名前はすべてカタカナになっている。 カタカナをローマ字に直して読み替えれば「ザ」の発音に変わる。 英語でも同じ。 本来、漢字表記に「ザ」の字が使われているため、この名に統一されている。 


In [5]:
### ファインチューニング
### BERTモデル（エンコーダーモデル）
# [MASK]部分の予測
import pandas as pd

# マスクされたトークンを予測するパイプライン
fill_mask = pipeline(
    "fill-mask", model="tohoku-nlp/bert-base-japanese-v3"
)
masked_text = "日本の首都は[MASK]である"
outputs = fill_mask(masked_text)
# 上位3件をテーブル表示
display(pd.DataFrame(outputs[:3]))

Downloading config.json: 100%|██████████| 472/472 [00:00<00:00, 3.65MB/s]
Downloading pytorch_model.bin: 100%|██████████| 427M/427M [00:29<00:00, 15.0MB/s]   
Some weights of the model checkpoint at tohoku-nlp/bert-base-japanese-v3 were not used when initializing BertForMaskedLM: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Downloading tokenizer_config.json: 100%|██████████| 251/251 [00:00<00:00, 1.92MB/s]
Downloading vocab.txt: 100%|██████████| 226k/226k [00:00<00:00, 711kB/s] 


Unnamed: 0,score,token,token_str,sequence
0,0.88417,12569,東 京,日本 の 首都 は 東京 で ある
1,0.02482,12759,大 阪,日本 の 首都 は 大阪 で ある
2,0.020864,13017,京 都,日本 の 首都 は 京都 で ある


In [4]:
masked_text = "今日の映画は刺激的で面白かった。この映画は[MASK]。"
outputs = fill_mask(masked_text)
display(pd.DataFrame(outputs[:3]))

Unnamed: 0,score,token,token_str,sequence
0,0.683933,23845,素 晴 ら し い,今日 の 映画 は 刺激 的 で 面白かっ た 。 この 映画 は 素晴らしい 。
1,0.101235,24683,面 白 い,今日 の 映画 は 刺激 的 で 面白かっ た 。 この 映画 は 面白い 。
2,0.048003,26840,楽 し い,今日 の 映画 は 刺激 的 で 面白かっ た 。 この 映画 は 楽しい 。


In [4]:
### T5モデル（エンコーダー・デコーダーモデル）
# text-to-textで生成するpipelineを作成
t2t_generator = pipeline(
    "text2text-generation", model="retrieva-jp/t5-large-long",
)
# マスクされたスパンを予測
masked_text = "江戸時代を開いたのは、<extra_id_0>である。"
outputs = t2t_generator(masked_text, eos_token_id=32098)
print(outputs[0]["generated_text"])

Downloading tokenizer_config.json: 100%|██████████| 2.23k/2.23k [00:00<00:00, 15.6MB/s]
Downloading spiece.model: 100%|██████████| 779k/779k [00:00<00:00, 1.10MB/s]
Downloading special_tokens_map.json: 100%|██████████| 2.15k/2.15k [00:00<00:00, 11.6MB/s]


徳川家康


In [3]:
# トークンIDを表示
t2t_generator.tokenizer.convert_tokens_to_ids("<extra_id_1>")

32098

In [4]:
masked_text = "日本で通貨を発行しているのは、<extra_id_0>である"
outputs = t2t_generator(masked_text, eos_token_id=32098)
print(outputs[0]["generated_text"])

日本銀行


In [5]:
# "日本銀行"はモデルの語彙に存在しない
"日本銀行" in t2t_generator.tokenizer.vocab

False

### Tokenizer

In [6]:
### バイト対符号化
# 単語とその頻度
word_freqs = {
    "たのしい": 6,
    "たのしさ": 2,
    "うつくしい": 4,
    "うつくしさ": 1,
}
# 語彙を文章で初期化
vocab = sorted(set([char for word in word_freqs for char in word]))
# 単語とその分割状態
splits = {word: [char for char in word] for word in word_freqs}

In [10]:
# サブワードの組を計算する関数
from collections import Counter

def compute_most_frequent_pair(
    splits: dict[str, list[str]]
) -> tuple[str, str]:
    """
    最も頻度の高い隣接するサブワードの組を計算する
    """
    pair_freqs = Counter() # サブワードの組のカウンター
    for word, freq in word_freqs.items(): # すべての単語を処理
        split = splits[word] # 現在の単語の分割状況を取得
        # すべての隣接するサブワードの組を処理
        for i in range(len(split) - 1):
            pair = (split[i], split[i + 1])
            # サブワードの組の頻度に単語の頻度を加算
            pair_freqs[pair] += freq
    # カウンタから最も頻度の高いサブワードの組を取得
    pair, _ = pair_freqs.most_common(1)[0]
    return pair

def merge_pair(
    target_pair: tuple[str, str], splits: dict[str, list[str]]
) -> dict[str, list[str]]:
    """
    サブワードの組を結合する
    """
    l_str, r_str = target_pair
    for word in word_freqs: # すべての単語を処理
        split = splits[word] # 現在の単語の分割状況を取得
        i = 0
        while i < len(split) - 1:
            # サブワードの組が結合対象と一致したら結合
            if split[i] == l_str and split[i + 1] == r_str:
                split = split[:i] + [l_str + r_str] + split[i + 2 :]
            i += 1
        splits[word] = split # 現在の結合状態を更新
    return splits

In [12]:
for step in range(9):
    # 最も頻度の高い隣接するサブワードの組を計算
    target_pair = compute_most_frequent_pair(splits)
    # サブワードの組を結合
    splits = merge_pair(target_pair, splits)
    # 語彙にサブワードの組を追加
    vocab.append(target_pair)

In [13]:
print(vocab)

['い', 'う', 'く', 'さ', 'し', 'た', 'つ', 'の', ('し', 'い'), ('た', 'の'), ('たの', 'しい'), ('う', 'つ'), ('うつ', 'く'), ('うつく', 'しい'), ('し', 'さ'), ('たの', 'しさ'), ('うつく', 'しさ')]
