In [1]:
import torch
from transformers import BertTokenizer

from models.modeling_bert import BertModel

In [2]:
SEED = 1111
torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

In [3]:
# BERTのトークナイザーとモデルをロード
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

In [4]:
# BERT固有の特殊トークン達
cls_token = tokenizer.cls_token
sep_token = tokenizer.sep_token
pad_token = tokenizer.pad_token
unk_token = tokenizer.unk_token
print(cls_token, sep_token, pad_token, unk_token)

# idによるトークン表記
cls_token_idx = tokenizer.cls_token_id
sep_token_idx = tokenizer.sep_token_id
pad_token_idx = tokenizer.pad_token_id
unk_token_idx = tokenizer.unk_token_id
print(cls_token_idx, sep_token_idx, pad_token_idx, unk_token_idx)

[CLS] [SEP] [PAD] [UNK]
101 102 0 100


In [5]:

# サンプルのテキスト
text = "I love natural language processing."

# テキストをトークン化してエンコード
input_ids = tokenizer.encode(text, return_tensors='pt')

print("input_ids : ", input_ids)
tokens = tokenizer.convert_ids_to_tokens(input_ids[0])
print("input_tokens : ", tokens)

# BERTモデルに入力し、隠れ状態と出力を取得
with torch.no_grad():
    outputs = model(input_ids)

# 隠れ状態を取得
hidden_states = outputs.last_hidden_state

# エンコードされたテキストの出力を取得
pooled_output = outputs.pooler_output

print("入力テキスト:", text)
print("トークン化された入力:", input_ids)
print("隠れ状態の形状:", hidden_states.shape)
print("出力の形状:", pooled_output.shape)

input_ids :  tensor([[ 101, 1045, 2293, 3019, 2653, 6364, 1012,  102]])
input_tokens :  ['[CLS]', 'i', 'love', 'natural', 'language', 'processing', '.', '[SEP]']
入力テキスト: I love natural language processing.
トークン化された入力: tensor([[ 101, 1045, 2293, 3019, 2653, 6364, 1012,  102]])
隠れ状態の形状: torch.Size([1, 8, 768])
出力の形状: torch.Size([1, 768])


In [6]:
import torch
from models.modeling_bert import BertModel

In [11]:
# 学習データのデータ構造定義

# torchtextのバージョンアップに伴い、legacyを付ける必要あり
from torchtext import dataset as data

# 入力データ
TEXT = data.Field(batch_first = True,
                  use_vocab = False,
                  # 上で定義したトークン化関数
                  tokenize = tokenize,
                  # 前処理として各トークンをIDに変換
                  preprocessing = tokenizer.convert_tokens_to_ids,
                  init_token = cls_token_idx,
                  eos_token = sep_token_idx,
                  pad_token = pad_token_idx)
 
# 正解ラベル
LABEL = data.LabelField()

ImportError: cannot import name 'dataset' from 'torchtext' (/usr/local/lib/python3.10/dist-packages/torchtext/__init__.py)