# Text Vectorization Sample

In [10]:
# Import libraries
import torch
from transformers import BertJapaneseTokenizer, BertModel

### Load tokenizer and BERT large model

In this case, we need an text-vectorization output with 1024 tensors. Therefore, I chose "bert-large-uncased". At the same time, we need to vectorize Japanese text and I chose "cl-tohoku/bert-large-japanese".

In [22]:
# 1. BERTのトークナイザーとモデルをロード
tokenizer = BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-large-japanese')
model = BertModel.from_pretrained('bert-large-uncased')


config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

### Tokenize text

output tensor type is PyTorch.

In [23]:
# 2. テキストのトークナイズ
input_text = "こんにちは、元気ですか？"  # 入力文
inputs = tokenizer(input_text, return_tensors="pt")  # PyTorchのテンソル形式でトークナイズ


### Vectorize the input text with the preloaded model

In [24]:
# 3. モデルを使ってエンコーディング（ベクトル化）
with torch.no_grad():  # 勾配計算をオフにする
    outputs = model(**inputs)


### Output the result

In [25]:
# 4. 出力結果
# outputs.last_hidden_state: トークンごとのベクトル表現
# outputs.pooler_output: 文全体のベクトル表現
last_hidden_state = outputs.last_hidden_state
pooler_output = outputs.pooler_output

# トークンごとのベクトル表現の形状を確認（例: 1つの文、10のトークン、1,024次元の埋め込みベクトル）
print("Last Hidden State Shape:", last_hidden_state.shape)

# 文全体のベクトル表現の形状を確認（例: 1つの文、1,024次元のベクトル）
print("Pooler Output Shape:", pooler_output.shape)

# 最終的な文のベクトルを出力
print("Sentence Vector:", pooler_output)

Last Hidden State Shape: torch.Size([1, 10, 1024])
Pooler Output Shape: torch.Size([1, 1024])
Sentence Vector: tensor([[-0.9879, -0.8875,  0.8720,  ...,  0.3260,  0.9127, -0.5225]])
