In [None]:
# 文字トークン化
text = "Tokenizing text is a core task of NLP."
tokenized_text = list(text)
print(tokenized_text) # スペース含めた1文字ずつのリスト

In [None]:
# char2int 辞書作成
token2idx = {ch: idx for idx, ch in enumerate(sorted(set(tokenized_text)))} # ASCII 順に各文字にid(数値)をあてる
print(token2idx)

In [None]:
# トークン化
input_ids = [token2idx[token] for token in tokenized_text]
print(input_ids) # 入力ベクトル

In [None]:
# one-hot ベクトル化例
import pandas as pd

categorical_df = pd.DataFrame({"Name": ["島村卯月", "渋谷凛", "本田未央"], "Label ID": [0, 1, 2]}) # 名義尺度として扱いたい
categorical_df
pd.get_dummies(categorical_df["Name"]) # 各行を one-hot ベクトル化

In [None]:
# one-hot エンコーディング
import torch
import torch.nn.functional as F

one_hot_encodings = F.one_hot(torch.tensor(input_ids), num_classes=len(token2idx))
one_hot_encodings.shape

In [None]:
# T(1文字目) のベクトル
print(f"Token: {tokenized_text[0]}")
print(f"Tensor index: {input_ids[0]}")
print(f"One-hot: {one_hot_encodings[0]}")

In [None]:
# 単語トークン化
tokenized_text = text.split()
print(tokenized_text)

In [None]:
# トークナイザロード
from transformers import AutoTokenizer

model_ckpt = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_ckpt)

In [None]:
# DistilBERT トークナイザ
from transformers import DistilBertTokenizer

tokenizer = DistilBertTokenizer.from_pretrained(model_ckpt)

In [None]:
# エンコード
encoded_text = tokenizer(text)
print(encoded_text)

In [None]:
# トークン内容
tokens = tokenizer.convert_ids_to_tokens(encoded_text.input_ids)
print(tokens)

In [None]:
# トークンの文字列化
print(tokenizer.convert_tokens_to_string(tokens))

In [None]:
# トークナイザーの情報
print(tokenizer.vocab_size)
print(tokenizer.model_max_length)
print(tokenizer.model_input_names)

In [None]:
# トークン化してエンコードする関数
def tokenize(batch):
  return tokenizer(batch["text"], padding=True, truncation=True)

In [None]:
# データセットのバッチ処理
## データセット
from datasets import load_dataset
emotions = load_dataset("dair-ai/emotion")

## 2行分エンコード
print(tokenize(emotions["train"][:2])) # input_ids、attention_mask が2つのリストが入ったリストになり、片方はパディングされている

In [None]:
# 全部エンコード
emotions_encoded = emotions.map(tokenize, batched=True, batch_size=None)

## 列が追加される
print(emotions_encoded["train"].column_names)