# Tokenize
テキストをトークン化して、Transformerで処理可能な形式にする。

## 文字トークン化
最も単純なトークン化手法の一つで、各文字をモデルに与える。  
スペルミスや珍しい単語の処理に役立つ手法だが、デメリットとしてテキスト構造を無視してしまうことと、膨大な計算量、メモリ、データが必要になる等が挙げられる。

In [3]:
text = "Tokenizing text is a core task of NLP."
tokenized_text = list(text)
tokenized_text

['T',
 'o',
 'k',
 'e',
 'n',
 'i',
 'z',
 'i',
 'n',
 'g',
 ' ',
 't',
 'e',
 'x',
 't',
 ' ',
 'i',
 's',
 ' ',
 'a',
 ' ',
 'c',
 'o',
 'r',
 'e',
 ' ',
 't',
 'a',
 's',
 'k',
 ' ',
 'o',
 'f',
 ' ',
 'N',
 'L',
 'P',
 '.']

In [4]:
token2idx = {ch: idx for idx, ch in enumerate(sorted(set(tokenized_text)))}
token2idx

{' ': 0,
 '.': 1,
 'L': 2,
 'N': 3,
 'P': 4,
 'T': 5,
 'a': 6,
 'c': 7,
 'e': 8,
 'f': 9,
 'g': 10,
 'i': 11,
 'k': 12,
 'n': 13,
 'o': 14,
 'r': 15,
 's': 16,
 't': 17,
 'x': 18,
 'z': 19}

In [6]:
input_ids = [token2idx[token] for token in tokenized_text]
input_ids

[5,
 14,
 12,
 8,
 13,
 11,
 19,
 11,
 13,
 10,
 0,
 17,
 8,
 18,
 17,
 0,
 11,
 16,
 0,
 6,
 0,
 7,
 14,
 15,
 8,
 0,
 17,
 6,
 16,
 12,
 0,
 14,
 9,
 0,
 3,
 2,
 4,
 1]

In [7]:
# 上記のままではただのid列で、各トークンのかけ合わせをベクトルとして表現できない
# ∴one-hotベクトルに変換する必要がある。
"""
トークン: [c,b,a]
ただのid: [2,1,0]
one-hotベクトル: 
[
    [0, 0, 1], # 2 = c
    [0, 1, 0], # 1 = b
    [1, 0, 0]  # 0 = a
]
"""

import torch
import torch.nn.functional as F

input_ids = torch.tensor(input_ids)
one_hot_encodings = F.one_hot(input_ids, num_classes=len(token2idx)) # num_classesを設定しないとone-hotベクトルが語彙の大きさよりも短くなってしまう=不揃いなテンソルができるため、必ず設定する。
one_hot_encodings.shape

torch.Size([38, 20])

In [8]:
print(f"Token: {tokenized_text[0]}")
print(f"Tensor index: {input_ids[0]}")
print(f"One-hot: {one_hot_encodings[0]}")

Token: T
Tensor index: 5
One-hot: tensor([0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])
