# 自然言語処理

## トークン化

**トークン化**（tokenize）とは、文を適当な単位に分割すること。分割された文の構成要素のことを**トークン**（token）と呼ぶ。

自然言語処理においては、文章を計算可能な形状にするためにトークンへと分割し、対応するidを割り振っていく。

ニューラルネットワークなどのアルゴリズムで作られるモデルにとって訓練時に見かけなかったトークンは**未知語**と呼ばれ、予測時には無視するか未知語を表す特定のidにマッピングされ、元の文字列の情報を損失してしまう。そのため、トークン化に際しては未知語を可能な限り少なくすることが望ましい。

トークン化の方法は主に

1. 単語分割（単語単位に分割する）
2. サブワード分割（単語をさらにサブワード単位に分割する）
3. 文字分割（文字単位に分割する）

の3種類の分割方法がある。


### 単語分割

英語ならスペースで区切ればよい

日本語の場合、形態素という単位に分割する形態素解析という技術を使う。


### サブワード分割

例えば

```python
["東京タワー", "大阪大学", "東京大学"]
```

といった語彙があるとき、サブワードの語彙は次のようなものが考えられる。

```python
["東京", "大阪", "##タワー", "##大学"]
```

地名と「##タワー」「##大学」を組み合わせれば元の語彙を表現できる。


OpenAIの[Tokenizer](https://platform.openai.com/tokenizer)を使うとTokenが可視化されてイメージが付きやすい（ただし英語のみ）

## 言語モデル

文章が生成される確率を推定したい。もっともらしい（確率的にありえる）文章を生成したい

$$
P(昨日は雨が降りました) > P(昨日は飴が降りました)
$$

文章をトークンに置き換えて考えると、文章の確率ではなくトークンの同時確率として扱うことができる

$$
P(昨日, は, 雨, が, 降り, ました) 
$$

記号にすると、ある文章$S$をトークン化したのを$(w_1, w_2, \cdots, w_n)$とすると、

$$
P(S)=P(w_1, w_2, \cdots, w_n)
$$

を求めたいということになる。これは条件付き確率の積として表せる

$$
\begin{align}
P(w_1, w_2, \cdots, w_n)
&= P(w_1) \times P(w_2|w_1) \times P(w_3|w_1, w_2) \times \cdots\\
&= \prod_{i=1}^n p(w_i|\boldsymbol{c}_i)
\end{align}
$$

ここで$\boldsymbol{c}_i$は$w_i$より前のトークン列$\boldsymbol{c}_i=(w_1,w_2,\cdots,w_n)$で、**文脈**（context）と呼ばれる

