## テキストデータの前処理：表記揺れ、正規化

## 表記ゆれと正規化

同じものを表す文字列が複数あることを **表記ゆれ** という。

同じものを一意な文字列に揃えることを **正規化** （normalization） という。

自分で正規化のルールを書いてもいいが、便利なパッケージもある。



### `unicodedata` パッケージ

Pythonに標準で入っているunicodedataパッケージを使う方法

```python
import unicodedata
unicodedata.normalize("NFKC", "金額は￥１６８０です")
# -> '金額は¥1680です'
unicodedata.normalize("NFKC", "㈱")
# -> '(株)'
```

参考：[Unicode正規化 - Wikipedia](https://ja.wikipedia.org/wiki/Unicode%E6%AD%A3%E8%A6%8F%E5%8C%96)


### `neologdn` パッケージ

MeCabのために作られた正規化パッケージ。

細かなパラメータ調整は難しそう（この正規化の機能は無効化したい、とかはできなさそう）だが、手軽に高機能な強い正規化を掛けられる

[ikegami-yukino/neologdn: Japanese text normalizer for mecab-neologd](https://github.com/ikegami-yukino/neologdn)

```python
import neologdn
neologdn.normalize("ﾊﾝｶｸｶﾅ")
# => 'ハンカクカナ'
neologdn.normalize("全角記号！？＠＃")
# => '全角記号!?@#'
neologdn.normalize("全角記号例外「・」")
# => '全角記号例外「・」'
neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−")
# => 'いろんなハイフン-'
neologdn.normalize("　　　ＰＲＭＬ　　副　読　本　　　")
# => 'PRML副読本'
```

