# データの前処理

## テキストデータの前処理


### 表記ゆれと正規化

同じものを表す文字列が複数あることを表記ゆれという。

同じものを一意な文字列に揃えることを正規化という。

自分で正規化のルールを書いてもいいが、便利なパッケージもある。

#### unicodedataパッケージ

Pythonに標準で入っているunicodedataパッケージを使う方法

```python
import unicodedata
unicodedata.normalize("NFKC", "金額は￥１６８０です")
# -> '金額は¥1680です'
unicodedata.normalize("NFKC", "㈱")
# -> '(株)'
```

参考：[Unicode正規化 - Wikipedia](https://ja.wikipedia.org/wiki/Unicode%E6%AD%A3%E8%A6%8F%E5%8C%96)

#### neologdnパッケージ

MeCabのために作られた正規化パッケージ

[ikegami-yukino/neologdn: Japanese text normalizer for mecab-neologd](https://github.com/ikegami-yukino/neologdn)

```python
import neologdn
neologdn.normalize("ﾊﾝｶｸｶﾅ")
# => 'ハンカクカナ'
neologdn.normalize("全角記号！？＠＃")
# => '全角記号!?@#'
neologdn.normalize("全角記号例外「・」")
# => '全角記号例外「・」'
neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−")
# => 'いろんなハイフン-'
neologdn.normalize("　　　ＰＲＭＬ　　副　読　本　　　")
# => 'PRML副読本'
```



### 形態素解析

MeCabが有名だが、MeCab本体を入れる必要があるし、本体の更新がしばらく止まっている。

Sudachiは本体の実装がまだあり、[SudachiPy](https://github.com/WorksApplications/SudachiPy)だけ入れればすぐ使えるので使いやすそう


```python
from sudachipy import tokenizer
from sudachipy import dictionary

tokenizer_obj = dictionary.Dictionary().create()

# Multi-granular Tokenization

mode = tokenizer.Tokenizer.SplitMode.C
[m.surface() for m in tokenizer_obj.tokenize("国家公務員", mode)]
# => ['国家公務員']

mode = tokenizer.Tokenizer.SplitMode.B
[m.surface() for m in tokenizer_obj.tokenize("国家公務員", mode)]
# => ['国家', '公務員']
```