# 自然言語処理用ライブラリ

- unicodedata (Python標準ライブラリ)

In [1]:
text = "私の名前は寺田学です。１０年以上Twitterに使って情報発信をしています。"

In [2]:
from unicodedata import normalize

In [3]:
normalized_text = normalize("NFKD", text)
normalized_text

'私の名前は寺田学です。10年以上Twitterに使って情報発信をしています。'

In [4]:
normalized_text.lower()

'私の名前は寺田学です。10年以上twitterに使って情報発信をしています。'

In [5]:
from pprint import pprint
from difflib import Differ

In [6]:
d = Differ()

In [7]:
pprint(list(d.compare(text, normalized_text)))

['  私',
 '  の',
 '  名',
 '  前',
 '  は',
 '  寺',
 '  田',
 '  学',
 '- で',
 '+ て',
 '+ ゙',
 '  す',
 '  。',
 '- １',
 '- ０',
 '+ 1',
 '+ 0',
 '  年',
 '  以',
 '  上',
 '  T',
 '  w',
 '  i',
 '  t',
 '  t',
 '  e',
 '  r',
 '  に',
 '  使',
 '  っ',
 '  て',
 '  情',
 '  報',
 '  発',
 '  信',
 '  を',
 '  し',
 '  て',
 '  い',
 '  ま',
 '  す',
 '  。']


# 形態素解析エンジンの種類

- MeCab (Pythonバインディングがある)
- Janome (Pure Python)
- Ginza (spaCyベースの日本語用)
- Kuromoji (Java)
- NLTK (英語には対応)

# Janomeの利用

この授業では、設定が簡単なJanomeを使います。

https://mocobeta.github.io/janome/

公式ドキュメントより

```
Janome (蛇の目; ◉) は，Pure Python で書かれた，辞書内包の形態素解析器です。

依存ライブラリなしで簡単にインストールでき，アプリケーションに組み込みやすいシンプルな API を備える形態素解析ライブラリを目指しています。

内包辞書として mecab-ipadic-2.7.0-20070801 を使っています。なお，v0.3.8+ では新元号「令和」がシステム辞書に追加されています。
```

# インストール・設定

Jupyter上で以下を実行するとインストールされる

```
!pip install janome
```


または、ターミナルから以下のコマンドを実行

```
(venv) > pip install janome
```

設定不要で、簡単に使える

In [8]:
# !pip install janome

試しに使ってみる

In [9]:
from janome.tokenizer import Tokenizer

In [10]:
t = Tokenizer()
for token in t.tokenize(text):
    print(token)

私	名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
名前	名詞,一般,*,*,*,*,名前,ナマエ,ナマエ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
寺田	名詞,固有名詞,人名,姓,*,*,寺田,テラダ,テラダ
学	名詞,固有名詞,人名,名,*,*,学,マナブ,マナブ
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。	記号,句点,*,*,*,*,。,。,。
１	名詞,数,*,*,*,*,１,イチ,イチ
０	名詞,数,*,*,*,*,０,ゼロ,ゼロ
年	名詞,接尾,助数詞,*,*,*,年,ネン,ネン
以上	名詞,非自立,副詞可能,*,*,*,以上,イジョウ,イジョー
Twitter	名詞,一般,*,*,*,*,Twitter,*,*
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
使っ	動詞,自立,*,*,五段・ワ行促音便,連用タ接続,使う,ツカッ,ツカッ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
情報	名詞,一般,*,*,*,*,情報,ジョウホウ,ジョーホー
発信	名詞,サ変接続,*,*,*,*,発信,ハッシン,ハッシン
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
い	動詞,非自立,*,*,一段,連用形,いる,イ,イ
ます	助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。	記号,句点,*,*,*,*,。,。,。


In [11]:
t = Tokenizer()
list(t.tokenize(text, wakati=True))

['私',
 'の',
 '名前',
 'は',
 '寺田',
 '学',
 'です',
 '。',
 '１',
 '０',
 '年',
 '以上',
 'Twitter',
 'に',
 '使っ',
 'て',
 '情報',
 '発信',
 'を',
 'し',
 'て',
 'い',
 'ます',
 '。']