# 形態素解析
形態素解析とは、自然言語を形態素にまで分割することです。  
形態素とは、言葉が意味を持つまとまりの単語の最小単位のことです。  
今回は、形態素解析を用いて単語に分割します。  

## Janome

形態素解析器 Janomeを使って形態素解析を行いましょう。  
Tokenizerをインポートします。  

pythonのパッケージやモジュールは以下のコマンドでインストール可能です。  例えばjanomeをインストールしたい時は、<br>

- `pip install janome`（端末からインストールする場合）
- `!pip install janome`（jupyter notebookでln[]の行からインストールする場合）

標準ライブラリ以外で必要なパッケージやモジュールをインストールする場合は、所望のパッケージやモジュールをjanomeのところを書き換えるとインストールでき、python　からインポートできるようになります。
pythonで使えるライブライ等は、こちらを参照するか、webで検索してみてください。<br>
- PyPI(Python Package Index) https://pypi.org/
Search の窓で　'janome'や're'などで検索すると，パッケージの名前、使い方などがわかります。英語ですが、現在のところ他言語利用者はこのページを頼りにしています。<br>
- パッケージのバージョンが上がると、これまで動作していたコードが動作しない場合もあります。その時は，バージョンを指定してインストールする，また，変更点を調べコードを変更するなどが必要になります。ちなみに，今回実習で利用しているjanomeのバージョンは3.8を使っています。

### 今回の実習では利用するパッケージ等は予めインストールしていますので、インストールは不要です。


## 1. janomeの動作確認

In [None]:
from janome.tokenizer import Tokenizer

t = Tokenizer()

s = "すもももももももものうち"

for token in t.tokenize(s):
    print(token)

形態素解析器は辞書を参照し、解析します。<br>
辞書には，　 ipadicやipadic-neologd(現代に合わせた辞書)があります。<br>
端末から使ったmecabの結果と比較してどうでしょうか。<br>
mecabもmecab-ipadic, mecab-ipadic-neologdの辞書を利用します。<br>
辞書が同じであれば同じ結果を得られます。<br>
今回はどちらを使っているのかは，`アラレちゃんは怪力少女です。`を実行してみてください。<br>
- アラレ
- ちゃん

または，
- アラレちゃん

前者の場合はipadic, 後者はipadic-neologd。辞書は辞書のダウンロードと設定で変更可能です。<br>

## 2. 分かち書き
Janomeを使って分かち書きを行います。  
分かち書きとは、文章を単語ごとに分割することです。  
`tokenize`の際に引数を`wakati=True`にすることで、各単語をリストに格納できます。

In [None]:
from janome.tokenizer import Tokenizer

t = Tokenizer()

s = "すもももももももものうち"

word_list = t.tokenize(s, wakati=True)
print(word_list)

## 3. コーパスを分かち書き
前回前処理を行った「我輩は猫である」に対して、分かち書きを行います。  (注意：wagahai_list.pickleが同じディレクトリにあること)

In [None]:
from janome.tokenizer import Tokenizer
import pickle

t = Tokenizer()

with open('wagahai_list.pickle', mode='rb') as f:#pickleにしたファイルを読み込んでリストにする．
    wagahai_list = pickle.load(f)

for sentence in wagahai_list:
    print(t.tokenize(sentence, wakati=True))

collectionsを使うことで、各単語の出現回数をカウントすることができます。

In [None]:
import collections

t = Tokenizer()

words = []
for sentence in wagahai_list:
    words += t.tokenize(sentence, wakati=True)# リストwordsに全ての単語を入れる

c = collections.Counter(words)# 各単語の出現回数をカウント
print(c)

## 課題3:
課題2で前処理(ルビや不要な記号を除去)した.pickleを読み込んで、上記の方法で各単語数をカウントしてみましょう。  
「コーパスを分かち書き」で単語の分割を確認してから、「単語出現回数をカウント」すると結果がみやすくなるでしょう。