# 日本語の解析(形態素解析)について

## 形態素解析について  
形態素解析(Morphological Analysis)とは、自然言語の文章を、意味を持つ最小の単位である「形態素」に分割し、品詞を判別する作業。系サイト解析は、機械翻訳やかな漢字変換、また、テキストマイニングなど、様々な分野で利用されている。

## 代表的な形態素解析のライブラリ

### 利用実績の多い定番ライブラリ「MeCab」  
MeCabはCRF(Conditional Random Fields)を用いたパラメータ推定による形態素解析エンジンである。判別精度に加えて、実行速度が速いことも特徴である。

In [1]:
import MeCab

In [11]:
#mecab = MeCab.Tagger("-Ochasen") # MeCabオブジェクトを生成
mecab = MeCab.Tagger("") # MeCabオブジェクトを生成
malist = mecab.parse("庭には二羽鶏がいる。") # 形態素解析を行う
print(malist)

庭	ニワ	ニワ	庭	名詞-普通名詞-一般			0
に	ニ	ニ	に	助詞-格助詞			
は	ワ	ハ	は	助詞-係助詞			
二	フタ	フタ	二	名詞-数詞			2
羽	ワ	ワ	羽	接尾辞-名詞的-助数詞			
鶏	ニワトリ	ニワトリ	鶏	名詞-普通名詞-一般			0
が	ガ	ガ	が	助詞-格助詞			
いる	イル	イル	居る	動詞-非自立可能	上一段-ア行	終止形-一般	0
。			。	補助記号-句点			
EOS



### インストールがとにかく簡単なピュアPython解析器「Janome」

In [13]:
from janome.tokenizer import Tokenizer

In [15]:
t = Tokenizer()
malist = t.tokenize("庭には二羽鶏がいる。")
for n in malist:
    print(n)

庭	名詞,一般,*,*,*,*,庭,ニワ,ニワ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
二	名詞,数,*,*,*,*,二,ニ,ニ
羽	名詞,接尾,助数詞,*,*,*,羽,ワ,ワ
鶏	名詞,一般,*,*,*,*,鶏,ニワトリ,ニワトリ
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
いる	動詞,自立,*,*,一段,基本形,いる,イル,イル
。	記号,句点,*,*,*,*,。,。,。


## 出現頻度の解析

In [16]:
from janome.tokenizer import Tokenizer
import zipfile
import os.path, urllib.request as req

In [17]:
# 銀河鉄道の夜のzipファイルをダウンロード
url = "http://www.aozora.gr.jp/cards/000081/files/456_ruby_145.zip"
local = "456_ruby_145.zip"
if not os.path.exists(local):
    print("zipファイルをダウンロード")
    req.urlretrieve(url, local)

zipファイルをダウンロード


In [18]:
# zipファイル内のテキストファイルを読む
zf = zipfile.ZipFile(local, 'r') # zipファイルを読む
fp = zf.open('gingatetsudono_yoru.txt', 'r') # アーカイブ内のテキストを読む
bindata = fp.read()
txt = bindata.decode('shift_jis') # テキストがShift_JISなのでデコード

In [21]:
# 形態素解析オブジェクトの生成
t = Tokenizer()

In [24]:
# テキストを一行ずつ処理
word_dic = {}
lines = txt.split("\r\n")
for line in lines:
    malist = t.tokenize(line)
    for w in malist:
        word = w.surface
        ps = w.part_of_speech # 品詞
        if ps.find('名詞') < 0:
            continue # 名詞だけカウント
        if not word in word_dic:
            word_dic[word] = 0
        word_dic[word] += 1

In [27]:
# よく使われる単語を表示
keys = sorted(word_dic.items(), key=lambda x:x[1], reverse=True)
for word, cnt in keys[:50]:
    print("{0}({1})".format(word, cnt), end="")

よう(209)の(206)ジョバンニ(190)人(102)カムパネルラ(101)ん(101)方(66)中(65)ぼく(59)それ(58)たち(56)みんな(54)二(53)一(47)何(46)ほんとう(45)鳥(45)どこ(43)こと(39)窓(39)汽車(39)前(38)そう(38)いま(38)眼(37)川(35)とき(35)僕(33)もの(32)たくさん(30)水(29)お(29)ら(29)青年(28)銀河(27)こっち(27)さっき(27)上(26)そこ(26)ろ(26)風(26)星(25)顔(25)向う(25)女の子(25)野原(24)お父さん(23)天の川(23)声(22)い(21)