# MeCabの使用法

MeCab の文字コードはデフォルトで EUC-JP だが、Python から呼び出す利便性を考え、UTF-8 に統一しておくとよい

インストール方法

$ brew install mecab
$ brew install mecab-ipadic

mecab-ipadic-NEologdをインストールします。
これはWeb上の新語をデフォルトの辞書に追加したものです。
必須ではありませんが便利なので入れておきます。

$ brew install git curl xz
$ git clone --depth 1 git@github.com:neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n

次にpipでmecab-python3をインストールします。
$ pip install mecab-python3

MeCab.Taggerで指定するパスは
$ echo `mecab-config --dicdir`"/mecab-ipadic-neologd"
で調べられます。

mc.Tagger()で、オプションがデフォルトのケース

In [1]:
import MeCab
sentence ="毎日、私は学校に行きます。明日は、風邪で休みます。"
mc=MeCab
tagger= mc.Tagger()
print (tagger.parse(sentence))

毎日	名詞,副詞可能,*,*,*,*,毎日,マイニチ,マイニチ
、	記号,読点,*,*,*,*,、,、,、
私	名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
学校	名詞,一般,*,*,*,*,学校,ガッコウ,ガッコー
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
行き	動詞,自立,*,*,五段・カ行促音便,連用形,行く,イキ,イキ
ます	助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。	記号,句点,*,*,*,*,。,。,。
明日	名詞,副詞可能,*,*,*,*,明日,アシタ,アシタ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
、	記号,読点,*,*,*,*,、,、,、
風邪	名詞,一般,*,*,*,*,風邪,カゼ,カゼ
で	助詞,格助詞,一般,*,*,*,で,デ,デ
休み	動詞,自立,*,*,五段・マ行,連用形,休む,ヤスミ,ヤスミ
ます	助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。	記号,句点,*,*,*,*,。,。,。
EOS



ここでは、コンストラクタに -Ochasen オプションを与えることにより、ChaSen 形式で出力している。 MeCab.Tagger#parse() で、入力文を解析して出力を文字列として受け取ることができる

In [2]:
import MeCab
mecab = MeCab.Tagger()
sent ="気温が上がるとどうしても比例するのが電力使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。"

print (mecab.parse(sent))

気温	名詞,一般,*,*,*,*,気温,キオン,キオン
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
上がる	動詞,自立,*,*,五段・ラ行,基本形,上がる,アガル,アガル
と	助詞,接続助詞,*,*,*,*,と,ト,ト
どうしても	副詞,一般,*,*,*,*,どうしても,ドウシテモ,ドーシテモ
比例	名詞,サ変接続,*,*,*,*,比例,ヒレイ,ヒレイ
する	動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
の	名詞,非自立,一般,*,*,*,の,ノ,ノ
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
電力	名詞,一般,*,*,*,*,電力,デンリョク,デンリョク
使用	名詞,サ変接続,*,*,*,*,使用,シヨウ,シヨー
量	名詞,接尾,一般,*,*,*,量,リョウ,リョウ
だ	助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ
。	記号,句点,*,*,*,*,。,。,。
９	名詞,数,*,*,*,*,９,キュウ,キュー
日	名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
、	記号,読点,*,*,*,*,、,、,、
全国	名詞,一般,*,*,*,*,全国,ゼンコク,ゼンコク
の	助詞,連体化,*,*,*,*,の,ノ,ノ
電力	名詞,一般,*,*,*,*,電力,デンリョク,デンリョク
会社	名詞,一般,*,*,*,*,会社,カイシャ,カイシャ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
８	名詞,数,*,*,*,*,８,ハチ,ハチ
社	名詞,接尾,助数詞,*,*,*,社,シャ,シャ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
管内	名詞,一般,*,*,*,*,管内,カンナイ,カンナイ
で	助詞,格助詞,一般,*,*,*,で,デ,デ
、	記号,読点,*,*,*,*,、,、,、
いずれ	名詞,代名詞,一般,*,*,*,いずれ,イズレ,イズレ
も	助詞,係助詞,*,*,*,*,も,モ,モ
最大	名詞,一般,*,*,*,*,最大,サイダイ,サイダイ
電力	名詞,一般,*,*,*,*,電力,デンリョク,デンリョク
使用	名詞,サ変接続,*,*,*,*,使用,シヨウ,シヨー
量	名詞,接尾,一般,*,*,*,量,リョウ,リョウ
が	助詞,格助詞,一般,*,*,

In [3]:
import MeCab
mecab = MeCab.Tagger('-Ochasen')
sentence ="気温が上がるとどうしても比例するのが電力使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。"

node = mecab.parseToNode(sentence)
node = node.next

while node:
        print (node.surface, node.feature)
        node = node.next


気温が上がるとどうしても比例するのが電力使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 名詞,一般,*,*,*,*,気温,キオン,キオン
 助詞,格助詞,一般,*,*,*,が,ガ,ガ
 動詞,自立,*,*,五段・ラ行,基本形,上がる,アガル,アガル
とどうしても比例するのが電力使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 助詞,接続助詞,*,*,*,*,と,ト,ト
どうしても比例するのが電力使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 副詞,一般,*,*,*,*,どうしても,ドウシテモ,ドーシテモ
比例するのが電力使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 名詞,サ変接続,*,*,*,*,比例,ヒレイ,ヒレイ
するのが電力使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
のが電力使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 名詞,非自立,一般,*,*,*,の,ノ,ノ
が電力使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 助詞,格助詞,一般,*,*,*,が,ガ,ガ
電力使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 名詞,一般,*,*,*,*,電力,デンリョク,デンリョク
使用量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 名詞,サ変接続,*,*,*,*,使用,シヨウ,シヨー
量だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 名詞,接尾,一般,*,*,*,量,リョウ,リョウ
だ。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ
。９日は、全国の電力会社のうち８社の管内で、いずれも最大電力使用量が今夏最高を記録した。 記号,句点,*,*,

In [4]:

import MeCab
mecab = MeCab.Tagger('-Owakati')
sent ="毎日、私は学校に行きます。明日は、風邪で休みます。"
print (mecab.parse(sent))


毎日 、 私 は 学校 に 行き ます 。 明日 は 、 風邪 で 休み ます 。 



In [5]:
import MeCab

sentence ="毎日、私は学校に行きます。明日は、風邪で休みます。"
mecab = MeCab.Tagger()
mecab.parseToNode('')
node = mecab.parseToNode(sentence)
node = node.next
while node:
    print (node.surface, node.feature)
    node = node.next

毎日、私は学校に行きます。明日は、風邪で休みます。 名詞,副詞可能,*,*,*,*,毎日,マイニチ,マイニチ
、私は学校に行きます。明日は、風邪で休みます。 記号,読点,*,*,*,*,、,、,、
私は学校に行きます。明日は、風邪で休みます。 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は学校に行きます。明日は、風邪で休みます。 助詞,係助詞,*,*,*,*,は,ハ,ワ
学校に行きます。明日は、風邪で休みます。 名詞,一般,*,*,*,*,学校,ガッコウ,ガッコー
に行きます。明日は、風邪で休みます。 助詞,格助詞,一般,*,*,*,に,ニ,ニ
行きます。明日は、風邪で休みます。 動詞,自立,*,*,五段・カ行促音便,連用形,行く,イキ,イキ
ます。明日は、風邪で休みます。 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。明日は、風邪で休みます。 記号,句点,*,*,*,*,。,。,。
明日は、風邪で休みます。 名詞,副詞可能,*,*,*,*,明日,アシタ,アシタ
は、風邪で休みます。 助詞,係助詞,*,*,*,*,は,ハ,ワ
、風邪で休みます。 記号,読点,*,*,*,*,、,、,、
風邪で休みます。 名詞,一般,*,*,*,*,風邪,カゼ,カゼ
で休みます。 助詞,格助詞,一般,*,*,*,で,デ,デ
休みます。 動詞,自立,*,*,五段・マ行,連用形,休む,ヤスミ,ヤスミ
ます。 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。 記号,句点,*,*,*,*,。,。,。
 BOS/EOS,*,*,*,*,*,*,*,*


parseToNode() メソッドは、解析結果をノードの双方向連結リストとして受け取る。 node.next と node.prev でノードを順方向または逆方向にたどることができる。 surface は単語そのもの、 feature は素性を文字列として表したものであり、この場合、素性は「品詞1, 品詞2, 品詞3, 品詞4, 活用型, 活用系, 活用形, 読み, 発音」という構造をしている。なお、このリストの先頭および末尾は、それぞれ BOS 、 EOS 、すなわち文頭、文末を示す特殊なノードである。この例では、先頭はスキップしている。
また、トークナイザの1つとしてこの MeCab の Python バインディングのラッパーである JPMeCabTokenizer を用意しており、コーパスを読み込む際のトークン化に使うことができる。使い方は先の JPSimpleTokenizer と同様である

mecab-ipadic-NEologdを使用する


In [6]:
import MeCab

mecab = MeCab.Tagger ('-Owakati -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')

text ="毎日、私は学校に行きます。明日は、風邪で休みます。"

mecab.parse('')#文字列がGCされるのを防ぐ
node = mecab.parseToNode(text)
while node:
    #単語を取得
    word = node.surface
    #品詞を取得
    pos = node.feature.split(",")[0]
    print (word, pos)
    #print('{0} , {1}'.format(word, pos))
    #次の単語に進める
    node = node.next

毎日、私は学校に行きます。明日は、風邪で休みます。 BOS/EOS
毎日、私は学校に行きます。明日は、風邪で休みます。 名詞
、私は学校に行きます。明日は、風邪で休みます。 記号
私は学校に行きます。明日は、風邪で休みます。 名詞
は学校に行きます。明日は、風邪で休みます。 助詞
学校に行きます。明日は、風邪で休みます。 名詞
に行きます。明日は、風邪で休みます。 助詞
行きます。明日は、風邪で休みます。 動詞
ます。明日は、風邪で休みます。 助動詞
。明日は、風邪で休みます。 記号
明日は、風邪で休みます。 名詞
は、風邪で休みます。 助詞
、風邪で休みます。 記号
風邪で休みます。 名詞
で休みます。 助詞
休みます。 動詞
ます。 助動詞
。 記号
 BOS/EOS


In [7]:
import MeCab

sentence = 'メロスは激怒した。必ず、かの邪智暴虐の王を除かなければならぬと決意した。メロスには政治がわからぬ。メロスは、村の牧人である。'
#分かち書き
tagger = MeCab.Tagger("-Owakati")

text = tagger.parse(sentence)
print(text, "\n")

with open('./corpora/text.txt', mode='w') as f:
    f.write(text)


メロス は 激怒 し た 。 必ず 、 かの 邪智 暴虐 の 王 を 除か なけれ ば なら ぬ と 決意 し た 。 メロス に は 政治 が わから ぬ 。 メロス は 、 村 の 牧人 で ある 。 
 



In [8]:
import MeCab


text = 'アサヒ飲料は4月下旬から、凍る直前のマイナス5℃まで冷やした『三ツ矢サイダー』を提供する“氷点下自販機”を全国で展開中。'
tagger = MeCab.Tagger ('-Owakati')
result = tagger.parse(text)
print(result)

アサヒ 飲料 は 4 月 下旬 から 、 凍る 直前 の マイナス 5 ℃ まで 冷やし た 『 三ツ矢 サイダー 』 を 提供 する “ 氷点下 自販機 ” を 全国 で 展開 中 。 



In [9]:
import MeCab


text = 'アサヒ飲料は4月下旬から、凍る直前のマイナス5℃まで冷やした『三ツ矢サイダー』を提供する“氷点下自販機”を全国で展開中。'
tagger = MeCab.Tagger ('-Owakati -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
result = tagger.parse(text)
print(result)

アサヒ飲料 は 4月下旬 から 、 凍る 直前 の マイナス 5℃ まで 冷やし た 『 三ツ矢サイダー 』 を 提供 する “ 氷点下 自販機 ” を 全国 で 展開 中 。 



In [10]:
blog = open("corpora/blog.txt", "r")
txt = blog.read()



import MeCab

tagger = MeCab.Tagger ('-Owakati')
result = tagger.parse(txt)
print(result)

冒頭 に お話 し いただい た 「 AI ってな ん でも できる 夢 の よう な 技術 」 という イメージ から 抜け出す ため に 参加 し まし た 。 午前 の 座 学 が 大変 わかり やすく 、 午後 の work で さらに 理解 を 深める こと が でき まし た 。 途中 、 数学 の お話 が 濃く なっ た 時 は 焦り まし た が 。 。 。 やり たい こと に対する 事例 ・ アドバイス が 聞ける サービス 目 線 の セミナー が あり まし たら ぜひ 参加 し たい です 。 これ まで 様々 な セミナー に 参加 し て き まし た が 、 個人 的 に 一番 満足 でき た セミナー でし た 。 自分 史上 最高 の セミナー でし た 。 プログラミング 関係 に 疎い 私 でも 理解 でき 、 逆 に プログラミング に 興味 を 持ち 、 自分 で も プログラミング に 携わり たい ・ 作り たい と 思い まし た 。 今後 、 弊社 において 、 AI 技術 を 活用 し た システム の 開発 及び サービス の 提供 を 進め て いく うえ で 、 どの よう な 準備 が 必要 な の か 、 どの よう な サービス を 提供 できる の か を 確認 する こと が でき まし た 。 講師 の 皆様 は 、 非常 に わかり やすく 、 親切 丁寧 に ご 教示 ください まし た 。 今後 、 プログラミング 等 の セミナー に も 参加 さ せ て いただき たく 思い ます 。 ありがとう ござい まし た 。 AI の 仕組み が とても 良く 理解 でき た 。 講義 内容 も 丁寧 で 面白く 、 長時間 で あっ た が 飽きる こと なく 終わる こと が 出来 た 。 入門 という 事 で ある が 、 十分 に ｄｅｅｐ な 内容 で 、 AI の 可能 性 を 示唆 し て くれる 内容 だっ た 。 持ち込ん だ パソコン で トラブル が 発生 し た が 、 予備 機 を 貸し出し て くださ り 感謝 し て い ます 。 今回 、 サプライズ 講師 の 小池 氏 の 講義 は 興味深く 感銘 を 受け た 。 特に 「 AI の 民主 化 」 という

In [11]:
import MeCab

tagger = MeCab.Tagger('-d /usr/local/lib/mecab/dic/ipadic')

def preprocessing(sentence):
    return sentence.rstrip()


path ='corpora/kokoro.txt'

with open(path) as fd:
        nouns = []
        verbs = []
        adjs = []

        for sentence in map(preprocessing, fd):
            for chunk in tagger.parse(sentence).splitlines()[:-1]:
                (surface, feature) = chunk.split('\t')
                pos = feature.split(",")[0]
                if pos =='名詞':           
                    nouns.append(surface)
                elif pos == '動詞':
                    verbs.append(surface)
                elif pos == '形容詞':
                    adjs.append(surface)
                                   
print ('名詞 ＝ \n',nouns[:50])
print ('動詞 ＝ \n',verbs[:50])
print ('形容詞 ＝ \n', adjs[:50])

名詞 ＝ 
 ['こころ', '夏目', '漱石', '私', 'わたくし', '人', '先生', 'ここ', '先生', '本名', 'これ', '世間', '憚', 'ば', '遠慮', '方', '私', '自然', '私', '人', '記憶', 'ごと', '先生', '筆', '心持', '事', '頭文字', 'かしら', '気', '私', '先生', '知り合い', 'の', '鎌倉', 'かまくら', '時', '私', '書生', '暑中', '休暇', '利用', '海水浴', '友達', '端書', 'はがき', '私', '金', '工面', '事', '私']
動詞 ＝ 
 ['呼ん', 'い', '書く', '打ち明け', 'いう', '呼び', '起す', 'いい', 'なる', '執', '使う', 'なら', 'なっ', 'し', '行っ', '来い', '受け取っ', 'くめ', 'し', '出掛ける', 'し', 'ち', '費やし', '着い', '呼び寄せ', '帰れ', '受け取っ', '断っ', 'あっ', '信じ', 'かね', 'いる', 'し', 'いら', 'れ', 'い', 'いう', 'する', '過ぎ', '気に入ら', '帰る', '避け', '遊ん', 'い', '見せ', 'しよ', 'し', '分ら', 'すれ', '帰る']
形容詞 ＝ 
 ['かる', 'よそよそしい', '若々しい', 'ない', 'ない', '若', 'いい', '固', 'よし', 'よい', 'ない', '長い', '近い', '古い', 'くす', '黒い', '黒い', 'ない', '白い', 'ぽ', 'く', '長い', '小高い', '珍しく', 'とお', '小さく', 'おも', 'ない', '騒がしい', '浅い', '深', 'く', '有難う', '広い', 'なかっ', '強い', '強い', '快く', '長く', 'ない', '悪く', '広い', 'くちく', '若い', '暗', '濃', '物足りない', 'よく', '若かっ', '若い']


https://qiita.com/Salinger/items/529a77f2ceeb39998665

MeCabによる形態素解析結果の出力：
以下のコードではうまく処理ができません。


MeCabによる形態素解析結果の出力：その１
ソフトをアプデートしたら、parseToNode() の処理が相当変化しています。その入力用のソースはstr形式になりました。
parseToNode()は利用しないほうが無難です。

In [12]:

path = "./corpora/kokoro.txt"
bindata = open(path, "rb").read()
text = bindata.decode("utf-8")

import MeCab

#MECAB_MODE = 'mecabrc'                                                                                                                                                   
tagger = MeCab.Tagger('mecabrc')
tagger.parseToNode('')

#tagger.parse("") #文字列がGCされるのを防ぐ
 # str 型じゃないと動作がおかしくなるので str 型に変換
node = tagger.parseToNode(text)

words = []
nouns = []
verbs = []
adjs = []
while node:
        pos = node.feature.split(",")[0] #品詞を取得
        word = node.surface #単語を取得
        if pos == "名詞":
            nouns.append(word) 
        elif pos == "動詞":
            verbs.append(word)
        elif pos == "形容詞":
            adjs.append(word)
        words.append(word)
        node = node.next #次の単語に進める
words_dict = {
        "text": words[1:-1], # 最初と最後には空文字列が入るので除去                                                                                                
        "nouns": nouns,
        "verbs": verbs,
        "adjs": adjs
        }

print ("文: \n", words[:80])
print ("名詞: \n", nouns[:50])
print ("動詞: \n", verbs[:50])
print ("形容詞: \n", adjs[:50])
#print ("text:", ",".join(words_dict['text']))
#print ("Nouns: \n", ",".join(words_dict['nouns']))
#print ("Verbs: \n", ",".join(words_dict['verbs']))
#print ("Adjs: \n", ",".join(words_dict['adjs']))

#from nltk.text import Text

#souseki = Text(text)
#print ("concordance of '私'---")#
#souseki.concordance('私') 

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)

