# MeCab による形態素解析と抽出語の選択
本章では日本語の文章・テキストを統計的に分析するための基礎となる形態素解析器として MeCab を利用する方法を解説します。

MeCab を本書指定の方法でインストールしてください。macOS（M1チップ版）、macsOS（Intel版）、Windowsでそれぞれインストール方法が異なります。
Windows環境を利用の方は、64bit UTF-8版のMeCabが必要です。もし公式の 32bit版 MeCab をすでにインストールしている場合は、ねんのため、これをアンインストールしてから、64bit版をインストールし直してください。

さらに、MeCab と Python を連携させるライブラリが必要です。
なお、本書付属の requirements.txt を使い `!pip3 install -r requirements.txt` を実行すると、mecab-python3 だけエラーとなる場合があるようです。
その場合は、Jupyter のコマンドセルで `!pip3 install mecab-python3` を実行してください。




In [None]:
!pip3 install mecab-python3

## mecab-python3 ライブラリの使い方

それでは、実際に形態素解析を実行してみましょう。以下で、簡単な例を示します。

In [2]:
import MeCab
tagger = MeCab.Tagger('-O wakati')
x = 'コロナ禍で二度目の正月を迎える。'
x_wakati = tagger.parse(x)
print(x_wakati)

コロナ 禍 で 二 度目 の 正月 を 迎える 。 



In [3]:
## 以下は筆者の環境で NEologd 辞書を指定する方法です
## -d より右のフォルダ指定を読者の環境にあわせて変更する必要があります
tagger = MeCab.Tagger('-O wakati -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
x = 'コロナ禍で二度目の正月を迎える。'
x_wakati = tagger.parse(x)
print(x_wakati)

コロナ禍 で 二 度目 の 正月 を 迎える 。 



MeCab の辞書のデフォルトを NEologd に変更することもできます。

```
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
; dicdir =  /usr/local/lib/mecab/dic/ipadic
dicdir =  /usr/local/lib/mecab/dic/mecab-ipadic-neologd
; userdic = /home/foo/bar/user.dic

; output-format-type = wakati
; input-buffer-size = 8192

; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n

```



## 品詞情報



In [3]:
import MeCab
## NEologd 辞書を利用する
## 以下は筆者の環境で辞書を指定する方法です
neologd = '-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd'
tagger = MeCab.Tagger(neologd)
node = tagger.parseToNode('お寿司を食べた。')
while node:
    print (node.surface)
    print (node.feature) 
    node = node.next


BOS/EOS,*,*,*,*,*,*,*,*
お
接頭詞,名詞接続,*,*,*,*,お,オ,オ
寿司
名詞,一般,*,*,*,*,寿司,スシ,スシ
を
助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
食べ
動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
た
助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。
記号,句点,*,*,*,*,。,。,。

BOS/EOS,*,*,*,*,*,*,*,*




分割結果をここでは `node` というオブジェクトに保存しています。

実際の分析においては `node.feature` のうち、特定の要素だけを取り出すことになるでしょう。本書では、「品詞」「品詞細分類1」「基本形」を主に利用します。



In [4]:
node = tagger.parseToNode('お寿司を食べた。')
while node:
    elem = node.feature.split(',')
    print(elem[0], elem[1], elem[6])
    node = node.next

BOS/EOS * *
接頭詞 名詞接続 お
名詞 一般 寿司
助詞 格助詞 を
動詞 自立 食べる
助動詞 * た
記号 句点 。
BOS/EOS * *


In [5]:
text = 'お寿司を食べた。'
node = tagger.parseToNode(text)
while node:
    if node.surface != '':
        elem = node.feature.split(',')
        print(node.surface, elem[0], elem[1], elem[6]) 
    node = node.next

お 接頭詞 名詞接続 お
寿司 名詞 一般 寿司
を 助詞 格助詞 を
食べ 動詞 自立 食べる
た 助動詞 * た
。 記号 句点 。


In [6]:
import MeCab
print('ipadic')
## 以下は筆者の環境で辞書を指定する方法です
tagger = MeCab.Tagger('-d /usr/local/lib/mecab/dic/ipadic/')
x = '今日の午後は生協でランチを食べました'
x_wakati = tagger.parse(x)
print(x_wakati)
##
print('NEologd')
tagger = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/')
x = '今日の午後は生協でランチを食べました'
x_wakati = tagger.parse(x)
print(x_wakati)

ipadic
今日	名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
の	助詞,連体化,*,*,*,*,の,ノ,ノ
午後	名詞,副詞可能,*,*,*,*,午後,ゴゴ,ゴゴ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
生	名詞,形容動詞語幹,*,*,*,*,生,ナマ,ナマ
協	名詞,接尾,一般,*,*,*,協,キョウ,キョー
で	助詞,格助詞,一般,*,*,*,で,デ,デ
ランチ	名詞,一般,*,*,*,*,ランチ,ランチ,ランチ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
食べ	動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
まし	助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
EOS

NEologd
今日	名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
の	助詞,連体化,*,*,*,*,の,ノ,ノ
午後	名詞,副詞可能,*,*,*,*,午後,ゴゴ,ゴゴ
は生	名詞,サ変接続,*,*,*,*,派生,ハセイ,ハセイ
協	名詞,接尾,一般,*,*,*,協,キョウ,キョー
で	助詞,格助詞,一般,*,*,*,で,デ,デ
ランチ	名詞,一般,*,*,*,*,ランチ,ランチ,ランチ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
食べ	動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
まし	助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
EOS



## ユーザー辞書

繰り返しになりますが MeCab の辞書は完璧ではありません。筆者の名である「基広」は登録されていないため、通常の辞書では「基」と「広」に分割されてしまいます（ちなみに、NEologdだと「石田基広」という固有名詞1語とみなされます）。




In [7]:
import MeCab
tagger = MeCab.Tagger('-d /usr/local/lib/mecab/dic/ipadic/')
x = '石田基広'
x_wakati = tagger.parse(x)
print(x_wakati)

石田	名詞,固有名詞,人名,姓,*,*,石田,イシダ,イシダ
基	名詞,固有名詞,人名,名,*,*,基,ハジメ,ハジメ
広	形容詞,自立,*,*,形容詞・アウオ段,ガル接続,広い,ヒロ,ヒロ
EOS



このような語であれば、ユーザーが独自に辞書を作成して、MeCabに指定することになります。
以下は筆者の環境(Ubuntu)で実行する例です。Windowsユーザーは本書の記載を参照ください。

[^mecab_dic]: <https://taku910.github.io/mecab/dic.html>


> /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic/ -u ~./ishida.dic -f utf-8 -t utf-8 ~./ishida.csv

これにより user.dic というファイルが生成されるので、MeCab の `Tagger` インスタンスを生成する際に指定します。

In [8]:
## 以下は筆者の環境(Ubuntu22.04)で実行する例です
path = '-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd -u /home/ishida/ishida.dic'
tagger = MeCab.Tagger(path)
x = '石田基広'
x_wakati = tagger.parse(x)
print(x_wakati)

石田	名詞,固有名詞,人名,姓,*,*,石田,イシダ,イシダ
基広	名詞,固有名詞,人名,名,*,*,基広,モトヒロ,モトヒロ
EOS




## 自作関数のモジュール化

さて、形態素解析の結果を使って分析を行う場合、利用する品詞情報は多くの場合ほぼ同じになるでしょう。具体的には、名詞や動詞、形容詞のみを抽出してデータとしたいことがあります。先にみたように、形態素ごとの品詞情報は `node.feature` というリストの最初（つまり0番目）の要素です。そこで、最初の要素が名詞か動詞、あるいは形容詞だった場合だけ形態素をデータとして取り出せば良いわけです。そこで、3品詞だけを取り出す処理を関数として定義してしまいましょう。また、関数定義を別ファイルとして保存して、これをモジュールとして読み込む方法を紹介します。


In [None]:
# -*- coding: utf-8 -*-

## my_mecab.py

import MeCab
## 以下は筆者の環境での辞書指定です。読者の環境に合わせて変更してください。
path = '-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd -u /home/ishida/ishida.dic'
## 辞書の場所がわからない場合
## path =""

tagger = MeCab.Tagger(path)

def tokens(text, pos = ['名詞','形容詞','動詞']):
    node = tagger.parseToNode(text)
    word_list = []
    while node:
        if node.surface != '':
            elem = node.feature.split(',')
            term = elem[6] if elem[6] != '*' else node.surface
            if len(pos) < 1 or elem[0] in pos:
                word_list.append(term)
        node = node.next
    return word_list

if __name__ == '__main__':
    out = tokens('ランチを食べました。')
    print(out)


このスクリプトを my_mecab.py という名前で保存し、Jupyter を起動しているフォルダに保存しておけば、`import my_mecab` とすることで形態素解析を実行する準備ができることになります。なお、 `if __name__ == '__main__':` 以下の命令はこのスクリプトをターミナル（コマンドプロンプト）などで単独に実行するための命令です。ターミナルで `python my_mecab.py` と入力して Enter を押すと、「ランチを食べました」という文章を形態素解析した結果を表示します。



In [4]:
## Jupyterの参照するデフォルトのフォルダを確認
import os
print(os.getcwd())

/mnt/2bddf92b-47f9-4809-95a5-b91e7f25af27/myData/GitHub/python_de_textmining


In [5]:
## ここに my_mecab.py が保存されているか確認
import glob
files = glob.glob('*.py')
for file in files:
    print(file)

my_janome_stopwords.py
my_ginza.py
my_tokenizer.py
my_janome.py
my_mecab.py
my_tokenizer_with_stopwords.py
AozoraDL.py
my_mecab_stopwords.py


In [6]:
import my_mecab
out = my_mecab.tokens('ランチを食べました。')
print(out)

['ランチ', '食べる']



## ストップワード


いま「今日は本を読んで過ごした。」を形態素解析してみると、以下のような結果になります。



In [7]:
import MeCab
text = '今日はこの本を読んで過ごした。'
tagger = MeCab.Tagger()
node = tagger.parseToNode(text)
while node:
    if node.surface != '':
        elem = node.feature.split(',')
        print(node.surface, elem[0]) 
    node = node.next

今日 名詞
は 助詞
この 連体詞
本 名詞
を 助詞
読ん 動詞
で 助詞
過ごし 動詞
た 助動詞
。 記号




テキストの内容を分析するため、形態素解析の結果から機能語を削除したい場合があります。このためには、分割された形態素ごとにその品詞情報を参照して、必要でない形態素はスキップします。
下のコードで `not in` の部分が該当する場合はスキップすることを表しています。


In [13]:
text = 'これは良い本だから、もう一度、あとで読み直そう。'
func_words = ['助詞', '記号']

node = tagger.parseToNode(text)
while node:
    if node.surface != '':
        elem = node.feature.split(',')
        if elem[0] not in func_words:
            print(node.surface, elem[0], elem[1], elem[6]) 
    node = node.next

これ 名詞 代名詞 これ
良い 形容詞 自立 良い
本 名詞 一般 本
だ 助動詞 * だ
もう一度 副詞 一般 もう一度
あと 名詞 一般 あと
読み直そ 動詞 自立 読み直す
う 助動詞 * う



`if elem[0] not in func_words:` という条件文で、品詞情報(`elem[0]`)が、最初の方で定義した `func_words` というリストに含まれていない場合だけ、出力を表示するという処理を行っています。


In [14]:
text = 'これは良い本だから、もう一冊買って、永久保存版にしよう。'
func_words = ['助詞','記号']
func_subwords = ['代名詞', '数', '*']
node = tagger.parseToNode(text)
while node:
    if node.surface != '':
        elem = node.feature.split(',')
        if elem[0] not in func_words:
            if elem[1] not in func_subwords:
                print(node.surface, elem[0], elem[1], elem[6]) 
    node = node.next

良い 形容詞 自立 良い
本 名詞 一般 本
もう 副詞 一般 もう
冊 名詞 接尾 冊
買っ 動詞 自立 買う
永久 名詞 一般 永久
保存 名詞 サ変接続 保存
版 名詞 接尾 版
しよ 動詞 自立 する





MeCab の品詞情報を利用せず、機能語と判断される形態素をあらかじめリストにしておいて、これと照合することで不要語を一気に削除してしまう方法もあります。こうしたリストを **ストップワード** と言います。分析目的にあわせてストップワードは自身を作成するのがベストですが、公開されているリストを利用することもできます。こうしたリストとして、京都大学情報学研究科社会情報学専攻田中克己研究室が公開している SlothLib [^SlothLib]  がありますので、ここで利用させてもらいましょう。

[^SlothLib]: http://www.dl.kuis.kyoto-u.ac.jp/slothlib/

ここでは stopword リストを stopwords.txt として、data フォルダに保存します。


In [15]:
import urllib.request
url = 'http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt'
urllib.request.urlretrieve(url, 'data/stopwords.txt')
stopwords = []
with open('data/stopwords.txt', 'r', encoding='utf-8') as f:
	stopwords = [w.strip() for w in f]

In [16]:
while node:
    if node.surface != '':
        elem = node.feature.split(',')
        if elem[6] not in stopwords:
            print(node.surface, elem[0], elem[1], elem[6]) 
    node = node.next

In [None]:
%%script false --no-raise-error
# -*- coding: utf-8 -*-

## my_mecab_stopwords.py

import MeCab
## 以下は筆者の環境で辞書を指定する方法です
path = '-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd'
tagger = MeCab.Tagger(path)
# tagger = MeCab.Tagger()

def tokens(text, pos=['名詞', '形容詞', '動詞'], stopwords_list=[]):
    text = ''.join(text.split())
    node = tagger.parseToNode(text)
    word_list = []
    while node:
        if node.surface != '':
            elem = node.feature.split(',')
            term = elem[6] if elem[6] != '*' else node.surface
            if term not in stopwords_list:
                if len(pos) < 1 or elem[0] in pos:
                    word_list.append(term)
        node = node.next
    return word_list

if __name__ == '__main__':
    out = tokens('今日の午後は八宝菜を食べました。')
    print(out)

In [17]:
import my_mecab_stopwords as mcb
out = mcb.tokens('これは良い本です。', stopwords_list=stopwords)
print(out)

['良い', '本']


分析の対象とする形態素の選択にあたっては、さらに出現回数（頻度）が極端に多い、あるいは少ない形態素を削除することも考えられます。これらについては、以降の実践例の紹介で取り上げます。
