# Mecabを使って形態素解析で遊ぶ
### ・文章を分解する

In [1]:
from IPython.display import display

'''
mecabが未インストールの場合は、コメントアウト外して実行
'''
#!brew install mecab
#!brew install mecab-ipadic
#!brew install swig
#!brew install mecab-ipadic-NEologd
#!pip3 install mecab-python3

'\nmecabが未インストールの場合は、コメントアウト外して実行\n'

### Duo 日本語データ csvファイルをロード

In [2]:
import pandas as pd

ja_df = pd.read_csv('../data/duo_3-0_ja.csv', dtype='object')
display(ja_df.head(3))

Unnamed: 0,id,ja
0,1,個人の意志は尊重しなければいけない。
1,2,気楽にいけよ。大丈夫、すべてうまくいくさ。
2,3,悲観的な人生観を捨てて、前向きな態度を常に持ち続けよう。


### MeCabをインポートして呼び出し

In [3]:
import MeCab

trigger_path = !echo `mecab-config --dicdir`"/mecab-ipadic-neologd"
mecab = MeCab.Tagger ('-d {}'.format(trigger_path[0]))

### 形態素解析実行
##### ・DUO_JA_ID に、解析したい文章IDをセット

In [4]:
DUO_JA_ID = 300

text = ja_df['ja'].values[DUO_JA_ID]
mecab.parse('')
node = mecab.parseToNode(text)

surface_lst, feature_0_lst, feature_1_lst, feature_8_lst = [], [], [], []
while node:
    surface_lst.append(node.surface)
    feature_0_lst.append(node.feature.split(",")[0])
    feature_1_lst.append(node.feature.split(",")[1])
    if len(node.feature.split(",")) > 8:
        feature_8_lst.append(node.feature.split(",")[8])
    else:
        feature_8_lst.append('')
    print(node.feature.split(','))
    node = node.next

['BOS/EOS', '*', '*', '*', '*', '*', '*', '*', '*']
['名詞', '代名詞', '一般', '*', '*', '*', 'これら', 'コレラ', 'コレラ']
['助詞', '連体化', '*', '*', '*', '*', 'の', 'ノ', 'ノ']
['名詞', '一般', '*', '*', '*', '*', '小包', 'コヅツミ', 'コズツミ']
['助詞', '連体化', '*', '*', '*', '*', 'の', 'ノ', 'ノ']
['名詞', '固有名詞', '一般', '*', '*', '*', '重さ', 'オモサ', 'オモサ']
['助詞', '係助詞', '*', '*', '*', '*', 'は', 'ハ', 'ワ']
['名詞', 'サ変接続', '*', '*', '*', '*', '平均', 'ヘイキン', 'ヘイキン']
['動詞', '自立', '*', '*', 'サ変・スル', '基本形', 'する', 'スル', 'スル']
['助詞', '接続助詞', '*', '*', '*', '*', 'と', 'ト', 'ト']
['名詞', '数', '*', '*', '*', '*', '*']
['名詞', '接尾', '助数詞', '*', '*', '*', 'ポンド', 'ポンド', 'ポンド']
['助動詞', '*', '*', '*', '特殊・デス', '基本形', 'です', 'デス', 'デス']
['記号', '句点', '*', '*', '*', '*', '。', '。', '。']
['BOS/EOS', '*', '*', '*', '*', '*', '*', '*', '*']


### 解析結果を一覧表示

In [5]:
mecab_df = pd.DataFrame()
mecab_df['surface'] = surface_lst[1:len(surface_lst)-1]
mecab_df['feature_0'] = feature_0_lst[1:len(feature_0_lst)-1]
mecab_df['feature_1'] = feature_1_lst[1:len(feature_1_lst)-1]
mecab_df['feature_8'] = feature_8_lst[1:len(feature_8_lst)-1]

print(text)
display(mecab_df)

これらの小包の重さは平均すると2ポンドです。


Unnamed: 0,surface,feature_0,feature_1,feature_8
0,これら,名詞,代名詞,コレラ
1,の,助詞,連体化,ノ
2,小包,名詞,一般,コズツミ
3,の,助詞,連体化,ノ
4,重さ,名詞,固有名詞,オモサ
5,は,助詞,係助詞,ワ
6,平均,名詞,サ変接続,ヘイキン
7,する,動詞,自立,スル
8,と,助詞,接続助詞,ト
9,2,名詞,数,
