In [1]:
from typing import List, Tuple, Iterator

import MeCab

In [2]:
sample_text = """
8月3日に放送された「中居正広の金曜日のスマイルたちへ」(TBS系)で、
1日たった5分でぽっこりおなかを解消するというダイエット方法を紹介。
キンタロー。のダイエットにも密着。
"""

# 単語間にスペース入れる

In [3]:
tagger = MeCab.Tagger("-Ochasen")
tagger.parse('')
# result = tagger.parse("ドラゴンクエストは最高")
result = tagger.parse(sample_text)
print(result, "\n")

8月3日	ハチガツミッカ	8月3日	名詞-固有名詞-一般		
に	ニ	に	助詞-格助詞-一般		
放送	ホウソウ	放送	名詞-サ変接続		
さ	サ	する	動詞-自立	サ変・スル	未然レル接続
れ	レ	れる	動詞-接尾	一段	連用形
た	タ	た	助動詞	特殊・タ	基本形
「	「	「	記号-括弧開		
中居正広の金曜日のスマイルたちへ	ナカイマサヒロノキンヨウビノスマイルタチヘ	中居正広の金曜日のスマイルたちへ	名詞-固有名詞-一般		
」(	」(	」(	記号-一般		
TBS	ティービーエス	TBS	名詞-固有名詞-一般		
系	ケイ	系	名詞-接尾-一般		
)	)	)	記号-一般		
で	デ	だ	助動詞	特殊・ダ	連用形
、	、	、	記号-読点		
1日	ツイタチ	1日	名詞-固有名詞-一般		
たった	タッタ	たった	副詞-助詞類接続		
5分	ゴフン	5分	名詞-固有名詞-一般		
で	デ	で	助詞-格助詞-一般		
ぽっこり	ポッコリ	ぽっこり	副詞-一般		
おなか	オナカ	おなか	名詞-一般		
を	ヲ	を	助詞-格助詞-一般		
解消	カイショウ	解消	名詞-サ変接続		
する	スル	する	動詞-自立	サ変・スル	基本形
という	トイウ	という	助詞-格助詞-連語		
ダイエット方法	ダイエットホウホウ	ダイエット方法	名詞-固有名詞-一般		
を	ヲ	を	助詞-格助詞-一般		
紹介	ショウカイ	紹介	名詞-サ変接続		
。	。	。	記号-句点		
キンタロー。	キンタロー	キンタロー。	名詞-固有名詞-一般		
の	ノ	の	助詞-連体化		
ダイエット	ダイエット	ダイエット	名詞-サ変接続		
に	ニ	に	助詞-格助詞-一般		
も	モ	も	助詞-係助詞		
密着	ミッチャク	密着	名詞-サ変接続		
。	。	。	記号-句点		
EOS
 



# 単語のリストを取得

In [4]:
def get_word_list(text: str) -> List[str]:
    tagger = MeCab.Tagger('-Owakati')
    result = tagger.parse(text)
    return result.split(' ')[:-1]

In [5]:
get_word_list(sample_text)

['8月3日',
 'に',
 '放送',
 'さ',
 'れ',
 'た',
 '「',
 '中居正広の金曜日のスマイルたちへ',
 '」(',
 'TBS',
 '系',
 ')',
 'で',
 '、',
 '1日',
 'たった',
 '5分',
 'で',
 'ぽっこり',
 'おなか',
 'を',
 '解消',
 'する',
 'という',
 'ダイエット方法',
 'を',
 '紹介',
 '。',
 'キンタロー。',
 'の',
 'ダイエット',
 'に',
 'も',
 '密着',
 '。']

# 単語と品詞のIteratorを取得

In [6]:
def get_word_pos_iterator(text: str) -> Iterator[Tuple[str, str]]:
    tagger = MeCab.Tagger('-Ochasen')
    tagger.parse('')
    result = tagger.parse(text)
    for chunk in result.split('\n'):
        if chunk == 'EOS':
            break
        features = chunk.split('\t')
        word = features[0]
        pos = features[3].split('-')[0]
        yield word, pos

In [7]:
for w, p in get_word_pos_iterator("ドラゴンクエストは最高"):
    print(w, p)

ドラゴンクエスト 名詞
は 助詞
最高 名詞


In [8]:
for w, p in get_word_pos_iterator(sample_text):
    print(w, p)

8月3日 名詞
に 助詞
放送 名詞
さ 動詞
れ 動詞
た 助動詞
「 記号
中居正広の金曜日のスマイルたちへ 名詞
」( 記号
TBS 名詞
系 名詞
) 記号
で 助動詞
、 記号
1日 名詞
たった 副詞
5分 名詞
で 助詞
ぽっこり 副詞
おなか 名詞
を 助詞
解消 名詞
する 動詞
という 助詞
ダイエット方法 名詞
を 助詞
紹介 名詞
。 記号
キンタロー。 名詞
の 助詞
ダイエット 名詞
に 助詞
も 助詞
密着 名詞
。 記号
