## Sudachipy
- sudachiという形態素解析器
- https://github.com/WorksApplications/SudachiPy

In [3]:
from sudachipy import tokenizer, dictionary

In [4]:
tokenizer_obj = dictionary.Dictionary().create()

In [6]:
#Cが一番大きい粒度での分割, ついでB, A
mode = tokenizer.Tokenizer.SplitMode.C
mode


<SplitMode.C: 3>

In [9]:
text = "BrainPad社のデータサイエンティスト有志メンバーがデータサイエンスやAI界隈の話題を中心に雑談するPodcast番組です."

In [24]:
[m.surface() for m in tokenizer_obj.tokenize(text, mode)]

['BrainPad',
 '社',
 'の',
 'データ',
 'サイエンティスト',
 '有志',
 'メンバー',
 'が',
 'データ',
 'サイエンス',
 'や',
 'AI',
 '界隈',
 'の',
 '話題',
 'を',
 '中心',
 'に',
 '雑談',
 'する',
 'Podcast',
 '番組',
 'です',
 '.']

In [34]:
morphemes = list(tokenizer_obj.tokenize(text, mode))

In [39]:
for m in morphemes:
    print(m.dictionary_form(), m.part_of_speech())

brainpad ['名詞', '普通名詞', '一般', '*', '*', '*']
社 ['名詞', '普通名詞', '助数詞可能', '*', '*', '*']
の ['助詞', '格助詞', '*', '*', '*', '*']
データ ['名詞', '普通名詞', '一般', '*', '*', '*']
サイエンティスト ['名詞', '普通名詞', '一般', '*', '*', '*']
有志 ['名詞', '普通名詞', '一般', '*', '*', '*']
メンバー ['名詞', '普通名詞', '一般', '*', '*', '*']
が ['助詞', '格助詞', '*', '*', '*', '*']
データ ['名詞', '普通名詞', '一般', '*', '*', '*']
サイエンス ['名詞', '普通名詞', '一般', '*', '*', '*']
や ['助詞', '副助詞', '*', '*', '*', '*']
AI ['名詞', '普通名詞', '一般', '*', '*', '*']
界隈 ['名詞', '普通名詞', '一般', '*', '*', '*']
の ['助詞', '格助詞', '*', '*', '*', '*']
話題 ['名詞', '普通名詞', '一般', '*', '*', '*']
を ['助詞', '格助詞', '*', '*', '*', '*']
中心 ['名詞', '普通名詞', '一般', '*', '*', '*']
に ['助詞', '格助詞', '*', '*', '*', '*']
雑談 ['名詞', '普通名詞', 'サ変可能', '*', '*', '*']
する ['動詞', '非自立可能', '*', '*', 'サ行変格', '連体形-一般']
podcast ['名詞', '普通名詞', '一般', '*', '*', '*']
番組 ['名詞', '普通名詞', '一般', '*', '*', '*']
です ['助動詞', '*', '*', '*', '助動詞-デス', '終止形-一般']
. ['補助記号', '句点', '*', '*', '*', '*']


In [40]:
# Morpheme information

m = tokenizer_obj.tokenize("食べ", mode)[0]

# mは以下のメソッドを持っている
m.surface() # => '食べ'
m.dictionary_form() # => '食べる'
m.reading_form() # => 'タベ'
m.part_of_speech() # => ['動詞', '一般', '*', '*', '下一段-バ行', '連用形-一般']

['動詞', '一般', '*', '*', '下一段-バ行', '連用形-一般']

In [60]:
# 特定の品詞だけを取得したい場合はこんな感じ
target_word_list = []
target_part = ('名詞')

target_word_list = [m.surface() for m in tokenizer_obj.tokenize(text, mode) if m.part_of_speech()[0] in target_part]

In [61]:
target_word_list

['BrainPad',
 '社',
 'データ',
 'サイエンティスト',
 '有志',
 'メンバー',
 'データ',
 'サイエンス',
 'AI',
 '界隈',
 '話題',
 '中心',
 '雑談',
 'Podcast',
 '番組']

### ちなみにmecabを使うとこうなる

In [64]:
import MeCab

In [75]:
mecab = MeCab.Tagger ('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
node = mecab.parseToNode(text)

# 特定の品詞だけを取得する
target_part = ('名詞')
word = []

while node:
    if node.feature.split(",")[0] in target_part:
        word.append(node.surface)
    node = node.next    

In [76]:
word

['BrainPad',
 '社',
 'データサイエンティスト',
 '有志',
 'メンバー',
 'データサイエンス',
 'AI',
 '界隈',
 '話題',
 '中心',
 '雑談',
 'Podcast',
 '番組']