In [1]:
import MeCab
from sudachipy import tokenizer, dictionary

from wiki_analyzer.config import MECAB_NEOLOGD_PATH

# MeCabの設定
ochasen_tagger = MeCab.Tagger(f'-ochasen -d "{MECAB_NEOLOGD_PATH}"')
owakati_tagger = MeCab.Tagger(f'-Owakati -d "{MECAB_NEOLOGD_PATH}"')

# sudachiの設定
_tokenizer_obj = dictionary.Dictionary().create()
def sudachi_analyze(text: str) -> list:
    mode = tokenizer.Tokenizer.SplitMode.C
    tokens = _tokenizer_obj.tokenize(text, mode)
    return [token.surface() for token in tokens]

In [2]:
text = '''
藍月なくるとは、リアルとバーチャルを行き来する、インターネット発のシンガー。
透き通る繊細な声が特徴で、音楽ゲーム収録曲の歌唱を多数担当するほか、美少女ゲームでは主題歌の歌唱のみならず声優も務める。
sky_deltaとの音楽ユニットEndorfin.ではボーカルを担当。
幅広いジャンルの楽曲を、表現力豊かに歌い上げる。
現在は音楽活動を中心としながら配信活動にも取り組み、活動の幅を広げている。
'''

In [3]:
# MeCab
print(ochasen_tagger.parse(text), end='')

藍月なくる	名詞,固有名詞,人名,一般,*,*,藍月なくる,アイツキナクル,アイツキナクル
と	助詞,格助詞,引用,*,*,*,と,ト,ト
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
、	記号,読点,*,*,*,*,、,、,、
リアル	名詞,固有名詞,一般,*,*,*,リアル,リアル,リアル
と	助詞,並立助詞,*,*,*,*,と,ト,ト
バーチャル	名詞,一般,*,*,*,*,バーチャル,バーチャル,バーチャル
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行き来	名詞,サ変接続,*,*,*,*,行き来,イキキ,イキキ
する	動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
、	記号,読点,*,*,*,*,、,、,、
インターネット	名詞,一般,*,*,*,*,インターネット,インターネット,インターネット
発	名詞,接尾,一般,*,*,*,発,ハツ,ハツ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
シンガー	名詞,一般,*,*,*,*,シンガー,シンガー,シンガー
。	記号,句点,*,*,*,*,。,。,。
透き通る	動詞,自立,*,*,五段・ラ行,基本形,透き通る,スキトオル,スキトール
繊細	名詞,形容動詞語幹,*,*,*,*,繊細,センサイ,センサイ
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
声	名詞,一般,*,*,*,*,声,コエ,コエ
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
特徴	名詞,一般,*,*,*,*,特徴,トクチョウ,トクチョー
で	助詞,格助詞,一般,*,*,*,で,デ,デ
、	記号,読点,*,*,*,*,、,、,、
音楽ゲーム	名詞,固有名詞,一般,*,*,*,音楽ゲーム,オンガクゲーム,オンガクゲーム
収録	名詞,サ変接続,*,*,*,*,収録,シュウロク,シューロク
曲	名詞,接尾,一般,*,*,*,曲,キョク,キョク
の	助詞,連体化,*,*,*,*,の,ノ,ノ
歌唱	名詞,サ変接続,*,*,*,*,歌唱,カショウ,カショー
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
多数	名詞,副詞可能,*,*,*,*,多数,タスウ,タスー
担当	名詞,サ変接続,*,*,*,*,担当,タントウ,タントー
する	動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
ほか	名詞,副詞可能,*,*,*,*,ほか

In [4]:
print(owakati_tagger.parse(text), end='')

藍月なくる と は 、 リアル と バーチャル を 行き来 する 、 インターネット 発 の シンガー 。 透き通る 繊細 な 声 が 特徴 で 、 音楽ゲーム 収録 曲 の 歌唱 を 多数 担当 する ほか 、 美少女ゲーム で は 主題歌 の 歌唱 のみ なら ず 声優 も 務める 。 sky _ delta と の 音楽ユニット Endorfin . では ボーカル を 担当 。 幅広い ジャンル の 楽曲 を 、 表現力 豊か に 歌い上げる 。 現在 は 音楽活動 を 中心 と し ながら 配信 活動 に も 取り組み 、 活動 の 幅 を 広げ て いる 。 


In [5]:
# SudachiPy
print(sudachi_analyze(text), end='')

['\n', '藍月', 'な', 'くる', 'と', 'は', '、', 'リアル', 'と', 'バーチャル', 'を', '行き来', 'する', '、', 'インターネット', '発', 'の', 'シンガー', '。', '\n', '透き通る', '繊細', 'な', '声', 'が', '特徴', 'で', '、', '音楽', 'ゲーム', '収録', '曲', 'の', '歌唱', 'を', '多数', '担当', 'する', 'ほか', '、', '美少女', 'ゲーム', 'で', 'は', '主題歌', 'の', '歌唱', 'のみ', 'なら', 'ず', '声優', 'も', '務める', '。', '\n', 'sky', '_', 'delta', 'と', 'の', '音楽', 'ユニット', 'Endorfin', '.', 'で', 'は', 'ボーカル', 'を', '担当', '。', '\n', '幅広い', 'ジャンル', 'の', '楽曲', 'を', '、', '表現力', '豊か', 'に', '歌い上げる', '。', '\n', '現在', 'は', '音楽', '活動', 'を', '中心', 'と', 'し', 'ながら', '配信', '活動', 'に', 'も', '取り組み', '、', '活動', 'の', '幅', 'を', '広げ', 'て', 'いる', '。', '\n']