# Tokenizer Mecab +NEologd

## 初期化

In [1]:
import os
dir_neologd = os.environ.get('DIR_NEOLOGD')

In [2]:
from typing import Tuple
import MeCab

## Tokenizerクラス作成

In [3]:
class Tokenizer(object):
    def __init__(self, dir_dict: str):
        self.dir_dict = dir_dict

        self.tokenizer = self.init_neologd()
        self.tokenizer.parse('')


    def __call__(self, text: str) -> Tuple[str, str]:
        nodes = self.get_nodes(text)
        ret =  self.parse_nodes(nodes)
        return ret


    def init_neologd(self) -> MeCab.Tagger:
        tokenizer = MeCab.Tagger(f'-r/dev/null -d{self.dir_dict}') # <- https://github.com/SamuraiT/mecab-python3#common-issues
        return tokenizer

    
    def get_nodes(self, sentence: str) -> MeCab.Node:
        return self.tokenizer.parseToNode(sentence)


    def parse_nodes(self, nodes: MeCab.Node) -> Tuple[str, str]:
        words, parts = [], []
        
        while nodes:
            if(nodes.feature.split(",")[6] == '*'):
                word = nodes.surface
            else:
                word = nodes.feature.split(",")[6]

            words.append(word)
            parts.append(nodes.feature.split(",")[0])

            nodes = nodes.next
        return words, parts
    
    
tokenizer = Tokenizer(dir_dict=dir_neologd)

In [4]:
def check_tokenized_result(sentence: str) -> None:
    ws, ps = tokenizer.__call__(sentence)
    for w, p in zip(ws, ps):
        print(f'{w}\t{p}')
    print("-"*30)

## 実行

`sentence`引数に渡した文を分かち書きした結果を表示します。

In [5]:
check_tokenized_result(sentence="ピジョンとジョン・レノンが融合してピジョンレノンと成った。")
check_tokenized_result(sentence="プルプルプルキンエ細胞")
check_tokenized_result(sentence="""まずはテフをオフチョベットします。
    そしてオフチョベットしたテフをマブガッドしてリットを作るの。
    そして発酵させたリットにアブシィトを加えて混ぜます。
    あとは焼くだけよ""")

	BOS/EOS
ピジョン	名詞
と	助詞
ジョン・レノン	名詞
が	助詞
融合	名詞
する	動詞
て	助詞
ピジョンレノン	名詞
と	助詞
成る	動詞
た	助動詞
。	記号
	BOS/EOS
------------------------------
	BOS/EOS
ぷるぷる	副詞
プルキンエ細胞	名詞
	BOS/EOS
------------------------------
	BOS/EOS
まずは	接続詞
Tehu	名詞
を	助詞
オフチョベット	名詞
する	動詞
ます	助動詞
。	記号
そして	接続詞
オフチョベット	名詞
する	動詞
た	助動詞
Tehu	名詞
を	助詞
マブガッド	名詞
する	動詞
て	助詞
リット	名詞
を	助詞
作る	動詞
の	助詞
。	記号
そして	接続詞
発酵	名詞
する	動詞
せる	動詞
た	助動詞
リット	名詞
に	助詞
アブシィト	名詞
を	助詞
加える	動詞
て	助詞
混ぜる	動詞
ます	助動詞
。	記号
あと	名詞
は	助詞
焼く	動詞
だけ	助詞
よ	助詞
	BOS/EOS
------------------------------
