<a href="https://colab.research.google.com/github/himkt/konoha/blob/master/example/Konoha_Example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 環境設定

In [1]:
!sudo apt update -qy && apt install -qy mecab libmecab-dev mecab-ipadic-utf8
!pip install -q konoha[all]
!mkdir data && wget -q https://github.com/himkt/konoha/raw/master/data/model.spm -O data/model.spm

Ign:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  InRelease
Hit:2 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran35/ InRelease
Hit:3 http://security.ubuntu.com/ubuntu bionic-security InRelease
Hit:4 http://ppa.launchpad.net/graphics-drivers/ppa/ubuntu bionic InRelease
Ign:5 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  InRelease
Hit:6 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  Release
Hit:7 http://archive.ubuntu.com/ubuntu bionic InRelease
Hit:8 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  Release
Hit:9 http://archive.ubuntu.com/ubuntu bionic-updates InRelease
Hit:10 http://ppa.launchpad.net/marutter/c2d4u3.5/ubuntu bionic InRelease
Hit:11 http://archive.ubuntu.com/ubuntu bionic-backports InRelease
Reading package lists...
Building dependency tree...
Reading state information...
60 packages can be upgraded. Run 'apt list --upgrad

# モジュールのインポート

In [2]:
from konoha import SentenceTokenizer
from konoha import WordTokenizer

# トークナイザの準備

In [7]:
sentence_tokenizer = SentenceTokenizer()
tokenizers = ["MeCab", "Janome", "nagisa", "Character"]
tokenizers_support_postag = ["MeCab", "Janome", "nagisa"]

word_tokenizers = []
for word_tokenizer_name in tokenizers:
    tokenizer = WordTokenizer(word_tokenizer_name)
    word_tokenizers.append(tokenizer)

tokenizer = WordTokenizer("Sentencepiece", model_path="./data/model.spm")
word_tokenizers.append(tokenizer)

# FIXME: `ContextualVersionConflict` happens on Google Colaboratory.
#        If you want to try `Sudachi`, please restart this notebook
#        after running the entire cells once.
#
# ref. https://github.com/nipy/niwidgets/issues/57
#
# tokenizer = WordTokenizer("Sudachi", mode="A")
# word_tokenizers.append(tokenizer)

print("Finish creating word tokenizers")

Finish creating word tokenizers


# データの用意

In [12]:
document = "東京特許許可局（とうきょうとっきょきょかきょく） 日本語の早口言葉。"
document += "なお実際に特許に関する行政を行うのは特許庁であり、過去にこのような役所が存在したことは一度も無い。"

print("Document: {}".format(document))

Document: 東京特許許可局（とうきょうとっきょきょかきょく） 日本語の早口言葉。なお実際に特許に関する行政を行うのは特許庁であり、過去にこのような役所が存在したことは一度も無い。


## 文分割

In [16]:
for index, sentence in enumerate(sentence_tokenizer.tokenize(document)):
    print(f"sentence #{index}: {sentence}")

sentence #0: 東京特許許可局（とうきょうとっきょきょかきょく） 日本語の早口言葉。
sentence #1: なお実際に特許に関する行政を行うのは特許庁であり、過去にこのような役所が存在したことは一度も無い。


# 単語分割

In [17]:
sentence = sentence_tokenizer.tokenize(document)[0]

for word_tokenizer in word_tokenizers:
    print("Tokenizer: {}".format(word_tokenizer.name))
    result = word_tokenizer.tokenize(sentence)
    result = [str(r) for r in result]
    print(" ".join(result))

Tokenizer: mecab
東京 (名詞) 特許 (名詞) 許可 (名詞) 局 (名詞) （ (記号) とうき (名詞) ょうとっきょきょかきょく (名詞) ） (記号) 日本語 (名詞) の (助詞) 早口 (名詞) 言葉 (名詞) 。 (記号)
Tokenizer: janome
東京 (名詞) 特許 (名詞) 許可 (名詞) 局 (名詞) （ (記号) とうき (名詞) ょうとっきょきょかきょく (名詞) ） (記号)   (記号) 日本語 (名詞) の (助詞) 早口 (名詞) 言葉 (名詞) 。 (記号)
Tokenizer: nagisa
東京 (名詞) 特許 (名詞) 許可 (名詞) 局 (名詞) ( (補助記号) とうきょう (名詞) とっきょ (名詞) きょ (記号) かきょく (名詞) ) (補助記号) 　 (空白) 日本 (名詞) 語 (名詞) の (助詞) 早口 (名詞) 言葉 (名詞) 。 (補助記号)
Tokenizer: character
東 京 特 許 許 可 局 （ と う き ょ う と っ き ょ き ょ か き ょ く ）   日 本 語 の 早 口 言 葉 。
Tokenizer: sentencepiece
▁東京 特許 許可 局 ( とうきょう と っ きょ きょ か きょく ) ▁ 日本語の 早 口 言葉 。
Tokenizer: sudachi (a)
東京 (名詞) 特許 (名詞) 許可 (名詞) 局 (名詞) （ (補助記号) とうきょう (名詞) とっ (動詞) き (助動詞) ょ (助詞) き (助動詞) ょ (助詞) か (助詞) きょく (名詞) ） (補助記号)   (空白) 日本 (名詞) 語 (名詞) の (助詞) 早 (形容詞) 口言葉 (名詞) 。 (補助記号)


# ホワイトスペースで分割

In [18]:
word_tokenizer = WordTokenizer("whitespace")
sentence = "私 は 猫 だ ニャン"
print(word_tokenizer.tokenize(sentence))

[私, は, 猫, だ, ニャン]
