<a href="https://colab.research.google.com/github/mzorki/tutorials/blob/main/Tokenization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# This tutorial

Below is Python3 code for working with different types of tokenizers of Chinese language. The corresponding git repository and README file are here: https://github.com/mzorki/tutorials 
<br><br>
This file can be also used by those who do not know how to code. Just follow the insctuctions and run the code in cells by pressing the "play" button in upper left corner. 
<br><br>
For more information on tokenization, read this article in Digital Orientalist
TODO insert.


# Step 1. Import all the required libraries.


In [2]:
import pandas as pd
import json
from pandas import json_normalize
from tqdm.notebook import tqdm 
import re

# Step 2. Mount Google Drive
For Colab to be able to work with Google Drive as a normal directory, we need to give it permissions to do so and tell it the place where this notebook is.

In [3]:
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

Mounted at /gdrive


Input the path to the project. Generally starts with "gdrive/My Drive/" + path to the project folder. In my case, I have a folder "Digital Orientalist" in the Google Drive first level folder called "My Drive", hence the path.

In [4]:
project_dir = "/gdrive/My Drive/Digital Orientalist/" 
#move to the working directory 
%cd {project_dir} 

/gdrive/My Drive/Digital Orientalist


# Step 2. Save the paths to the dictionary and the text to tokenize.

CDICT (Stardict) dictionary is used in this notebook.
To use a custom dictionary:
- create a .txt file with one word per line
- upload the dictionary to the project folder
- change the file name below 

To tokenize a text:
- create a .txt file with the text to tokenize.
- no special formatting is required for the text. On the other hand, if there was any, it might be lost after tokenization. 
- change the file name below

In [5]:
dictionary_path = 'CDICT(Stardict)_wordlist.txt'
text_path = 'test_text.txt'
tok_text = open(text_path).read()

# Step 2. Load the text that we need to tokenize.
For that we need to tell this notebook to use google drive as a directory of folders and give permissions to read files.

# Jieba

In [5]:
import jieba

In [6]:
text = "你好！我是一個學生。"

In [7]:
seg_list = jieba.cut(text, cut_all=True)
print("Full Mode: " + " ".join(seg_list))  # 全模式

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.984 seconds.
Prefix dict has been built successfully.


Full Mode: 你好 ！ 我 是 一 個 學 生 。


Load the dictionary file. 


In [19]:
jieba.load_userdict(dictionary_path)

# HanLP
HanLP is a ... <br>
It is not pre-installed by Google Colab, so we need to first install it and download all the necessary files for it to work. <br><br>
**Important!**
- keep an eye on data usage
- after this file is closed, all the downloaded data will be deleted. So one needs to reinstall everything each time.

In [24]:
!pip install pyhanlp
import pyhanlp



# Udkanbun

Udkanbun is ... <br>
Once again, it needs to be installed before we can use it.

In [6]:
!pip install udkanbun
import udkanbun

Collecting udkanbun
[?25l  Downloading https://files.pythonhosted.org/packages/b4/88/dec18d7ad738edeaacb050e3285c09a567f767e2c4c2d730e9bd5d61e1c3/udkanbun-2.7.2.tar.gz (13.9MB)
[K     |████████████████████████████████| 13.9MB 7.2MB/s 
[?25hCollecting ufal.udpipe>=1.2.0
[?25l  Downloading https://files.pythonhosted.org/packages/e5/72/2b8b9dc7c80017c790bb3308bbad34b57accfed2ac2f1f4ab252ff4e9cb2/ufal.udpipe-1.2.0.3.tar.gz (304kB)
[K     |████████████████████████████████| 307kB 63.4MB/s 
[?25hCollecting mecab-python3>=0.996.5
[?25l  Downloading https://files.pythonhosted.org/packages/b4/f0/b57bfb29abd6b898d7137f4a276a338d2565f28a2098d60714388d119f3e/mecab_python3-1.0.3-cp36-cp36m-manylinux1_x86_64.whl (487kB)
[K     |████████████████████████████████| 491kB 62.8MB/s 
[?25hCollecting deplacy>=1.8.9
  Downloading https://files.pythonhosted.org/packages/a4/85/707706dbc2e0626b5408c2469908810e5c4d5374995745bca04f450f41ec/deplacy-1.8.9-py3-none-any.whl
Building wheels for collected packa

In [7]:
lzh=udkanbun.load()

## Working with one phrase. Full information and syntactic trees.

In [8]:
text = "翦暴興先廢，除凶存昔亡。圓蓋歸天壤，方輿入地荒。"

In [9]:
segmented_phrase = lzh(text)

In [40]:
print(segmented_phrase)

# text = 翦暴興先廢，除凶存昔亡。
1	翦	翦	VERB	v,動詞,行為,動作	_	6	acl	_	SpaceAfter=No
2	暴	暴	VERB	v,動詞,描写,態度	Degree=Pos	1	obj	_	Gloss=expose|SpaceAfter=No
3	興	興	VERB	v,動詞,行為,動作	_	1	parataxis	_	Gloss=rise|SpaceAfter=No|Translit=兴
4	先	先	NOUN	n,名詞,固定物,関係	Case=Loc	3	obj	_	Gloss=before|SpaceAfter=No
5	廢	廢	VERB	v,動詞,変化,制度	_	3	parataxis	_	Gloss=abolish|SpaceAfter=No|Translit=废
6	，	，	PUNCT	s,記号,読点,*	_	7	nsubj	_	SpaceAfter=No
7	除	除	VERB	v,動詞,行為,動作	_	0	root	_	Gloss=eliminate|SpaceAfter=No
8	凶	凶	VERB	v,動詞,描写,形質	Degree=Pos	9	advmod	_	Gloss=ill-omened|SpaceAfter=No
9	存	存	VERB	v,動詞,存在,存在	_	7	ccomp	_	Gloss=exist|SpaceAfter=No
10	昔	昔	NOUN	n,名詞,時,*	Case=Tem	11	obl:tmod	_	Gloss=formerly|SpaceAfter=No
11	亡	亡	VERB	v,動詞,変化,生物	_	9	parataxis	_	Gloss=be-lost|SpaceAfter=No
12	。	。	PUNCT	s,記号,句点,*	_	7	punct	_	SpaceAfter=No

# text = 圓蓋歸天壤，方輿入地荒。
1	圓	圓	NOUN	n,名詞,描写,形質	_	3	nsubj	_	SpaceAfter=No|Translit=圆
2	蓋	蓋	PART	p,助詞,句頭,*	_	3	discourse	_	Gloss=why-not|SpaceAfter=No|Translit=盖
3	歸	歸	VERB	v,動詞,行為,移動	_	0	root	_	Gloss=return|SpaceAf

In [39]:
print(segmented_phrase.to_tree())

翦 ═╗═══╗<╗     acl
暴 <╝   ║ ║     obj
興 ═╗═╗<╝ ║     parataxis
先 <╝ ║   ║     obj
廢 <══╝   ║     parataxis
， ═══════╝<╗   nsubj
除 ═════╗═══╝═╗ root
凶 <╗   ║     ║ advmod
存 ═╝═╗<╝     ║ ccomp
昔 <╗ ║       ║ obl:tmod
亡 ═╝<╝       ║ parataxis
。 <══════════╝ punct
圓 <════╗       nsubj
蓋 <════║═╗     discourse
歸 ═══╗═╝═╝═╗═╗ root
天 <╗ ║     ║ ║ compound
壤 ═╝<╝     ║ ║ obj
， <════╗   ║ ║ advmod
方 <╗   ║   ║ ║ amod
輿 ═╝<╗ ║   ║ ║ nsubj
入 ═╗═╝═╝═╗<╝ ║ conj
地 <╝     ║   ║ obj
荒 <══════╝   ║ parataxis
。 <══════════╝ punct



Only save the text.

In [41]:
print(" ".join([i.form for i in segmented_phrase[1:]]))

翦 暴 興 先 廢 ， 除 凶 存 昔 亡 。 圓 蓋 歸 天 壤 ， 方 輿 入 地 荒 。


## Working with a bigger text.

In [60]:
temp = [i for i in tok_text.split('\n') if i!='']

In [1]:
#with open('output_text.txt', 'w') as fh:
fh = open('output_text.txt', 'w')

for phrase in tqdm(temp):
  seg = lzh(phrase)
  fh.write(f'{" ".join([i.form for i in seg[1:]])}\n')


NameError: ignored

In [46]:
print(" ".join([i.form for i in segmented_text[1:]]))

學 而 子 曰 ： 「 學 而 時 習 之 ， 不 亦 說 乎 ？ 有 朋 自 遠 方 來 ， 不 亦 樂 乎 ？ 人 不 知 而 不 慍 ， 不 亦 君子 乎 ？ 」 有子 曰 ： 「 其 為 人 也 孝 弟 ， 而 好 犯 上 者 ， 鮮 矣 ； 不 好 犯 上 ， 而 好 作 亂 者 ， 未 之 有 也 。 君子 務 本 ， 本 立 而 道 生 。 孝 弟 也 者 ， 其 為 仁 之 本 與 ！ 」 子 曰 ： 「 巧 言 令 色 ， 鮮 矣 仁 ！ 」 曾子 曰 ： 「 吾 日 三 省 吾 身 ： 為 人 謀 而 不 忠 乎 ？ 與 朋 友 交 而 不 信 乎 ？ 傳 不 習 乎 ？ 」 子 曰 ： 「 道 千 乘 之 國 ： 敬 事 而 信 ， 節 用 而 愛 人 ， 使 民 以 時 。 」 子 曰 ： 「 弟子 入 則 孝 ， 出 則 弟 ， 謹 而 信 ， 汎 愛 眾 ， 而 親 仁 。 行 有 餘 力 ， 則 以 學 文 。 」 子夏 曰 ： 「 賢 賢 易 色 ， 事 父 母 能 竭 其 力 ， 事 君 能 致 其 身 ， 與 朋 友 交 言 而 有 信 。 雖 曰 未 學 ， 吾 必 謂 之 學 矣 。 」 子 曰 ： 「 君子 不 重 則 不 威 ， 學 則 不 固 。 主 忠 信 ， 無 友 不 如 己 者 ， 過 則 勿 憚 改 。 」 曾子 曰 ： 「 慎 終 追 遠 ， 民 德 歸 厚 矣 。 」 子禽 問 於 子貢 曰 ： 「 夫子 至 於 是 邦 也 ， 必 聞 其 政 ， 求 之 與 ？ 抑 與 之 與 ？ 」 子貢 曰 ： 「 夫子 溫 、 良 、 恭 、 儉 、 讓 以 得 之 。 夫子 之 求 之 也 ， 其 諸 異 乎 人 之 求 之 與 ？ 」 子 曰 ： 「 父 在 ， 觀 其 志 ； 父 沒 ， 觀 其 行 ； 三 年 無 改 於 父 之 道 ， 可 謂 孝 矣 。 」 有子 曰 ： 「 禮 之 用 ， 和 為 貴 。 先 王 之 道 斯 為 美 ， 小 大 由 之 。 有 所 不 行 ， 知 和 而 和 ， 不 以 禮 節 之 ， 亦 不 可 行 也 。 」 有子 曰 ： 「 信 近 於 義 ， 言 可 復 也 ； 恭 近 於 禮 ， 遠 恥 辱 也 ； 因 不 失 其 親 ， 亦 可 宗 也 。 」 子 曰 ： 

In [47]:
output_text = " ".join([i.form for i in segmented_phrase[1:]])