# Tokenization Analysis

In [1]:
import sys
sys.path.append('..')

from hanziconv import HanziConv
import jieba
import jieba.posseg as pseg

from build_data import read_bible

unv = read_bible('../data/dnstrunv')
unv['text_s'] = unv.text.apply(HanziConv.toSimplified)

In [2]:
def print_tokens(tokens):
    for i, tk in enumerate(tokens):
        print(str(i + 1) + ': ' + '  '.join(f'{w}/{pos}' for w, pos in tk if pos != 'x'))

## Jieba

In [3]:
unv['text_tk'] = unv.text_s.apply(pseg.lcut)

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/w0/lx0qzxln5p72qnrg392g7nyc0000gn/T/jieba.cache
Loading model cost 2.595 seconds.
Prefix dict has been built successfully.


In [4]:
print_tokens(unv.text_tk[unv.book.str.startswith('John') & (unv.chap == 3)])

1: 有/v  一个/m  法利赛/ns  人/n  名叫/v  尼哥/ns  底母/n  是/v  犹太人/nz  的/uj  官/n
2: 这/r  人/n  夜里/t  来/v  见/v  耶稣/nr  说/v  拉比/j  我们/r  知道/v  你/r  是/v  由/p  神/n  那里/r  来/v  作/v  师傅/nr  的/uj  因为/c  你/r  所行/v  的/uj  神/n  蹟/zg  若/c  没有/v  神同/a  在/p  无人/n  能/v  行/zg
3: 耶稣/nr  回答/v  说/v  我/r  实实在在/z  地/uv  告诉/v  你/r  人/n  若/c  不/d  重生/n  就/d  不能/v  见/v  神/n  的/uj  国/n
4: 尼哥/ns  底母/n  说/v  人/n  已经/d  老/a  了/ul  如何/r  能/v  重生/n  呢/y  岂能/v  再/d  进/v  母腹/n  生/vn  出来/v  吗/y
5: 耶稣/nr  说/v  我/r  实实在在/z  地/uv  告诉/v  你/r  人/n  若/c  不是/c  从/p  水/n  和/c  圣灵/n  生/v  的/uj  就/d  不能/v  进神/v  的/uj  国/n
6: 从/p  肉身/n  生/v  的/uj  就是/d  肉身/n  从/p  灵生/n  的/uj  就是/d  灵/nr
7: 我/r  说/v  你们/r  必须/d  重生/n  你/r  不要/df  以为/c  希奇/nr
8: 风/n  随着/p  意思/n  吹/v  你/r  听见/v  风/n  的/uj  响声/n  却/d  不/d  晓得/v  从/p  哪里/r  来/v  往/zg  哪里/r  去/v  凡/d  从/p  圣灵/n  生/v  的/uj  也/d  是/v  如此/c
9: 尼哥/ns  底母/n  问/v  他/r  说/v  怎/r  能/v  有/v  这事/r  呢/y
10: 耶稣/nr  回答/v  说/v  你/r  是/v  以色列/ns  人/n  的/uj  先生/n  还/d  不/d  明白/nr  这事/r  吗/y
11: 我/r  实实在在/z  地/uv

## Jieba + Dict

In [5]:
jieba.load_userdict('bible_terms.txt')

with_dict = unv.text_s.apply(pseg.lcut)

In [6]:
print_tokens(with_dict[unv.book.str.startswith('John') & (unv.chap == 3)])

1: 有/v  一个/m  法利赛/ns  人/n  名叫/v  尼哥底母/nz  是/v  犹太人/nz  的/uj  官/n
2: 这/r  人/n  夜里/t  来/v  见/v  耶稣/nr  说/v  拉比/j  我们/r  知道/v  你/r  是/v  由/p  神/n  那里/r  来/v  作/v  师傅/nr  的/uj  因为/c  你/r  所行/v  的/uj  神/n  蹟/zg  若/c  没有/v  神同/a  在/p  无人/n  能/v  行/zg
3: 耶稣/nr  回答/v  说/v  我/r  实实在在/z  地/uv  告诉/v  你/r  人/n  若/c  不/d  重生/n  就/d  不能/v  见/v  神/n  的/uj  国/n
4: 尼哥底母/nz  说/v  人/n  已经/d  老/a  了/ul  如何/r  能/v  重生/n  呢/y  岂能/v  再/d  进/v  母腹/n  生/vn  出来/v  吗/y
5: 耶稣/nr  说/v  我/r  实实在在/z  地/uv  告诉/v  你/r  人/n  若/c  不是/c  从/p  水/n  和/c  圣灵/n  生/v  的/uj  就/d  不能/v  进神/v  的/uj  国/n
6: 从/p  肉身/n  生/v  的/uj  就是/d  肉身/n  从/p  灵生/n  的/uj  就是/d  灵/nr
7: 我/r  说/v  你们/r  必须/d  重生/n  你/r  不要/df  以为/c  希奇/nr
8: 风/n  随着/p  意思/n  吹/v  你/r  听见/v  风/n  的/uj  响声/n  却/d  不/d  晓得/v  从/p  哪里/r  来/v  往/zg  哪里/r  去/v  凡/d  从/p  圣灵/n  生/v  的/uj  也/d  是/v  如此/c
9: 尼哥底母/nz  问/v  他/r  说/v  怎/r  能/v  有/v  这事/r  呢/y
10: 耶稣/nr  回答/v  说/v  你/r  是/v  以色列/nr  人/n  的/uj  先生/n  还/d  不/d  明白/nr  这事/r  吗/y
11: 我/r  实实在在/z  地/uv  告诉/v  你/r 

## All Tokens

In [7]:
import pandas as pd

all_tokens = with_dict.explode().drop_duplicates()
all_tokens = pd.DataFrame.from_dict({
    'tk': all_tokens,
    'word': all_tokens.apply(lambda tk: tk.word),
    'flag': all_tokens.apply(lambda tk: tk.flag)
})

In [8]:
all_tokens.flag.value_counts()

n       6250
v       5976
nr      2378
ns      1225
m       1062
a        900
d        829
nz       592
i        548
l        423
r        336
t        294
s        266
c        265
vn       216
b        180
ng       145
nrt      125
f        122
zg       110
j         86
q         85
p         69
z         67
vg        62
y         54
x         45
g         41
yg        40
ad        31
nt        19
an        17
ag        15
mq        15
u         13
o          8
tg         6
e          4
nrfg       4
dg         3
k          2
mg         1
vq         1
rg         1
uj         1
h          1
ug         1
ud         1
ul         1
uz         1
df         1
uv         1
rz         1
Name: flag, dtype: int64

In [9]:
'  '.join(f'{tk.word}/{tk.flag}' for tk in all_tokens.groupby('flag')['tk'].head(2))

'亚当/ns  生/vn  塞特/nr  ；/x  以挪士/nr  以诺/ns  生闪/l  、/x  的/uj  儿子/n  是/v  歌篾/nz  在/p  创世/v  记/n  十章/m  三节/m  有作/vn  罗单/a  古实/nz  他/r  为/p  世上/s  之/u  低/a  子/ng  又/d  和/c  革/vg  迦/g  并/c  了/ul  就是/d  分/q  那时/r  地/uv  下面/f  提玛/nrt  所生/b  河边/s  米希/nrt  米/q  亚/j  珥/g  犯了罪/i  上/f  九节/t  后来/t  兰/j  夙之祖/i  毘/yg  族/ng  掳/vg  毘/zg  雅/ag  痛苦/an  甚/dg  押/zg  所有/b  得/ud  所/u  罕/ad  斯/rg  着/uz  悉/ad  们/k  必作/l  过/ug  啊/y  毘/y  不要/df  鼓瑟/z  安/an  洁净/z  祕/yg  这位/rz  俱/dg  者/k  噼成/o  噼了/o  四分之一/mq  四面/mq  外邦人所/nt  国中所/nt  晚/tg  私/ag  贞洁/nrfg  非/h  高高的/nrfg  午/tg  巳/mg  哎/e  唉/e  去过/vq'

In [10]:
x_tokens = all_tokens.flag == 'x'
'  '.join(all_tokens.word[x_tokens])

'；  、  。  （  ）  【  】  ，  ：  ‧  〈  〉  「  」  a  ．  毘  ─  『  』  ！  ？  唿  毂  託  •  ﹞  －  搆  沖  …  鹯  虺  槓  鍼  玎  訇  岖  菢  挲  碜  蜓  痲  -  蔻'

In [20]:
all_tokens.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22940 entries, 27300 to 17909
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   tk       22940 non-null  object
 1   word     22940 non-null  object
 2   flag     22940 non-null  object
 3   synsets  3993 non-null   object
dtypes: object(4)
memory usage: 896.1+ KB


## Use ConceptNet to expand vocabs

In [21]:
bible_terms = pd.read_csv('bible_terms.txt', header=None, sep=' ')[0]
tokens_no_def = all_tokens[~all_tokens.word.isin(bible_terms) & all_tokens.synsets.isna() & ~x_tokens]
tokens_no_def

Unnamed: 0,tk,word,flag,synsets
27300,生/vn,生,vn,
21816,生闪/l,生闪,l,
13655,的/uj,的,uj,
13655,儿子/n,儿子,n,
28551,创世/v,创世,v,
...,...,...,...,...
24356,必得/v,必得,v,
27361,之威/ns,之威,ns,
27361,诸神/n,诸神,n,
950,译类/n,译类,n,


## Jieba + Strong

In [31]:
unvs = read_bible('data/dunv')
unvs['text'] = unvs.text.str.replace('<\w*>', ' ')
unvs['text'] = unvs.text.str.replace('{ }', ' ')
unvs['text_s'] = unvs.text.apply(HanziConv.toSimplified)

In [33]:
unvs['text_tk'] = unvs.text_s.apply(pseg.lcut)

In [38]:
print_tokens(unvs.text_tk[unvs.book.str.startswith('John') & (unvs.chap == 3)])

1: 有/v  一个/m  法利赛/ns  人/n  名叫/v  尼哥底母/nz  是/v  犹太人/nz  的/uj  官/n
2: 这/r  人/n  夜里/t  来/v  见/v  耶稣/nr  说/v  拉比/j  我们/r  知道/v  你/r  是/v  由/p  神/n  那里/r  来/v  作/v  师傅/nr  的/uj  因为/c  你/r  所/c  行/v  的/uj  神/n  蹟/zg  若/c  没有/v  神/n  同/p  在/p  无人/n  能/v  行/zg
3: 耶稣/nr  回答/v  说/v  我/r  实实在在/z  地/uv  告诉/v  你/r  人/n  若/c  不/d  重/a  生/vn  就/d  不能/v  见/v  神/n  的/uj  国/n
4: 尼哥底母/nz  说/v  人/n  已经/d  老/a  了/ul  如何/r  能/v  重生/n  呢/y  岂能/v  再/d  进/v  母/n  腹/n  生/vn  出来/v  吗/y
5: 耶稣/nr  说/v  我/r  实实在在/z  地/uv  告诉/v  你/r  人/n  若/c  不是/c  从/p  水/n  和/c  圣灵/n  生/v  的/uj  就/d  不能/v  进/v  神/n  的/uj  国/n
6: 从/p  肉身/n  生/v  的/uj  就是/d  肉身/n  从/p  灵/nr  生/v  的/uj  就是/d  灵/nr
7: 我/r  说/v  你们/r  必须/d  重/a  生/vn  你/r  不要/df  以为/c  希奇/nr
8: 风/n  随着/p  意思/n  吹/v  你/r  听见/v  风/n  的/uj  响声/n  却/d  不/d  晓得/v  从/p  哪里/r  来/v  往/zg  哪里/r  去/v  凡/d  从/p  圣灵/n  生/v  的/uj  也/d  是/v  如此/c
9: 尼哥底母/nz  问/n  他/r  说/v  怎/r  能/v  有/v  这/r  事/n  呢/y
10: 耶稣/nr  回答/v  说/v  你/r  是/v  以色列/nr  人/n  的/uj  先生/n  还/d  不/d  明白/nr  这/r  事/n