# Try different tokenization methods

In [1]:
from data import read_bible

unv = read_bible('https://bible.fhl.net/public/dnstrunv.tgz')

In [2]:
import jieba
import jieba.posseg as pseg

jieba.enable_paddle()

Paddle enabled successfully......


## Paddle

In [3]:
from hanziconv import HanziConv

unv['text_s'] = unv.text.apply(HanziConv.toSimplified)
unv['text_s_tk'] = unv.text_s.apply(lambda v: pseg.lcut(v, use_paddle=True))

In [4]:
for tk in unv[unv.book.str.startswith('Gen') & unv.chap == 1].text_s_tk[:20]:
    print([f'{w}/{pos}' for w, pos in tk if pos != 'x'])

['起初/d', '，神/v', '创造/v', '天地/n', '。/v']
['地/n', '是/v', '空虚/a', '混沌，渊面黑暗；神/nz', '的/u', '灵运行/nz', '在/p', '水面/n', '上/f', '。/v']
['神/n', '说/v', '：「/nr', '要/v', '有/v', '光」，/nz', '就/d', '有/v', '了/u', '光。/n']
['神看光/nz', '是/v', '好/a', '的/u', '，/n', '就/d', '把/p', '光/n', '暗/a', '分开/v', '了/u', '。/n']
['神称光/nr', '为/v', '「昼」，/nr', '称/v', '暗/an', '为/v', '「夜」。/nr', '有/v', '晚上/TIME', '，/n', '有/v', '早晨/TIME', '，/v', '这/r', '是/v', '头/n', '一日/TIME', '。/v']
['神说：「诸水/nw', '之间/f', '要/v', '有/v', '空气/n', '，/v', '将/p', '水/n', '分为/v', '上下/f', '。」/v']
['神/n', '就/d', '造出/v', '空气/n', '，/v', '将/p', '空气/n', '以下/f', '的/u', '水、/n', '空气/n', '以上/f', '的/u', '水/n', '分开/v', '了/u', '。事/n', '就这样/d', '成/v', '了/u', '。/n']
['神称/v', '空气/n', '为/v', '「天」。/nz', '有/v', '晚上/TIME', '，/n', '有/v', '早晨/TIME', '，/n', '是/v', '第/xc', '二日/TIME', '。/v']
['神/n', '说/v', '：「/v', '天下/n', '的/u', '水/n', '要/v', '聚/v', '在/p', '一处/m', '，/n', '使/v', '旱地/n', '露/v', '出来/v', '。/v', '」事/n', '就这样/d', '成/v', '了/u', '。/n']
['神称/v', '旱地/n', '为/v', '「/n', '地/u'

## Jieba

In [5]:
unv['text_tk_j'] = unv.text_s.apply(pseg.lcut)

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/w0/lx0qzxln5p72qnrg392g7nyc0000gn/T/jieba.cache
Loading model cost 1.423 seconds.
Prefix dict has been built successfully.


In [6]:
for tk in unv[unv.book.str.startswith('Gen') & unv.chap == 1].text_tk_j[:20]:
    print([f'{w}/{pos}' for w, pos in tk])

['起初/d', '，/x', '神/n', '创造/v', '天地/n', '。/x']
['地/uv', '是/v', '空虚/n', '混沌/a', '，/x', '渊面/n', '黑暗/z', '；/x', '神/n', '的/uj', '灵/n', '运行/v', '在/p', '水面/n', '上/f', '。/x']
['神/n', '说/v', '：/x', '「/x', '要有光/n', '」/x', '，/x', '就/d', '有/v', '了/ul', '光/n', '。/x']
['神/n', '看/v', '光是/n', '好/a', '的/uj', '，/x', '就/d', '把/p', '光暗/a', '分开/v', '了/ul', '。/x']
['神称光/nr', '为/p', '「/x', '昼/n', '」/x', '，/x', '称/v', '暗为/v', '「/x', '夜/t', '」/x', '。/x', '有/v', '晚上/t', '，/x', '有/v', '早晨/t', '，/x', '这/r', '是/v', '头/n', '一日/m', '。/x']
['神/n', '说/v', '：/x', '「/x', '诸水/nr', '之间/f', '要/v', '有/v', '空气/n', '，/x', '将/d', '水分/n', '为/p', '上下/f', '。/x', '」/x']
['神/n', '就/d', '造出/v', '空气/n', '，/x', '将/d', '空气/n', '以下/f', '的/uj', '水/n', '、/x', '空气/n', '以上/f', '的/uj', '水/n', '分开/v', '了/ul', '。/x', '事/n', '就/d', '这样/r', '成/v', '了/ul', '。/x']
['神称/n', '空气/n', '为/p', '「/x', '天/q', '」/x', '。/x', '有/v', '晚上/t', '，/x', '有/v', '早晨/t', '，/x', '是/v', '第二日/m', '。/x']
['神/n', '说/v', '：/x', '「/x', '天下/s', '的/uj', '水要/b', '聚/v', '在/p', 

## Jieba + Strong

In [7]:
unvs = read_bible('https://bible.fhl.net/public/dunv.tgz')

In [8]:
unvs['text'] = unvs.text.str.replace('<\w*>', ' ')
unvs['text'] = unvs.text.str.replace('{ }', ' ')

In [9]:
unvs['text_s'] = unvs.text.apply(HanziConv.toSimplified)
unvs['text_tk'] = unvs.text_s.apply(pseg.lcut)

In [10]:
for tk in unvs[unvs.book.str.startswith('Gen') & unvs.chap == 1].text_tk[:20]:
    print([f'{w}/{pos}' for w, pos in tk if pos != 'x'])

['起初/d', '神/n', '创造/v', '天/q', '地/uv']
['地/uv', '是/v', '空虚/n', '混沌/a', '渊/n', '面/n', '黑暗/z', '神/n', '的/uj', '灵/n', '运行/v', '在/p', '水/n', '面/n', '上/f']
['神/n', '说/v', '要/v', '有/v', '光/n', '就/d', '有/v', '了/ul', '光/n']
['神/n', '看/v', '光/n', '是/v', '好/a', '的/uj', '就/d', '把/p', '光/n', '暗/d', '分开/v', '了/ul']
['神/n', '称/v', '光/n', '为/p', '昼/n', '称/v', '暗/d', '为/p', '夜/t', '有/v', '晚上/t', '有/v', '早晨/t', '这/r', '是/v', '头/n', '一/m', '日/m']
['神/n', '说/v', '诸水/nr', '之间/f', '要/v', '有/v', '空气/n', '将/d', '水/n', '分/v', '为/p', '上下/f']
['神/n', '就/d', '造出/v', '空气/n', '将/d', '空气/n', '以下/f', '的/uj', '水/n', '空气/n', '以上/f', '的/uj', '水/n', '分开/v', '了/ul', '事/n', '就/d', '这样/r', '成/v', '了/ul']
['神/n', '称/v', '空气/n', '为/p', '天/q', '有/v', '晚上/t', '有/v', '早晨/t', '是/v', '第二/m', '日/m']
['神/n', '说/v', '天/q', '下/f', '的/uj', '水/n', '要聚/v', '在/p', '一/m', '处/n', '使/v', '旱地/n', '露出/v', '来/v', '事/n', '就/d', '这样/r', '成/v', '了/ul']
['神/n', '称/v', '旱地/n', '为/p', '地/uv', '称/v', '水/n', '的/uj', '聚处/n', '为/p', '海/n', '神/n', '看着/v'