word-char-hybrid-embedding

提供一种以字为基准对齐的字词混合Embedding。

例如，“我爱北京天安门”，有

text：我爱北京天安门
分词：['我', '爱', '北京', '天安门']
字ID：[2 3 4 5 6 7 8]
词ID：[2 3 37 37 38 38 38]
段ID：[1 2 3 3 4 4 4]

'天安门'的在词表中的ID为38，由于len('天安门')=3，因此词ID拓展成[38 38 38]，在句子中对应的段ID为[4 4 4]。如下示意图，

整个句子依照这种方法组合在一起。组合方法可以是Add或Concat。其中Add方法叠加后需要scaling以保障数值在原来的区间上。

更详细原理可阅读源码。

经过测试，HybridEmbedding稳定地提升1%+，且收敛更快。

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
asset		asset
weights		weights
.gitignore		.gitignore
README.md		README.md
dataset.py		dataset.py
hybrid.py		hybrid.py
model_baseline.py		model_baseline.py
model_hybrid.py		model_hybrid.py
model_hybrid_initializer.py		model_hybrid_initializer.py
parallel.py		parallel.py
tflayers.py		tflayers.py
tfutils.py		tfutils.py
tokenizer.py		tokenizer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

asset

asset

weights

weights

.gitignore

.gitignore

README.md

README.md

dataset.py

dataset.py

hybrid.py

hybrid.py

model_baseline.py

model_baseline.py

model_hybrid.py

model_hybrid.py

model_hybrid_initializer.py

model_hybrid_initializer.py

parallel.py

parallel.py

tflayers.py

tflayers.py

tfutils.py

tfutils.py

tokenizer.py

tokenizer.py

Repository files navigation

word-char-hybrid-embedding

About

Releases

Packages

Languages

allenwind/word-char-hybrid-embedding

Folders and files

Latest commit

History

Repository files navigation

word-char-hybrid-embedding

About

Resources

Stars

Watchers

Forks

Languages