Skip to content

TIP-LAS: An open source toolkit for Tibetan word segmentation and part-of-speech tagging

Notifications You must be signed in to change notification settings

liyc7711/tip-las

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

49 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TIP-LAS: An open source toolkit for Tibetan word segmentation and part-of-speech tagging

TIP-LAS:藏文分词词性标注系统使用文档

简介

分词、词性标注是自然语言处理任务的基础,应用非常广泛,为方便研究者进行对比研究,我们把分词、词性标注系统予以 开源,便于快速构建实验系统。 TIP- LAS系统基于感知机算法构建,分为分词、词性标注两大模块,分词采用统一标记集对音节和紧缩词进行标注,词性标注融合音节特征,具有领域无关等特点。

动态

本分词系统在中文信息学会举办的第一届藏文分词评测中获得第一名,参见

编译TIP-LAS

  Linux 下编译:进入主文件目录,输入”make”即可

  Windows下编译:在主文件目录下,用VS 2013打开“tip-las.vcxproj”文件即可

使用可执行程序

编译成功后,会在主目录文件夹下生成如下可执行程序: tip-las

训练命令:tip-las train ws/pos input model

说明:

train表示程序执行训练命令,ws、pos分别表示选择训练分词或者是词性标注模型,input表示输入训练文件,model表示模型文件。当选择ws或pos时,后面的输入文件需要对应切分好的分词语料,或者是词性标注语料。

测试命令:tip-las test ws/pos/all input output

说明:

test表示程序执行测试命令,ws、pos、all分别表示选择测试分词、词性标注、分词标注一体,input表示输入测试文件,output表示测试结果文件。当选择ws时,输入的是纯藏文分本,输出切分好的藏文文本;当选择pos是输入的是切分好的藏文分本,输出标注结果文本;当选择all是输入的是纯藏文分本,输出的是分词、标注结果。

网络上相关使用记录分享

TIP-LAS 藏语分词工具使用

引用

如果本系统对你的研究或工作有帮助,请致谢或者引用,格式如下:

[1] 李亚超, 江静, 加羊吉,于洪志. TIP-LAS:一个开源的藏文分词词性标注系统[J]. 中文信息学报, 2015, 29(6):203-207.

参考文献

本系采用的模型及相关方法详见已经发表文章,列表如下:

[1] 李亚超,加羊吉,江静,何向真,于洪志. 融合无监督特征的藏文分词方法研究[J]. 中文信息学报, 2017, 31(02):71-75.

[2] 李亚超, 江静, 加羊吉,于洪志. TIP-LAS:一个开源的藏文分词词性标注系统[J]. 中文信息学报, 2015, 29(6):203-207.

[3] 李亚超, 加羊吉, 宗成庆,于洪志. 基于条件随机场的藏语自动分词方法研究与实现[J]. 中文信息学报, 2013, 27(4):52-58.

[4] 于洪志, 李亚超, 汪昆, 冷本扎西. 融合音节特征的最大熵藏文词性标注研究[J]. 中文信息学报, 2013, 27(5):160-165.

Q&A

如需训练好模型,及其他问题,请联系:Email: harry_lyc{at)foxmail(dot}com

注意

本系统、模型可免费用于科研、学习。如需商业用途或者需要企业级模型文件,按照如上联系方式商谈。

About

TIP-LAS: An open source toolkit for Tibetan word segmentation and part-of-speech tagging

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages