-
输入一篇文档,应用斯坦福分词器进行中文分词,并给予词性,生成分词词性文档。 词性标注为滨州树库标准,应用词性转换,将词性变为北京大学词性标注集(pku)
-
输入一篇文档,应用Ictclas分词器进行中文分词,并给予词性,生成分词词性文档。 词性标注为Ictclas标准,应用词性转换,将词性变为北京大学词性标注集(pku)
-
输入pku词性标注后的文档,使用词性修正器对词性进行修正,输出pku标准的分词词性文档
-
输入格式
模式包括模式左部(匹配规则)和模式右部(具体改动),每个模式的输入格式为
"左部->右部"
1.2. 左部: 左部由若干子模式组成, 子模式 i 的基本形式为:
-
组合体,形式为:
- ANY/词性,其中ANY表示任意单词
- 词/ANY,其中ANY表示任意词性
- 2ANY 表示对应的词或词性的字数一定是两个或以上
-
特殊符号:
- EOS 表示句子结尾 End of Sentence
- BOS 表示句子开头 Beginning of Sentence
- KEY 搜索中会先查找是否有 KEY 所在的词,然后搜索和此词对应的所有config
子模式的组合方式:"子模式1+子模式2+…+子模式n","+"可被 "~" 替换,"~" 表示分隔的两个词之间可以有多个词。 举例:
1.3. 右部: 右部有三种形式:
- [词性]正确 --- 表示该词性为正确, 这会将词性锁住,防止其他config修改
- [词性A]>>[词性B] --- 表示修改词性A为词性B
- [组合1]MERGE[组合2] --- 将组合1变为组合2
- 在当前的代码, MERGE 模式中, 左边子模式的数量一定不能等于右边自模式的数量, 如果只是想修改词的词性而不重新分词,请采用 [词性A]>>[词性B] 的形式
- MERGE 模式中, KEY一定指代的是方括号内的第一个字(词)
修改前: 感/v 兴趣/n 的/u 朋友/n 不妨/d 多/a 了/u 解下/v
修改理由: KEY多/v+了/u+解下/v->[多/v 了/u 解下/v]MERGE[多/d 了解/v 下/f]
修改后: 感/v 兴趣/n 的/u 朋友/n 不妨/d 多/d 了解/v 下/f
Ictclas | pku | Stanford |
---|---|---|
n | n | NN |
nr | nr | |
nr1 | nr | |
nr2 | nr | |
nrj | nr | |
nrf | nr | |
nrf | nr | |
ns | ns | NR |
nsf | ns | NR |
nt | nt | |
nz | nz | |
ng | Ng | |
n_new | n | NN |
njtgj | n | NN |
ntbj | n | NN |
ntsa | n | NN |
ntzj | n | NN |
词性 | n | NN |
nthub | n | NN |
ntyr | n | NN |
ntsd | n | NN |
ntyn | n | NN |
ntsh | n | NN |
n_newword | n | NN |
ntzy | n | NN |
ntgm | n | NN |
ntss | n | NN |
ntxz | n | NN |
nttj | n | NN |
ntcq | n | NN |
ntes | n | NN |
ntuk | n | NN |
ntsx | n | NN |
ntme | n | NN |
ntgx | n | NN |
ntqc | n | NN |
ntit | n | NN |
ntsc | n | NN |
ntqz | n | NN |
nthun | n | NN |
ntah | n | NN |
ntcb | n | NN |
ntrqg | n | NN |
nthen | n | NN |
nthan | n | NN |
ntdc | n | NN |
ntgd | n | NN |
ntjs | n | NN |
ntjj | n | NN |
nswyy | n | NN |
nthk | n | NN |
新增 | n | NN |
ntdb | n | NN |
ntz | n | NN |
nv | n | NN |
ntan | n | NN |
nthl | n | NN |
ntgz | n | NN |
ntau | n | NN |
ntqg | n | NN |
ntkr | n | NN |
ntjx | n | NN |
ntjd | n | NN |
ntsz | n | NN |
ntkrn | n | NN |
nttc | n | NN |
ntjp | n | NN |
nms | n | NN |
ntjk | n | NN |
ntthk | n | NN |
ntfj | n | NN |
ntjl | n | NN |
ntheb | n | NN |
ntrs | n | NN |
nttw | n | NN |
ntcj | n | NN |
ntus | n | NN |
ntgs | n | NN |
ntot | n | NN |
ntcn | n | NN |
nttqg | n | NN |
ntln | n | NN |
ntts | n | NN |
ntfr | n | NN |
dg | Dg | |
yxz | y | SP |
yxb | y | SP |
t | t | NT |
tg | tg | |
s | s | |
f | f | LC |
v | v | VV |
vshi | v | VC |
vyou | v | VE |
vf | v | VV |
vx | v | VV |
vi | v | VV |
vd | vd | |
vn | vn | |
vg | vg | |
a | a | VA |
ad | ad | |
an | an | |
ag | Ag | |
al | l | |
nl | l | |
vl | l | |
dl | l | |
bl | l | |
b | b | JJ |
z | z | |
r | r | PN |
rr | r | PN |
rz | r | PN |
rzt | r | PN |
rzs | r | PN |
rzv | r | PN |
ry | r | PN |
ryt | r | PN |
rys | r | PN |
ryv | r | PN |
rg | r | PN |
Rg | r | PN |
R | r | PN |
r | DT | |
m | m | CD |
mq | m | CD |
Mg | m | CD |
m | OD | |
q | q | M |
qv | q | M |
qt | q | M |
d | d | AD |
p | p | P |
P | p | P |
pba | p | P |
pbei | p | P |
c | c | CS |
cc | c | CS |
u | u | DEC |
u | DEG | |
u | DER | |
u | DEV | |
uzhe | u | |
ule | u | |
uguo | u | |
ude1 | u | |
ude2 | u | |
ude3 | u | |
usuo | u | |
udeng | u | |
uyy | u | |
udh | u | |
uls | u | |
uzhi | u | |
ulian | u | |
e | e | IJ |
y | y | SP |
o | o | ON |
h | h | |
k | k | |
x | nx | X |
xx | nx | X |
xu | nx | X |
News | nx | X |
xe | nx | X |
术 | nx | X |
nx | FW | |
nx | URL | |
w | w | PU |
wkz | w | PU |
wky | w | PU |
wyz | w | PU |
wyy | w | PU |
wj | w | PU |
ww | w | PU |
wt | w | PU |
wd | w | PU |
wf | w | PU |
wn | w | PU |
wm | w | PU |
ws | w | PU |
wp | w | PU |
wb | w | PU |
wh | w | PU |
P | LB | |
P | SB | |
P | BA |