常见问题

1. 技术问题

Exception in thread "main" java.lang.!OutOfMemoryError: Java heap space

增加java Heap size的值。 java -Xmx2g -jar fudannlp.jar 。 Eclipse调整VM Argument文本框中加入：-Xmx2g
如何调整Eclipse内存

打开eclipse window－preferences－Java －Installed JREs －Edit －Default VM Arguments。在VM自变量中输入：-Xmx500m
Exception in thread "main" java.lang.!NoClassDefFoundError: java

需要加入附加的两个jar文件

2. 使用问题

对繁体文支持的好吗？

模型本身不支持繁体，但是可以通过!ChineseTrans.toSimp()函数转为简体。
请问在models文件夹下的.m文件是什么？用途是什么？是词典么？

.m文件是训练好的模型文件，为二进制文件。主要包含机器学习模型的参数，主要为两部分：字符串特征的索引，和权重向量。
能扼要的介绍一下模型文件的组成吗？

seg是分词，pos是词性，ner是实体名，time是时间提取，dict是分词可选字典。
FudanNLP支持并行化吗？支持的话怎么用呢？

支持，直接多线程调用就可以。
为什么对英文支持不好

因为训练语料是中文的，因此只能处理中文情况。英文的需要用英文的语料训练。
FudanNPL的词性标注中的每个标注什么意思？见FudanNLP Book

算法问题

这个分词是用算法的HMM/CRF吗

不是，HMM/CRF是对数线性模型。而我们使用线性模型，但解码的方式是一样的
现用的词库是怎么训练的，语料库的格式是怎么样的？

主要是序列标注，训练文件示例example-data/structure有。
句法分析实例中最后输出的那一串数字代表什么意思呢？例如：“2 2 6 2 5 3 -1 6"

这串数字代表的是这个词的支配词或者父词的位置，序号以0开始，其中-1表示根词，就是这个词是整个依存树的根。比如2代表的就是第3个词
fudannlp提供抽取关键字类 !WordExtract的算法是怎样的？

利用Textrank来实现的，具体可以看论文R. Mihalcea and P. Tarau. Textrank: Bringing order into texts. In Proceedings of EMNLP, 2004 或FudanNLP Book
介绍下句法分析模块,最后如何得到一个句子的语法分析呀

是action based 依存句法分析

作为新手补充几个容易出问题的点； 1、在原GitHub里最新版的模型文件的网盘地址被举报了无法获取，所以只能退一步下载2.1版本的模型文件和2.1版本的源码（测试之后可以使用，如果版本和模型不匹配会出问题）。 2、在装完maven之后开始编译FNLP文件，我安装的时候会下载非常多的组件，不挂梯子会一直失败，所以建议稳定网络稳定梯子安装。（安装的时候会花挺久的，而且cmd有概率会卡死，重新开始编译就行） 3、执行maven命令copy jar包到lib目录下会有问题，推荐手动复制或下载。 4、导入的时候需要导入的fnlp-core-2.0-SNAPSHOT.jar在fnlp-core文件夹下fnlp-core/target/fnlp-core-2.0-SNAPSHOT.jar（很容易被忽略） 5、helloword指导中 1 import org.fnlp.nlp.cn.CNFactory;

2 CNFactory factory = CNFactory.getInstance("models"); 第二行的初始化格式工厂需要在你项目建立好的类中，放在全局外面会报错。导入包的时候有时候会出现格式错误，此时手打一遍可能会解决问题。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

常见问题

1. 技术问题

2. 使用问题

算法问题

Clone this wiki locally