Skip to content
xpqiu edited this page Sep 25, 2014 · 2 revisions

1. 技术问题

  1. Exception in thread "main" java.lang.!OutOfMemoryError: Java heap space

    增加java Heap size的值。 java -Xmx2g -jar fudannlp.jar 。 Eclipse调整VM Argument文本框中加入:-Xmx2g

  2. 如何调整Eclipse内存

    打开eclipse window-preferences-Java -Installed JREs -Edit -Default VM Arguments。 在VM自变量中输入:-Xmx500m

  3. Exception in thread "main" java.lang.!NoClassDefFoundError: java

    需要加入附加的两个jar文件

2. 使用问题

  1. 对繁体文支持的好吗?

    模型本身不支持繁体,但是可以通过!ChineseTrans.toSimp()函数转为简体。

  2. 请问在models文件夹下的.m文件是什么?用途是什么?是词典么?

    .m文件是训练好的模型文件,为二进制文件。主要包含机器学习模型的参数,主要为两部分:字符串特征的索引,和权重向量。

  3. 能扼要的介绍一下模型文件的组成吗?

    seg是分词,pos是词性,ner是实体名,time是时间提取,dict是分词可选字典。

  4. FudanNLP支持并行化吗?支持的话怎么用呢?

    支持,直接多线程调用就可以。

  5. 为什么对英文支持不好

    因为训练语料是中文的,因此只能处理中文情况。英文的需要用英文的语料训练。

  6. FudanNPL的词性标注中的每个标注什么意思? 见FudanNLP Book

算法问题

  1. 这个分词是用算法的HMM/CRF吗

    不是,HMM/CRF是对数线性模型。而我们使用线性模型,但解码的方式是一样的

  2. 现用的词库是怎么训练的,语料库的格式是怎么样的?

    主要是序列标注,训练文件示例example-data/structure有。

  3. 句法分析实例中最后输出的那一串数字代表什么意思呢?例如:“2 2 6 2 5 3 -1 6"

    这串数字代表的是这个词的支配词或者父词的位置,序号以0开始,其中-1表示根词,就是这个词是整个依存树的根。比如2代表的就是第3个词

  4. fudannlp提供抽取关键字类 !WordExtract的算法是怎样的?

    利用Textrank来实现的,具体可以看论文R. Mihalcea and P. Tarau. Textrank: Bringing order into texts. In Proceedings of EMNLP, 2004 或FudanNLP Book

  5. 介绍下句法分析模块,最后如何得到一个句子的语法分析呀

    是action based 依存句法分析