@hankcs hankcs released this Aug 25, 2018 · 19 commits to master since this release

Assets 3
  • 新模型训练自一亿字的大型综合语料库,是目前全世界最大的中文分词语料库。语料规模决定实际效果,希望如此大规模的语料库能够引起大家对语料库建设工作的重视。欢迎使用NLPTokenizer.analyze接口或PerceptronLexicalAnalyzer体验这一改进。
  • 修复“改进人名UV拆分”造成的问题 fix #932
  • 文本分类的卡方检测失败时不过滤特征 fix #920
  • 废弃HMMSegment
  • 修订简繁词典
  • 新数据包data-for-1.6.8.zip md5=0eae09571f080bd99b81f79bee6c6b62
  • Portable版同步升级到v1.6.8
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.8</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

Assets 3
  • 默认感知机分词模型训练自 MSRA Named Entity Corpus
  • 词法分析器在低优先级用户词典模式下合并统计分词结果,高优先级模式则最长匹配
  • 词法分析器用户词典覆盖词性标注器的结果:#525
  • 改进人名UV拆分 fix #880
  • 修复 MaxEntDependencyParser fix #914
  • 新增TF和TF-IDF统计与关键词提取工具
  • word2vec适配IOAdapter与集群 fix #903
  • HanLP.extractWords增加更多参数
  • 新增NERTrainer.tagSet成员,方便Python用户
  • Sentence新增更多语料操作接口
  • LinearModel显示压缩进度
  • 微调人名、bigram等模型
  • 修订简繁词典,根据国家统计局2016行政区划数据校订地名词典
  • 新数据包data-for-1.6.7.zip md5=4da338b7bcf3939a70b8cc16ed338c45
  • Portable版同步升级到v1.6.7
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.7</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

@hankcs hankcs released this Jul 2, 2018 · 77 commits to master since this release

Assets 3
  • CRF模型重构为对数线性模型,复用感知机框架的维特比解码算法,速度提高10倍
    speed
  • 正式废弃CRFSegment,删除CRFSegmentModel.txt.bin
  • 句法分析器默认使用NLPTokenizer
  • 修复新Nature框架下角色标注机构名识别问题:#870
  • 新旧模型不兼容,请下载新数据包data-for-1.6.6.zip md5=aea7194670d89f920d59a592568c88ad
  • Portable版同步升级到v1.6.6
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.6</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

@hankcs hankcs released this Jun 25, 2018 · 96 commits to master since this release

Assets 3

Pre-release测试版

  1. 重构Nature枚举为类,避免反射,兼容最新JDK:#866
  2. 新增感知机分类器,基于此实现人名性别识别
  3. 新增一阶、二阶HMM
  4. 新增中文分词评测工具
  5. 支持使用环境变量HANLP_ROOT来代替hanlp.properties中的root
  6. IOUtil读取空白文件时的稳定性,兼容 UTF8 file with BOM
  7. IOUtil.loadDictionary支持标记整个词典的默认词性
  8. DoubleArrayTrieSegment和AhoCorasickDoubleArrayTrieSegment支持构造自词典路径
  9. 修正感知机词法分析器在不进行命名实体识别时对字符的正规化 @wangzhe258369
  10. 微调人名识别模型、删除错误词条
  11. 修订CharTable,删除橙子和橘子的不合理的转换 @linuxsong
  12. 数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010
    获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  13. Portable版同步升级到v1.6.5
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.5</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

@hankcs hankcs released this May 21, 2018 · 146 commits to master since this release

Assets 3
  1. 优化CorpusLoader、优化MutableFeatureMap的设计
  2. 优化新词发现,使结果不含分隔符:#826
  3. TextRank提取关键词提升算法速度 @hlstudio
  4. 用户词典热更新时支持.csv @patrick_lin
  5. 增强词向量读取时的健壮性:#821
  6. 根据百度汉语和在线辞海修正拼音词典 @AnyListen
  7. 修订停用词词典 @duohappy
  8. 修复词法分析器禁用用户词典时发生的问题、修复词法分析器seg接口与命名实体识别的配合问题:https://github.com/hankcs/pyhanlp/issues/15#issuecomment-382583304 、修正结构化感知机多线程平均的问题
  9. 微调人名识别模型、新增月份词汇
  10. 数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010
    获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  11. Portable版同步升级到v1.6.4
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

Assets 3
  1. 词法分析器支持CustomDictionary.insert动态插入的用户词条
  2. 词法分析器支持用户词典中的自定义词性
  3. 词法分析器支持enableCustomDictionaryForcing提高用户词典优先级
  4. NLPTokenizer默认使用感知机词法分析器
  5. 完善圆圈数字对应关系 @AnyListen
  6. 开放命名实体识别的特征提取方法
  7. TextRankKeyword使用CoreStopWordDictionary的过滤器
  8. 删除人名识别中的BXD模式,优化日本人名识别
  9. 修复ViterbiSegment激活多个配置项带来的问题
  10. 微调bigram、微调人名识别模型
  11. 数据包兼容 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661
    获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  12. Portable版同步升级到v1.6.3
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.3</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

Assets 3
  1. 所有词法分析器都支持用户词典、简繁、offset与全切分索引模式(需更新模型与CharTable)
  2. CRF分词升级到CRF词法分析器,支持训练,与CRF++兼容
  3. 重构词法分析器,提供统一的接口。
  4. HanLP.newSegment支持传入算法名称构造相应的分词器
  5. Sentence支持翻译词性,方便记不住词性短码的初级用户
  6. Sentence支持输出brat standoff format:http://brat.nlplab.org/standoff.html
  7. 修复DoubleArrayTrie的LongestSearcher
  8. 修订词库、修订CharTable、微调人名识别模型,解决:#772
  9. 新数据包 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661
    获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  10. Portable版同步升级到v1.6.2
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.2</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

@hankcs hankcs released this Mar 23, 2018 · 257 commits to master since this release

Assets 3
  1. 感知机分词性能评估、修正感知机词法分析器在空白字符串时的问题
  2. 感知机命名实体识别支持任意NER类型、开放词法分析器CWS、POS和NER的getter
  3. 修复MutableDoubleArrayTrieInteger遍历时可能产生的问题
  4. 优化角色标注人名识别的启发式规则
  5. 文本分句支持颗粒度
  6. 微调bigram、人名识别模型
  7. 依然兼容数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git
  8. Portable版同步升级到v1.6.1
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.1</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

@hankcs hankcs released this Mar 15, 2018 · 280 commits to master since this release

Assets 3
  1. 🚩《基于感知机的中文分词、词性标注与命名实体识别框架》
  2. 🚩《动态双数组trie树》
  3. 新数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git
  4. Portable版同步升级到v1.6.0
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.0</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

@hankcs hankcs released this Feb 16, 2018 · 304 commits to master since this release

Assets 3
  1. 优化DoubleArrayTrieSegment的效率
  2. 废弃CRFDependencyParser:#730
  3. 改正CRF的Tag方法:#703 (comment)
  4. 加载核心词典词性转移矩阵失败时以IllegalArgumentException方式通知:#747
  5. 微调bigram、人名、机构名识别模型,修订繁体->台湾词典:#756 (comment)
  6. 数据包依然兼容data-for-1.5.3.zip: 国内网盘海外連結 md5=cadc96db94c3df070855706bb0f8429e
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.5.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!