Skip to content

在对简体中文调用HanLP.convertToSimplifiedChinese出现的一些bug #352

@Poordeveloper

Description

@Poordeveloper

因为在使用中我们不知道文章是否简体或者繁体,所以我们一概使用简体转化,在处理如下词汇时候问题严重

'民乐', '奶油', '战列舰', '房价', '标致', '沃尓沃', '富豪', '大众', '马自达',
'克拉', '厄瓜多', '塔吉克', '安的列', '尼日', '洛哈', '漢堡', '艾森豪', '裁判',
'福斯', '芝士', '起司', '房屋', '忌廉', '平治',
'空中客车', '笑星', '谐星', '奔驰', '零钱', '老年痴呆症'

最危险的是把“习近平治党”搞成了“习近奔驰党”,在天朝,这可是杀头的罪

In [5]: HanLP.convertToSimplifiedChinese('習近平治黨')
Out[5]: '习近奔驰党'

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions