因为在使用中我们不知道文章是否简体或者繁体,所以我们一概使用简体转化,在处理如下词汇时候问题严重
'民乐', '奶油', '战列舰', '房价', '标致', '沃尓沃', '富豪', '大众', '马自达',
'克拉', '厄瓜多', '塔吉克', '安的列', '尼日', '洛哈', '漢堡', '艾森豪', '裁判',
'福斯', '芝士', '起司', '房屋', '忌廉', '平治',
'空中客车', '笑星', '谐星', '奔驰', '零钱', '老年痴呆症'
最危险的是把“习近平治党”搞成了“习近奔驰党”,在天朝,这可是杀头的罪
In [5]: HanLP.convertToSimplifiedChinese('習近平治黨')
Out[5]: '习近奔驰党'