解析emoji时存在遗漏 #7

raawaa · 2021-12-01T16:51:50Z

我在试图找「男人耸肩🤷」的时候，发现并没有从 html 文件里解析出来这个 emoji。
读了一下代码，发现 emoji_all_parser.py 中，只获取了字符长度为 1 的emoji。

Line 48 in 11f76eb

if len(emoji) == 1:

但其实，作为 unicode 字符的很多 emoji，len() 返回的长度是大于 1 的。这样就导致很多 emoji 没有被写入到json数据里。

The text was updated successfully, but these errors were encountered:

yuhangch · 2021-12-02T06:42:46Z

感谢反馈，当时不了解一部分emoji len()>1的情况，也被终端骗了，打印出来两个emoji，于是粗暴的过滤了一，现在看是不对的。

目前来看，len()>1 的情况，主要集中在性别相关、国家🚩部分，于是又一些特殊处理:

raawaa · 2021-12-02T15:31:27Z

感谢，越来越好用了。

yuhangch linked a pull request Dec 2, 2021 that will close this issue

修复issue#7、优化关键字生成、更新输出文件 #8

Merged

yuhangch mentioned this issue Dec 2, 2021

修复issue#7、优化关键字生成、更新输出文件 #8

Merged

yuhangch closed this as completed in #8 Dec 2, 2021

Provide feedback