Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

异常数据 #29

Closed
Avens666 opened this issue Feb 15, 2020 · 10 comments
Closed

异常数据 #29

Avens666 opened this issue Feb 15, 2020 · 10 comments
Labels
noise data Report the existence of noise data

Comments

@Avens666
Copy link

DXYarea的数据反馈

2.14 武汉死亡数据,有一行为1124,影响数据清洗 (我统计数据使用当天最大值,这个很干扰)
湖北省,武汉,51986,0,4131,1426,35991,0,2286,1124,2020-02-14 08:10:27.048
应该是1106

2.2日武汉的治愈数据 有个252,也不对
湖北省,武汉,9074,0,215,294,4109,0,252,224,2020-02-02 18:23:15.451

另外,为什么不把各项新增数据爬出来呢,只有总数,虽然后一天减去前一天可以得出新增数据,但是由于存在核销数据的情况,这样计算有时并不准确,有时候累计数后一天数量甚至比前一天可能少,减出来的新增数据就为负数,影响统计和趋势判断。
为了新增数据我还专门写了脚本处理,如果能够直接抓去出来就好了。

@BlankerL
Copy link
Owner

BlankerL commented Feb 15, 2020

感谢反馈,这些数据我会核查。

数据异常都是丁香园手动录入数据时产生的,本项目只负责把丁香园每一次更新的数据记录并储存,并不负责数据的异常值的处理。

所有的异常值本身就应该是科研过程中会面对并且需要处理的,项目的存在是帮助你更方便地接触你原本根本获取不到的数据,而不是由我来给你处理好所有内容。

每个人有不同的数据需求,我无法按照每个人的意愿来完成个性化的数据定制。你在提出由我来清理异常值的同时,也有人希望我能够保留所有异常值,异常值的清洗由更专业的人来完成。这个项目目前有900多个Star,意味着有超过900人对数据有需求,每个人挖掘数据的方式可能都不同,我难道需要定制900个不同的字段吗?

所有的异常值的筛选工作也需要你们的反馈,我不是机器人,没办法肉眼分析每一条数据的可靠性。这是一个开源项目,开源项目的就是应该由所有用户来共同贡献。同时,我甚至不用这份数据来进行科研工作,所以我对这份数据的熟悉程度甚至比不上很多用户,这个项目只是我希望为疫情出一分力才诞生的。

为了新增数据我还专门写了脚本处理,如果能够直接抓去出来就好了。

为了让你免费获取到这份数据,我花费了至少100个小时来写代码和维护项目却连一个感谢都没有,我又是何苦?

另外,在质疑我的时候,你是否已经阅读过README文件,你清楚异常数据要到哪里提交吗?

@BlankerL BlankerL added the noise data Report the existence of noise data label Feb 15, 2020
@BlankerL
Copy link
Owner

现在来回答你说的这两个数据异常:

湖北省,武汉,51986,0,4131,1426,35991,0,2286,1124,2020-02-14 08:10:27.048

武汉市当天仅有一条数据的死亡人数为1124人,剩下的都是1016人。然而,前一天的死亡数据为1036人,大于第二天的1016人。因此,死亡1124人可能是某一次统计结果,后来得到更正,并修正了前一天的错误,因此,这个条目不会被删除。

同时,你自己都把1016错打成了1106,也请允许丁香园犯错误。

湖北省,武汉,9074,0,215,294,4109,0,252,224,2020-02-02 18:23:15.451

本条数据没有任何问题,前一条数据的治愈人数为215人,后一条数据的治愈人数为261人,如果认为这条数据有误,请说明原因。

@BlankerL BlankerL added invalid This doesn't seem right and removed noise data Report the existence of noise data labels Feb 15, 2020
@Avens666
Copy link
Author

Avens666 commented Feb 15, 2020 via email

@BlankerL
Copy link
Owner

非常感谢你的工作,确实为很多数据分析人员提供了很大的帮助。辛苦了 提问题并不是抱怨,只是希望能够将数据质量提升的更好。 关于两个数据的具体问题,明天我再整理一下继续讨论 基于你的数据,我也做了一些工作,写了一些脚本,做了一些数据清洗,明天我也准备建个项目将之上传共享 最后再问一下,丁香园没有原始的新增确诊,新增痊愈和新增死亡数据吗?考虑到官方确实经常核销数据,依靠单纯的减去前一天的数据来计算新增数据,确实有少部分数据问题

感谢理解,丁香园只针对中国的全国数据返回新增结果,并不针对地市数据和外国数据返回新增数量。我个人猜测应该是数据统计并不一定准确,可能也存在你说的类似的情况,第二天或许会修正前一天的错误,所以没有办法通过程序自动化地精确计算新增数量吧。

确实没办法针对每个人的需求定制返回的数据字段,如果有需要可以参考两个项目的README文档,文档里有我收录的一些分析工具,里面包含了基础的分析方法。如果你上传了脚本可以在本项目中注明,我也会将你的脚本引用到README中。

@Avens666
Copy link
Author

BlankerL 你好,我已将数据清洗的工作内容上传到如下地址
https://github.com/Avens666/COVID-19-2019-nCoV-Infection-Data-cleaning-

@Avens666
Copy link
Author

现在来回答你说的这两个数据异常:

湖北省,武汉,51986,0,4131,1426,35991,0,2286,1124,2020-02-14 08:10:27.048

武汉市当天仅有一条数据的死亡人数为1124人,剩下的都是1016人。然而,前一天的死亡数据为1036人,大于第二天的1016人。因此,死亡1124人可能是某一次统计结果,后来得到更正,并修正了前一天的错误,因此,这个条目不会被删除。

同时,你自己都把1016错打成了1106,也请允许丁香园犯错误。

湖北省,武汉,9074,0,215,294,4109,0,252,224,2020-02-02 18:23:15.451

本条数据没有任何问题,前一条数据的治愈人数为215人,后一条数据的治愈人数为261人,如果认为这条数据有误,请说明原因。

我指的252是2月2日武汉市的治愈数据,你看的是湖北省的治愈数据,省数据 252可以认为是个正常的中间数据。但是2月2号武汉市的治愈数据,前面是138,后面是175,中间这个252就很奇怪,我觉的应该是把省的数据输错了
不过我现在统计使用一天内最后一次统计数据,不再使用最大值,现在这种问题暂时对清洗影响不大了

@BlankerL
Copy link
Owner

BlankerL commented Feb 16, 2020

现在来回答你说的这两个数据异常:

湖北省,武汉,51986,0,4131,1426,35991,0,2286,1124,2020-02-14 08:10:27.048

武汉市当天仅有一条数据的死亡人数为1124人,剩下的都是1016人。然而,前一天的死亡数据为1036人,大于第二天的1016人。因此,死亡1124人可能是某一次统计结果,后来得到更正,并修正了前一天的错误,因此,这个条目不会被删除。
同时,你自己都把1016错打成了1106,也请允许丁香园犯错误。

湖北省,武汉,9074,0,215,294,4109,0,252,224,2020-02-02 18:23:15.451

本条数据没有任何问题,前一条数据的治愈人数为215人,后一条数据的治愈人数为261人,如果认为这条数据有误,请说明原因。

我指的252是2月2日武汉市的治愈数据,你看的是湖北省的治愈数据,省数据 252可以认为是个正常的中间数据。但是2月2号武汉市的治愈数据,前面是138,后面是175,中间这个252就很奇怪,我觉的应该是把省的数据输错了
不过我现在统计使用一天内最后一次统计数据,不再使用最大值,现在这种问题暂时对清洗影响不大了

收到,感谢。

今天我浏览数据库,发现丁香园的数据统计有一些问题,数据有比较严重的重复现象,目前我正在解决,稍后我会更新一个版本的数据并且发布通知。

你后面说的这个武汉的数据,我会在处理完这些内容之后再仔细检查一次。

@BlankerL
Copy link
Owner

BlankerL 你好,我已将数据清洗的工作内容上传到如下地址
https://github.com/Avens666/COVID-19-2019-nCoV-Infection-Data-cleaning-

感谢,今天下午一直在维护数据库,目前已经完成。您的项目已经添加到README文件中。

@BlankerL
Copy link
Owner

目前最新的数据已经发布,具体的描述可以参考#33,建议使用最新版本的数据。

@BlankerL BlankerL added noise data Report the existence of noise data and removed invalid This doesn't seem right labels Feb 16, 2020
@BlankerL
Copy link
Owner

现在来回答你说的这两个数据异常:

湖北省,武汉,51986,0,4131,1426,35991,0,2286,1124,2020-02-14 08:10:27.048

武汉市当天仅有一条数据的死亡人数为1124人,剩下的都是1016人。然而,前一天的死亡数据为1036人,大于第二天的1016人。因此,死亡1124人可能是某一次统计结果,后来得到更正,并修正了前一天的错误,因此,这个条目不会被删除。
同时,你自己都把1016错打成了1106,也请允许丁香园犯错误。

湖北省,武汉,9074,0,215,294,4109,0,252,224,2020-02-02 18:23:15.451

本条数据没有任何问题,前一条数据的治愈人数为215人,后一条数据的治愈人数为261人,如果认为这条数据有误,请说明原因。

我指的252是2月2日武汉市的治愈数据,你看的是湖北省的治愈数据,省数据 252可以认为是个正常的中间数据。但是2月2号武汉市的治愈数据,前面是138,后面是175,中间这个252就很奇怪,我觉的应该是把省的数据输错了
不过我现在统计使用一天内最后一次统计数据,不再使用最大值,现在这种问题暂时对清洗影响不大了

感谢指正,这条数据已经删除,一个小时以内会在数据仓库内自动更新。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
noise data Report the existence of noise data
Projects
None yet
Development

No branches or pull requests

2 participants