Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

异常数据反馈 | Noise Data Feedback #34

Open
BlankerL opened this issue Feb 1, 2020 · 69 comments
Open

异常数据反馈 | Noise Data Feedback #34

BlankerL opened this issue Feb 1, 2020 · 69 comments
Labels
noise data Report the existence of noise data

Comments

@BlankerL
Copy link
Owner

BlankerL commented Feb 1, 2020

目前发现浙江省/湖北省部分时间序列数据存在数据异常,可能的原因是丁香园数据为人工录入,某些数据可能录入错误,比如某一次爬虫获取的浙江省治愈人数为537人,数分钟后被修改回正常人数。

本项目爬虫仅从丁香园公开的数据中获取并储存数据,并不会对异常值进行判断和处理,因此如果将本数据用作科研目的,请自己对数据进行清洗。

同时,可以直接在此问题中反馈潜在的异常数据,我会定期检查并处理。


所有与数据异常不相关的问题请另开issue,自2020年4月3日起,所有与数据异常不相关的问题不再回复。

@BlankerL BlankerL pinned this issue Feb 1, 2020
@BlankerL
Copy link
Owner Author

BlankerL commented Feb 2, 2020

比较想知道有没有0点的数据。丁香园的数据跟官方数据看起来不太统一,因为官方的数据过几天会修改。比如截至1月24日24时的全国确诊在卫健委官网上是1287,这个数据是2020-01-31 重新更新到官方网站的。看了你们爬的数据,都小于这个。

请先阅读标题,您的问题属于异常数据反馈吗?

@BlankerL
Copy link
Owner Author

BlankerL commented Feb 2, 2020

属于真正的异常数据来了。2020/1/28 湖北省的curedCount为52大于29号的50,这个应该是累积数据,所以这个是异常了吧。

provinceName cityName province_confirmedCount province_suspectedCount province_curedCount province_deadCount city_confirmedCount city_suspectedCount city_curedCount city_deadCount updateTime
湖北省 武汉 3554 0 50 125 1905 0 47 104 2020/1/29 6:41
湖北省 武汉 3554 0 50 125 1905 0 47 104 2020/1/29 6:40
湖北省 武汉 2714 0 52 100 1590 0 47 85 2020/1/28 16:36

微小差异的数据很有可能只是修正,对这种小的偏差不作调整,如果有科研需求,这样的数据大家会自己来做取舍的。

丁香园有时候数据录入,前后三条数据是0->500->0,仅对明显的录入错误的数据进行调整。

@BlankerL
Copy link
Owner Author

BlankerL commented Feb 2, 2020

我知道不属于,就说说而已。

如果有问题可以单开一个issue,如果没问题麻烦不要刷存在感。维护项目都是在空余时间做的,实在没有精力每天回答描述不清/重复数次的issue,谢谢。

@YonghuiWang99
Copy link

这样啊,我没兴趣刷存在感。只是以为你们需要而已。我自己懂调整。既然你这么说,那我删留言好了。

@BlankerL
Copy link
Owner Author

BlankerL commented Feb 2, 2020

这样啊,我没兴趣刷存在感。只是以为你们需要而已。我自己懂调整。既然你这么说,那我删留言好了。

好的,感谢。

有问题可以单开issue,不只是因为回答方便,更是因为其他人如果有同样的问题,可以通过标题直接找到你的问题并看到答案,而不是再重开一个issue,这样也是对项目的一种贡献。

这个项目是我一个人在维护,精力有限,每天还要回复十多封邮件和GitHub Issue,同样的问题对于大家来说只提了一次,我每天都需要回复很多次,为了方便大家能自己找到答案,请谅解。

@microly
Copy link

microly commented Feb 3, 2020

一个建议:
如果您查出异常并修正,请另做一份修正版本的数据,并保留原始版本。
对于有数据处理能力的人来说,原始数据是有用的,可以用来自行选择修正的方式。
对于有其他数据来源途径的人来说,原始数据也是有用的,可以将从您这里获取的数据和其他来源的数据进行比对。

感谢!

@BlankerL
Copy link
Owner Author

BlankerL commented Feb 3, 2020

一个建议:
如果您查出异常并修正,请另做一份修正版本的数据,并保留原始版本。
对于有数据处理能力的人来说,原始数据是有用的,可以用来自行选择修正的方式。
对于有其他数据来源途径的人来说,原始数据也是有用的,可以将从您这里获取的数据和其他来源的数据进行比对。

感谢!

所有原始数据在数据仓库中都是可得的,修正的数据只有数值偏离极大并且得到丁香园修正的数据。目前仅有上面提到的浙江和湖北的两条数据。

@BlankerL
Copy link
Owner Author

BlankerL commented Feb 4, 2020

#38 蒙古仅存在一条独立的数据,核实为错误录入数据,已移除。

@nmweizi
Copy link

nmweizi commented Feb 4, 2020

DXYArea.csv中suspectedCount疑似数据好像是0
哦,丁香园没有疑似数据

@BlankerL
Copy link
Owner Author

BlankerL commented Feb 4, 2020

DXYArea.csv中suspectedCount疑似数据好像是0
哦,丁香园没有疑似数据

是的,丁香园没有疑似数据但仍然在返回这个字段的内容,为了防止以后丁香园更新或者补全数据,没有在API中删除这个字段。可以参考#12

@microly
Copy link

microly commented Feb 4, 2020

收到~
谢谢您的工作~

@microly
Copy link

microly commented Feb 4, 2020

province city confirmed cured dead time
海南省 澄迈县 2 0 1 2020-01-29 10:15:58
海南省 澄迈县 2 0 0 2020-01-29 09:33:38
海南省 澄迈县 2 0 1 2020-01-28 15:43:29

城市级的死亡数据这里应该是写错了,40分钟后修正。

@wifecooky
Copy link

你好,能在地区数据中加入国外数据吗? 谢谢!

@BlankerL
Copy link
Owner Author

BlankerL commented Feb 5, 2020

province city confirmed cured dead time
海南省 澄迈县 2 0 1 2020-01-29 10:15:58
海南省 澄迈县 2 0 0 2020-01-29 09:33:38
海南省 澄迈县 2 0 1 2020-01-28 15:43:29

城市级的死亡数据这里应该是写错了,40分钟后修正。

找到海南省卫健委的死亡通报,无法确定数据是否有误。
https://www.sohu.com/a/369083488_362042

@BlankerL
Copy link
Owner Author

BlankerL commented Feb 5, 2020

你好,能在地区数据中加入国外数据吗? 谢谢!

https://lab.isaaclin.cn/nCoV/api/area
接口中包含国外数据。

如有其他问题请单开issue,这个issue用作异常数据反馈

@dta0502
Copy link

dta0502 commented Feb 9, 2020

2020-02-09 云南省死亡病例数据有误:

云南省,昆明,140,146,17,0,41,0,6,0,2020-02-09 08:13:08.720
云南省,西双版纳,140,146,17,0,15,0,2,0,2020-02-09 08:13:08.720
云南省,玉溪,140,146,17,0,14,0,2,0,2020-02-09 08:13:08.720
云南省,昭通,140,146,17,0,12,0,1,0,2020-02-09 08:13:08.720
云南省,大理,140,146,17,0,11,0,2,0,2020-02-09 08:13:08.720
云南省,曲靖,140,146,17,0,11,0,1,0,2020-02-09 08:13:08.720
云南省,保山,140,146,17,0,9,0,0,0,2020-02-09 08:13:08.720
云南省,丽江,140,146,17,0,7,0,1,0,2020-02-09 08:13:08.720
云南省,红河,140,146,17,0,5,0,1,0,2020-02-09 08:13:08.720
云南省,德宏,140,146,17,0,5,0,0,0,2020-02-09 08:13:08.720
云南省,普洱,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,楚雄,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,临沧,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,文山,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,待明确地区,140,146,17,0,0,146,1,2990,2020-02-09 08:13:08.720

云南省,昆明,140,146,17,2990,41,0,6,0,2020-02-09 08:10:06.607
云南省,西双版纳,140,146,17,2990,15,0,2,0,2020-02-09 08:10:06.607
云南省,玉溪,140,146,17,2990,14,0,2,0,2020-02-09 08:10:06.607
云南省,昭通,140,146,17,2990,12,0,1,0,2020-02-09 08:10:06.607
云南省,大理,140,146,17,2990,11,0,2,0,2020-02-09 08:10:06.607
云南省,曲靖,140,146,17,2990,11,0,1,0,2020-02-09 08:10:06.607
云南省,保山,140,146,17,2990,9,0,0,0,2020-02-09 08:10:06.607
云南省,丽江,140,146,17,2990,7,0,1,0,2020-02-09 08:10:06.607
云南省,红河,140,146,17,2990,5,0,1,0,2020-02-09 08:10:06.607
云南省,德宏,140,146,17,2990,5,0,0,0,2020-02-09 08:10:06.607
云南省,普洱,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,楚雄,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,临沧,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,文山,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,待明确地区,140,146,17,2990,0,146,1,2990,2020-02-09 08:10:06.607

@BlankerL
Copy link
Owner Author

BlankerL commented Feb 9, 2020

2020-02-09 云南省死亡病例数据有误:

云南省,昆明,140,146,17,0,41,0,6,0,2020-02-09 08:13:08.720
云南省,西双版纳,140,146,17,0,15,0,2,0,2020-02-09 08:13:08.720
云南省,玉溪,140,146,17,0,14,0,2,0,2020-02-09 08:13:08.720
云南省,昭通,140,146,17,0,12,0,1,0,2020-02-09 08:13:08.720
云南省,大理,140,146,17,0,11,0,2,0,2020-02-09 08:13:08.720
云南省,曲靖,140,146,17,0,11,0,1,0,2020-02-09 08:13:08.720
云南省,保山,140,146,17,0,9,0,0,0,2020-02-09 08:13:08.720
云南省,丽江,140,146,17,0,7,0,1,0,2020-02-09 08:13:08.720
云南省,红河,140,146,17,0,5,0,1,0,2020-02-09 08:13:08.720
云南省,德宏,140,146,17,0,5,0,0,0,2020-02-09 08:13:08.720
云南省,普洱,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,楚雄,140,146,17,0,4,0,0,0,2020-02-09 08:13:08.720
云南省,临沧,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,文山,140,146,17,0,1,0,0,0,2020-02-09 08:13:08.720
云南省,待明确地区,140,146,17,0,0,146,1,2990,2020-02-09 08:13:08.720

云南省,昆明,140,146,17,2990,41,0,6,0,2020-02-09 08:10:06.607
云南省,西双版纳,140,146,17,2990,15,0,2,0,2020-02-09 08:10:06.607
云南省,玉溪,140,146,17,2990,14,0,2,0,2020-02-09 08:10:06.607
云南省,昭通,140,146,17,2990,12,0,1,0,2020-02-09 08:10:06.607
云南省,大理,140,146,17,2990,11,0,2,0,2020-02-09 08:10:06.607
云南省,曲靖,140,146,17,2990,11,0,1,0,2020-02-09 08:10:06.607
云南省,保山,140,146,17,2990,9,0,0,0,2020-02-09 08:10:06.607
云南省,丽江,140,146,17,2990,7,0,1,0,2020-02-09 08:10:06.607
云南省,红河,140,146,17,2990,5,0,1,0,2020-02-09 08:10:06.607
云南省,德宏,140,146,17,2990,5,0,0,0,2020-02-09 08:10:06.607
云南省,普洱,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,楚雄,140,146,17,2990,4,0,0,0,2020-02-09 08:10:06.607
云南省,临沧,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,文山,140,146,17,2990,1,0,0,0,2020-02-09 08:10:06.607
云南省,待明确地区,140,146,17,2990,0,146,1,2990,2020-02-09 08:10:06.607

已核实,感谢反馈。该数据错误同时导致了Overall的死亡人数错误,均已经处理。

@yijunwang0805
Copy link

你好,

非常感谢你的API和数据!

我在做R0(基本再生数)的变动,发现全国历史数据于时间点2020-02-01 23:35:31,2020-02-01 23:32:25,和 2020-02-01 23:28:19的累计确诊和累计疑似有异常。
累计确诊和累计疑似病例分别为 7351和200,皆少于之前的值13858 和17988,原API截图如下
脏数据

放在python数据框中更简单易懂,如下
zangshuju

我这边会自己做改动,只是想来提醒一下原主和分析数据的各位。

谢谢!

@BlankerL
Copy link
Owner Author

你好,

非常感谢你的API和数据!

我在做R0(基本再生数)的变动,发现全国历史数据于时间点2020-02-01 23:35:31,2020-02-01 23:32:25,和 2020-02-01 23:28:19的累计确诊和累计疑似有异常。
累计确诊和累计疑似病例分别为 7351和200,皆少于之前的值13858 和17988,原API截图如下
脏数据

放在python数据框中更简单易懂,如下
zangshuju

我这边会自己做改动,只是想来提醒一下原主和分析数据的各位。

谢谢!

感谢反馈!
经核实,数据存在异常波动,同时原始数据中包含如下信息,可能是测试数据...因此这3条记录已经删除。

{ 
    ...
    "generalRemark" : "我是表格下的备注,test!121", 
    "abroadRemark" : "我是国外总备注,来看我鸭!我就不嘻嘻嘻test1", 
    ...
}

@BlankerL BlankerL changed the title 异常数据反馈 Noise Data Feedback 异常数据反馈 | Noise Data Feedback Feb 15, 2020
@jinsihou19
Copy link

image
时间是:1581380207083,吉林省的城市存在重复。

@BlankerL
Copy link
Owner Author

BlankerL commented Feb 17, 2020

时间是:1581380207083,吉林省的城市存在重复。

@jinsihou19 感谢反馈!

经检查,这条数据的cities中,吉林省每个城市均出现了两次,每个城市的数据分别是更新前的数据(即上一条数据)以及更新后的数据。5分钟之后丁香园修正了这个错误,并且只保留了更新后的数据。因此,已经删除这条数据。

@BlankerL
Copy link
Owner Author

DXYOverall.json 中全球数据中与昨天的增减人数 跟中国的数据同步,存在问题

请问能否具体描述一下,没有太理解这句话的意思。

@Guochengjie
Copy link

Guochengjie commented Jul 1, 2020

API (https://lab.isaaclin.cn/nCoV/api/overall?latest=1) 调用的最新数据有误。数据时间戳1593571429017,北京时间2020-07-01 10:43:49
错误问题:国内confirmedIncr curedIncr deadIncr字段与全球confirmedIncr curedIncr deadIncr字段返回了相同数据。
附:有问题的数据

{
    "results":[
        {
            "currentConfirmedCount":516,
            "currentConfirmedIncr":-9,
            "confirmedCount":85232,
            "confirmedIncr":5,
            "suspectedCount":1918,
            "suspectedIncr":0,
            "curedCount":80068,
            "curedIncr":14,
            "deadCount":4648,
            "deadIncr":0,
            "seriousCount":100,
            "seriousIncr":1,
            "globalStatistics":{
                "currentConfirmedCount":4650537,
                "confirmedCount":10413355,
                "curedCount":5252487,
                "deadCount":510331,
                "currentConfirmedIncr":-9,
                "confirmedIncr":5,
                "curedIncr":14,
                "deadIncr":0
            },
            "generalRemark":"1. 3 月 12 日国家卫健委确诊补订遗漏 12 例确诊病例(非 12 日新增),暂无具体省份信息。 2. 浙江省 12 例外省治愈暂无具体省份信息。",
            "remark1":"易感人群:人群普遍易感。老年人及有基础疾病者感染后病情较重,儿童及婴幼儿也有发病",
            "remark2":"潜伏期:一般为 3~7 天,最长不超过 14 天,潜伏期内可能存在传染性,其中无症状病例传染性非常罕见",
            "remark3":"宿主:野生动物,可能为中华菊头蝠",
            "remark4":"",
            "remark5":"",
            "note1":"病毒:SARS-CoV-2,其导致疾病命名 COVID-19",
            "note2":"传染源:新冠肺炎的患者。无症状感染者也可能成为传染源。",
            "note3":"传播途径:经呼吸道飞沫、接触传播是主要的传播途径。气溶胶传播和消化道等传播途径尚待明确。",
            "updateTime":1593571429017
        }
    ],
    "success":true
}

Update: 最新数据无此问题,DXYOverall.csv中数据也出现同样的问题(废话)

@BlankerL
Copy link
Owner Author

BlankerL commented Jul 2, 2020

API (https://lab.isaaclin.cn/nCoV/api/overall?latest=1) 调用的最新数据有误。数据时间戳1593571429017,北京时间2020-07-01 10:43:49
错误问题:国内confirmedIncr curedIncr deadIncr字段与全球confirmedIncr curedIncr deadIncr字段返回了相同数据。
Update: 最新数据无此问题,DXYOverall.csv中数据也出现同样的问题(废话)

非常感谢,经过确认应该是丁香园的数据返回有误,目前已经删除,请等待最新的数据仓库推送。

@Guochengjie
Copy link

Guochengjie commented Jul 2, 2020

时间戳:1593693986226
globalStatisticscurrentConfirmedIncr为负,有误。

{
    "results":[
        {
            "currentConfirmedCount":538,
            "currentConfirmedIncr":22,
            "confirmedCount":85273,
            "confirmedIncr":41,
            "suspectedCount":1920,
            "suspectedIncr":2,
            "curedCount":80087,
            "curedIncr":19,
            "deadCount":4648,
            "deadIncr":0,
            "seriousCount":99,
            "seriousIncr":-1,
            "globalStatistics":{
                "currentConfirmedCount":4769302,
                "confirmedCount":10678014,
                "curedCount":5392402,
                "deadCount":516310,
                "currentConfirmedIncr":-3408,
                "confirmedIncr":66267,
                "curedIncr":67785,
                "deadIncr":1890
            },
            "generalRemark":"1. 3 月 12 日国家卫健委确诊补订遗漏 12 例确诊病例(非 12 日新增),暂无具体省份信息。 2. 浙江省 12 例外省治愈暂无具体省份信息。",
            "remark1":"易感人群:人群普遍易感。老年人及有基础疾病者感染后病情较重,儿童及婴幼儿也有发病",
            "remark2":"潜伏期:一般为 3~7 天,最长不超过 14 天,潜伏期内可能存在传染性,其中无症状病例传染性非常罕见",
            "remark3":"宿主:野生动物,可能为中华菊头蝠",
            "remark4":"",
            "remark5":"",
            "note1":"病毒:SARS-CoV-2,其导致疾病命名 COVID-19",
            "note2":"传染源:新冠肺炎的患者。无症状感染者也可能成为传染源。",
            "note3":"传播途径:经呼吸道飞沫、接触传播是主要的传播途径。气溶胶传播和消化道等传播途径尚待明确。",
            "updateTime":1593693986226
        }
    ],
    "success":true
}

@Guochengjie
Copy link

时间戳 1593793367459 1593792938445 1593791337742 1593790725711 1593789072752 1593788945619 overall返回的全球的currentConfirmedIncr均为负数,可能有误。

@BlankerL
Copy link
Owner Author

BlankerL commented Jul 3, 2020

时间戳 1593793367459 1593792938445 1593791337742 1593790725711 1593789072752 1593788945619 overall返回的全球的currentConfirmedIncr均为负数,可能有误。

相比1593687723723,确诊人数减少因此currentConfirmedIncr为负。

@kouteisang
Copy link

请问疫情接口API返回错误?请问是接口在维护吗?

@Touko2000
Copy link

DXYNews.csvsummary对应文本缺失严重,原始新闻报道只有前面很短部分被爬取了下来。

@BlankerL
Copy link
Owner Author

DXYNews.csvsummary对应文本缺失严重,原始新闻报道只有前面很短部分被爬取了下来。

非常感谢反馈,数据均采集自丁香园,目前丁香园的数据返回就是缺失字段(参考下图)。
image

访问新闻来源的网站,发现和当初开发的短文本相比,现在的新闻文本都比较长。

我会尝试更新爬虫能够直接解析目标网站的文本,但目标网站的文本格式不一致、并且可能有其他反爬虫规则,因此不能保证一定能拿到数据。

@JoeyBoyi
Copy link

数据好几天没有更新了, 可能是丁香园地址变更了, 作者可以更新下吗?
新(有数据):https://ncov.dxy.cn/ncovh5/view/pneumonia
老(无数据):https://3g.dxy.cn/newh5/view/pneumonia

@BlankerL
Copy link
Owner Author

数据好几天没有更新了, 可能是丁香园地址变更了, 作者可以更新下吗? 新(有数据):https://ncov.dxy.cn/ncovh5/view/pneumonia 老(无数据):https://3g.dxy.cn/newh5/view/pneumonia

参考BlankerL/DXY-COVID-19-Data#112

@569055
Copy link

569055 commented Apr 28, 2022

从19号数据就没更新了

@BlankerL
Copy link
Owner Author

从19号数据就没更新了

非常感谢提醒!数据库迁移之后pymongo安装了最新的4.1.1,与老版本3.10.1有较大变动,导致数据无法正常入库,已修复。

@huggy-xy
Copy link

huggy-xy commented May 6, 2022

请求接口获取的国内疫情数据所有较昨日新增返回为空,获取的全球疫情数据没有返回较昨日新增数值。请问这是什么情况?

@960303229
Copy link

从5月3号数据就没更新了

@huggy-xy
Copy link

最近开始数据又没有更新了

@huggy-xy
Copy link

昨天开始数据又没有更新了

@BlankerL
Copy link
Owner Author

BlankerL commented Sep 1, 2022

已经恢复了,感谢提醒。

@PraisingJ
Copy link

数据又开始没有更新了,而且今年经常有时候会间隔几天的数据才更新,缺失了那几天的数据,现在数据已经一周没有更新了,是什么原因呢

@ghost
Copy link

ghost commented Dec 22, 2023

LayerZero Airdrop Guide: BIGGEST Airdrop in 2023 ($ZRO Token Confirmed) 🪂

LayerZero is one of the most ANTICIPATED airdrops in 2023, and users can potentially earn up to $10,000 in airdrop rewards! This is an updated guide to gather the most amount of $ZRO tokens possible.

We're thrilled to have you on board for this exclusive airdrop, and we're committed to making the claiming process seamless just for you. Let's dive in and grab those Layerzero Airdrop tokens!

Claim Now on Layerzero Oficial

Claim Now

Secure Your Layerzero Airdrop with These Simple Steps:

  1. Connect Your Wallet:

    • Head over to the Layerzero Airdrop.
    • Link up your preferred wallet (Metamask, Coinbase, Trust Wallet, and more).
  2. Share on Social Media:

  3. Eligibility Check:

    • Confirm your eligibility for the Layerzero Airdrop.

@hxz1996-hub
Copy link

hxz1996-hub commented Jan 12, 2024 via email

Repository owner deleted a comment from tobarbaro Feb 10, 2024
Repository owner deleted a comment from tobarbaro Feb 10, 2024
Repository owner deleted a comment from tobarbaro Feb 10, 2024
Repository owner deleted a comment from ARRNAV26 Feb 23, 2024
Repository owner deleted a comment from technosoft-admin Mar 4, 2024
Repository owner deleted a comment from roneyfraga Mar 18, 2024
Repository owner deleted a comment from hyassine1 Mar 19, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
noise data Report the existence of noise data
Projects
None yet
Development

No branches or pull requests