-
Notifications
You must be signed in to change notification settings - Fork 6
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Ausprägung der Daten bei Korrektur der Altersgruppe, Datumsangaben, des Landkreises oder Geschlechts #11
Comments
Hallo @horazont, vielen Dank für den Hinweis! Mit besten Grüßen |
Retractions are tricky. The previous approach did not consider that they may easily come from the distant past. And we don't know exactly from when: 1. Either a case has been introduced before the "historic data available" cutoff (i.e. from before when we have daily full case files): Then it was recorded at the Meldedatum in the record. 2. Or a case has been introdued after the "historic data available" cutoff. In that case, it has been recorded in the dataset at the exact date at which the dataset was published. Unfortunately, to resolve the second case, we lack sufficient data: We do not know the publication date of any recorded record. We have to guess and start working our way forward starting from the reported date until we find a timeslot where at least as many cases have been added as are being retracted. This is obviously not without potential flaws. For instance, if a case group is reported with 4 new cases on day X and 3 cases on day X+1 and later on, a retraction aimed at the case group on day X+1 comes in and retracts all three cases. Then we'll remove the cases on day X, because it is the first bin with enough matching cases available. If another retraction comes in and attempts to remove the case group from day X, it will not find a matching bin: the one at day X only has 1 case left, and the one on day X+1 only had 3 cases to begin with. In such cases, we'll now log a warning; originally, I wanted to make this panicking, but it appears that at least one dataset has the issue of retracting a case *which had never been reported* [1]! Hence, we cannot be strict about this and need to hope that we'll not run into such a situation too often. (We can still detect it at a later point, because we'll see too many cases in {cases,deaths,recovered}_pub_cum compared to the respective ref series.) [1]: robert-koch-institut/SARS-CoV-2-Infektionen_in_Deutschland_Archiv#11
Hallo @horazont, die Kolleg:innen haben eine Blick in die Daten geworfen und folgende Erklärung gefunden: Die beschriebe Ausprägung der Daten kann bei Korrektur der Altersgruppe, Datumsangaben, des Landkreises oder Geschlechts zustande kommen. In der Fallgruppe Allgemein gilt, wenn wir Probleme in den Datensätzen erkennen, bitten wir die Gesundheitsämter um Korrektur. In der derzeitigen Situation der völligen Überlastung der Gesundheitsämter können diese Korrekturen aber einige Zeit in Anspruch nehmen. Mit besten Grüßen |
Hallo @HannesWuensche, Vielen Dank für die Rückmeldung. Im Klartext heißt das, dass es keine Möglichkeit gibt, Korrekturen dem vorherigen Datensatz zuzuordnen, da die Korrektur nicht auf dem exakten Vortageszustand basiert? Unglücklich, aber wohl nicht zu ändern. Vielen Dank! |
Vorab: Dieses Repository ist eine sehr nützliche Ressource und die aufgeräumten CSV-Dateien sind viel angenehmer zu verarbeiten als der arcgis download. Insofern also schonmal großes Lob & Dank für die Bereitstellung.
Beim Verarbeiten der Daten, insbesondere dem Erstellen einer Spalte "Publikationsdatum" bin ich auf folgende Inkonsistenz gestoßen:
Im Datensatz von 2021-11-21 ist eine Fallgruppe enthalten, der
-1
in NeuGenesen enthält, wozu es in 2021-11-20 keinen entsprechenden Eintrag gibt:Es gibt in 2021-11-20 folgende Einträge, die auf 8115,A80+,W matchen:
grep -P '8115,A80\+,W,' 2021-11-20.csv
(Die CSV-Dateien sind direkt aus dem Repository geladen.)
Dort gibt es zwar eine Fallgruppe, die ein Meldedatum von 2021-11-14 aufweist ist, aber dort ist keine Genesung gemeldet worden (
-9
). Meinem Verständnis nach sollte es für jede Fallgruppe, die-1
in (NeuerFall|NeuerTodesfall|NeuGenesen) hat, im Datensatz des Vortages eine Fallgruppe geben, die den gleichen Schlüssel (Landkreis+Altersgruppe+Geschlecht+Datumsangaben) hat, aber eine 0 oder eine 1 in der entsprechenden Spalte vorweist (und mindestens so viele Fälle wie die Fallgruppe mit-1
zurückzieht).Übersehe ich etwas oder ist da ein Fehler in den Daten?
The text was updated successfully, but these errors were encountered: