# Covid-19 Data Science Project

Eine Datenanalyse zu Covid-19 Daten. Ziel dieser Datenanalyse ist es ein Modell zu entwickeln, dass die zukünftigen Fallzahlen anhand verschiedener Input-Variablen wie dem Standort, den aktuellen Maßnahmen (Lockdown) und den vorherigen Fallzahlen vorhersagen kann. Zur Analyse werden Regressionsmodelle verwendet. Anschließend wird ein Deep Learning Algorithmus (neuronales Netz) angewendet.

In [1]:
import io
import urllib
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
from progressbar import ProgressBar

Historische Daten vom RKI zum Bundesland Baden-Württemberg.

Spaltenbeschreibung: https://npgeo-corona-npgeo-de.hub.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329dd6_0

Weitere Beschreibungen: https://www.bbsr.bund.de/BBSR/DE/forschung/raumbeobachtung/InteraktiveAnwendungen/corona-dashboard/corona-dashboard_einstieg.html

Berechnung der 7-Tage-Inzidenz mittels Meldedatum: https://lua.rlp.de/de/presse/detail/news/News/detail/corona-hinweise-zur-berechnung-der-7-tage-inzidenz/

In [4]:
url_cases_rki = "https://opendata.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329dd6_0.csv?where=IdBundesland%20%3E%3D%208%20AND%20IdBundesland%20%3C%3D%208"
filename_cases = "./RKI_daily.csv"

urllib.request.urlretrieve(url_cases_rki, filename_cases)

('./RKI_daily.csv', <http.client.HTTPMessage at 0x20726688f48>)

In [25]:
data_all = pd.read_csv("./RKI_daily.csv")

In [26]:
# data_all["Altersgruppe"].unique()

data_all = data_all.sort_values(by=['Landkreis','Meldedatum'])\
            .drop(["IdBundesland", "Bundesland", "Altersgruppe2", "AnzahlTodesfall", "NeuerFall", "NeuerTodesfall", "Refdatum", "NeuGenesen", "IstErkrankungsbeginn"], axis=1)

mask_age = (data_all["Altersgruppe"] == "A60-A79") | (data_all["Altersgruppe"] == "A80+")
data_all["AnzahlFall>59"] = 0
data_all["AnzahlFall>59"][mask_age] = data_all["AnzahlFall"]
# Alternativ new column mit numpy.where erstellen

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [27]:
data_all

Unnamed: 0,ObjectId,Landkreis,Altersgruppe,Geschlecht,AnzahlFall,Meldedatum,IdLandkreis,Datenstand,AnzahlGenesen,AnzahlFall>59
142323,626600,LK Alb-Donau-Kreis,A35-A59,M,1,2020/02/28 00:00:00,8425,"25.01.2021, 00:00 Uhr",1,0
142128,626405,LK Alb-Donau-Kreis,A15-A34,M,1,2020/03/04 00:00:00,8425,"25.01.2021, 00:00 Uhr",1,0
142324,626601,LK Alb-Donau-Kreis,A35-A59,M,1,2020/03/04 00:00:00,8425,"25.01.2021, 00:00 Uhr",1,0
142325,626602,LK Alb-Donau-Kreis,A35-A59,M,1,2020/03/04 00:00:00,8425,"25.01.2021, 00:00 Uhr",1,0
142326,626603,LK Alb-Donau-Kreis,A35-A59,M,1,2020/03/07 00:00:00,8425,"25.01.2021, 00:00 Uhr",1,0
...,...,...,...,...,...,...,...,...,...,...
138496,622773,SK Ulm,A15-A34,M,1,2021/01/24 00:00:00,8421,"25.01.2021, 00:00 Uhr",0,0
140801,625078,SK Ulm,A15-A34,W,2,2021/01/24 00:00:00,8421,"25.01.2021, 00:00 Uhr",0,0
142939,627216,SK Ulm,A35-A59,W,4,2021/01/24 00:00:00,8421,"25.01.2021, 00:00 Uhr",0,0
143061,627338,SK Ulm,A60-A79,M,2,2021/01/24 00:00:00,8421,"25.01.2021, 00:00 Uhr",0,2


<br>
<span style="color:red">
    Aufgabe:
</span>

- 7-Tage-Inzidenzen zum Freitag berechnen
- AnzahlFahl>59 zum Freitag berechnen (Summe)
- Anzahl männlich/weiblich zum Freitag

Vor allem anderen. Das ist dann die Basistabelle, die mit weiteren Spalten befüttert wird.
<br>

<br>
Bevölkerungsentwicklung der Stadt- und Landkreise in Baden-Württemberg
https://www.statistik-bw.de/BevoelkGebiet/Bevoelkerung/01035055.tab?R=LA

Bevölkerungsdichte der Stadt- und Landkreise in Baden-Württemberg
https://www.statistik-bw.de/BevoelkGebiet/Bevoelkerung/01515020.tab?R=LA

In [43]:
data_inhab = pd.read_csv("https://www.statistik-bw.de/BevoelkGebiet/Bevoelk_I_D_A_vj.csv",
                 encoding = "ISO-8859-1",
                 sep=";",
                 decimal=",",
                 skiprows=17)
data_inhab = data_inhab[(data_inhab["Amtlicher Gemeindeschlüssel (AGS)"]>1000) &
                        (data_inhab["Amtlicher Gemeindeschlüssel (AGS)"]<10000) &
                        (data_inhab["Bevölkerung insgesamt"].str.isnumeric())==True &
                        (data_inhab["Stichtag"] == "30.09.2020"]
                         
# Aktuellster Stichtag und alles nur Schätzungen. Also keine Differenzierung notwendig

In [126]:
data_inhab

Unnamed: 0,Kürzel der Regionaleinheit,Amtlicher Gemeindeschlüssel (AGS),Regionalname,Stichtag,Bevölkerung insgesamt,Bevölkerung männlich,Bevölkerung weiblich,Deutsche zusammen,Deutsche männlich,Deutsche weiblich,Ausländer zusammen,Ausländer männlich,Ausländer weiblich
17,KR,8111,Stadtkreis Stuttgart,31.03.2019,635443,317623,317820,477039,234397,242642,158404,83226,75178
18,KR,8115,Landkreis Böblingen,31.03.2019,392500,195510,196990,319810,157420,162390,72690,38090,34600
19,KR,8116,Landkreis Esslingen,31.03.2019,534127,267039,267088,440860,215729,225131,93267,51310,41957
20,KR,8117,Landkreis Göppingen,31.03.2019,257596,128314,129282,214986,105457,109529,42610,22857,19753
21,KR,8118,Landkreis Ludwigsburg,31.03.2019,544685,270549,274136,446860,218351,228509,97825,52198,45627
...,...,...,...,...,...,...,...,...,...,...,...,...,...
7028,KR,8425,Landkreis Alb-Donau-Kreis,30.09.2020,198275,100047,98228,170568,84837,85731,27707,15210,12497
7029,KR,8426,Landkreis Biberach,30.09.2020,202322,101918,100404,179640,89404,90236,22682,12514,10168
7030,KR,8435,Landkreis Bodenseekreis,30.09.2020,218641,107779,110862,187656,91897,95759,30985,15882,15103
7031,KR,8436,Landkreis Ravensburg,30.09.2020,286240,142728,143512,252799,124070,128729,33441,18658,14783


In [29]:
data_inhab_perkm = pd.read_csv("https://www.statistik-bw.de/BevoelkGebiet/Bevoelk_I_Flaeche_j.csv",
                 encoding = "ISO-8859-1",
                 sep=";",
                 decimal=",",
                 skiprows=18)

In [31]:
data_inhab_perkm = data_inhab_perkm[(data_inhab_perkm["Amtlicher Gemeindeschlüssel (AGS)"]>1000) &
                        (data_inhab_perkm["Amtlicher Gemeindeschlüssel (AGS)"]<10000) &
                        (data_inhab_perkm["Stichtag"] == "31.12.2019")]
# Aktuellster Stichtag

In [32]:
data_inhab_perkm

Unnamed: 0,Kürzel der Regionaleinheit,Amtlicher Gemeindeschlüssel (AGS),Postleitzahl,Regionalname,Stichtag,Bevölkerung insgesamt,Gemeindegebiet ha,Bevölkerungsdichte EW/km²
4665,KR,8111,X,Stadtkreis Stuttgart,31.12.2019,635911,20733,3067
4666,KR,8115,X,Landkreis Böblingen,31.12.2019,392807,61776,636
4667,KR,8116,X,Landkreis Esslingen,31.12.2019,535024,64128,834
4668,KR,8117,X,Landkreis Göppingen,31.12.2019,258145,64234,402
4669,KR,8118,X,Landkreis Ludwigsburg,31.12.2019,545423,68677,794
4670,KR,8119,X,Landkreis Rems-Murr-Kreis,31.12.2019,427248,85808,498
4671,KR,8121,X,Stadtkreis Heilbronn,31.12.2019,126592,9990,1267
4672,KR,8125,X,Landkreis Heilbronn,31.12.2019,344456,109991,313
4673,KR,8126,X,Landkreis Hohenlohekreis,31.12.2019,112655,77676,145
4674,KR,8127,X,Landkreis Schwäbisch Hall,31.12.2019,196761,148407,133


<br>
Altersstruktur der Stadt- und Landkreise in Ba-Wü
https://www.statistik-bw.de/BevoelkGebiet/Alter/98015200.tab?R=KR237

Download jeweils mittels des Amtlichen Gemeindeschlüssels (AGS)

In [122]:
pbar = ProgressBar()

AGS = ( pd.unique(data_inhab_perkm["Amtlicher Gemeindeschlüssel (AGS)"]) )%1000
data_age = pd.DataFrame(columns = ["Jahr", "Unter20", "Über65", "20bis65", "AGS"])

for ags in pbar(AGS):
    temp_data = pd.read_csv("https://www.statistik-bw.de/BevoelkGebiet/Alter/98015200.tab?R=KR" + str(ags) + "&form=csv",
                 encoding = "ISO-8859-1",
                 sep=";",
                 decimal=",",
                 names = ["Jahr", "Unter20", "Über65", "20bis65"],
                 usecols=[0,1,2,3],
                 skiprows = 28,
                 skipfooter = 20,
                    engine='python')
    temp_data["AGS"] = ags
    data_age = data_age.append(temp_data, ignore_index=True)

data_age["AGS"] = data_age["AGS"] + 8000

100% |########################################################################|


In [137]:
data_age

Unnamed: 0,Jahr,Unter20,Über65,20bis65,AGS
0,2020,109.680,113.716,421.919,8111
1,2021,109.892,114.218,423.461,8111
2,2020,78.538,80.109,236.644,8115
3,2021,78.881,81.539,236.339,8115
4,2020,101.883,111.712,325.572,8116
...,...,...,...,...,...
83,2021,40.311,50.212,126.459,8435
84,2020,56.464,58.085,172.557,8436
85,2021,56.517,59.122,172.422,8436
86,2020,25.482,27.600,78.546,8437


<br>
<span style="color:red">
    Aufgabe:
</span>

- Bevölkerungsdichte den Kreisen zuordnen
- Der Anteil von Über65 Jährigen den Kreisen zuordnen
- Ausländeranteil berechnen und den Kreisen zuordnen

<br>

<br>
<span style="color:red">
    Aufgabe:
</span>

Temperaturdurchschnitt zu Landkreis und Meldedatum abfragen:
https://github.com/panodata/dwdweather2

Dafür vermutlich Wetterstation den Landkreisen zuordnen.

Das ganze aber erst, nachdem wir 7-Tage-Inzidenzen nach Stichtagen haben. Brauchen die Daten nur zu diesen Stichtagen, nicht zu jedem Tag.
<br>

<br>
<span style="color:red">
    Aufgabe:
</span>

- Für die Landkreise bzw. Ba-Wü allgemein Lockdown-Dummy erstellen
- 0 Kein Lockdown
- 0.5 Soft Lockdown
- 1 Hard Lockdown

?

<br>