# Covid-19 Data Science Project

Eine Datenanalyse zu Covid-19 Daten. Ziel dieser Datenanalyse ist es ein Modell zu entwickeln, dass die zukünftigen Fallzahlen anhand verschiedener Input-Variablen wie dem Standort, den aktuellen Maßnahmen (Lockdown) und den vorherigen Fallzahlen vorhersagen kann. Zur Analyse werden Regressionsmodelle verwendet. Anschließend wird ein Deep Learning Algorithmus (neuronales Netz) angewendet.

In [None]:
import io
import urllib
import datetime
from datetime import timedelta
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
from progressbar import ProgressBar
import time

from datetime import datetime
import warnings
warnings.filterwarnings("ignore")
from wetterdienst.dwd.observations import DwdObservationRequest, DwdObservationPeriod, DwdObservationResolution, DwdObservationParameter, DwdObservationDataset

Historische Daten vom RKI zum Bundesland Baden-Württemberg.

Spaltenbeschreibung: https://npgeo-corona-npgeo-de.hub.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329dd6_0

Weitere Beschreibungen: https://www.bbsr.bund.de/BBSR/DE/forschung/raumbeobachtung/InteraktiveAnwendungen/corona-dashboard/corona-dashboard_einstieg.html

Berechnung der 7-Tage-Inzidenz mittels Meldedatum: https://lua.rlp.de/de/presse/detail/news/News/detail/corona-hinweise-zur-berechnung-der-7-tage-inzidenz/

In [None]:
# # Datendownload
# url_cases_rki = "https://opendata.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329dd6_0.csv?where=IdBundesland%20%3E%3D%208%20AND%20IdBundesland%20%3C%3D%208"
# filename_cases = "./RKI_daily.csv"

# urllib.request.urlretrieve(url_cases_rki, filename_cases)

In [None]:
data_all = pd.read_csv("./RKI_daily.csv")

In [None]:
# data_all["Altersgruppe"].unique()

data_all = data_all.sort_values(by=['Landkreis','Meldedatum'])\
            .drop(["ObjectId", "IdBundesland", "Bundesland", "Altersgruppe2", "AnzahlTodesfall", "Geschlecht",\
                    "NeuerFall", "NeuerTodesfall", "Refdatum", "NeuGenesen", "IstErkrankungsbeginn"], axis=1)

mask_age = (data_all["Altersgruppe"] == "A60-A79") | (data_all["Altersgruppe"] == "A80+")
data_all["AnzahlFall>59"] = 0
data_all["AnzahlFall>59"][mask_age] = data_all["AnzahlFall"]
# Alternativ new column mit numpy.where erstellen

In [None]:
anzahl_faelle = data_all["AnzahlFall"].sum()
data_all

In [None]:
data_all["Meldedatum"] = data_all["Meldedatum"].str.slice(stop=10)
data_all["Meldedatum"] = pd.to_datetime(data_all["Meldedatum"], format='%Y/%m/%d') #- pd.to_timedelta(7, unit='d')

In [None]:
landkreise_id = data_all[["Landkreis", "IdLandkreis"]].drop_duplicates()

In [None]:
data_all = data_all.groupby(['IdLandkreis', pd.Grouper(key='Meldedatum', freq='W-FRI', label="right")])['AnzahlFall', "AnzahlGenesen", "AnzahlFall>59"]\
       .sum()\
       .reset_index()\
       .sort_values(['IdLandkreis', 'Meldedatum'])

data_all['Meldedatum'] = data_all['Meldedatum'] + timedelta(days=1)

In [None]:
data_all = data_all.merge(landkreise_id, left_on='IdLandkreis', right_on='IdLandkreis')
data_all

In [None]:
print("Anzahl der Fälle stimmt noch überein? " + str(anzahl_faelle == data_all["AnzahlFall"].sum()))

<br>
Bevölkerungsentwicklung der Stadt- und Landkreise in Baden-Württemberg
https://www.statistik-bw.de/BevoelkGebiet/Bevoelkerung/01035055.tab?R=LA

Bevölkerungsdichte der Stadt- und Landkreise in Baden-Württemberg
https://www.statistik-bw.de/BevoelkGebiet/Bevoelkerung/01515020.tab?R=LA

In [None]:
data_inhab = pd.read_csv("https://www.statistik-bw.de/BevoelkGebiet/Bevoelk_I_D_A_vj.csv",
                 encoding = "ISO-8859-1",
                 sep=";",
                 decimal=",",
                 skiprows=17)
data_inhab = data_inhab[(data_inhab["Amtlicher Gemeindeschlüssel (AGS)"]>1000) &
                        (data_inhab["Amtlicher Gemeindeschlüssel (AGS)"]<10000) &
                        # (data_inhab["Bevölkerung insgesamt"].str.isnumeric())==True &
                        (data_inhab["Stichtag"] == "30.09.2020")]
                         
# Aktuellster Stichtag und alles nur Schätzungen. Also keine Differenzierung notwendig

In [None]:
data_inhab

In [None]:
data_inhab_perkm = pd.read_csv("https://www.statistik-bw.de/BevoelkGebiet/Bevoelk_I_Flaeche_j.csv",
                 encoding = "ISO-8859-1",
                 sep=";",
                 decimal=",",
                 skiprows=18)

In [None]:
data_inhab_perkm = data_inhab_perkm[(data_inhab_perkm["Amtlicher Gemeindeschlüssel (AGS)"]>1000) &
                        (data_inhab_perkm["Amtlicher Gemeindeschlüssel (AGS)"]<10000) &
                        (data_inhab_perkm["Stichtag"] == "31.12.2019")]
# Aktuellster Stichtag

In [None]:
data_inhab_perkm

<br>
Altersstruktur der Stadt- und Landkreise in Ba-Wü
https://www.statistik-bw.de/BevoelkGebiet/Alter/98015200.tab?R=KR237

Download jeweils mittels des Amtlichen Gemeindeschlüssels (AGS)

In [None]:
# pbar = ProgressBar()

# AGS = ( pd.unique(data_inhab_perkm["Amtlicher Gemeindeschlüssel (AGS)"]) )%1000
# data_age = pd.DataFrame(columns = ["Jahr", "Unter20", "Über65", "20bis65", "AGS"])

# for ags in pbar(AGS):
#     temp_data = pd.read_csv("https://www.statistik-bw.de/BevoelkGebiet/Alter/98015200.tab?R=KR" + str(ags) + "&form=csv",
#                  encoding = "ISO-8859-1",
#                  sep=";",
#                  decimal=",",
#                  names = ["Jahr", "Unter20", "Über65", "20bis65"],
#                  usecols=[0,1,2,3],
#                  skiprows = 28,
#                  skipfooter = 20,
#                     engine='python')
#     temp_data["AGS"] = ags
#     data_age = data_age.append(temp_data, ignore_index=True)

# data_age["AGS"] = data_age["AGS"] + 8000

# data_age.to_csv("altersstruktur.csv", index = False)

In [None]:
data_age = pd.read_csv("altersstruktur.csv")
data_age

In [None]:
data_age['Bevölkerung gesamt'] = data_age['Unter20'] + data_age['Über65'] + data_age['20bis65']
data_age['Ü65%'] = data_age['Über65']/ data_age['Bevölkerung gesamt'] 
data_age

#data_inhab_perkm1 = data_inhab_perkm.drop(['Kürzel der Regionaleinheit', 'Postleitzahl', 'Regionalname', 'Stichtag', 'Bevölkerung insgesamt', 'Gemeindegebiet ha'], axis = 1)
#data_inhab_perkm1

data_inhab['Ausländer%'] = data_inhab['Ausländer zusammen'].astype(int) / data_inhab['Bevölkerung insgesamt'].astype(int)
data_inhab = data_inhab.drop(['Kürzel der Regionaleinheit', 'Regionalname', 'Stichtag', 'Bevölkerung insgesamt', 'Bevölkerung männlich',\
                            'Bevölkerung weiblich', 'Deutsche männlich', 'Deutsche weiblich',\
                            'Deutsche zusammen', 'Ausländer zusammen', 'Ausländer männlich', 'Ausländer weiblich'], axis = 1)

In [None]:
data_age

In [None]:
data_all = data_all.merge(right= data_age, how = 'outer', right_on = 'AGS', left_on = 'IdLandkreis')
data_all2020 = data_all[(data_all["Meldedatum"].astype(str).str.contains(pat = '2020'))&
                        (data_all["Jahr"].astype(str).str.contains(pat = '2020'))]
data_all2021 = data_all[(data_all["Meldedatum"].astype(str).str.contains(pat = '2021'))&
                        (data_all["Jahr"].astype(str).str.contains(pat = '2021'))]
data_all = pd.concat([data_all2020, data_all2021])
data_all = data_all.drop(['Jahr', 'Unter20', 'Über65', '20bis65', 'AGS'], axis = 1)

data_all = data_all.merge(right = data_inhab, how = 'inner', right_on = 'Amtlicher Gemeindeschlüssel (AGS)', left_on = 'IdLandkreis')
data_all = data_all.drop(['Amtlicher Gemeindeschlüssel (AGS)'], axis = 1)
data_all = data_all.merge(right = data_inhab_perkm, how = 'inner', right_on = 'Amtlicher Gemeindeschlüssel (AGS)', left_on = 'IdLandkreis')
data_all = data_all.drop(['Amtlicher Gemeindeschlüssel (AGS)', 'Kürzel der Regionaleinheit', 'Postleitzahl', 'Regionalname',\
                          'Stichtag', 'Bevölkerung insgesamt', 'Gemeindegebiet ha'], axis = 1)

data_all["Bevölkerung gesamt"] = data_all["Bevölkerung gesamt"] * 1000
data_all["Bevölkerung gesamt"] = data_all["Bevölkerung gesamt"].astype(int)
data_all

In [None]:
print("Klimadaten von der Station Ohlsbach (1602) - mittig von Baden-Württemberg")

request = DwdObservationRequest(
    parameter=[
        DwdObservationParameter.MONTHLY.TEMPERATURE_AIR_200
    ],
    resolution=DwdObservationResolution.MONTHLY,
    period=DwdObservationPeriod.RECENT,
).filter(station_id=(1602, ))

station_data = request.values.all().df

station_data.tail()

In [None]:
station_data.FROM_DATE = station_data.FROM_DATE.astype(str).str.slice(stop=7)
data_all["FROM_DATE"] = data_all.Meldedatum.astype(str).str.slice(stop=7)
station_data = station_data.drop(columns=["STATION_ID", "DATASET", "TO_DATE", "PARAMETER", "QUALITY"])

In [None]:
data_all = pd.merge(data_all, station_data, on="FROM_DATE")\
            .sort_values(['IdLandkreis', 'Meldedatum'])\
            .drop(columns=["FROM_DATE"])\
            .rename(columns={"VALUE": "Temperatur"})
data_all

<br>

BIP Daten Download

Letzter Datenstand: 2018

BIP pro Kopf mit Bevölkerungszahlen von 2020. Für eine Schätzung ausreichend

BIP Angabe in Mio. Deswegen BIP * 1000000 

In [None]:
# pbar = ProgressBar()

# AGS = ( pd.unique(data_inhab_perkm["Amtlicher Gemeindeschlüssel (AGS)"]) )%1000
# data_bip = pd.DataFrame(columns = ["BIP", "AGS"])

# for ags in pbar(AGS):
#     condition = 0
#     while (condition < 1):
#         temp_data2 = pd.read_csv("https://www.statistik-bw.de/GesamtwBranchen/VGR/20013001.tab?R=KR" + str(ags) + "&form=csv",
#                      encoding = "ISO-8859-1",
#                      sep=";",
#                      decimal=",",
#                      names = ["BIP"],
#                      usecols=[1],
#                      skiprows = 33,
#                      skipfooter = 3,
#                         engine='python')
#         condition = temp_data2["BIP"].fillna(0).values[0]
        
#     temp_data2["AGS"] = ags
#     data_bip = data_bip.append(temp_data2, ignore_index=True)

# data_bip["AGS"] = data_bip["AGS"] + 8000
# data_bip["BIP"] = data_bip["BIP"] * 1000000
# data_bip["BIP"] = data_bip["BIP"].astype(int)
# data_bip.to_csv("bip.csv", index = False)

In [None]:
data_bip = pd.read_csv("bip.csv")
data_bip

In [None]:
data_all = pd.merge(data_all, data_bip, left_on="IdLandkreis", right_on="AGS")\
            .sort_values(['IdLandkreis', 'Meldedatum'])\
            .drop(columns=["AGS"])
data_all["BIPK"] = data_all["BIP"]/data_all["Bevölkerung gesamt"]
data_all = data_all.drop(columns=["BIP"])
data_all

<br>

Beschäftigte in Gastgewerbe & Gesundheits-/Sozialwesen (2020)

https://www.statistik-bw.de/Arbeit/Beschaeftigte/0302317x.tab?R=KR111&form=csv

<br>

In [None]:
data_all["BIPK"].astype(str)

In [None]:
# pbar = ProgressBar()

# AGS = ( pd.unique(data_inhab_perkm["Amtlicher Gemeindeschlüssel (AGS)"]) )%1000
# data_besch = pd.DataFrame(columns = ["AGS", "Bgast", "Bgesund"])

# for ags in pbar(AGS):
#     condition = 0
#     while (condition < 1):
#         temp_data3 = pd.read_csv("https://www.statistik-bw.de/Arbeit/Beschaeftigte/0302317x.tab?R=KR" + str(ags) + "&form=csv",
#                      encoding = "ISO-8859-1",
#                      sep=";",
#                      decimal=",",
#                      names = ["TEMPCOL"],
#                      usecols=[2],
#                      skiprows = 12,
#                      skipfooter = 8,
#                      dtype = {
#                          "TEMPCOL": str
#                      },
#                      engine='python')
#         condition = temp_data3["TEMPCOL"].astype(float).fillna(0).values[4]
        
# data_besch["AGS"] = data_besch["AGS"] + 8000
# data_besch["Bgast"] = data_besch["Bgast"].str.replace(".", "")
# data_besch["Bgesund"] = data_besch["Bgesund"].str.replace(".", "")
# data_besch.to_csv("besch.csv", index = False)

# data_besch

In [None]:
data_besch = pd.read_csv("besch.csv")

In [None]:
data_all = pd.merge(data_all, data_besch, left_on="IdLandkreis", right_on="AGS")\
            .sort_values(['IdLandkreis', 'Meldedatum'])\
            .drop(columns=["AGS"])
data_all

<br>

Google Trends zur Suche "Corona" - Standarisiert von 0 - 100

CSV Download über: https://trends.google.de/trends/explore?date=2020-01-01%202021-03-18&geo=DE-BW&q=Corona

<br>

In [None]:
data_ggl = pd.read_csv("googleTrendsCorona.csv", skiprows = 2)\
            .rename(columns={"Corona: (Baden-Württemberg)": "GoogleCorona"})
data_ggl["Woche"] = pd.to_datetime(data_ggl["Woche"])
data_ggl["GoogleCorona"] = data_ggl["GoogleCorona"].replace(["<1"], 0)

In [None]:
data_all = pd.merge_asof(data_all.sort_values(['Meldedatum']), data_ggl, left_on="Meldedatum", right_on="Woche", direction="nearest")\
            .sort_values(['IdLandkreis', 'Meldedatum'])\
            .drop(columns=["Woche"])
data_all

<br>
<span style="color:red">
    Aufgabe:
</span>

- Inzidenz-Werte berechnen mit den Bevölkerungszahlen (Oben ist ein Link zum "Wie")
- AnzahlFall>59 prozentual zu AnzahlFall = Fall>59
- GenesenBevölkerung
    - AnzahlGenesen zum Datum aufsummieren
    - Prozentual zur Bevölkerung

<br>

<br>
<span style="color:red">
    Aufgabe:
</span>

- Durchschnittliches Einkommen: Bruttolöhne https://www.statistik-bw.de/GesamtwBranchen/VGR/20023030.tab?R=KR111
- Arbeitslosenquoten: https://www.statistik-bw.de/Arbeit/Arbeitslose/03033022.tab?R=KR111
- Pflegebedürftige: https://www.statistik-bw.de/SozSicherung/Pflege/15163020.tab?R=KR111

<br>

#### Ermittlung der Corona Maßnahmen und Einteilung der Stärke des Lockdowns

Ergänzung der Lockdowndaten, die unter http://dx.doi.org/10.23668/psycharchives.4485 zur verfügung gestellt wurden.
Zur Ergänzung wurden die Daten zu den Verordnungen unter https://www.baden-wuerttemberg.de/de/service/aktuelle-infos-zu-corona/aktuelle-corona-verordnung-des-landes-baden-wuerttemberg/ genutzt.

Es wurden nicht alle Variablen des PysArchive-Datensatzes genutzt. Folgende wurden ausgewählt.
- ``leavehome``: "Leave Home", i.e. Ausgangssperre
    - 0: Keine Restriktionen
    - 1: Verlassen der Wohnung ohne Restriktionen, es kommt allerdings auf den Zielort an
    - 2: Verlassen
- ``dist``: "Distance", Abstandsregelung von 1,5m
    - 0: Keine Abstandsregelung
    - 2: Abstandsregelung
- ``msk``: "Mask-wearing", i.e. Maskenpflicht
    - 0: Keine Maskenpflicht
    - 1: Maskenplicht in ÖPVN und Läden
    - 2: Maskenplicht in öffentlichen Bereichen
- ``shppng``: "Shopping"
    - 0: Einzelhandel nicht geschlossen
    - 1: Einzelhandel bis zu einer bestimmmten Größe geschlossen
    - 2: Einzelhandel geschlossen
- ``hcut``: "Haircut", i.e. Friseur. Hier wird sich allerdings nicht nur auf Friseure eingeschränkt, sondern generell auf Körperpflegedienste
    - 0: Keine Restriktionen
    - 1: Services sind nur teilweise erlaubt, unter restriktionen
    - 2: Services dürfen nicht angeboten werden
- ``ess_shops``: "Essential Shops", i.e. Wesentliche Geschäfte. Damit wird die schliessung aller Geschäfte, wie Apotheke, Baumarkt etc. dargestellt. Dies betrifft nicht den Lebensmittelhandel
    - 0: Keine Restriktionen
    - 1: Nur für B2B oder für bestimmte Sektoren offen
    - 2: Geschlossen
- ``school``: "School", i.e. Schule. Stellt die Schulschliessung / den Präsenzuntericht dar.
    - 0: Keine Restriktionen
    - 1: Schulen geschlossen, ausser Abschlussklassen und für Kinder von wesentlichen Arbeitern
    - 2: Schulen komplett geschlossen
- ``daycare``
    - 0: Keine Restriktionen
    - 1: Kindergärten geschlossen, ausser für Kinder von wesentlichen Arbeitern
    - 2: Kindergärten komplett geschlossen
- ``trvl``: "Travel", i.e. Reisen. Nur innerhalb deutschlands
    - 0: erlaubt
    - 1: Eingeschränkt, durch Verbote in Risikogebieten ode rdurchGeshclossene Aufenthaltsorte
    - 2: Nicht erlaubt, ausser geschäftlcih oder gesundheitlich
- ``gastr``
    - 0: Offen
    - 1: only takeaway or delivery
    - 2: Fully Closed
- ``onefriend``
    - 0: In der Öffentlichkeit mit einer weiteren Person ist erlaubt
    - 2: In der Öffentlichkeit mit einer weiteren POersin ist verboten
- ``morefriends``
    - 0: Erlaubt, ohne restriktionen
    - 1: Erlaubt, sich mit 1-5 Personen ausserhalb des Haushaltes zu treffen
    - 2: Verboten
- ``church``: 
    - 0: offen
    - 1: offen mit restriktionen (Anzahl personen, Zeit, bestimmte Gründe wie Todesfeiern)
    - 2: Geschlossen.
    
Die Erläuterungen zu den Variablen sind unter folgendem Link verfügbar: https://www.psycharchives.org/bitstream/20.500.12034/2638/1/ZPID%20lockdown%20measures%20release%20note.pdf



In [None]:
data_lockdown = pd.read_csv("Corona_Verordnungen.csv",
                 encoding = "UTF-8",
                 sep=";",
                 decimal=",")
data_lockdown

<br>
<span style="color:red">
    Aufgabe:
</span>

- Zwei Tabellen
    - Eine Tabelle für Visualisierungen, Regressionsanalysen usw.
    - Eine Tabelle standardisiert für Neuronales Netz


<br>

<br>
<span style="color:green">
    Beispiele:
</span>

- https://www.kaggle.com/docxian/covid-19-tracking-germany
- https://www.kaggle.com/mreverybody/covid19-germany-deutschland-rki-data
- Beispiele für Tabellen-Manipulation: https://datascience-enthusiast.com/R/pandas_datatable.html
- 