# Data Understanding

In [2]:
from pyspark.sql import DataFrameReader
from pyspark.sql import SparkSession
from pyspark.ml.feature import IndexToString, Normalizer, StringIndexer, VectorAssembler, VectorIndexer
from pyspark.ml.classification import DecisionTreeClassifier
from helpers.helper_functions import translate_to_file_string
from pyspark.sql.functions import col,lit,to_date



# for pretty printing
def printDf(sprkDF): 
    newdf = sprkDF.toPandas()
    from IPython.display import display, HTML
    return HTML(newdf.to_html())

In [3]:
inputFile = translate_to_file_string("./data/RKI_COVID19_20210529.csv")

## Create Spark Session

In [4]:
#create a SparkSession
spark = (SparkSession
       .builder
       .appName("RKICOVID19UNDERSTANDING")
       .getOrCreate())
# create a DataFrame using an ifered Schema 
df = spark.read.option("header", "true") \
       .option("inferSchema", "true") \
       .option("delimiter", ",") \
       .csv(inputFile)   

root
 |-- ObjectId: integer (nullable = true)
 |-- IdBundesland: integer (nullable = true)
 |-- Bundesland: string (nullable = true)
 |-- Landkreis: string (nullable = true)
 |-- Altersgruppe: string (nullable = true)
 |-- Geschlecht: string (nullable = true)
 |-- AnzahlFall: integer (nullable = true)
 |-- AnzahlTodesfall: integer (nullable = true)
 |-- Meldedatum: string (nullable = true)
 |-- IdLandkreis: integer (nullable = true)
 |-- Datenstand: string (nullable = true)
 |-- NeuerFall: integer (nullable = true)
 |-- NeuerTodesfall: integer (nullable = true)
 |-- Refdatum: string (nullable = true)
 |-- NeuGenesen: integer (nullable = true)
 |-- AnzahlGenesen: integer (nullable = true)
 |-- IstErkrankungsbeginn: integer (nullable = true)
 |-- Altersgruppe2: string (nullable = true)

None


## Kennenlernen des Datensatzes
Zum Kennenlernen des Datensatzes wurde das Schema und die einzelen Instanzen geneauer untersucht. An dieser Stelle sei euch auf die  Beschreibung des Datensatzes durch das RKI verwiesen. Robert Koch-Institut 2021: https://npgeo-corona-npgeo-de.hub.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329dd6_0/about. Bei der Untersuchung des Datensatzes und der Lektüre der Dokumentation fällt auf, dass es sich bereits um agregierte Daten handelt.

### Ausgeben des Schemas

In [10]:
df.printSchema()

root
 |-- ObjectId: integer (nullable = true)
 |-- IdBundesland: integer (nullable = true)
 |-- Bundesland: string (nullable = true)
 |-- Landkreis: string (nullable = true)
 |-- Altersgruppe: string (nullable = true)
 |-- Geschlecht: string (nullable = true)
 |-- AnzahlFall: integer (nullable = true)
 |-- AnzahlTodesfall: integer (nullable = true)
 |-- Meldedatum: string (nullable = true)
 |-- IdLandkreis: integer (nullable = true)
 |-- Datenstand: string (nullable = true)
 |-- NeuerFall: integer (nullable = true)
 |-- NeuerTodesfall: integer (nullable = true)
 |-- Refdatum: string (nullable = true)
 |-- NeuGenesen: integer (nullable = true)
 |-- AnzahlGenesen: integer (nullable = true)
 |-- IstErkrankungsbeginn: integer (nullable = true)
 |-- Altersgruppe2: string (nullable = true)



### Anzeigen der ersten Zehn Instanzen

In [7]:
df.limit(10).show()

+--------+------------+------------------+------------+------------+----------+----------+---------------+--------------------+-----------+--------------------+---------+--------------+--------------------+----------+-------------+--------------------+-----------------+
|ObjectId|IdBundesland|        Bundesland|   Landkreis|Altersgruppe|Geschlecht|AnzahlFall|AnzahlTodesfall|          Meldedatum|IdLandkreis|          Datenstand|NeuerFall|NeuerTodesfall|            Refdatum|NeuGenesen|AnzahlGenesen|IstErkrankungsbeginn|    Altersgruppe2|
+--------+------------+------------------+------------+------------+----------+----------+---------------+--------------------+-----------+--------------------+---------+--------------+--------------------+----------+-------------+--------------------+-----------------+
|       1|           1|Schleswig-Holstein|SK Flensburg|     A15-A34|         M|         3|              0|2021/03/19 00:00:...|       1001|29.05.2021, 00:00...|        0|            -9|20

### Anzahl der Instanzen des Datensatzes

In [9]:
df.count()

2003106

## Aufbau des Datensatzes 

Bei den Daten handelt es sich um gruppierte Daten. In einer Instanz gibt es die Felder AnzahlTodesfall, AnzahlGenesen und AnzahlTodefall. 
Darüber hinaus gibt es die Attribute NeuGenesen, NeuerTodefall und NeuerFall. Letztere geben an, wie die Anzahl-Felder zu lesen sind. 
Nimmt das Attribut NeuerFall zum Beispiel den Wert -1 an, sind die Fälle aus dem Feature AnzahlFall nur in der Veröffentlichung des Vortages enthalten. Daraus lässt sich schließen, dass es sich um eine Korrektur handelt, weshalb diese nicht für die Gesamtzahl der Fälle zu beachten sind. Die Ausprägungen 0 und 1 markieren ob es sich um neue Fälle (Ausprägung 1) oder schon bekannte Fälle (Ausprägung 0) handelt. Erstere sind erst vor kurzem dem RKI gemeldet worden und daher das erste Mal im tagesaktuellen Datensatz vorhanden. 
Selbe Nomenklatur gilt auch, für NeuerTodesfall und NeuGenesen. Wobei hier -1 bedeutet, dass zum Beispiel bereits als verstorben gemeldete Personen doch genesen oder krank sind, bzw. als genesen gemeldete Personen noch krank oder verstorben sind. -9 als Ausprägung der Feature NeuerTodesfall und NeuGenesen besagt, dass das entsprechende Ereignis noch nicht eingetreten ist. Ist in beiden Featuren eine -9 eingetragen, handelt es sich um noch erkrankte Personen.

### Anzahl Fälle kategorsiert nach NeuerFall 
1 = Neuer Fall, 0 = Bekannter Fall, -1  = Korrektur

In [18]:
df.groupBy("NeuerFall").sum("AnzahlFall").show()

+---------+---------------+
|NeuerFall|sum(AnzahlFall)|
+---------+---------------+
|       -1|           -592|
|        1|           6018|
|        0|        3669278|
+---------+---------------+



### Anzahl Todesfall gruppiert nach NeuerTodesfall

In [20]:
df.groupBy("NeuerTodesfall").sum("AnzahlTodesfall").show()

+--------------+--------------------+
|NeuerTodesfall|sum(AnzahlTodesfall)|
+--------------+--------------------+
|            -1|                 -10|
|             1|                 173|
|            -9|                   0|
|             0|               88177|
+--------------+--------------------+



### Anzahl Todesfall gruppiert nach NeuGenesen

In [22]:
df.groupBy("NeuGenesen").sum("AnzahlGenesen").show()

+----------+------------------+
|NeuGenesen|sum(AnzahlGenesen)|
+----------+------------------+
|        -1|              -691|
|         1|             10829|
|        -9|                 0|
|         0|           3461001|
+----------+------------------+



### Gesamtzahl aller Coronafälle in Deutschland
Siehe dazu auch https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Fallzahlen.html

In [14]:
df.filter(df['NeuerFall'] >  -1).groupBy().sum("AnzahlFall").show()

+---------------+
|sum(AnzahlFall)|
+---------------+
|        3675296|
+---------------+



### Anzahl neuer Fälle (heute) 
siehe auch zum Vergleich https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Fallzahlen.html

In [16]:
df.filter(df['NeuerFall']  != 0).groupBy().sum("AnzahlFall").show()

+---------------+
|sum(AnzahlFall)|
+---------------+
|           5426|
+---------------+



### Gesamtzahl aller Genesenen

In [31]:
df.filter(df.NeuGenesen  > -1).groupBy().sum("AnzahlGenesen").show()

+------------------+
|sum(AnzahlGenesen)|
+------------------+
|           3471830|
+------------------+



### Neu Genesen

In [35]:
df.filter(df.NeuGenesen == 1).groupBy().sum("AnzahlGenesen").show()

+------------------+
|sum(AnzahlGenesen)|
+------------------+
|             10829|
+------------------+



### Gesamtzahl aller Verstorbenen

In [36]:
df.filter(df.NeuerTodesfall  > -1).groupBy().sum("AnzahlTodesfall").show()

+--------------------+
|sum(AnzahlTodesfall)|
+--------------------+
|               88350|
+--------------------+



### Neu Verstorben

In [37]:
df.filter(df.NeuerTodesfall  == 1).groupBy().sum("AnzahlTodesfall").show()

+--------------------+
|sum(AnzahlTodesfall)|
+--------------------+
|                 173|
+--------------------+



## Feature-Ausprägungen
Nachfolgend werden die Ausprägungen der einzelnen Merkmale genauer Untersucht

### Ausprägungen Bundesland
Nachfolgend die Betroffenen Bundesländer ermittelt und überprüft, dass Bundesland und BundeslandId übereinstimmen. Zu beachten ist, dass die Anzahl sich auf die Anzahl der Instanzen bezieht und noch nicht auf die Gesamtzahl der Fälle.

In [41]:
df.groupBy("Bundesland","IdBundesland").count().orderBy("IdBundesland").show()

+--------------------+------------+------+
|          Bundesland|IdBundesland| count|
+--------------------+------------+------+
|  Schleswig-Holstein|           1| 47239|
|             Hamburg|           2| 26470|
|       Niedersachsen|           3|156959|
|              Bremen|           4| 11812|
| Nordrhein-Westfalen|           5|393861|
|              Hessen|           6|151970|
|     Rheinland-Pfalz|           7| 94726|
|   Baden-Württemberg|           8|282334|
|              Bayern|           9|362635|
|            Saarland|          10| 22127|
|              Berlin|          11| 97152|
|         Brandenburg|          12| 70900|
|Mecklenburg-Vorpo...|          13| 28366|
|             Sachsen|          14|118722|
|      Sachsen-Anhalt|          15| 54705|
|           Thüringen|          16| 83128|
+--------------------+------------+------+



### Ausprägungen Landkreis

In [59]:
# Anzeige der ersten 20 Landkreise
df.groupBy("Landkreis","IdLandkreis").count().orderBy("IdLandkreis").limit(20).show()

+--------------------+-----------+-----+
|           Landkreis|IdLandkreis|count|
+--------------------+-----------+-----+
|        SK Flensburg|       1001| 1787|
|             SK Kiel|       1002| 4284|
|           SK Lübeck|       1003| 4351|
|       SK Neumünster|       1004| 1508|
|     LK Dithmarschen|       1051| 1635|
|LK Herzogtum Laue...|       1053| 3979|
|    LK Nordfriesland|       1054| 2086|
|      LK Ostholstein|       1055| 2512|
|        LK Pinneberg|       1056| 6836|
|             LK Plön|       1057| 1237|
|LK Rendsburg-Ecke...|       1058| 3042|
|LK Schleswig-Flen...|       1059| 2359|
|         LK Segeberg|       1060| 4582|
|        LK Steinburg|       1061| 1979|
|         LK Stormarn|       1062| 5062|
|          SK Hamburg|       2000|26470|
|     SK Braunschweig|       3101| 4886|
|       SK Salzgitter|       3102| 4008|
|        SK Wolfsburg|       3103| 3054|
|          LK Gifhorn|       3151| 2826|
+--------------------+-----------+-----+



### Ausprägungen der Altersgruppe

In [44]:
#Werte Altersgruppe
df.groupBy("Altersgruppe").count().show()

+------------+------+
|Altersgruppe| count|
+------------+------+
|     A35-A59|678082|
|     A00-A04| 75024|
|        A80+|171094|
|     A05-A14|169552|
|     A15-A34|557468|
|     A60-A79|349457|
|   unbekannt|  2429|
+------------+------+



### Ausprägungen des Geschlechts
Bei der Untersuchung der Ausprägungen des Geschlechts, zeigt sich, dass nicht für alle Datensätze das Geschlecht bekannt ist, dies muss im Zuge der Data-Preperation-Phase korrigiert werden.

In [47]:
df.groupBy("Geschlecht").count().show()

+----------+-------+
|Geschlecht|  count|
+----------+-------+
|         M| 969988|
|         W|1013266|
| unbekannt|  19852|
+----------+-------+



### Ausprägungen der Altersgruppe
Auch hier zeigt sich bezüglich der Datenqualität, dass es Isntanzen gibt, für die das Feature Altersgruppe unbekannt ist

In [50]:
df.groupBy("Altersgruppe").count().show()

+------------+------+
|Altersgruppe| count|
+------------+------+
|     A35-A59|678082|
|     A00-A04| 75024|
|        A80+|171094|
|     A05-A14|169552|
|     A15-A34|557468|
|     A60-A79|349457|
|   unbekannt|  2429|
+------------+------+



### Ausprägungen der Altersgruppe2
Das Feld Altersgruppe2 kann im Zuge der Datenreduktion gelöscht werden, da ddas Attribut für alle Instanzen nicht bekannt ist.

In [51]:
df.groupBy("Altersgruppe2").count().show()

+-----------------+-------+
|    Altersgruppe2|  count|
+-----------------+-------+
|Nicht übermittelt|2003106|
+-----------------+-------+



## Div. Lagemaße

### Minimal und Maximal-Ausprägung von AnzahlFall

In [113]:
df.selectExpr("min(AnzahlFall) AS Min","max(AnzahlFall) as Max").show()

+---+---+
|Min|Max|
+---+---+
| -3|145|
+---+---+



In [110]:
printDf(df.describe())

Unnamed: 0,summary,ObjectId,IdBundesland,Bundesland,Landkreis,Altersgruppe,Geschlecht,AnzahlFall,AnzahlTodesfall,Meldedatum,IdLandkreis,Datenstand,NeuerFall,NeuerTodesfall,Refdatum,NeuGenesen,AnzahlGenesen,IstErkrankungsbeginn,Altersgruppe2
0,count,2003106.0,2003106.0,2003106,2003106,2003106,2003106,2003106.0,2003106.0,2003106,2003106.0,2003106,2003106.0,2003106.0,2003106,2003106.0,2003106.0,2003106.0,2003106
1,mean,1001553.5,7.99115423746921,,,,,1.8345030168148864,0.0441015103544195,,8317.585857163824,,0.0017497825876413,-8.668266681843098,,-0.6025761991627003,1.7328783399380765,0.7012504580386659,
2,stddev,578247.0384952265,3.676249636013537,,,,,2.5629516720516548,0.2622104026240733,,3639.850633073219,,0.0480400933388802,1.6959873329443984,,2.2558363580945517,2.563150051685783,0.4577099056454686,
3,min,1.0,1.0,Baden-Württemberg,LK Ahrweiler,A00-A04,M,-3.0,-1.0,2020/01/04 00:00:00+00,1001.0,"29.05.2021, 00:00 Uhr",-1.0,-9.0,2020/01/01 00:00:00+00,-9.0,-3.0,0.0,Nicht übermittelt
4,max,2003106.0,16.0,Thüringen,Städteregion Aachen,unbekannt,unbekannt,145.0,21.0,2021/05/28 00:00:00+00,16077.0,"29.05.2021, 00:00 Uhr",1.0,1.0,2021/05/28 00:00:00+00,1.0,145.0,1.0,Nicht übermittelt


## Weitere Ausertungen, Diagramme und Analysen

Da es sich an dieser Stelle um aggregierte Werte handelt, bietet es sich an, zuerst die Data-Preperation-Phase durchzuführen, bevor weitere Diagramme und Analysen durchgeführt werden. Aus diesem Grund wird nach der Dataprepration ein weiteres Data-Understanding-Notebook angelegt.

In [111]:
printDf(df.describe())


Unnamed: 0,summary,ObjectId,IdBundesland,Bundesland,Landkreis,Altersgruppe,Geschlecht,AnzahlFall,AnzahlTodesfall,Meldedatum,IdLandkreis,Datenstand,NeuerFall,NeuerTodesfall,Refdatum,NeuGenesen,AnzahlGenesen,IstErkrankungsbeginn,Altersgruppe2
0,count,2003106.0,2003106.0,2003106,2003106,2003106,2003106,2003106.0,2003106.0,2003106,2003106.0,2003106,2003106.0,2003106.0,2003106,2003106.0,2003106.0,2003106.0,2003106
1,mean,1001553.5,7.99115423746921,,,,,1.8345030168148864,0.0441015103544195,,8317.585857163824,,0.0017497825876413,-8.668266681843098,,-0.6025761991627003,1.7328783399380765,0.7012504580386659,
2,stddev,578247.0384952265,3.676249636013537,,,,,2.5629516720516548,0.2622104026240733,,3639.850633073219,,0.0480400933388802,1.6959873329443984,,2.2558363580945517,2.563150051685783,0.4577099056454686,
3,min,1.0,1.0,Baden-Württemberg,LK Ahrweiler,A00-A04,M,-3.0,-1.0,2020/01/04 00:00:00+00,1001.0,"29.05.2021, 00:00 Uhr",-1.0,-9.0,2020/01/01 00:00:00+00,-9.0,-3.0,0.0,Nicht übermittelt
4,max,2003106.0,16.0,Thüringen,Städteregion Aachen,unbekannt,unbekannt,145.0,21.0,2021/05/28 00:00:00+00,16077.0,"29.05.2021, 00:00 Uhr",1.0,1.0,2021/05/28 00:00:00+00,1.0,145.0,1.0,Nicht übermittelt


+----------+------------------+
|NeuGenesen|sum(AnzahlGenesen)|
+----------+------------------+
|        -1|              -691|
|         1|             10829|
|        -9|                 0|
|         0|           3461001|
+----------+------------------+



## Prüfen ob Zellen Infos zu Todefällen, Genesungen und Neufällen enthält

In [19]:
df.filter(((df["AnzahlFall"] > 0) & (df["AnzahlTodesfall"] > 0)) | ((df["AnzahlGenesen"] > 0) & (df["AnzahlTodesfall"] > 0)) | ((df["AnzahlFall"] > 0) & (df["AnzahlGenesen"] > 0))).count()

1941511

## Prüfen ob es Einträge gibt, in denen alle drei gefüllt sind

In [20]:
df.filter((df["AnzahlFall"] > 0) & (df["AnzahlTodesfall"] > 0) & (df["AnzahlGenesen"] > 0)).count()

0

## Prüfen ob es Records gibt, in den Anzahl Genesen und Anzahl Todesfall gefüllt sind

In [21]:
df.filter((df["AnzahlGenesen"] > 0) & (df["AnzahlTodesfall"] > 0)).count()

0

## Prüfen wie viele Records gibt, in den Anzahl Fall und Anzahl Todesfall gefüllt sind

In [22]:
df.filter((df["AnzahlFall"] > 0) & (df["AnzahlTodesfall"] > 0)).count()

73805

## Prüfen wie viele Records gibt, in den Anzahl Fall und Anzahl Genesen gefüllt sind

In [23]:
df.filter((df["AnzahlFall"] > 0) & (df["AnzahlGenesen"] > 0)).count()

1867706

## Prüfen ob es Einträge gibt bei denen Anzahl Fall und Anzahl Todesfall nicht den selben Wert haben

In [24]:
df.filter((df["AnzahlFall"] > 0) & (df["AnzahlTodesfall"] > 0) & (df["AnzahlFall"] != df["AnzahlTodesfall"])).count()

0

## Gegenprobe

In [25]:
df.filter((df["AnzahlFall"] > 0) & (df["AnzahlTodesfall"] > 0) & (df["AnzahlFall"] == df["AnzahlTodesfall"])).count()

73805

## Prüfen ob es Einträge gibt bei denen Anzahl Genesen und Anzahl Fall nicht den selben Wert haben

In [26]:
df.filter((df["AnzahlFall"] > 0) & (df["AnzahlGenesen"] > 0) & (df["AnzahlFall"] != df["AnzahlGenesen"])).count()

0

## Gegenprobe

In [27]:
df.filter((df["AnzahlFall"] > 0) & (df["AnzahlGenesen"] > 0) & (df["AnzahlFall"] == df["AnzahlGenesen"])).count()

1867706

## Prüfen ob es Fälle gibt bei denen Anzal Fall 0 ist und Anzahl Geenesen bzw- Todesfall größer 0 sind

In [28]:
df.filter((df["AnzahlFall"] == 0) & ((df["AnzahlGenesen"] > 0) | (df["AnzahlTodesfall"]  > 0))).count()

0

In [29]:
## Prüfen ob es Einträge gibt bei denen Anzahl Genesen und Anzahl Todesfall nicht den selben Wert haben

In [30]:
#Spalte einfügen um Datumstring in DateType umzuwandeln
df.withColumn("DateTime",to_date(col("Refdatum"), "yyyy/MM/dd HH:mm:ssx")).show(1)


#df.filter(df['NeuerFall'] == 1).filter(to_date(df.Refdatum, "dd/MM/yyyy") == lit("2021-05-29")).groupBy("NeuerFall").sum("AnzahlFall").show()


+--------+------------+------------------+------------+------------+----------+----------+---------------+--------------------+-----------+--------------------+---------+--------------+--------------------+----------+-------------+--------------------+-----------------+----------+
|ObjectId|IdBundesland|        Bundesland|   Landkreis|Altersgruppe|Geschlecht|AnzahlFall|AnzahlTodesfall|          Meldedatum|IdLandkreis|          Datenstand|NeuerFall|NeuerTodesfall|            Refdatum|NeuGenesen|AnzahlGenesen|IstErkrankungsbeginn|    Altersgruppe2|  DateTime|
+--------+------------+------------------+------------+------------+----------+----------+---------------+--------------------+-----------+--------------------+---------+--------------+--------------------+----------+-------------+--------------------+-----------------+----------+
|       1|           1|Schleswig-Holstein|SK Flensburg|     A15-A34|         M|         3|              0|2021/03/19 00:00:...|       1001|29.05.2021, 00:

In [32]:
#Werte Altersgruppe
df.groupBy("Altersgruppe").count().show()

+------------+------+
|Altersgruppe| count|
+------------+------+
|     A35-A59|678082|
|     A00-A04| 75024|
|        A80+|171094|
|     A05-A14|169552|
|     A15-A34|557468|
|     A60-A79|349457|
|   unbekannt|  2429|
+------------+------+



## Untersuchung Ausprägungen Geschlecht

In [35]:
df.groupBy("Geschlecht").count().show()

+----------+-------+
|Geschlecht|  count|
+----------+-------+
|         M| 969988|
|         W|1013266|
| unbekannt|  19852|
+----------+-------+



In [33]:
## TODO:
#-> Geschlecht Range
#--> Datumsrange
#-_> Zeigen das Altersgruppe 2 leer ist
#--> Visualisierung
#--> Feld ist erkrankungsbeginn
#--> Wie viele Geshclecht unbekannt

#--> Aufnehmen von asugewählten Kominationen:
#    + wenn alle Korrekturen herausgefilter sind, Fälle anschauen neu genesen -1 und neuerTodesfall -1
#    + Schauen wie viel neuer Fall
#    +


SyntaxError: invalid syntax (<ipython-input-33-4baba338acc6>, line 2)

In [None]:
# DateFormart
dfNeu = df.withColumn("DateTime",to_date(col("Refdatum"), "yyyy/MM/dd HH:mm:ssx"))



In [None]:
dfNeu.sort(col("DateTime").desc()).show()

In [None]:
df.filter(df['NeuerFall'] >  0).groupBy().sum("AnzahlFall").show()