# Data Preperation

In [108]:
from pyspark.sql.session import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
from helpers.helper_functions import translate_to_file_string
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.feature import StringIndexer
from pyspark.ml import Pipeline

inputFile = translate_to_file_string("./data/Data_Preparation_Result.csv")

## Create Spark Session

In [109]:
#create a SparkSession
spark = (SparkSession
       .builder
       .appName("DataModelling")
       .getOrCreate())
# create a DataFrame using an ifered Schema 
df = spark.read.option("header", "true") \
       .option("inferSchema", "true") \
       .option("delimiter", ";") \
       .csv(inputFile)   
print(df.printSchema())

root
 |-- Bundesland: string (nullable = true)
 |-- BundeslandIndex: integer (nullable = true)
 |-- Landkreis: string (nullable = true)
 |-- LandkreisIndex: integer (nullable = true)
 |-- Altersgruppe: string (nullable = true)
 |-- AltersgruppeIndex: double (nullable = true)
 |-- Geschlecht: string (nullable = true)
 |-- GeschlechtIndex: double (nullable = true)
 |-- FallStatus: string (nullable = true)
 |-- FallStatusIndex: double (nullable = true)
 |-- Falldatum: string (nullable = true)

None


## Vorbereitung der Daten

### Filtern der Datensätze
Für das Training dieses Modells ist es sinnvoll nur die Fälle zu betrachten, bei den der Ausgang der Corona-Erkrankung bereits bekannt ist ("GENESEN" oder "GESTORBEN"). Daher werden die Fälle mit noch erkrankten Personen herausgefiltert. Ebenfalls muss der FallStatusIndex neu vergeben werden, damit dieses Feature nur noch die Werte 0 oder 1 enthält.Dies erfolgt im nachfolgenden Abschnitt.

In [128]:
dfNeu = df.filter(df.FallStatus != "NICHTEINGETRETEN").drop("FallStatusIndex").withColumnRenamed("FallStatus", "label")

### FallStatusIndex

In [129]:
# Wollten eigentlich den Indexer mitgeben in die Pipeline. Dies führt aber zum Fehler, dass er das Label nicht kennt.
indexer = StringIndexer(inputCol="label", outputCol="labelIndex")
indexedDF = indexer.fit(dfNeu).transform(dfNeu)
indexedDF.show()

+----------+---------------+---------+--------------+------------+-----------------+----------+---------------+-------+----------+----------+
|Bundesland|BundeslandIndex|Landkreis|LandkreisIndex|Altersgruppe|AltersgruppeIndex|Geschlecht|GeschlechtIndex|  label| Falldatum|labelIndex|
+----------+---------------+---------+--------------+------------+-----------------+----------+---------------+-------+----------+----------+
| Thüringen|             16| LK Gotha|         16067|     A00-A04|              5.0|         W|            0.0|GENESEN|2020-04-21|       0.0|
| Thüringen|             16| LK Gotha|         16067|     A00-A04|              5.0|         W|            0.0|GENESEN|2020-09-12|       0.0|
| Thüringen|             16| LK Gotha|         16067|     A00-A04|              5.0|         W|            0.0|GENESEN|2020-10-23|       0.0|
| Thüringen|             16| LK Gotha|         16067|     A00-A04|              5.0|         W|            0.0|GENESEN|2020-11-18|       0.0|
| Thür

In [130]:
indexedDF.show()

+----------+---------------+---------+--------------+------------+-----------------+----------+---------------+-------+----------+----------+
|Bundesland|BundeslandIndex|Landkreis|LandkreisIndex|Altersgruppe|AltersgruppeIndex|Geschlecht|GeschlechtIndex|  label| Falldatum|labelIndex|
+----------+---------------+---------+--------------+------------+-----------------+----------+---------------+-------+----------+----------+
| Thüringen|             16| LK Gotha|         16067|     A00-A04|              5.0|         W|            0.0|GENESEN|2020-04-21|       0.0|
| Thüringen|             16| LK Gotha|         16067|     A00-A04|              5.0|         W|            0.0|GENESEN|2020-09-12|       0.0|
| Thüringen|             16| LK Gotha|         16067|     A00-A04|              5.0|         W|            0.0|GENESEN|2020-10-23|       0.0|
| Thüringen|             16| LK Gotha|         16067|     A00-A04|              5.0|         W|            0.0|GENESEN|2020-11-18|       0.0|
| Thür

### Aufbau des Feature-Vectors

In [131]:
assembler =  VectorAssembler(outputCol="features", inputCols=["GeschlechtIndex","AltersgruppeIndex","LandkreisIndex"])

### Splitten in Trainings und Testdaten

In [132]:
splits = indexedDF.randomSplit([0.8, 0.2 ], 345678)
trainingVector = splits[0]
testVector = splits[1]

trainingVector.limit(10).show()

+-----------------+---------------+-----------+--------------+------------+-----------------+----------+---------------+---------+----------+----------+
|       Bundesland|BundeslandIndex|  Landkreis|LandkreisIndex|Altersgruppe|AltersgruppeIndex|Geschlecht|GeschlechtIndex|    label| Falldatum|labelIndex|
+-----------------+---------------+-----------+--------------+------------+-----------------+----------+---------------+---------+----------+----------+
|Baden-Württemberg|              8|LK Biberach|          8426|     A35-A59|              0.0|         M|            1.0|GESTORBEN|2021-03-29|       1.0|
|Baden-Württemberg|              8|LK Biberach|          8426|     A35-A59|              0.0|         M|            1.0|GESTORBEN|2021-04-11|       1.0|
|Baden-Württemberg|              8|LK Biberach|          8426|     A35-A59|              0.0|         M|            1.0|GESTORBEN|2021-04-11|       1.0|
|Baden-Württemberg|              8|LK Biberach|          8426|     A35-A59|       

## Modellierung
### Linear-Regression-Modell

In [134]:
lr = LinearRegression(featuresCol="features", labelCol="labelIndex")

### Pipeline

In [135]:
pipeline = Pipeline(stages=[assembler, lr])

### Parametertuning
Eine wichtige Aufgabe beim Machine Learning ist die Auswahl des geeigneten Modells bzw. die passenden Paramter für ein Modell herauszufinden. Letzteres wird auch Parametertuning genannt. Die in Pyspark enthaltene MLLib bietet speziell hierfür ein entsprechende Tooling. Und zwar kann ein CrossValidator bzw. ein TrainValidationSplit verwendet werden. Voraussetzung sind ein Estimator (ein Modell oder eine Pipeline), ein Paramter-Grid und eine Evaluator. Dies ist auch im Zusammenhang mit dem Thema Cross-Validation zu sehen. (Apache Spark 2020a)

In [136]:
paramGrid = ParamGridBuilder()\
    .addGrid(lr.maxIter, [1,10, 100]) \
    .addGrid(lr.regParam, [0.1, 0.01]) \
    .addGrid(lr.fitIntercept, [False, True])\
    .addGrid(lr.elasticNetParam, [0.0, 0.5, 1.0])\
    .build()

### Cross-Validation
Wie eben erwähnt, benötigt der Cross-Validator einen Evaluator. Letzterer ist zu wählen, abhängig von dem jeweilligen Modell. In diesem Fall muss ein RegressionEvaluator angewendet werden. (Apache Spark 2020a)

In [137]:
# Definition des Cross-Validators 
# num-Folds gibt an in wie viele Datensatz-Paare die Datensätze aufgeteilt werden.
crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=RegressionEvaluator(),
                          numFolds=3)  # use 3+ folds in practice

#### Durchführung

In [138]:
# Anpassung des Modells und Auswahl der besten Parameter
cvModel = crossval.fit(trainingVector)

IllegalArgumentException: requirement failed: Column label must be of type numeric but was actually of type string.

## Evaluation

In [None]:
predictions = cvSVMModel.transform(test)
predictions.show()

In [None]:
evaluator = RegressionEvaluator(labelCol="FallStatusIndex",predictionCol="prediction", metricName="rmse")

In [None]:
print("root mean square error = " , evaluator.evaluate(predictionsLR))
spark.stop()

In [None]:

# Print the Coefficients and Intercept
print("Coefficients: %s" % str(lrModel.coefficients))
print("Intercept: %s" % str(lrModel.intercept))