# CoVIS_19

Ich glaube es gibt genug Diskussionen zur aktuellen Krise, aber zu wenige Charts. In den letzten Tagen kursieren immer mehr Dashboards und Infografiken, leider sind diese oft recht statisch oder in Artikel eingebettet und verliert man den Artikel, so verliert man auch die Grafik. Daher möchte ich:

1.) Die aktuellen Daten, die von der Johns-Hopkins Universität bereitgestellt werden, herunterladen
2.) Die Daten anschauen und prozessieren
3.) Die Daten visualisieren

Das alles werde ich nicht aus dem Hut zaubern, ich benutze dazu die Programmiersprache F# und einige Bibliotheken, die von der F# Community kostenfrei entwickelt wurden.

In [1]:
#load "Formatting_Extension.fsx"
open FSharp.Plotly
open System.IO    
open Deedle
open FSharp.Data
open Formatting_Extension

>>>> C:\Users\david\.nuget\packages\fsharp.data\2.4.6\lib\net45\FSharp.Data.DesignTime.dll
Using: C:\Users\david\.nuget\packages\fsharp.data\2.4.6\lib\net45\FSharp.Data.DesignTime.dll


####  1.) Die aktuellen Daten die von der Johns-Hopkins Universität herunterladen

Nun können wir auch schon loslegen. Zunächst besorgen wir uns die Daten. 
Wie bereits angedeutet, werden diese von der Johns-Hopkins Universität [zusammengetragen](https://github.com/CSSEGISandData/COVID-19) und sind freundlicherweise öffentlich einsehbar. Den korrekten Link zu einer ihrer Tabellen habe ich bereits herausgesucht. Dabei handelt es sich um die Anzahl an Infizierten pro Land und Datum. Die Funktion "RequestString" besucht nun den Link und läd die hinterlegten Daten herunter, dadurch sind wir immer auf dem aktuellen Stand, wenn wir diese Zeile ausführen.

In [13]:
let rawData = Http.RequestString "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv"

Wenn wir uns einen Teil der Daten mal anschauen, stellen wir fest, dass es sich um eine Komma separierte Textdatei handelt.

In [14]:
rawData.[..1000]

Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,1/28/20,1/29/20,1/30/20,1/31/20,2/1/20,2/2/20,2/3/20,2/4/20,2/5/20,2/6/20,2/7/20,2/8/20,2/9/20,2/10/20,2/11/20,2/12/20,2/13/20,2/14/20,2/15/20,2/16/20,2/17/20,2/18/20,2/19/20,2/20/20,2/21/20,2/22/20,2/23/20,2/24/20,2/25/20,2/26/20,2/27/20,2/28/20,2/29/20,3/1/20,3/2/20,3/3/20,3/4/20,3/5/20,3/6/20,3/7/20,3/8/20,3/9/20,3/10/20,3/11/20,3/12/20,3/13/20,3/14/20,3/15/20,3/16/20,3/17/20,3/18/20,3/19/20,3/20/20,3/21/20,3/22/20,3/23/20,3/24/20
,Afghanistan,33,65,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,4,4,5,7,7,7,11,16,21,22,22,22,24,24,40,40,74
,Albania,41.1533,20.1683,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,10,12,23,33,38,42,51,55,59,64,70,76,89,104,123
,Algeria,28.0339,1.6596,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,3,5,12,12,17,17,19,20,20,20,24,26,37,48,54,6

####  2.) Die Daten anschauen und prozessieren
Damit lässt sich jetzt nicht so furchtbar gut arbeiten, also verwende ich die Bibliothek Deedle. Damit parse ich die Textdatei und bringe sie in ein Format, das sich programatisch besser bearbeiten lässt. 

In [15]:
let bytes = System.Text.Encoding.UTF8.GetBytes rawData
let stream = new MemoryStream(bytes)
let parsedData = Frame.ReadCsv(stream)

Da die Daten nun als Objekt "Frame" vorliegen kann ich die Funktion "formatAsTable" benutzen und mir die Tabelle anschauen:

In [16]:
parsedData
|> formatAsTable 30 15
|> HtmlString

Wie man sehen kann schlüsselt die Tabelle die Zahl der infizierten nach Land und Datum auf. Da die Spalte "Province State" recht sparse ist, werde ich diese Spalte, sowie die Spalten "Lat" und Long" entfernen und die Fallzahlen tageweise aggregieren. Dazu gruppiere ich die Zeilen zunächst nach der Spalte "Country Region"

In [17]:
let aggregatedAndFiltered :Frame<string,_> = 
    parsedData    
    |> Frame.groupRowsBy "Country/Region"
    |> Frame.dropCol "Province/State"
    |> Frame.dropCol "Lat"
    |> Frame.dropCol "Long"
    |> Frame.dropCol "Country/Region"
    |> Frame.applyLevel fst Stats.sum 

aggregatedAndFiltered
|> formatAsTable 200 8
|> HtmlString 

Diese Tabelle enthält nun alle Länder, und die Fallzahlen pro Tag. Im Folgenden werde ich die Tabelle transponieren und ein paar Länder selektieren. Natürlich sind wir hier im Notebook recht flexibel, d.h. ist ein Land nicht dabei und du würdest gerne schauen wie der Infektionsverlauf dort ist/war, dann füge dieses Land einfach bei der Erstellung von "timeCourses" in die Liste hinzu.

In [18]:
let timeCourses = 
    aggregatedAndFiltered.Transpose()
    |> Frame.sliceCols ["China";"Germany";"Italy";"US"]
    
timeCourses
|> formatAsTable 30 4
|> HtmlString 

####  3.) Die Daten visualisieren
Nun könnte man natürlich die Tabelle nehmen und etwas herumscrollen, aber das ist nun wirklich mühsam. Daher verwende ich nun die Bibliothek [FSharp.Plotly](https://github.com/muehlhaus/FSharp.Plotly) und visualisiere die Zeitverläufe (eng.: time course) der einzelnen Länder.

In [19]:
let infectionTimeCourse = 
    timeCourses
    |> Frame.getNumericCols
    |> Series.sortByKey
    |> Series.map (fun c s ->
        Series.observations s
        |> Chart.Point
        |> Chart.withTraceName c
        )
    |> Series.values
    |> Chart.Combine
    |> Chart.withX_AxisStyle("Datum")
    |> Chart.withY_AxisStyle("# Infizierte Personen")
    |> Chart.withSize(1200.,500.)
    
infectionTimeCourse
|> toChartHTML
|> HtmlString

## Modelling infection time course

A simple infection time course modelling can be realized as described [here](https://www.youtube.com/watch?v=k6nLfCbAzgo).


In [None]:
let populationSize   = 1.

// percentage of infected people at time point 0
let infectedStart    = 0.01

// percentage of people, that could become infected
let susceptibleStart = populationSize - infectedStart

// percentage of people, that aren't infective anymore
let recoveredStart   = 0.

// partial derivatives of functions (slope of curves)
let s' s i = - transmissionRate * s * i
let i' s i = + transmissionRate * s * i - recoveryRate * i
let r' i = recoveryRate * i

// maximal time interval
let maxT = 50.

[
plotTimeCourse maxT s' i' r' susceptibleStart infectedStart recoveredStart 1.5 0.2
plotTimeCourseDash maxT s' i' r' susceptibleStart infectedStart recoveredStart 0.5 0.1
]
|> Chart.Combine
|> Chart.withX_AxisStyle "time interval"
|> Chart.withX_AxisStyle "percentage of population"
|> toChartHTML
|> HtmlString