<img src="../images/Lektion4.png" style="margin: 20px auto 20px 0px"/>
<h2 style="display:none">Lektion 4 - Lambda-Ausdrücke in Verbindung mit ausgewählten Methoden und Datenstrukturen</h2>

Im Folgenden werden verschiedene Methoden zur Bearbeitung von Datenstrukturen und Lambda-Ausdrücke, mit Hilfe der Kotlin Bibliothek *krangl*, behandelt. Mit dieser können Daten tabellarisch dargestellt und einfach verarbeitet werden.   
Untersucht werden Daten von Erde-14. Aufgrund eines Risses in der Zeit wurde das Universum zu einem Multiversum. Forscher haben bereits 53 Parallelerden ausfindig machen können. Speziell Erde-14 ist sehr ähnlich zu unserer Welt, Erde-1. Die Länderstruktur ist identisch und die Population ähnlich rasant gestiegen. Jedoch hat sich der kalte Krieg zwischen Amerika und Urzikstan, der zweiten Weltmacht, weiter zugespitzt. Das östliche Gegenstück zur NALO besteht immer noch und Jahr für Jahr steuert man weiter auf einen offenen Konflikt zu. In diesem Sinne beauftragte 2051 die urzikstanische Regierung ein Virus zu entwickeln, dass die NALO schwer treffen sollte. Nach einigen Jahren Entwicklung passierte jedoch ein gravierender Fehler. Das Virus, später wurde es *Urz-Con-4* genannt, wurde aus einem Labor in der Provinz Subey unabsichtlich freigesetzt und hält nun, 2 Jahre später, ganz Erde-14 in Atem. Um auf Erde-1 besser auf eine Pandemie dieser Art vorbereitet zu sein, sollen die Daten von Erde-14 von Ihnen genauer untersucht werden.  
Aber zuerst müssen die verwendete Bibliothek und die bereitgestellten Daten verstanden werden:

In [1]:
%use krangl
val daten = DataFrame.readCSV("../daten/virusErde14.csv") //Liest die csv-Datei und wandelt sie in einen DataFrame um

In der Variable `daten` sind im Folgenden die Rohdaten als `DataFrame` ([Dokumentation](https://holgerbrandl.github.io/krangl/javadoc/krangl/krangl/-data-frame/index.html)) gespeichert. Ein `DataFrame` besitzt folgende Attribute:
<ul>
    <li><code>cols: List&lt;DataCol></code>: Liste der Spalten</li>
    <li><code>ncols: Int</code>: Anzahl der Spalten</li>
    <li><code>rows: Iterable&lt;DataFrameRow></code>: Liste der Zeilen</li>
    <li><code>nrows: Int</code>: Anzahl der Zeilen</li>
    <li><code>names: List&lt;String></code>: Liste der Namen der Spalten</li>
</ul>

In [2]:
println("Anzahl der Spalten: ${daten.ncol}")
println("Anzahl der Zeilen: ${daten.nrow}")
println("Liste der Namen der Spalten: ${daten.names}")

Anzahl der Spalten: 14
Anzahl der Zeilen: 3983
Liste der Namen der Spalten: [FIPS, Admin2, Province_State, Country_Region, Last_Update, Lat, Long_, Confirmed, Deaths, Recovered, Active, Combined_Key, Incident_Rate, Case_Fatality_Ratio]


Die Daten können mit Hilfe von `head(n)` ausgegeben werden. `n` steht für die Anzahl der Zeilen, die ausgegeben werden. Es ist maximal eine Darstellung von 20 zeilen möglich.

In [3]:
daten.head(10)

FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
,,,Afghanistan,2021-04-08 04:21:13,33.93911,67.709953,56873,2512,51940,2421,Afghanistan,146.0966446014229,4.416858614808433
,,,Albania,2021-04-08 04:21:13,41.1533,20.1683,127192,2291,95600,29301,Albania,4419.765098339009,1.801213912824706
,,,Algeria,2021-04-08 04:21:13,28.0339,1.6596,118004,3116,82192,32696,Algeria,269.1019230717044,2.6405884546286567
,,,Andorra,2021-04-08 04:21:13,42.5063,1.5218,12363,119,11616,628,Andorra,16000.77654824306,0.9625495429911832
,,,Angola,2021-04-08 04:21:13,-11.2027,17.8739,23010,547,21545,918,Angola,70.01099120837206,2.3772272924815296
,,,Antigua and Barbuda,2021-04-08 04:21:13,17.0608,-61.7964,1177,29,911,237,Antigua and Barbuda,1201.9034392614983,2.463891248937978


Die Datentypen der Spalten können mit `schema()` angezeigt werden.

In [4]:
daten.schema()

Name,Type,Values


Sollen nur bestimmte Spalten ausgegeben werden, findet `select()` Anwendung. Als Parameter werden die Namen der Spalten übergeben.

In [5]:
daten.select("Country_Region", "Deaths")

Country_Region,Deaths
Afghanistan,2512
Albania,2291
Algeria,3116
Andorra,119
Angola,547
Antigua and Barbuda,29


Nachdem ein kurzer Überblick über die Daten und die Bibliothek gegeben wurde, werden nun ausgewählte Methoden vorgestellt, mit denen die Daten analysiert werden können.

#### filter
<img src="../images/filter.png" style="margin-left: 10px; float: right" />

Mit Hilfe von `filter()` können Daten in einer Datenstruktur anhand einer Bedingung aussortiert werden. Es werden nur die Daten zurückgegeben, die der Bedingung entsprechen.<br />
Im Folgenden Beispiel sollen alle Zeilen ausgegeben werden, in denen mehr als 30000 Tote verzeichnet sind. Die Bibliothek bietet dazu eine eigene Methode für die Klasse `DataFrame` an. Mit `filterByRow()` werden alle Zeilen durchlaufen und der Lambda-Ausdruck auf jede Zeile einzeln angewendet und ausgewertet. Das Ergebnis ist erneut ein `DataFrame`, der alle Zeilen enthält, für die der Lambda-Ausdruck wahr ist. In diesem Anwendungsfall könnte auch die von Kotlin bereitgestellte Methode `filter()` verwendet werden, die auf die Liste der Zeilen angewendet wird. Der Unterschied ist, dass hier kein `DataFrame`, sondern eine Liste zurückgegeben wird. Diese kann danach wieder mit `dataFrameOf(liste)` in einen `DataFrame` umgewandelt werden.
In dem Lambda-Ausdruck kann mit `it` auf die aktuelle Zeile der Tabelle zugegriffen werden. Da der Kompiler von sich aus den Datentyp der ausgewählten Spalte nicht erkennt, muss ihm das mit `as` mitgeteilt werden. Dieses Verfahren ist im Folgenden bei allen ähnlichen Zugriffen nötig.

In [6]:
//Möglichkeit 1
val tote1 = daten.filterByRow { it["Deaths"] as Int > 30000 }
// Möglichkeit 2
val tote2 = daten.rows.filter { it["Deaths"] as Int > 30000 }

//tote1.head(20)
dataFrameOf(tote2).head(20)

FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
,,,Argentina,2021-04-08 04:21:13,-38.4161,-63.6167,2450068,56832,2174625,218611,Argentina,5421.010905510044,2.319609088400812
,,Rio de Janeiro,Brazil,2021-04-08 04:21:13,-22.9068,-43.1729,666025,38282,616078,11665,"Rio de Janeiro, Brazil",3857.672741809805,5.747832288577756
,,Sao Paulo,Brazil,2021-04-08 04:21:13,-23.5505,-46.6333,2576362,79443,2218618,278301,"Sao Paulo, Brazil",5610.660621477591,3.083534068581977
,,,France,2021-04-08 04:21:13,46.2276,2.2137,4807123,96672,269989,4439553,France,7363.172062811634,2.0110157364394463
,,Maharashtra,India,2021-04-08 04:21:13,19.449759,76.108221,3173261,56652,2613627,502982,"Maharashtra, India",2576.865501843314,1.7852927950143402
,,,Indonesia,2021-04-08 04:21:13,-0.7893,113.9213,1547376,42064,1391742,113570,Indonesia,565.7193314211061,2.7184084540538307


Abgesehen von der normalen Filterung gibt es auch einige Abwandlungen.  
`filterNot()` dreht die `filter()`-Methode um und filtert alles, was nicht der Bedingung entspricht. Um das gleiche Ergebnis wie bei `filter()` zu erlangen, muss die Bedingung des Lambda-Ausdrucks umgedreht werden.

In [7]:
val tote = daten.rows.filterNot { it["Deaths"] as Int <= 30000 }
dataFrameOf(tote).head(20)

FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
,,,Argentina,2021-04-08 04:21:13,-38.4161,-63.6167,2450068,56832,2174625,218611,Argentina,5421.010905510044,2.319609088400812
,,Rio de Janeiro,Brazil,2021-04-08 04:21:13,-22.9068,-43.1729,666025,38282,616078,11665,"Rio de Janeiro, Brazil",3857.672741809805,5.747832288577756
,,Sao Paulo,Brazil,2021-04-08 04:21:13,-23.5505,-46.6333,2576362,79443,2218618,278301,"Sao Paulo, Brazil",5610.660621477591,3.083534068581977
,,,France,2021-04-08 04:21:13,46.2276,2.2137,4807123,96672,269989,4439553,France,7363.172062811634,2.0110157364394463
,,Maharashtra,India,2021-04-08 04:21:13,19.449759,76.108221,3173261,56652,2613627,502982,"Maharashtra, India",2576.865501843314,1.7852927950143402
,,,Indonesia,2021-04-08 04:21:13,-0.7893,113.9213,1547376,42064,1391742,113570,Indonesia,565.7193314211061,2.7184084540538307


Die Abwandlung `filterNotNull()` wurde bereits in Lektion 1 vorgestellt.  
Sind in einer Datenstruktur Elemente mehrerer Datentypen vorhanden, kann mit der Methode `filterIsInstance()` nach einem Datentyp gefiltert werden. Dieser wird als eine Art generischer Parameter vor den runden Klammern angegeben.  
Im zugehörigen Beispiel sollen alle Spalten herausgefiltert werden, die den Datentyp `Int` speichern. Die gesuchte Klasse der [Spalte](https://holgerbrandl.github.io/krangl/javadoc/krangl/krangl/-data-col/index.html) entspricht dann `IntCol`.

In [8]:
val spalten = daten.cols.filterIsInstance<IntCol>() //Gibt eine Liste an Spalten zurück
for(i in 0 until spalten.size){ //Durchläuft die Einträge der Liste
    println(spalten[i].name) //Gibt den Namen der Spalte aus
}

Confirmed
Deaths
