In [97]:
%use krangl
val daten = DataFrame.readCSV("../daten/virusErde14.csv") //Liest die csv-Datei und wandelt sie in einen DataFrame um

#### `find`, `first` und `firstOrNull`
##### `find`
Wird ein Element gesucht, findet `find()` Anwendung. Diese Methode gibt das erste gefundene Element, bei dem die Bedingung wahr ist, zurück. Falls kein Element gefunden wird, ist das Ergebnis `null`. Deswegen muss ein sicherer Zugriff stattfinden.

In [155]:
val bayern = daten.rows.find { it["Province_State"] == "Bayern" }?.get("Confirmed") //Finde die bestätigten Fälle von Bayern
println("Bestätigte Fälle in Bayern: $bayern")

val bayreuth = daten.rows.find { it["Province_State"] == "Bayreuth" }?.get("Confirmed") //Finde die bestätigten Fälle von Bayreuth
println("Bestätigte Fälle in Bayreuth: $bayreuth")

Bestätigte Fälle in Bayern: 517336
Bestätigte Fälle in Bayreuth: null


##### `first`
Eine ähnliche Funktionalität bietet `first()`. Jedoch wird, falls kein Element gefunden wurde, eine `NoSuchElementException` geworfen.

In [157]:
val bayern = daten.rows.first { it["Province_State"] == "Bayern" }?.get("Confirmed")
println("Bestätigte Fälle in Bayern: $bayern")

try{
    val bayreuth = daten.rows.first { it["Province_State"] == "Bayreuth" }?.get("Confirmed")
    println("Bestätigte Fälle in Bayreuth: $bayreuth")
}
catch (e: NoSuchElementException){
    println("Fehler: e")
}


Bestätigte Fälle in Bayern: 517336
Fehler: e


##### `firstOrNull`
`firstOrNull()` erweitert die `first()`-Methode, vorausgesetzt, dass bei Fehlschlag `null` zurückgegeben wird anstelle eines Fehlers. Das ähnelt der Funktionalität von `find()`.

In [158]:
val bayern = daten.rows.firstOrNull { it["Province_State"] == "Bayern" }?.get("Confirmed")
println("Bestätigte Fälle in Bayern: $bayern")

val bayreuth = daten.rows.firstOrNull { it["Province_State"] == "Bayreuth" }?.get("Confirmed")
println("Bestätigte Fälle in Bayreuth: $bayreuth")

Bestätigte Fälle in Bayern: 517336
Bestätigte Fälle in Bayreuth: null


#### `partition`
`partition()` ähnelt der bereits kennengelernten Methode `filter()`. Eine Datenstruktur wird wieder, anhand einer Bedingung, gefiltert und das Ergebnis zurückgegeben. Jedoch gibt es hier zwei Ergebnisse. Das Erste beinhaltet alle Elemente, auf die die Bedingung zutrifft, während in dem Zweiten alle anderen Elemente zu finden sind.

<img src="../images/partition.png" style="margin: 20px auto 20px auto" />

In [166]:
val (australien, rest) = daten.rows.partition { it["Country_Region"] == "Australia" }

val australienFrame = dataFrameOf(australien)
val restFrame = dataFrameOf(rest)
australienFrame.head(20)

FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
,,Australian Capital Territory,Australia,2021-04-08 04:21:13,-35.4735,149.0124,123,3,120,0,"Australian Capital Territory, Australia",28.73160476524177,2.4390243902439024
,,New South Wales,Australia,2021-04-08 04:21:13,-33.8688,151.2093,5318,54,0,5264,"New South Wales, Australia",65.50874599655087,1.0154193305754042
,,Northern Territory,Australia,2021-04-08 04:21:13,-12.4634,130.8456,112,0,106,6,"Northern Territory, Australia",45.602605863192174,0.0
,,Queensland,Australia,2021-04-08 04:21:13,-27.4698,153.0251,1500,6,1366,128,"Queensland, Australia",29.32264685758968,0.4
,,South Australia,Australia,2021-04-08 04:21:13,-34.9285,138.6007,663,4,651,8,"South Australia, Australia",37.74551665243381,0.6033182503770739
,,Tasmania,Australia,2021-04-08 04:21:13,-42.8821,147.3272,234,13,221,0,"Tasmania, Australia",43.69747899159664,5.555555555555555
,,Victoria,Australia,2021-04-08 04:21:13,-37.8136,144.9631,20484,820,19664,0,"Victoria, Australia",308.96393610763363,4.003124389767623
,,Western Australia,Australia,2021-04-08 04:21:13,-31.9505,115.8605,951,9,928,14,"Western Australia, Australia",36.151448338782025,0.946372239747634


In [167]:
restFrame.head(20)

FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
,,,Afghanistan,2021-04-08 04:21:13,33.93911,67.709953,56873,2512,51940,2421,Afghanistan,146.0966446014229,4.416858614808433
,,,Albania,2021-04-08 04:21:13,41.1533,20.1683,127192,2291,95600,29301,Albania,4419.765098339009,1.801213912824706
,,,Algeria,2021-04-08 04:21:13,28.0339,1.6596,118004,3116,82192,32696,Algeria,269.1019230717044,2.6405884546286567
,,,Andorra,2021-04-08 04:21:13,42.5063,1.5218,12363,119,11616,628,Andorra,16000.77654824306,0.9625495429911832
,,,Angola,2021-04-08 04:21:13,-11.2027,17.8739,23010,547,21545,918,Angola,70.01099120837206,2.3772272924815296
,,,Antigua and Barbuda,2021-04-08 04:21:13,17.0608,-61.7964,1177,29,911,237,Antigua and Barbuda,1201.9034392614983,2.463891248937978
,,,Argentina,2021-04-08 04:21:13,-38.4161,-63.6167,2450068,56832,2174625,218611,Argentina,5421.010905510044,2.319609088400812
,,,Armenia,2021-04-08 04:21:13,40.0691,45.0382,198898,3647,178227,17024,Armenia,6712.193502099394,1.8336031533750967
,,,Austria,2021-04-08 04:21:13,47.5162,14.5501,566008,9546,522774,33688,Austria,6284.508793746669,1.6865486000197878
,,,Azerbaijan,2021-04-08 04:21:13,40.1431,47.5769,276464,3780,244540,28144,Azerbaijan,2726.691274191441,1.367266624225939


#### `groupBy`
Während `partition()` die Datenstruktur nur in zwei neue Datenstrukturen aufteilt, kann dies mit `groupBy` noch erweitert werden. Hier ist eine Unterteilung in beliebig viele Gruppen möglich. Die Bedingung, anhand derer die Gruppen eingeteilt werden, wird in einem Lambda-Ausdruck festgelegt. Das Ergebnis ist eine Map, die als Schlüssel das Identifikationsmerkmal der Gruppe und als Wert zugehörige Elemente als Liste besitzt. Außerdem ist es auch möglich, die Schlüssel dieser Map selbst festzulegen, indem der Schlüssel als Ergebnis des Lambda-Ausdrucks angegeben wird.

<img src="../images/groupBy.png" style="margin: 20px auto 20px auto" />

In [179]:
//Beispiel 1: groupBy() mit automatischer Generierung der Schlüssel
val liste = listOf("Aber", "Also", "Aachen", "Berlin", "Bitte", "Klavier", "Hafen", "Hose")
val gruppen = liste.groupBy { it[0] }
println("Ausgangsliste: $liste")
println("Nach Anfangsbuchstaben automatisch gruppiert: $gruppen")

//Beispiel 2: groupBy() mit eigenen Schlüsseln
val gruppen2 = liste.groupBy { if (it[0] == 'A') "Wörter mit A am Anfang" else "Rest" }
println("Nach Anfangsbuchstaben mit eigenen Schlüsseln gruppiert: $gruppen2\n")

//Beispiel 3: gruppieren von Daten eines DataFrames
val laender = daten.groupBy("Country_Region") //Gruppiert die Daten nach der Spalte Country_Region
laender

Ausgangsliste: [Aber, Also, Aachen, Berlin, Bitte, Klavier, Hafen, Hose]
Nach Anfangsbuchstaben automatisch gruppiert: {A=[Aber, Also, Aachen], B=[Berlin, Bitte], K=[Klavier], H=[Hafen, Hose]}
Nach Anfangsbuchstaben mit eigenen Schlüsseln gruppiert: {Wörter mit A am Anfang=[Aber, Also, Aachen], Rest=[Berlin, Bitte, Klavier, Hafen, Hose]}



Grouped by: *[Country_Region]
A DataFrame: 5 x 14
    FIPS   Admin2   Province_State   Country_Region           Last_Update        Lat       Long_
1                                       Afghanistan   2021-04-08 04:21:13   33.93911   67.709953
2                                           Albania   2021-04-08 04:21:13    41.1533     20.1683
3                                           Algeria   2021-04-08 04:21:13    28.0339      1.6596
4                                           Andorra   2021-04-08 04:21:13    42.5063      1.5218
5                                            Angola   2021-04-08 04:21:13   -11.2027     17.8739
and 7 more variables: Deaths, Recovered, Active, Combined_Key, Incident_Rate, Case_Fatality_Ratio

In [181]:
laender.groups()[66] //Gibt die 66. Gruppe (Deutschland) aus

FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
,,Baden-Wurttemberg,Germany,2021-04-08 04:21:13,48.6616,9.3501,377133,8831,341300,27002,"Baden-Wurttemberg, Germany",3406.9458937427617,2.341614231584083
,,Bayern,Germany,2021-04-08 04:21:13,48.7904,11.4979,517336,13419,467100,36817,"Bayern, Germany",3956.159957836525,2.5938654955386826
,,Berlin,Germany,2021-04-08 04:21:13,52.52,13.405,150385,3098,138800,8487,"Berlin, Germany",4125.985712349506,2.060045882235596
,,Brandenburg,Germany,2021-04-08 04:21:13,52.4125,12.5316,90999,3358,81090,6551,"Brandenburg, Germany",3622.691354849703,3.69015044121364
,,Bremen,Germany,2021-04-08 04:21:13,53.0793,8.8017,21697,415,19790,1492,"Bremen, Germany",3176.785468516192,1.912706825828456
,,Hamburg,Germany,2021-04-08 04:21:13,53.5511,9.9937,63826,1404,55180,7242,"Hamburg, Germany",3466.583097026416,2.199730517344029
,,Hessen,Germany,2021-04-08 04:21:13,50.6521,9.1624,227581,6441,202400,18740,"Hessen, Germany",3632.108798720165,2.8302011152073328
,,Mecklenburg-Vorpommern,Germany,2021-04-08 04:21:13,53.6127,12.4296,32341,887,28730,2724,"Mecklenburg-Vorpommern, Germany",2009.1633404258623,2.742648650320027
,,Niedersachsen,Germany,2021-04-08 04:21:13,52.6367,9.8451,205087,4962,186600,13525,"Niedersachsen, Germany",2569.22437828596,2.419461009230229
,,Nordrhein-Westfalen,Germany,2021-04-08 04:21:13,51.4332,7.6616,633940,14462,572000,47478,"Nordrhein-Westfalen, Germany",3535.1159178863177,2.281288450011042


#### `count`
Mit `count()` kann die Anzahl der Fälle ermittelt werden, die die Bedingung des Lambda-Ausdrucks erfüllen. Wird auf den Lambda-Ausdruck verzichtet, wird die Anzahl der Elemente zurückgegeben.

In [46]:
println("Anzahl an Zeilen: ${daten.rows.count()}")
val zeilenDE = daten.rows.count { it["Country_Region"] == "Germany" }
println("Anzahl an Zeilen von Deutschland: $zeilenDE")

Anzahl an Zeilen: 3983
Anzahl an Zeilen von Deutschland: 17
