# SPB IX - Datenzugriff

--- 

In dieser Übung erhälst du einen Einblick in die Betrachtung und Manipulation tabellarischer Daten mittels eines `Data frames`. Hierfür werden zunächst die Grundbausteine dieser Frames, die sogenannten `Series` betrachtet und diese dann zu einem Frame zusammengefügt. 

### Folgende Dokumentationen können für die Bearbeitung der Aufgaben hilfreich sein:

* Deedle: https://fslab.org/Deedle


### Referenzieren der nötigen packages

Diese Zelle muss immer mindestens einmal ausgeführt werden, sonst können die Softwarepakete nicht verwendet werden:

In [None]:
#r "nuget: Deedle, 3.0.0-beta.1"
#r "nuget: Deedle.Interactive, 3.0.0-beta.1"
open Deedle

### Arbeiten mit Deedle
Sollten Sie diese Fehlermeldung sehen:
```
9_Data_exploration_using_FSharp.fsx(113,5): error FS0030: Value restriction. The value 'cpw'' has been inferred to have generic type val cpw' : Series<(string * int),'_a>      
Either define 'cpw'' as a simple data term, make it a function with explicit arguments or, if you do not intend for it to be generic, add a type annotation.
```
Dann sollten Sie auf eine explizite Typenanmerkung zurückgreifen.
Statt:
```
let cpw' = persons |> Frame.getCol "cpw"
```
Verwenden Sie:
```
let cpw' : Series<int,float> = persons |> Frame.getCol "cpw"


In [None]:
Series.ofValues ["Kevin";"Lukas";"Benedikt";"Michael"]

# Task 1: Grundlagen

## Task 1.1
Nutzen Sie die Funktion `Series.mapValues` um die Werte von `"coffeesPerWeek"` zu verdreifachen. 

In [None]:
let coffeesPerWeek = Series.ofValues [14;16;5;1] 

## Task 1.2
Erstellen Sie auf Basis der 3 gegebenen Series einen Frame mit dem Namen `"persons"`. 

In [None]:
let firstNames = Series.ofValues ["Kevin";"Lukas";"Benedikt";"Michael"] 
let lastNames  = Series.ofValues ["Schneider";"Weil";"Venn";"Schroda"]  
let group      = Series.ofValues ["CSB";"CSB";"CSB";"MBS"]

## Task 1.3
Fügen Sie eine von Ihnen erstellte Series mit dem Namen `"teasPerWeek"` und die oben definierte `"coffeesPerWeek"` als Spalten zu dem Frame hinzu. Binden Sie den resultierenden Frame an einen neuen Namen.
Tipp: Erst eine `Series<int,int>` erstellen. Nutzen Sie `Frame.addCol`

In [None]:
// example: 
// persons ist das Ergebnis aus Task 1.2
// persons
// |> Frame.addCol "coffeesPerWeek" coffeesPerWeek

## Task 1.4
Addieren Sie die Columns `"teasPerWeek"` und `"coffeesPerWeek"`. Fügen Sie die resultierende Series als Spalte mit dem Titel `"completeConsume"` zu dem zuvor erstellten Frame hinzu.

Tipp 1: Diese Task kann auf mehrere Arten und Weisen gelöst werden.

Tipp 2: Via `Series.values` können Sie auf die Werte der einzelnen Series zugreifen. Dann könnten Sie mit `Seq.map2` über beide Collections iterieren. 

## Task 1.5
Bestimmen Sie die Summe von `"completeConsume"`.

# Task 2: Frame Operationen

## Task 2.1
Gruppieren Sie die Zeilen des Frames aus Task 1.3 nach den Elementen der Spalte `"group"`.
Tipp: Explizite Typenanmerkung (siehe: [Arbeiten mit Deedle](#Arbeiten-mit-Deedle)) 

## Task 2.2
Oft enthalten Ergebnistabellen mehr als 40 Spalten. Für einzelne Analysen sind jedoch nur einige wenige interessant. 
Es bietet sich daher oft an einen Frame zu erstellen, der weniger Spalten enthält. Nutzen Sie die Funktion `Frame.sliceCols` um auf 
Basis des Frames aus Task 1.3 einen Frame zu erstellen, der lediglich die Spalten `"firstNames"` und `"teasPerWeek"` enthält. 

## Task 2.3
Oft möchte man auf Basis von Gruppierungen aggregieren. Berechnen Sie die Summe der Spalte `"teasPerWeek"` für jede Gruppe.
Tipp: Extrahieren Sie die Spalte `"teasPerWeek"` aus dem Ergebnis von Task 2.1. Verfahren Sie wie in der Vorlesung demonstriert. 

## Task 2.4
Oft möchte man Zwischenergebnisse abspeichern. Speichern Sie den Frame aus Task 1.3 als CSV Datei. Verwenden Sie `';'` als Trennzeichen. 

## Task 2.5
Verwenden Sie die Funktion `Frame.ReadCsv` um die Datei erneut einzulesen. 