# Anmerkungen

In diesem Notebook werden wir uns Stück für Stück einen Kontext erbauen, um mit Daten besser und bequemer umgehen zu können.
Dabei verzichten wir zunächst auf Pakete wie

+ ``numpy``
+ ``pandas``

und starten stattdessen von Neuem.

Wir konstruieren unsere eigene Datenstruktur, welche eine CSV-Datei repräsentieren soll.
Diese Datenstruktur ``data`` ist ein Dictionary, welches lauter Listen enthält.
Jede Liste repräsentiert eine Spalte der CSV-Datei.
Die ``keys`` des Dictionarys repräsentieren den Spaltennamen.

Die Aufgaben bauen teilweise aufeinander auf.
Es ist insbesondere wichtig, dass Sie **Aufgabe 1** und **Aufgabe 2** zuerst lösen, da Sie damit die angesprochene Datenstruktur erzeugen.

In [None]:
import otter
import csv

grader = otter.Notebook('CT-Dataanalysis.ipynb')

path_to_csv_file = './data/test-data.csv'

Folgender Code gibt die ersten ``n`` Zeile der CSV-Datei ``./data/test-data.csv`` aus.
Dabei verwenden wir aus dem Standardpaket ``csv`` die Funktion ``reader``, welche einen neuen sog. Handle erzeugt, mithilfe dem wir durch die CSV-Datei *iterieren* können.

In [None]:
n = 5
with open(path_to_csv_file, newline='') as csvfile:
    handle = csv.reader(csvfile, delimiter=',')
    count = 0
    for row in handle:
        if count >= n:
            break
        row_as_string = ''
        for col in row:
            row_as_string += col + ','
        count += 1
        print(row_as_string)

***
***Aufgabe 1 (Lesen einer Spalte).***

Schreiben Sie eine Funktion ``read_column(name, path_to_csv_file, parser=lambda x: x)``, welche Ihnen die Werte der Spalte mit dem Namen (Header) ``name`` als Liste zurückliefert.
``parser`` ist dabei eine Funktion, welche für jeden Wert der Spalte aufgerufen werden soll. ``lambda x: x`` ist die Identität, d.h. diese Funktion gibt einfach das zurück was sie als Argument erhält. ``path_to_csv_file`` ist der Dateipfad zur jeweiligen CSV-Datei.

Angenommen die CSV-Datei sähe wie folgt aus:

```
x,y,name,price
1.0,2.0,Toster,5
2.3,21,Auto,9
```

dann sollte 

```python
read_column(['y'], './data/test-data.csv')
```

folgendes zurückliefern:

```python
['2.0', '21']
```

Mit dem ``praser`` sollten Sie die Werte manipulieren könnnen. Z.B. sollte folgender Code

```python
def f(value):
    return int(value)**2

read_column(['price'], './data/test-data.csv', f)
```

folgendes zurückliefern

```python
[25, 81]
```

**Hinweise:** Bedenken Sie, dass die erste Zeile, welche Sie einlesen, sich von allen anderen Zeilen unterscheidet, da es sich um die Namen der Spalten handelt!

In [None]:
def read_column(name, path_to_csv_file, parser = lambda x: x):
    ...
    
print(read_column('y', path_to_csv_file))
print(read_column('price', path_to_csv_file, lambda price: int(price)**2))

In [None]:
grader.check("q1")

***Aufgabe 2 (Lesen einer CSV).*** 

Schreiben Sie eine Funktion ``read(names, path_to_csv_file, parsers=None)``, welche Ihnen die Spalten, definiert in ``names``, in ein Dictionary steckt.
Dabei sollen die ``keys`` des Dictionarys aus den Namen ``names`` bestehen und die ``values`` des Dictionarys aus den Spalten (als Listen) bestehen.
Die Funktion soll das konstruierte Dictionary zurückliefern.
Gibt es für den ``i``-ten Namen einen Parser ``parsers[i]``, so sollte jeder Wert ``value`` der entsprechenden Spalte durch den Wert ``parser[i](value)`` ersetzt werden.


### Beispiele

Für folgende CSV-Datei

```
x,y,name,price
1.0,2.0,Toster,5
2.3,21,Auto,9
```

ergibt

```python
data = read(['y', 'x'], path_to_csv_file)
print(data)
```

folgende Ausgabe

```python
{'y': ['2.0','21'], 'x': ['1.0','2.3']}
```

und

```python
data = read(['price', 'x'], path_to_csv_file, [lambda price: float(price)*2, lambda x: float(x)])
print(data)
```

führt zu folgender Ausgabe

```python
{'price': [10.0,18.0], 'x': [1.0,2.3]}
```

**Tipp:** Sie können (müssen aber nicht) Ihre Funktion ``read_column`` verwenden.

In [None]:
def read(names, path_to_csv_file, parsers=None):
    ...
    
data = read(['y', 'x'], path_to_csv_file)
print(data)

table = read(['price', 'x'], path_to_csv_file, [lambda price: float(price)*2, lambda x: float(x)])
print(data)

In [None]:
grader.check("q2")

Wir können eine CSV-Datei nun bequem in eine Python-Datenstrukturen einlesen.
Diese Datenstruktur bezeichnen wir von nun an als ``data``.

***Aufgabe 3 (Anzahl der Zeilen).*** 

Schreiben Sie eine Funktion ``len_data(data)``, welche die Anzahl der Zeilen von ``data`` zurückliefert.

Beispielsweise sollte

```python
print(len_data(read(['y'], './data/test-data.csv')))
```

``2`` ausgeben.

In [None]:
def len_data(data):
    ...

print(len_data(read(['y'], path_to_csv_file)))

In [None]:
grader.check("q3")

***Aufgabe 4 (Spaltennamen).*** 

Schreiben Sie eine Funktion ``get_names(data)``, welche eine Liste mit allen Spaltennamen unserer Datenstruktur ``data`` zurückliefert.

Beispielsweise sollte:

```python
get_names({'x': [1,2], 'name': ['Anna', 'Klaus']})
```

``['x', 'name']`` oder ``['name', 'x']`` ausgeben.

In [None]:
def get_names(data):
    ...

get_names(read(['y', 'price'], path_to_csv_file))

In [None]:
grader.check("q4")

***Aufgabe 5 (Zeilen auswählen).*** 

Schreiben Sie eine Funktion ``get_row(data, i)``, welche ein Dictionary zurückliefert, wobei die ``keys`` die Spaltennamen unserer Datenstruktur ``data`` sind und die ``values`` der ``i``-te Wert der dazuhörenden Spalte ist.

Beispielsweise sollte

```python
get_row({'x': [1,2,3], 'name': ['Anna', 'Klaus','Nina']}, 1)
```

``['x': 2, 'name': 'Klaus']`` ausgeben.

In [None]:
def get_row(data, i):
    ...

get_row({'x': [1,2,3], 'name': ['Anna', 'Klaus','Nina']}, 1)

In [None]:
grader.check("q5")

<!-- BEGIN QUESTION -->

***Aufgabe 6 (Zeilen filtern).*** 

Beschreiben Sie welche Auswirkungen folgende Funktion ``filter_data()`` hat.

In [None]:
def filter_data(data, predicate = lambda _: True):
    copy = {name: [] for name in get_names(data)}
    for i in range(len_data(data)):
        row = get_row(data, i)
        if predicate(row):
            for name in row:
                copy[name].append(row[name])
    return copy

data = {'price': [5, 32, 7, 11], 'name': ['Tasse', 'Stuhl', 'Block', 'Koffer']}
filter_data(data, lambda row: row['price'] < 9)

**Bitte fügen Sie hier Ihre Antwort ein!**

<!-- END QUESTION -->

***Aufgabe 7 (Spalten aggregieren).*** 

Um Daten zu analysieren wollen wir verschiedene Operationen über Spalten durchführen, welche ausschließlich numerische Werte enthalten.
Jede dieser Operationen liefert genau einen numerischen Wert zurück.

Schreiben Sie folgende Funktionen:

+ ``sum_col(data, col_name)``: gibt die Summe aller Spalteneinträge mit dem Namen ``name`` zurück
+ ``avg_col(data, col_name)``: gibt den Durchschnittswert der Spalteneinträge mit dem Namen ``name`` zurück
+ ``max_(data, col_name)``:  gibt den größten Wert der Spalteneinträge mit dem Namen ``name`` zurück
+ ``min_(data, col_name)``:  gibt den kleinsten Wert der Spalteneinträge mit dem Namen ``name`` zurück

**Hinweis:** Sie können die ``Python``-Built-in Funktionen ``sum``, ``max``, ``min`` und Ihre bisher implementierten Funktionen nutzen.

In [None]:
...


data = {'price': [5, 32, 7, 11], 'name': ['Tasse', 'Stuhl', 'Block', 'Koffer']}
print(sum_col(data, 'price'))
print(avg_col(data, 'price'))
print(max_col(data, 'price'))
print(min_col(data, 'price'))

In [None]:
grader.check("q7")

***Aufgabe 8 (Datenvisualisierung).*** 

Mithilfe unserer bisher implementierten Funktionen sind wir in der Lage erste Analysen eines Datensatzes durchzuführen. 

Der Datensatz ``./data/GlobalTemperature.csv`` enthält Informationen über die globale Temperaturentwicklung von 1750 bis 2015.
Öffnen Sie den Datensatz (z.B. mit Excel oder einem Texteditor) und sehen Sie sich dessen Struktur an.
Wir möchten daraus einen Graphen/Plot erzeugen , der uns die mittlere (Land)-Temperatur pro Jahr darstellt.
D.h. auf der $x$-Achse sollen die Jahre angetragen werden und auf der $y$-Achse die mittlere Temperatur in jenem Jahr.
Diese Informationen stehen in der Spalte ``LandAverageTemperature`` (Temperaturwerte allerdings pro Monat) und ``dt`` (allerdings Datum mit Tag, Monat und Jahr).

Wir wollen diese Informationen in unserer Datenstruktur (Dictionary aus Listen) abspeichern, sodass wir diese weiter verarbeiten können.
Schreiben Sie hierfür eine Funktion ``compute_global_mean_temperature(data)`` die Ihnen folgendes Dictionary zurückliefert:

```python
data_temperature = {'Year': [1750, 1751, ..., 2015], 'Mean Temperature': [...]}
```

dabei beinhalte ist ``data_temperature['Mean Temperature']`` eine Liste aus ``float`` und beinhaltet die mittleren Jahrestemperaturen.
``data_temperature['Year']`` ist hingegen eine Liste aus ``int`` und beinhaltet die dazu passenden Jahre.

Sie können davon ausgehen, dass der Datensatz für jedes Jahr mindestens einen Wert enthält.

Der darauffolgende Code, welcher einen Plot erzeugt, sollte, nachdem Sie die Funktione implementiert haben, funktionieren.

**Hinweise:** Es gibt Monate in denen kein Wert eingetragen ist, diese filtern wir bereits im folgenden Code. 
Außerdem wandeln wir bereits das Datum in der Form ``'1781-10-01'`` in eine ganze Zahl ``1781`` um. Dies müssen Sie nicht mehr machen.
Ganz am Ende des Notebooks plotten wir den Graphen mit ``Pandas``.
Hier sehen Sie wie der Plot aussehen sollte.

In [None]:
data = read(['dt', 'LandAverageTemperature'], './data/GlobalTemperatures.csv', [
    lambda date: int(date.split('-')[0]),
    lambda temperature: float(temperature) if temperature != '' else 'NaN'])

# filter rows without values
data = filter_data(data, lambda row: type(row['LandAverageTemperature']) == float)

In [None]:
def compute_global_mean_temperature(data):
    ...
    return {'Year': years, 'Mean Temperature': temperature_per_year}

In [None]:
import matplotlib.pyplot as plt
import numpy as np

data_temperature = compute_global_mean_temperature(data)

first_year = min_col(data_temperature, 'Year')
mean_first = 1951-first_year
mean_last = 1980-first_year
corresponding = data_temperature['Mean Temperature'][mean_first:mean_last+1]
corresponding_mean = sum(corresponding) / len(corresponding)


plt.plot(data_temperature['Year'], np.array(data_temperature['Mean Temperature'])-corresponding_mean)

plt.title('Globale mittlere Temperaturabweichung im Vergleich zum Mittel zwischen 1951 und 1980')
plt.xlabel('Jahr')
plt.ylabel('Temperatur')

In [None]:
grader.check("q8")

***

Im folgenden sehen Sie eine Möglichkeit wie wir die gleiche Darstellung mit ``Pandas`` erzeugen können.

In [None]:
import pandas as pd

df = pd.read_csv('./data/GlobalTemperatures.csv')                                        # read data
df = df.dropna(subset=['LandAverageTemperature'])                                        # remove rows where there is no data for the temperature
df['Year'] = df['dt'].transform(lambda date: int(date.split('-')[0]))                    # add column for the year

mean = df[(df['Year'] >= 1951) & (df['Year'] <= 1980)]['LandAverageTemperature'].mean()  # compute the mean between 1750 and 1951

df = df.groupby(['Year']).mean()                                                         # compute the yearly mean

df['Temperaturabweichung'] = df['LandAverageTemperature'].transform(lambda x: x - mean)  # subtract the mean between 1750 and 1951

# plot it
df['Temperaturabweichung'].plot(ylabel='Temperatur', xlabel='Jahr', title= 'Globale mittlere Temperaturabweichung im Vergleich zum Mittel zwischen 1951 und 1980')

---

In [None]:
grader.check_all()

## Abgabe

Dieses Notebook ist eine **Abgabe**, die Sie bis zum **4. Dezember um 23:00 Uhr** in Moodle abgegeben haben müssen! Führen Sie alles von oben nach unten aus, speichern Sie Ihr Notebook und laden Sie die **generierte .zip-Datei in Moodle hoch**.

In [None]:
# Save your notebook first, then run this cell to export your submission.
grader.export(pdf=False, run_tests=True)