# 9 Lesen und Schreiben von Dateien, Darstellung von Messwerten (Plots) 

Nachdem wir uns in den letzten Kapiteln die Grundlagen der Programmierung (Ein- und Ausgabe, Kontrollstrukturen und Schleifen sowie Funktionen und Objektorientierung) erarbeitet haben, lernen wir diese Woche eine erste Anwendung kennen, nämlich die Verarbeitung von Messdaten.

* Kapitel 9.1 - Lesen und Schreiben von Dateien
* Kapitel 9.2 - Darstellung von mathematischen Funktionen 
* Kapitel 9.3 - Darstellung von Messwerten

#### Aufgabe 9.1

Bitte lesen Sie - je nach Programmiersprache - folgende Kapitel:

* Programmieren mit MATLAB von Ulrich Stein: 
    * Kapitel 2.7 Grafik
    * Kapitel 2.9 Dateien
* Python 3 von Heiko Kalista: 
    * Kapitel 9.1 Lesen und Schreiben von Dateien

## 9.1 Lesen und Schreiben von Dateien

Im Folgenden werden wir immer wieder auf Text-Dateien zugreifen. Legen Sie dazu ein Verzeichnis `week_files09` an. Dabei muss dieses neue Verzeichnis in demselben Verzeichnis liegen wie dieses Jupyter Notebook. Laden Sie dann die Dateien aus dem Ordner `week09_files` herunter und speichern Sie diese lokal auf Ihrer Festplatte in dem Verzeichnis week_files09.  

Als erstes öffnen wir eine Datei und schließen sie dann wieder. Dazu benutzen wir die Funktion `open()`. Die Datei wird als Objekt in den Speicher geladen und alle nachfolgenden Kommandos werden dann auf dieses Objekt angewendet. Daher lautet der Befehl zum Schließen der Datei `.close()`und er wird an das Objekt angehängt.

In [None]:
datei = open('week09_files/textdatei01.txt')
datei.close()

Damit haben wir die Datei geöffnet und wieder geschlossen. Da wir aber nichts weiter mit der Datei gemacht haben, wurde auch nichts angezeigt. Speichern  wir nun den Inhalt der Textdatei in einer Variable und geben diese aus:

In [None]:
# Öffnen der Datei
datei = open('week09_files/textdatei01.txt')

# Inhalt der Datei in einer Variable speichern und ausgeben
inhalt = datei.read()
print(inhalt)

datei.close()

Bei Windows kann es passieren, dass Umlaute wie ä, ö oder ü nicht korrekt angezeigt werden. In diesem Fall hilft es, der `open`-Funktion ein zusätzliches Argument mitzugeben, die Zeichenkodierung (englisch = encoding). Computer speichern Zeichen wie Buchstaben nämlich intern als Zahlen. Die Zuordnung, welcher Buchstabe als welche Zahl gespeichert wird, ist in der Zeichenkodierung definiert. Oft wird zunächst eine amerikanische Zeichenkodierung angenommen, die keine Umlaute kennt. Wir teilen daher dem Interpreter explizit mit, welche Zeichenkodierung zum Öffnen der Datei verwendet werden soll.

In [None]:
# Öffnen der Datei
datei = open('week09_files/textdatei01.txt', encoding="utf-8")

# Inhalt der Datei in einer Variable speichern und ausgeben
inhalt = datei.read()
print(inhalt)

datei.close()

Als nächstes wollen wir die Datei schrittweise auslesen. Wir lesen die ersten 3 Zeichen der Datei und schließen noch nicht die Datei. Was kommt dabei heraus?

In [None]:
# Öffnen der Datei
datei = open('week09_files/textdatei01.txt', encoding="utf-8")

# Inhalt der Datei in einer Variable speichern und ausgeben
inhalt = datei.read(3)
print(inhalt)

Jetzt lesen wir die nächsten 8 Zeichen aus...

In [None]:
inhalt = datei.read(8)
print(inhalt)

Und nun die nächsten 100 Zeichen:

In [None]:
inhalt = datei.read(100)
print(inhalt)

Und zum Schluss schließen wir die Datei wieder, bitte nicht vergessen!

In [None]:
datei.close()

Sehr häufig kommt es vor, dass wichtige Informationen zeilenweise abgespeichert werden. Z.B. speichert ein Sensor pro Messung ein Messergebnis pro Zeile ab. Daher bietet Python die Möglichkeit, eine Datei zeilenweise auszulesen. 

In [None]:
# Öffnen der Datei
datei = open('week09_files/textdatei01.txt', encoding="utf-8")

# Inhalt der Datei in einer Variable speichern und ausgeben
inhalt_zeile = datei.readline()
print(inhalt_zeile)

datei.close()

## 9.2 Darstellung von Funktionen

Wichtig: zunächst müssen Sie sicherstellen, dass die folgenden Modul installiert sind:

* matplotlib
* matplotlib-base
* numpy
* pandas

Überprüfen Sie daher, welche Python-Pakete derzeit installiert sind und installieren Sie ggf. fehlende Pakete nach.

Öffnen Sie dazu den Anaconda-Navigator und klicken Sie auf Environments:
![Screenshot Anaconda-Navigator](week09_files/week09_screenshot01.png)



Klicken Sie dann auf Ihre Umgebung (wahrscheinlich benutzen Sie `base (root)` und anschließend wechseln Sie von `Installed` zu `All`, siehe nachfolgenden Screenshot:

![Screenshot Wechsel All](week09_files/week09_screenshot02.png)

Zuletzt suchen Sie die fehlenden Pakete und installieren diese durch Aktivieren der Checkbox und anschließendem Bestätigen `Apply` nach:

![Screenshot Installieren](week09_files/week09_screenshot03.png)

Jetzt kann es mit dem Darstellen von mathematischen Funktionen losgehen.

### 9.2.1 XY-Diagramme (Plots)

Eine der häufigsten Darstellungen von mathematischen Funktionen ist das xy-Diagramm. Zu jedem x-Wert wird der entsprechende y-Wert (enweder ein Messwert oder ein Funktionswert) als Punkt in ein Koordinatensystem mit x- und y-Achse eingetragen und die Punkte werden mit einer geraden Linie verbunden.

Erzeugen wir uns eine Liste mit x-Werten und dazugehörigen y-Werten als Listen.

In [None]:
x = [-2, -1, 0, 1, 2]
y = [4, 1, 0, 1, 4]

Danach lassen wir den Interpreter diese Werte zeichnen. Dazu benötigen wir das Modul `matplotlib`, genauer gesagt nur einen Teil dieses Moduls namens `pylab`. Daher laden wir es zuerst mit

```python
from matplotlib.pylab import *
```

Danach kommt die Funktion zum Zeichen der Werte `plot(x,y)`und zuletzt die Funktion `show()` zum Anzeigen des Resultats.

In [None]:
from matplotlib.pylab import *

plot(x,y)
show()

Sieht ziemlich krakelig aus. Eigentlich sollte dies eine Parabel werden im Intervall $\[-2,2]$ werden. Mit nur 5 Punkten und der Tatsache, dass diese 5 Punkte mit geraden Linien verbunden werden, sieht es etwas unschön aus. Besser wird es mit mehr Punkten, aber die wollen wir jetzt nicht von Hand erzeugen. Dazu gibt es das Modul `numpy` für numerisches Python, das wir wieder einmal zuerst Laden müssen:

```python
from numpy import *
```

Die Funktion `linspace(a,b, Anzahl)` erzeugt Punkt im Intervall $\[a,b\]$ je nach eingestellter Anzahl.

In [None]:
from numpy import *

x = linspace(-2, 2, 10) 
y = x**2

plot(x,y)
show()

Schon besser, aber noch ein paar mehr Punkte wären noch schöner...

In [None]:
x = linspace(-2, 2, 100) 
y = x**2

plot(x,y)
show()

#### Aufgabe 9.1 

Bitte plotten Sie folgende Funktionen: 
* $f(x) = 7x + 2$
* Sinus,
* Kosinus,
* Exponentialfunktion und 
* Wurzelfunktion.

Verändern Sie auch das Definitionsgebiet der Funktionen, also das Intervall für $x$.

Nächstes Thema, Beschriftungen. Mit den Funktionen `xlabel()`und `ylabel()` beschriften Sie die x- und y-Achse.

In [None]:
x = linspace(-10,10,200)
y = sin(x)

plot(x,y)
xlabel('Zeit in Sekunden')
ylabel('Stromstärke in Ampere')

Fehlt noch ein Titel für unsere Grafik, das erledigt die Funktion `title()`:

In [None]:
x = linspace(-10,10,200)
y = sin(x)

plot(x,y)
xlabel('Zeit in Sekunden')
ylabel('Stromstärke in Ampere')
title('Wechselstrom')

Zuletzt soll unser Plot gespeichert werden. Es stehen mehrere Grafikformate zur Verfügung. Mehr Details finden Sie auf der Internetseite [Dokumentation savefig](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.savefig.html).

Ein typisches Ausgabeformat ist eine Rastergrafik wie z.B. png. Das erreichen Sie durch den folgenden Funktionsaufruf:


In [None]:
x = linspace(-10,10,200)
y = sin(x)

plot(x,y)
xlabel('Zeit in Sekunden')
ylabel('Stromstärke in Ampere')
title('Wechselstrom')
savefig('week09_files/plot_stromstaerke.png', dpi=300)

### 9.2.2 Balkendiagramme

Mit der Funktion `bar()` kann ein Balkendiagramm erstellt werden. Nehmen wir mal an, wir möchten auswerten, wie viele Nutzer/innen in Moodle auf die Jupyter Notebooks zum Download zugegriffen haben:

| Woche | Anzahl Nutzer/innen |
| --- | --- |
| 2 | 17 |
| 3 | 24 |
| 4 | 73 |
| 5 | 59 |
| 6 | 55 |
| 7 | 57 |

Packen wir das in zwei Vektoren x und y:

In [None]:
x = [2,3,4,5,6,7]
y = [17, 24, 73, 59, 55, 57]

bar(x,y)
show()

Natürlich funktionieren auch hier die Funktionen `xlabel()`, `ylabel()` und `title()`:

In [None]:
x = [2,3,4,5,6,7]
y = [17, 24, 73, 59, 55, 57]

bar(x,y)
xlabel('Woche')
ylabel('Anzahl Nutzer/innen')
title('Zugriff auf Jupyter Notebooks zum Download SoSe 2021')
show()

#### Aufgabe 9.2

Hier ist eine Tabelle mit den Zugriffszahlen auf das MATLAB Live Script in der Vorlesung angewandte Informatik im Sommersemester 2021. Bitte stellen Sie die Daten als Balkendiagramm inklusive Beschriftungen dar.

|Woche |Anzahl Nutzer/innen|
| --- | --- |
| 3 | 9  |
| 4 | 17 |
| 5 | 15 |
| 6 | 10 |
| 7 | 11 |


Möchte man zwei oder gar mehrere Funktionen oder Messdaten in einer Grafik darstellen, verwendet man den plot-Befehl mehrfach:

In [None]:
x  = linspace(-2*pi,2*pi, 200)
y1 = sin(x)
y2 = cos(x)

plot(x,y1)
plot(x,y2)

show()

Dann ist es aber auch gut, die Kurven zu beschriften. Dazu kennzeichnet man jeden einzelnen Plot-Aufruf mit einem sogenannten Label, z.B.

```python
plot(x,y, label='Funktionsname'
```
Zuletzt verwendet man die Funktion `legend()`, die eine Legende mit allen Label-Einträgen erzeugt, bei denen die Farben der Kurven korrekt zu den Namen (Labels) zugeordnet werden.

In [None]:
x  = linspace(-2*pi,2*pi, 200)
y1 = sin(x)
y2 = cos(x)

plot(x,y1, label='Sinus')
plot(x,y2, label='Kosinus')
legend()
show()

#### Aufgabe 9.3

Stellen Sie die Funktionen
* $f1(x) = \sin(x)$
* $f2(x) = \sin(2x)$
* $f3(x) = \sin(3x)$

als xy-Diagramm im Intervall $[-2\pi,2\pi]$ dar und beschriften Sie die Kurven mit einer geeigneten Legende.

#### Aufgabe 9.4

Stellen Sie die Zugriffszahlen auf die Jupyter Notebooks und die MATLAB Live Scripts in einem Balkendiagramm dar. Dabei gibt es ein Problem, welches?

In [None]:
x_j = [2,3,4,5,6,7]
y_j = [17, 24, 73, 59, 55, 57]
x_m = [3,4,5,6,7]
y_m = [9, 17, 15, 10, 11]

bar(x_j,y_j)
bar(x_m,y_m)

show()

## 9.3 Darstellung von Messwerten

Messwerte werden normalerweise nicht händisch in ein Jupyter Notebook oder ein MATLAB Live Script eingegeben. Meist werden Daten durch einen Sensor in eine Textdatei gespeichert oder in einem Excel-Sheet erfasst. In der Wissenschaft ist es üblich, Messdaten im csv-Format abzuspeichern. Dabei steht csv für **comma separated values**, d.h. in einer Textdatei werden pro Messung eine Zeile verwendet und alle Daten pro Messung werden in diese Zeile durch Komma getrennt geschrieben. In der ersten Zeile stehen sozusagen die Spaltenüberschriften:

```
 ,Jupyter-Notebook Download,Jupyter-Notebook Cloud,MATLAB Live Script 
Woche 2,17,19,
Woche 3,24,17,9
Woche 4,73,34,17
Woche 5,59,19,15
Woche 6,55,13,10
Woche 7,57,28,11
```

Um jetzt einfach mit Tabellen umgehen zu können, gibt es das Modul `Pandas`. Laden Sie bitte alle Pandas-Funktionen mit 

```python
from pandas import *
```

in den Speicher. Als nächstes laden wir unsere Messdaten in das Notebook. Laden Sie sich bitte die aktuellen Statistiken zu Covid19 des RKI herunter:

https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Projekte_RKI/Nowcasting_Zahlen_csv.html

Alternativ können Sie auch aus dem Verzeichnis `week09_files` die csv-Datei vom 10.06.2021 laden. Der Befehl zum Lesen einer csv-Datei lautet:

```python
daten = csv_read('dateiname')
```
Manchmal werden die Daten mit einem Komma `,` getrennt, manchmal - vor allem im deutschsprachigen Raum - auch mit einem Semikolon `;`. Durch Angabe des Separators, also dem Trennzeichen, können wir direkt beim Einlesen schon das richtige einstellen, für viele deutschsprachige Dokumente also

```python
daten = csv_read('dateiname', sep=';', decimal=',')
```
mit Semikolon zum Trennen der Spalten und Komma als Dezimaltrennzeichen.


In [None]:
from pandas import *
daten = read_csv('week09_files/Nowcasting_Zahlen_csv.csv', sep=';', decimal=',')

Schauen wir uns an, was wir in der geladenen Tabelle stehen haben. Dazu verschaffen wir uns zuerst mit der Methode `info()` einen Überblick. 

In [None]:
daten.info()

Danach verwenden wir `.head(10)`, um die ersten 10 Zeilen darzustellen.

In [None]:
daten.head(10)

Offensichtlich ist die erste Spalte unser x-Wert, der sogenannte Index, und die "Messdaten" pro Datum stehen in den nachfolgenden Spalten. Es ist geschickt, die Spalte mit dem Datum als Index-Spalte zu setzen. Momentan ist der Index einfach nur fortlaufend von 0, 1, 2, ... . Laden wir also die Daten neu und setzen dabei die erste Spalte als Index-Spalte. Weil Python von Null anfängt zu zählen, ist die erste Spalte die Spalte "0":

In [None]:
daten = read_csv('week09_files/Nowcasting_Zahlen_csv.csv', sep=';', decimal=',', index_col=0)

In [None]:
daten.head(10)

Die Visualisierung der Daten ist jetzt einfach. Pandas stellt die xy-Diagramme (`plot()`) direkt als Methode zur Verfügung. 

In [None]:
daten.plot()

Wenn Sie nur eine Spalte darstellen wollen, können Sie "Slicing" betreiben, also Spalten ausschneiden. Mit `daten["Schätzer_Neuerkrankungen"]`erhalten Sie beispielsweise nur den Schätzer für die Neuerkrankungen, den Sie dann direkt plotten können:

In [None]:
daten["Schätzer_Neuerkrankungen"].plot()