# Module, CSV und Plotten

## Module
Viele der Skripte, welche ihr bis jetzt geschrieben habt behandeln häufig auftretende Probleme,
wie zum Beispiel die Suche nach einer Wurzel.
Dies ist kein triviales Problem, welches verschiedene Lösungen zulässt.
Die beste Lösung kann man entweder durch das Lesen von Fachzeitschriften und langes Knobeln selber finden 
oder man verwendet bereits vorgefertigten Code.

Dieser Code wird für Python in sogenannten „Modulen“ verteilt. 
Dies sind thematische Sammlungen verschiedener Klassen und Funktionen, 
welche gesammelt zur Verfügung gestellt werden.

Die Verwendung eines Moduls wird hier kurz anhand von numpy demonstriert.
Der erste Schritt ist das Modul zu laden oder zu importieren.
Anschließend kann der Inhalt genutzt werden.
Die Syntax entspricht dabei dem Aufruf einer Methode.

In [None]:
# Zuerst beginnen wir mit dem Import des Moduls "numpy"
import numpy 
a = 5

# Nun können wir die Wurzel-Funktion des Moduls "sqrt" rufen
b = numpy.sqrt(a)
print(b)

Es ist auch möglich Module während des Imports mit „as“ umzubenennen.

In [None]:
import numpy as np
# Dies entspricht:
# import numpy
# np = numpy

a = 5
# Wir können numpy nun als np rufen
print(np.sqrt(a))


## Plotten mit matplotlib
Im Anfängerpraktikum werdet ihr,
wie vermutlich auch im Rest eures Studiums Messergebnisse graphisch darstellen müssen.
Für kleine Datenmengen kann dies mit Papier und Bleistift bewerkstelligt werden.
Für größere Datenmengen sollte man jedoch einen Computer verwenden.
In Python ist dies mit matplotlib möglich.

Hier ein kurzes Beispiel:

In [None]:
import matplotlib.pyplot as plt

# Erzeugung der X Werte
x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# Erzeugung der Y-Werte
y = [0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

plt.plot(x, y)
plt.show()

Wie ihr sehen könnt übergeben wir „plot“ zwei iterierbare Objekte, in diesem Fall Listen als Argumente,
interpretiert diese als Datenpunkte und legt anschließend eine Linie durch diese.
„show“ dient dazu das Ergebnis am Ende darzustellen.
Es ist möglich vor show noch weiter Graphen zeichnen zu lassen.
Hierzu ein weiteres Beispiel:

In [None]:
import matplotlib.pyplot as plt

# Erzeugung der X_Werte
x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# Erzeugung der Y-Werte
y = [0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

plt.plot(x, y)
plt.plot(x) # übergeben wir nur eine Liste so wird diese als y Koordinaten über (0...n) interpretiert
plt.show()# show zeigt nun beide Graphen

Die Darstellung als Graph ist meistens für Datenpunkte unerwünscht, 
stattdessen wird ein Streudiagramm bevorzugt.
Dieses können wir mittels „scatter“ erzeugen, welches ähnlich wie „plot“ verwendet wird.

In [None]:
import matplotlib.pyplot as plt

# Erzeugung der x Werte
x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# Erzeugung der Y-Werte
y = [0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

plt.scatter(x, y)
plt.show()

Versucht als Übungen nun die Quadrate und Kuben (3. Potenz) 
aller ganzen Zahlen zwischen 0 und 100 graphisch darzustellen. 
Die Verwendung von Schleifen und der Listenmethode „append“ könnte sich hierbei als nützlich erweisen.

In [None]:
# Fügt hier bitte eure Lösung ein

## Numpy-arrays
Als nächstes wollen wir uns mit „numpy“-Arrays beschäftigen.
Diese finden häufig Verwendung, da sie schnelleres Rechnen ermöglichen.
Dies liegt daran, dass sie strikt typisiert und damit C-Arrays sehr ähnlich sind,
was die Einsparungen in der Verarbeitung der Daten ermöglicht.

Zuerst wollen wir einmal einige „numpy“-Arrays erstellen.
Wir beginnen damit eine Liste in ein „numpy“-Arrays umzuwandeln:

In [None]:
import numpy as np

Liste = [1, 2, 4]
array = np.array(Liste)
print(array)

Als nächstes nutzen wir 3 integrierte Funktionen um häufig verwendete „numpy“-Arrays zu erzeugen.

In [None]:
import numpy as np

# Arange gibt uns einen Zahlen in gleichmäßigen Intervallen, 
# kann im Gegensatz zu range, jedoch auch Fließkommazahlen verwenden
arange = np.arange(0, 1, 0.1)
# ones(n) erzeugt ein array mit n Einsen
ones   = np.ones(5)
# zeros(n) erzeug ein array mit n Nullen
zeros  = np.zeros(3)
print(arange)
print(ones)
print(zeros)

Verwendet dieses Wissen nun um die Quadrate aller Zahlen zwischen 0 und 1 mit einem Intervall von 0.01 darzustellen:

In [None]:
# Fügt hier bitte eure Lösung ein

### Nachteile von Numpy-Arrays
Beschäftigen wir uns nun mit dem Nachteilen von „numpy“-Arrays. 
Der erste Nachteil ist die strikte Typisierung.
So kann in einem Array nur ein Datentyp abgelegt werden.
In folgendem Code werden damit alle Einträge innerhalb des „numpy“-Arrays auf den Datentyp „string“ gewzungen,
wie ihr an den Anführungszeichen erkennen können werdet.

In [None]:
import numpy as np
Liste = ["Klaus", 1, 0.1]
Array = np.array(Liste)
print(Liste)
print(Array)

Ein zweites Problem resultiert aus der Hardware nahen Funktionsweise von numpy.
Die Einträge der „numpy“-Arrays sind in bestimmten aufeinanderfolgenden Speicherzellen aufbewahrt.
Diese Speicherzellen haben eine begrenzte Anzahl „Bits“,
also boolescher Variable.
Deren Wahrheitswerte genutzt werden um binäre Zahlen darzustellen.
Hier ein Beispiel für die Darstellung der Zahl „201“ mit 8 „Bits“.

|   Bit-Nummer   |   8  |   7  |   6  |   5  |   4  |   3  |   2  |   1  |
|:--------------:|:----:|:----:|:----:|:----:|:----:|:----:|:----:|:----:|
|Wahrheitswert   | Wahr | Wahr |Falsch|Falsch| Wahr |Falsch|Falsch| Wahr |
|Binärdarstellung|   1  |   1  |   0  |   0  |   1  |   0  |   0  |   1  |
|   Zahlenwert   |  128 |  64  |   32 |  16  |   8  |   4  |   2  |   1  |

Im Arbeitsspeicher würden wir also: | Wahr | Wahr | Falsch | Falsch | Wahr | Falsch | Falsch | Wahr |

Beziehungsweise: 11001001 finden.

Mit 8 „Bits“ lassen sich $2^8$, also 256 verschiedene Zustände darstellen.
Für ganze Zahl also der Zahlenraum von 0 bis 255 oder -128 bis 127.

Versuchen wir nun auf 255 (in binärer Schreibweise 11111111) 1 zu addieren so erhalten wir
256 (in binärer Schreibweise 100000000).
Diese können wir jedoch mit unseren Speicherzellen nicht mehr darstellen und die oberste Stelle geht verloren.
Die im Arbeitsspeicher vorliegende Zahl ist 00000000 also 0.
Dieses Verhalten bezeichnet man als Overflow.

In [None]:
import numpy as np
a = np.array([255], dtype=np.uint8)
b = np.array([1], dtype=np.uint8)
c = np.ones(1, dtype=np.uint8)
c[0] = a[0] + b[0]
print(c)

## Datenverarbeitung 
Natürlich solltet ihr eure Messergebnisse machinenlesbar abspeichern, 
um sie automatisch auslesen und auswerten zu können.
Ein Beispiel ist die Datei „data1.dat“.
Wenn ihr wollt könnt ihr sie euch herunterladen und mit einem Texteditor (wie Notepad, Gedit oder vim) ansehen.
Diese Datei können wir auch mit numpy einlesen.
Hierfür verwenden wir „loadtxt“ aus „numpy“.

In [None]:
import numpy as np

values = np.loadtxt("data01.dat")

# Hier geben die eingelesenen Werte aus
print(values)

In [None]:
import numpy as np

values = np.loadtxt("data01.dat")

# Nun betrachten wir eines der eingelesenen Wertepaare, welche sich innerhalb einer Zeile befanden
print(values[0])

In [None]:
import numpy as np

values = np.loadtxt("data01.dat")

# Natürlich können wir auch einen Teil dieses Wertepaares ausgeben
print(values[0][1])

Als nächstes wollen wir nun diese Wertepaare als Punkte interpretieren 
und mittels „append“ in eine x- und eine y-Liste einfügen um sie anschließend mittels „scatter“ darzustellen.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = []
y = []

values = np.loadtxt("data01.dat")
for value in values:
    x.append(value[0])
    y.append(value[1])

plt.scatter(x,y)
plt.show()

Versucht nun den Inhalt der Datei „data02.dat“ ebenfalls mit „scatter“ darzustellen.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein

Bei „data03.csv“ handelt es sich um ein „Comma-seperated-value“-file.
Die Werte werden also durch Kommata getrennt.
Wir können sie mit dem „csv“-Modul einlesen.

In [None]:
import matplotlib.pyplot as plt
import csv
# Zuerst öffnen wir die Datei "data03.csv" und nennen sie "csv_file"
# With sorgt auch dafür, dass der Code nur ausgeführt wird, wenn das öffnen erfolgreich war
# und die Datei automatisch wieder geschlossen wird.
with open("data03.csv") as csv_file:
    X = []
    Y = []
    # Nun erklären wir, dass die Werte durch den delimiter ','  getrennt werden
    readCSV = csv.reader(csv_file, delimiter=',')
    # Die einzelnen Zeilen sind nun Elemente in readCSV
    for row in readCSV:
        # Es gilt zu bemerken, dass die Daten noch als Strings(Zeichenketten) abgelegt sind
        # Wir müssen sie also zu Fließkommazahlen konvertieren
        X.append(float(row[0]))
        Y.append(float(row[1]))
    plt.scatter(X, Y)
    plt.show()

Verwendet nun diesen Skript um die Daten aus „data04.csv“ darzustellen.

In [None]:
import csv
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein

Als nächstes sollt ihr die Daten aus „data05.csv“ darstellen. 
Wenn ihr euch die Datei anseht werdet ihr feststellen, 
dass die Werte durch „&“ getrennt werden.
Um sie korrekt einlesen müsst ihr den Delimiter in der „csv.reader“ Funktion ändern.

In [None]:
import csv
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein

In „data06.csv“ wurden die Fließkommazahlen mittels „,“ statt „.“ getrennt. 
Der einfachste weg dieses Problem zu lösen ist die „replace“ Methode der „string“-Klasse.
Der Delimiter ist „;“.

In [None]:
import csv
import matplotlib.pyplot as plt
with open("data06.csv") as csv_file:
        X = []
        Y = []
        # Nun erklären wir, dass die Werte durch den delimiter ','  getrennt werden
        readCSV = csv.reader(csv_file, delimiter=';')
        # Die einzelnen Zeilen sind nun Elemente in readCSV
        for row in readCSV:
            X.append(float(row[0].replace(",",".")))
            Y.append(float(row[1].replace(",",".")))
        plt.scatter(X,Y)
        plt.show()

In „data07.csv“ findet ihr einen Datensatz mit demselben Problem.
Versucht diesen nun entsprechend zu bearbeiten.

In [None]:
import csv
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein

Als nächstes betrachten wir „data08.csv“.
Hier finden mehre Gaußkurven in verschiedenen Spalten.
Als erstes wollen wir den Kommentar eliminieren.
Hierbei könnten wir natürlich alle mit „#“ gekennzeichneten Zeilen ignorieren.
Stattdessen werden wir die ersten Zeilen mittels eines Counters ignorieren,
da wir dafür nicht das erste Zeichen der Zeile berücksichtigen müssen,
was etwas komplizierter wäre.

In [None]:
import csv
import matplotlib.pyplot as plt
with open("data08.csv") as csv_file:
    x = []
    y = []
    readCSV = csv.reader(csv_file, delimiter=",")
    # Hier erzeugen wir einen Counter names Skip_lines, welcher die Anzahl der Kommentar Zeilen herunter zählt
    Skip_lines = 2
    for row in readCSV:
        # Hier überspringen wir die Zeilen
        if Skip_lines > 0:
            Skip_lines -= 1
        else:
            # Hier lesen wir die erste Zeile ein
            x.append(float(row[0]))
            y.append(float(row[1]))
    plt.scatter(x,y)
    plt.show()

Nun sollten wir noch die anderen Gaußkurven darstellen.
Wir könnten natürlich für jede Zeile eine eigene Variable erstellen,
stattdessen verwenden wir hier ein Konstrukt,
welches dynamisch Listen in eine Superliste einfügt.

In [None]:
import csv
import matplotlib.pyplot as plt
with open("data08.csv") as csv_file:
    readCSV = csv.reader(csv_file, delimiter=",")
    Skip_lines = 2
    # Hier erstellen wir eine Liste um unsere Ergebnisse zu speichern
    result = []
    # Mit dieser "flag" merken wir uns, ob dies unser erster Durchgang ist
    first = True
    for row in readCSV:
        if Skip_lines > 0:
            Skip_lines -= 1
        else:
            for i in range(0, len(row)):
                if first:
                    # Befinden wir uns ersten Durchgang erstellen wir neue Listen,
                    # welche unsere Werte enthalten und appenden diese an result.
                    result.append([float(row[i].replace(",","."))])
                else:
                    # Anschließen können wir an diese Listen appenden
                    result[i].append(float(row[i].replace(",",".")))
            # Nachdem wir die Listen erzeugt haben setzen wir die Flag auf False,
            # um nicht noch mehr Listen zu erzeugen.
            if first:
                first = False
                
    # Für die plots gehen wir ähnlich vor.
    # Zuerst erstellen wir eine flag, welche angbit ob x bereits gelesen wurde
    IsX = True
    for array in result:
        if IsX:
            # Das erste Array, welches der ersten Spalte entspricht,
            # wir hier eingelesen und die flag gesetzt.
            x = array
            IsX = False
        else:
            # Alle folgenden arrays sind die y Zeilen.
            # Sie werden hier eingelesen und geplottet.
            y = array
            plt.scatter(x,y)
    # Anschließend zeigen wir die plots.
    plt.show()

Nun versucht die in „data09.csv“ gegebenen Daten darzustellen.

In [None]:
import csv
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein

Leider gibt es Datensätze, welche mit nicht einfach mit „csv.reader“ ausgelesen werden können.
In diesen Fällen ist es meist sinnvoll die Zeilen einzeln als Zeichenketten zu bearbeiten.
Ein Beispiel findet sich in „data10.dat“.
Hier finden wir 2 durch Leerzeichen getrennte Spalten, denen Einheiten angehängt wurden.

Um diese auswerten zu können müssen wir uns mit „slicing“ beschäftigen.
Durch „slicing“ können wir eine Teilliste oder einen Teilstring aus einer Liste oder einem String auswählen.
Hier ein kurzes Beispiel:

In [None]:
Liste = ["Hallo, Klaus!", 2, 3, 4]
# Slicing findet innerhalb eckiger Klammern statt
# Die erste Zahl gibt das erste Element an, ab dem gesliced wird.
# Die zweite Zahl bis zu welchem Element gesliced wird. Diese ist nicht inkludiert!
print(Liste[1:3])
# Lassen wir eine Zahl weg. So wird bis zum passenden Ende gesliced.
print(Liste[:2])
print(Liste[2:])
# Es ist auch möglich eine Schrittweite anzugeben.
# Lassen wir uns zum Beispiel jedes 2 Element des Strings ausgeben
String = Liste[0]
print(String[::2])
# Oder jedes 2 Element zwischen dem 2 und 8 Element
print(String[2:9:2])
# Es ist auch möglich eine negative Schrittweite zu wählen
print(String[::-1])

Da die Daten in „data10.dat“ sind durch Leerzeichen getrennt
und alle gleich breit, weshalb slicing eine Möglichkeit darstellt sie zu separieren.

In [None]:
import csv
import matplotlib.pyplot as plt
with open("data10.dat") as csv_file:
    Skip_lines = 2
    result = []
    first = True
    # Statt dem CSV Reader anzuwenden lassen wir uns die Zeilen direkt als string übergeben.
    for line in csv_file:
        if Skip_lines > 0:
            Skip_lines -= 1
        else:
            # Zuerst nutzen wir "replace" um die Einheiten zu eliminieren
            line = line.replace("min","   ") # Die Ersetzung hält die Abstände Konstant
            line = line.replace("K"," ")
            # Nun nutzen wir slicing um die Zeile in 2 Zeichenketten zu zerlegen.
            row = [line[0:7], line[7:]]
            for i in range(0, len(row)):
                if first:
                    result.append([float(row[i].replace(",","."))])
                else:
                    result[i].append(float(row[i].replace(",",".")))
            if first:
                first = False
                
    IsX = True
    for array in result:
        if IsX:
            x = array
            IsX = False
        else:
            y = array
            plt.scatter(x,y)
    plt.show()

Natürlich könnt ihr dies nun an „data11.dat“ ausprobieren.

In [None]:
import csv
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein

Nun solltet ihr alle Fähigkeiten haben, welche ihr benötigen werdet um Daten-files einzulesen.
Beginnt einmal mit „data12.dat“.
Hierbei ist die Lösung relativ naheliegend, jedoch nicht unbedingt leicht zu finden.

In [None]:
import csv
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein

Beschäftigt euch nun mit „data13.dat“.
Leere Felder könnt ihr als „float("Nan")“ einfügen,
da „matplotlib“ nur Nummern einliest.
(„Nan“ steht für „Not a number“ und ist ein definierter Zustand einer Fließkommazahl.)

In [None]:
import csv
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein

In „data14.dat“ findet ihr ein recht ähnliches Problem.
Versucht sie darzustellen.

In [None]:
import csv
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein

Hier findet ihr noch in „Astro.dat“ ein Beispiel aus der Praxis.
Zwar sind die meisten Tabellen gutartiger, jedoch kann euch auch solch eine Tabelle begegnen.
Versucht die Daten auszulesen und sinnvoll darzustellen.
(Nachdem es sich um echte Daten handelt werdet ihr vermutlich keine eindeutig perfekte Darstellung finden.)

In [None]:
import csv
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein

Ein weiteres Praxisbeispiel findet ihr in „wireshark-capture.dat“,
diese wurde für diese Übung von 260Mb auf 120kb verkürzt.
Plottet bitte „No.“ gegen „ack“.
Hierfür müsst ihr etwas Stringmanipulation betreiben.

In [None]:
import csv
import matplotlib.pyplot as plt
# Fügt hier bitte eure Lösung ein