<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Skriptsprachen
### Sommersemester 2021
Prof. Dr. Heiner Giefers

## Datentypen

### Der NoneType

Vermutlich kennen Sie folgende Situation bereits von anderen Programmiersprachen: Bei der Programmierung möchten Sie gelegentlich ausdrücken möchte, dass etwas **nicht** existiert, bzw. dass eine Referenz auf ein Objekt nicht initialisiert ist.

Referenzen (und Pointer) sind Verweise auf Objekte.

Wenn nun die Referenz existiert, nicht aber das Objekt auf das sie verweisen soll, so gibt man der Referenz einen ganz speziellen *Null*-Wert.

Bei den Zeigern in C/C++ ist das die Adresse mit dem Wert 0 (`NULL`), in Java die `null`-Referenz.

Auch in Python gibt es eine solche Referenz.
Sie hat den Wert (bzw. den Namen) `None` und ist selbst vom Typ `NoneType`.

In [None]:
def returnNone():
    return

x = returnNone()
print(x, type(x))

### Operatoren

Die wichtigsten Operatoren haben wir bereits im letzten Arbeitsblatt kennengelernt. Für alle elementaren Datentypen und auch die zusammengesetzten Datentypen sind verschiedenen Operatoren definiert.
Bei numerischen Ausdrücken haben die Operationen (`+`, `-`, `*`, `/`) ihre übliche Bedeutung.

Der Operator `//` berechnet die ganzzahlige Division zweier Zahlen, der Modulo-Operator `%` den ganzzahligen Rest einer Integer Division.

Dazu gibt es noch den Potenz-Operator `**`.

Für den ganzzahligen Datentyp int sind zusätzlich Bit-Operationen definiert. Dies sind das bitweise AND (`&`), OR (`|`) und XOR (`^`) sowie das Bit-Komplement (`~x`) einer Zahl `x`. Auch Bit-Verschiebungen (bit shifts) sind mit den Operatoren `<<` (shift links) und `>>` (shift rechts) möglich.

In [None]:
3 << 3

Operatoren sind auch für nicht-arithmetische Datentypen, wie etwa `str` (String) oder zusammengesetzte Datentypen wie Tupel oder Listen definiert.

Eine Konkatenation von Strings mit dem Operator `+` haben wir bereits gesehen.

Mit den `*`-Operator kann man Strings zusätzlich multiplizieren.

In [None]:
print("Blah "*3)

Als Vergleichsoperatoren stehen `==` (gleich), `!=` (ungleich), `<` (kleiner), `>` (größer), `<=` (kleiner oder gleich) und `>=` (größer oder gleich) zur verfügung.

Das Ergebnis einer Vergleichsoperation ist vom Typ `bool`.

In [None]:
x = 12 > 12
type(x)

Bool'sche Ausdrücke selbst können mit logischen Operatoren verbunden werden.

Hier benutzt Python eine etwas andere Syntax wie z.B. C oder Java, indem die Operatoren *ausgeschrieben* werden.

`not` invertiert einen logsichen Ausdruck, mit `and` und `or` verknüpft man zwei logische Ausdrücke mit einem logischen UND, bzw. ODER.

**Aufgabe:** Ein logisches XOR gibt es nicht. Wie können sie es mit den existierenden logischen Operatoren realisieren?

In [None]:
print('x\ty\tx XOR y')
print('------------------------')
a = [True, False]
b = [True, False]
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
from io import StringIO
from unittest.mock import patch
from IPython import get_ipython
ipython = get_ipython()


with patch('sys.stdout', new_callable=StringIO) as screen:
    ipython.magic('rerun')

# str is converted to bool
i = screen.getvalue().find('Output')
s = screen.getvalue()[i:].split('\n')
s = [[i == 'True' for i in line.split()] for line in s[3:-1]]
for i in s:
    if ((i[0] or i[1]) and not(i[0] and i[1])) != i[2]:
        print('Results are not consistent!')
        raise

Kurzauswertungen sind nach dem Muster `<Operator>=` möglich.
Beispielsweise entspricht `x*=3` dem Ausdruck `x=x*3`.

Inkrement/Dekrement Operatoren wie in C oder Java existieren in Python allerdings nicht.
Sie werden üblicherweise durch eine Kurzauswertungs-Schreibweise ersetzt, also z.B. `x+=1`.

### Sequenzielle Datentypen

Unter sequenziellen Datentypen wird eine Klasse von Datentypen zusammengefasst, die Folgen von **gleichartigen oder verschiedenen** Elementen verwalten.
Die in sequenziellen Datentypen gespeicherten Elemente haben eine definierte Reihenfolge und man kann über eindeutige Indizes auf sie zugreifen.

Den sequenziellen Datentyp `str` haben wir schon kennengelernt, er speicherteine folge von Zeichen, auch *zeichenkette* oder *String* genannt.
Der Typ `bytes` (bzw. seine veränderliche Variante `bytearray`) ist den Strings ähnlich, verwaltet aber Folgen von Bytes (statt Zeichen).
`bytes` ist in Python der Standardtyp um mit Binärdaten umzugehen.

Neben Strings werden in Python häufig auch die sequenziellen Datentypen `list` und `tuple` eingesetzt.
Mit ihnen können geordente Folgen von Objekten (bzw. von den Refeferenzen der Objekte) gespeichert werden.



| <p align="left">Modus | <p align="left">Beschreibung | <p align="left"> Veränderbarkeit |
| --- | --- | --- |
| <p align="left"> `list` | <p align="left"> Listen beliebiger Instanzen | <p align="left"> veränderlich |
| <p align="left"> `tuple` | <p align="left"> Listen beliebiger Instanzen unveränderlich | <p align="left"> unveränderlich |
| <p align="left"> `str` | <p align="left"> Text als Sequenz von Buchstaben | <p align="left"> unveränderlich |
| <p align="left"> `bytes` | <p align="left"> Binärdaten als Sequenz von Bytes | <p align="left"> unveränderlich |
| <p align="left"> `bytearray` | <p align="left"> Binärdaten als Sequenz von Bytes | <p align="left"> veränderlich |


Sequenzielle Datentypen untestüzen eine Reihe von Operationen die den Umgang mit den Daten erleichtern.
Folgende Tabelle gibt einen Überblick über die Operatoren und Funktionen die auf sequenziellen Datentypen definiert sind (Quelle: Lehrbuch Site 148f.):

| <p align="left"> Notation | <p align="left"> Beschreibung |
| :--- | :--- |
| <p align="left"> `x in s` | <p align="left"> Prüft, ob x in s enthalten ist. Das Ergebnis ist ein Wahrheitswert. |
| <p align="left"> `x not in s` | <p align="left"> Prüft, ob x nicht in s enthalten ist. Das Ergebnis ist eine bool-Instanz. Gleichwertig mit not x in s. |
| <p align="left"> `s + t` | <p align="left"> Das Ergebnis ist eine neue Sequenz, die die Verkettung von s und t enthält. |
| <p align="left"> `s += t` | <p align="left"> Erzeugt die Verkettung von s und t und weist sie s zu. |

| <p align="left"> Notation | <p align="left"> Beschreibung |
| :--- | :--- |
| <p align="left"> `s * n oder n * s` | <p align="left"> Liefert eine neue Sequenz, die die Verkettung von n Kopien von s enthält. |
| <p align="left"> `s *= n` | <p align="left"> Erzeugt das Produkt s * n und weist es s zu. |
| <p align="left"> `s[i]` | <p align="left"> Liefert das i-te Element von s. |
| <p align="left"> `s[i:j]` | <p align="left"> Liefert den Ausschnitt aus s von i bis j. |
| <p align="left"> `s[i:j:k]` | <p align="left"> Liefert den Ausschnitt aus s von i bis j, wobei nur jedes k-te Element beachtet wird. |

| <p align="left"> Notation | <p align="left"> Beschreibung |
| :--- | :--- |
| <p align="left"> `len(s)` | <p align="left"> Gibt die Anzahl der Elemente von s zurück. |
| <p align="left"> `max(s)` | <p align="left"> Liefert das größte Element von s, sofern eine Ordnungsrelation für die Elemente definiert ist. |
| <p align="left"> `min(s)` | <p align="left"> Liefert das kleinste Element von s, sofern eine Ordnungsrelation für die Elemente definiert ist. |
| <p align="left"> `s.index(x)` | <p align="left"> Gibt den Index des ersten Vorkommens von x in der Sequenz s zurück. |
| <p align="left"> `s.count(x)` | <p align="left"> Zählt, wie oft x in der Sequenz s vorkommt. |

#### Listen

Listen sind eine sequentielle Anordnung die beliebige (Referenzen auf) Objekte aufnehmen kann.
Erinnern Sie sich, dass in Python *alles* ein Objekt ist, also auch Elemente von Basis-Typen wie `ìnt`, `float`, oder `string`.
Beispiele für Listen sind etwa:
```python
a = [1, 2.4, "Hallo"]
b = [6, 2, [False, True, False], 44]
```
Alle sequenziellen Datentypen haben gemein, dass ihre Elemente eine feste Anordnung haben und über einen fortlaufenden Index adressierbar sind.
So liefert `a[2]` den String `Hallo`, `b[2][1]` den Wert `True`.

Wie die Beispiele zeigen, werden Listen in Python angelegt, indem die Elemente in eckige Klammern `[...]` geschrieben werden.
So lässt sich auch eine leere Liste mit `a = []` anlegen.

Für Listen existieren die Funktionen:
- `l.append(e)` zum Anängen des Objekts `e` an das Ende der Liste `l`
- `l.extend(m)` zum Anängen aller Elemente von `m` an das Ende der Liste `l`
- `l.insert(i, e)` Einfügen des Objekts `e` an der Stelle `i` in die Liste `l`. Die anderen Elemente in `l` rücken von der Position `i` (einschließlich) um eine Position nach hinten
- `l.pop([i])` Liefert das `i`-te Element der Liste `l` zurück und entfernt es aus der Liste. Die folgenden Elemente rücken um eine Position nach vorne. Der Parameter `i` ist optional. Fehlt er, wird das letzte Element der Liste entnommen
- `l.remove(e)` Entfernt das erste Vorkommen von `e` aus der Liste `l`
- `l.reverse()` Kehrt die Reihenfolge der Elemente in s um
- `l.sort()` Sortiert die Liste `l` *in-place* (es wird keine neue Liste erzeugt)

In [None]:
x = [4,3,2,1]
print(id(x), x)
x.append(5)
print(id(x), x, "(Hänge ein Element an:)")
x+=[6]
print(id(x), x, "(Verbinde 2 Listen mit '+')")
x=x+[7]
print(id(x), x, "(Die Zuweisung mit '=' erzeugt eine neue Liste)")
x.sort()
print(id(x), x, "(Sortieren)")
y = [9,9,9]
x.extend(y)
print(id(x), x, "(Verbinde 2 Listen mit extend())")
x.append(y)
print(id(x), x, "(Anhängen eines Elements vom Typ list)")
x.pop(0) 
print(id(x), x, "(Entnehmen des ersten Elements)")

**Aufgabe:** Gegeben seien die folgenden Listen `a` und `b`:
```python
a = [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31]
b = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]
```
Berechnen Sie eine neue Liste `c`, die alle Elemente von `a` enthält die **nicht** in `b` sind.

In [None]:
a = [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31]
b = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]
c = None
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert c == [17, 19, 23, 29, 31], 'Results are incorrect'

with patch('sys.stdout', new_callable=StringIO) as screen:
    ipython.magic('rerun')
    
if 'for' not in screen.getvalue(): print('Try using a for loop')
    
print(c)

#### Veränderbare und nicht-veränderbare Objekte

Python unterscheidet zwischen veränderbaren und unveränderbaren Objekten.

Instanzen von Basistypen sind unveränderbar.

Das bedeutet, wenn Sie einer existierenden Variablen `x` einen neuen Wert zuweisen, so wird ein *neues Objekt* angelegt und der Variablen zugewiesen.

In [None]:
x = 1.2
print(id(x))
y = 1.2
print(id(x))

Auch eine Kurzauswertungsoperation führt zum Anlegen eines neuen Objekts.

In [None]:
x = 1234
print(id(x), x)
x += 1
print(id(x), x)

Unveränderbare (**immutable**) Objekte haben einigen Vorteile gegenüber veränderbaren (**mutable**) Objekten.
Die Unveränderbarkeit von Objekten verhindert Seiteneffekte.
Das bedeutet, wenn man ein immutable Object benutzt, kann man sicher sein, dass die Werte des Objekts nicht an anderer Stelle geändert wurden.
Betrachten wir folgendes Beispiel:
```python
x = [1,2,3]
y = x
print(x is y)
x[0] = 42
print(y)
```
```
True
[42, 2, 3]
```

Die Variablen `x` und `y` zeigen hier auf dasselbe Objekt, was belegt wird, durch die Überprüfung der Identität von `x` und `y` mit dem `is`-Operator.
Durch Verändern von `x` wird nun gleichzeitig `y` verändert, schließlich referenzieren die beiden Variablen ja dasselbe Listen-Objekt.

Wenn `x` und `y` unveränderbar wären, dann wäre die Zuweisung `x[0] = 42` nicht möglich.

In diesem Fall müsste eine neue Liste mit `x = [42,2,3]` angelegt werden.
Aber nun ist `x` aber ein neues Objekt, das von `y` verschieden ist.

Durch das Unveränderbarmachen eines Datentyps erreicht man also, dass die Art Seiteneffekte nicht entstehen.
Ein weiterer Vorteil von unveränderbaren Typen ist, dass sich die Daten im Speicher in kompakterer Form darstellen lassen.

Allerdings haben immutable Objekte auch Nachteile.
Wenn Sie ein Objekt verändern, also z.B. eine Sequenz erweitern, oder ein Element aus der Sequenz löschen wollen, müssen Sie die komplette Sequenz kopieren und als neues Objekt anlegen.

Kommt das Verändern häufiger vor oder besteht die Sequenz aus vielen Elementen, so bringt die Unveränderbarkeit deutliche Performance-Einbußen mit sich.

**Achtung:** Ein Objekt eines unveränderbaren Datentyps kann selbst wieder Objekte von veränderbaren Typen enthalten.
Im folgenden Beispiel ist die (veränderbare) Liste `x` teil des (unveränderbaren) Tupels `y`.
Wenn `x` geändert wird, ändert sich implizit auch `y` mit.

In [None]:
x = [1,2,3]
y = (1,2,x)
print(y)
x[0]=44
print(y)

#### Tupel

Der Datentyp `tuple` ist die unveränderbare Variante des Typs `list`.
Durch die Tatsache, das einmal erzeugte Tupel nicht mehr verändert werden können, entfallen viele der Funktionalitäten der Listen.
Funktionen wie `append`, `extend` oder `pop` ergeben für Tupel keinen Sinn.

Tupel werden über eine mit Komma getrennte Liste von Elementen erzeugt.
Optional kann das Tupel in runde Klammern gesetzt werden.
Durch die Klammern erkennt man auch bei der Ausgabe, dass es sich um einen Tupel-Typ handelt.

In [None]:
x = 1,2,3
y = ('A',4,5.6)
print(x)
print(y)

Eine Ausnahme besteht beim Anlegen eines Tupels mit nur einem Element.

Angenommen, wir wollen ein Tupel `x`erstellen, das nur die Zahl `1` als Element enthält.
Bei der Schreibweise `x = 1` wird die `1`natürlich nicht als Tupel interpretiert.
Aber auch die Schreibweise `x = (1)` ist widersprüchlich, denn `(1)` ist eine geklammerte Integer-Zahl.

Um diese Mehrdeutigkeiten auszuschließen, wird bei einem Tupel, das aus nur einem Element bestehen soll, ein Komma hinter das Element gesetzt.
Damit ist es für den Python Interpreter klar, dass es sich um ein Tupel handeln soll.

In [None]:
a = (2)
print(type(a))
x = 1,
y = (2.0,)
print(type(x), x)
print(type(y), y)

Über die Konvertierungsfunktionen `list()` und `tuple()` lassen sich Listen bzw.
Tupel aus Objekten anderer sequenzielle Datentypen erzeugen.

Um aus einem Tupel oder eine Liste einen String zu machen, genügt die `str()` Funktion allerdings nicht.
Hier hilft die Methode `c.join(s)`, die, aufgerufen auf einem Zeichen `c`, die Elemente von `s` mit dem Trennzeichen `c` zu einem String verbindet.

In [None]:
s = "ABC"
t = tuple(s)
print(type(t), t)
l = list(t)
print(type(l), l)
l[2]='B'
s = '-'.join(l)
print(type(s), s)

#### Packing / Unpacking

Wir haben gesehen, dass man die runden Klammern beim Erstellen von Tupel weglassen kann.
Diese Eigenschaft nennt man auch *tuple packing*.
Ein ähnliches Prinzip, genannt *unpacking*, gibt es auch bei der Zuweisung eines Tupels oder einer Liste auf mehrere Variable.

Ist die rechte Seite einer Zuweisung ein Objekt eines sequenziellen Datentyps, kann dieses auf mehrere Zielvariable zugewiesen werden.
Im unteren Beispiel wird der String `"123"` der Variablen `x` zugewiesen.
`x` besitzt also einen sequenziellen Datentyp und hat 3 Elemente.
Wir können daher `x` auf 3 andere Variable zuweisen.

In [None]:
x = "123"
print(x[1])
a,b,c = x
b

In [None]:
a = ["Primzahlen", [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31]]
name, l = a 
print(name)
print(l)

Mit Unpacking hat man auch eine äußerst kompakte Möglichkeit, um die Werte mehrerer Variablen zu vertauschen:

In [None]:
a, b = 10, 20
a, b = b, a
a

Es kommt relativ häufig vor, dass man nur eins oder wenige Elemente einer Sequenz "auspacken" möchte.
Da die Anzahl der Elemente in einer Sequenz groß sein kann, wäre es äußerst unpraktisch, wenn man immer die genaue Zahl von Einzelvariablen auf der linken Seite der Zuweisung angeben müsste.
Es gibt daher einen speziellen Operator, mit dem eine Variable als Sequenz-Typ markiert werden kann.
Diese Sequenz-Variable übernimmt dann die Werte, die nicht auf die Einzelvariablen zugewiesen werden.

In [None]:
p = [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31]
p0, p1, p2, *px = p
px

Die Aufteilung der Werte auf die Variablen muss dabei eindeutig sein.
Folgende Zuweisung funktioniert daher nicht:

In [None]:
p = [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31]
*pa, pm, *pe = p
pa

**Aufgabe:** Schreiben Sie eine Funktion `fib(n)`, die die `n`-te Fibonacci-Zahl **sowie** die Fibonacci-Folge vom ersten bis `n`-ten Element zurückliefert.

In [None]:
def fib(n):
    '''
    This function returns a tuple of two objects (b,f):
    b: Fibonacci Number.
    f: a list containing the Fibonacci sequence from the first to the n-th element.
    in the case of 0th Fibonacci Number, only an integer 0 object is expected.
    '''
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
try:
    fib(0)
except:
    print('add a separate case 0!')
    raise

assert len(fib(10)) == 2, 'the function should return a tuple with two objects!'
assert fib(0) == 0, 'For 0, only one object is expected'

assert (type(fib(10)[0]), type(fib(10)[1])) == (int, list), 'a tuple of an integer and a list is expected'
assert len(fib(10)[1]) == 10, 'Fibonacci sequence should contain n elements'

# test cases
test = [(0,0),(1,(1,[1])),(4, (3, [1, 1, 2, 3])),(9,(34,[1, 1, 2, 3, 5, 8, 13, 21, 34]))]
assert not [a for a, b in test if fib(a) != b], 'Results are incorrect!'
fib(10)[1]

# Results
f, v = fib(10)
print(f)
v

Der Unpacking Operator `*` funktioniert auch an anderen Stellen, z.B. bei *Generatoren*.

Generatoren sind spezielle Funktionen, die Folgen von Objekten generieren.

Wir haben bereits öfter den `range()`-Generator benutzt.

Um einen Generator-Aufruf direkt in eine Liste zu überführen, können wir den Unpacking Operator benutzen.

In [None]:
[* range(10) ]

**Aufgabe:** Erstellen Sie eine Liste mit den Ungeraden Zahlen zwischen 20 und 50.

In [None]:
odd_list = None
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert len(odd_list) == 15, 'There are 15 odd numbers between 20 and 50'
for a in odd_list:  assert a%2, '%d is not odd!' %a
    
odd_list

#### Indizierung

Schon mehrfach haben wir über die Index-Klammern `[]` auf einzelne Elemente eines sequenziellen Datentyps zugegriffen.
Es gibt aber auch die Möglichkeit, ganze Bereiche aus einer Sequenz zu selektieren.
Diese Art Zugriffe nennt man auch *slicing*.

Beim Zugriff per slicing gibt man in der Index-Klammer einen Bereich an.
Dabei ist zu beachten, dass der Endwert als exklusiv zu interpretieren ist und damit nicht mehr zu dem Bereich gehört.
`x[2:5]` liefert also die Elemente `x[2]`, `x[3]` und `x[4]` als Sequenz zurück.

Optional kann noch ein weiterer Parameter für die Schrittweite angegeben werden.
`x[1:10:2]` liefert z.B. die Elemente mit ungeradem Index im Bereich 1 bis 9.

Eine weitere Möglichkeit der Indizierung funktioniert mit negativen Indizes.
Mit `x[-1]` referenziert man das letzte Element der Sequenz `x`.
Zusammen mit einer negativen Schrittweite kann man damit auch rückwärts über die Elemente der Sequenz iterieren.

In [None]:
z = [i for i in range(15)]
print(z, "(Die Liste)")
print(z[3], "(Das Element mit Index 3 aus der Liste)")
print(z[3:12], "(Elemente von Index 3 bis 11)")
print(z[3:12:2], "(Jedes zweite Element von Index 3 bis 11)")
print(z[-2], "(Das Element mit dem vorletzten Index aus der Liste)")
print(z[-1:-5:-1], "(Die letzten 4 Elemente der Liste in umgekehrter Reihenfolge)")

**Aufgabe:** Die folgende Code-Zelle generiert eine (zweidimensionale) Liste von Listen mit durchnummerierten Integer Werten.
Schreiben Sie eine Funktion `teilmatrix(A,a=0,b=0,c=0,d=0)` die eine Teilmatrix von `A` als neue zweidimensionale Liste zurückgibt.

Die Teilmatrix soll die Zeilen `a` bis `b` (ausschließlich) und darin die Elemente in den Spalten `c` bis `d` (ausschließlich) umfassen.

`a`, `b`,`c` und `d` sind optionale Parameter, falls sie beim Funktionsaufruf nicht angegeben werden, wird die Initialbelegung (hier `0`) angenommen.

Falls die oberen Begrenzungen (`b` und `d`) nicht oder gleich 0 gesetzt sind, soll die maximale Länge der Zeilen bzw. Spalten angenommen werden.

In [None]:
rows = 5
cols = 5
A = [[y for y in range(x*cols,(x+1)*cols)] for x in range(rows)]
A

In [None]:
def teilmatrix(A,a=0,b=0,c=0,d=0):
    '''
    The function returns a slice of the original matrix A between these limits:
    a: lower row limit
    b: upper row limit
    c: lower column limit
    c: upper column limit
    The function should address empty matrices and reset out of range limits.
    '''
    # YOUR CODE HERE
    raise NotImplementedError()
    return m

In [None]:
assert teilmatrix([]) == None, 'The funcion should return nothing for empty matrices.'
assert teilmatrix([[],[]]) == None, 'The funcion should return nothing for matrices with empty rows.'
assert (teilmatrix(A,6,0,6,0) and teilmatrix(A,6,0,6,0)[0]), 'out of range limits should be reset.'

assert teilmatrix(A,3,5,0,3) == [[15, 16, 17], [20, 21, 22]], 'wrong result!'
assert teilmatrix(A,2,4,4,5) == [[14], [19]]
#Results
teilmatrix(A,3,5,0,2)

### Dictionaries


*Mappings* sind Datentypen, die Zuordnungen zwischen verschiedenen Objekten herstellen.

Der Python Datentyp, *Dictionary* (dt. *Wörterbuch*) gehört zu dieser Kategorie.

Ein Dictionary enthält beliebig viele Schlüssel-Wert-Paare (engl. *key/value pairs*), wobei der Schlüssel nicht unbedingt, wie der Index bei sequentiellen Datentypen, eine ganze Zahl sein muss.

Vielleicht ist Ihnen dieser Datentyp schon von einer anderen Programmiersprache her bekannt, wo er als assoziatives Array (u. a. in PHP), Map (u. a. in C++) oder Hash (u. a. in Perl) bezeichnet wird.

Der Datentyp dict ist mutabel, also veränderlich.

In [None]:
haupstaedte = {"DE" : "Berlin", "FR" : "Paris", "US" : "Washington", "CH" : "Zurich"}
for s in haupstaedte:
    print(haupstaedte[s])

Folgende Funktionen sind für den Dictionary-Typ definiert:
- `d.clear()` Löscht alle Elemente aus dem Dictionary `d`
- `d.copy()` Erzeugt eine Kopie von `d`
- `d.get(k)` Liefert `d[k]`, wenn der Schlüssel `k` vorhanden ist. Im Gegensatz zu `d[k]` erzeugt `d.get(k)` keinen Laufzeitfehler, wenn der Schlüssel `k` im Dictionary nicht existiert
- `d.items()` Gibt ein iterierbares Objekt zurück, mit dem alle Schlüssel-Wert-Paare von `d` durchlaufen werden können
- `d.keys()` Gibt ein iterierbares Objekt zurück, mit dem alle Schlüssel von `d` durchlaufen werden können
- `d.values()` Gibt ein iterierbares Objekt zurück, mit dem alle Werte von `d` durchlaufen werden können
- `d.pop(k)` Gibt den zum Schlüssel `k` gehörigen Wert zurück und löscht das Schlüssel-Wert-Paar aus dem Dictionary `d`
- `d.popitem()` Gibt ein willkürliches Schlüssel-Wert-Paar von `d` zurück und entfernt es aus dem Dictionary `d`
- `d.setdefault(k, [x])` Fügt den Wert `x` unter dem Schlüsssel `k` hinzu, falls `k` nicht schon vorhanden ist
- `d.update(d2)` Fügt ein Dictionary `d2` zu `d` hinzu und überschreibt gegebenenfalls die Werte bereits vorhandener Schlüssel
- `dict.fromkeys(s, [v])` Erstelle ein neues Dictionary mit den Werten der Liste `s` als Schlüssel und setzte alle Werte auf `v`


In [None]:
d = {'key1':1.23,('k','e','y','2'):(1,2,3),'key4':2}
d[33]=True
print("Items:", d.items())
print("Values:", d.values())
print("Keys:", d.keys())
print("Dictionary:", d)
d.setdefault('key3',['A','B','CDE'])
print("Dictionary:", d)
print("Pop Element:", d.popitem())
print("Pop Element:", d.pop('key1'))
print("Dictionary:", d)
d.clear()
print("Dictionary:", d)

Für Dictionaries gibt es verschiedene Iteratoren.

In [None]:
d = {'key1':1.23,'key2':(1,2,3),'key3':['A','B','CDE']}
print("Items:")
for i in d.items(): print(i, end=' ')
print("\nValues:")
for v in d.values(): print(v, end=' ')
print("\nKeys:")
for k in d.keys(): print(k, end=' ')

**Aufgabe:** In der folgenden Code-Zelle wird ein zweidimensionales Feld erzeugt.
Jedes Element der der äußeren Liste ist wieder eine Liste.
Diese inneren Listen bestehen aus Daten verschiedenen Typs.
Das erste Element ist ein Integer, dass die Matrikelnummer von Studierenden darstellen soll.
Das zweite Element ist ein Name, kodiert als String. 
Danach folgen drei Integer-Werte, die die Punkte für drei Klausuraufgaben wiedergeben.

1. Lesen Sie die Liste `data` in ein Dictionary ein und verwenden Sie als Schlüssel die Matrikelnummern der Studierenden. Als Werte sollen die Punkte in Form eines 3-Tupels zusammen mit dem Namen als Liste gespeichert werden.
2. Erweitern Sie sie Werte des Dictionaries indem Sie die Gesamtpunktzahl in der Liste hinzfügen.

In [None]:
from random import randint, seed
seed(1)
names = ["Alice","Bob","Carol","Dan","Eve","Frank","Grace","Harry","Ivy","John"]
data = []
for i in range(10):
    matnr = 2000000 + randint(34, 42) * 100 + randint(0,100)
    name = names[i]
    p1 = randint(0,10)
    p2 = randint(0,10)
    p3 = randint(0,10)
    data.append([matnr, name, p1, p2, p3])
data

1\. Lesen Sie die Liste `data` in ein Dictionary ein und verwenden Sie als Schlüssel die Matrikelnummern der Studierenden. Als werte sollen die Punkte in Form eines 3-Tupels zusammen mit dem Namen als Liste gespeichert werden.

In [None]:
stud = {}
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert len(stud) == 10, 'The data is not complete'
assert data[3][0] == list(stud.keys())[3], 'Dict keys should be student numbers'
assert type(stud[2004201]) is list, 'Student data should be stored in a list'
assert type(stud[2004201][0]) is str, 'The first item should be student name'
assert type(stud[2004201][1]) is tuple, 'The second item should be a tuple of student grades'
assert len(stud[2004201][1]) == 3, 'Student grades have three values'

# Results
stud.get(2003449)


2\. Erweitern Sie sie Werte des Dictionaries indem Sie die Gesamtpunktzahl in der Liste hinzfügen.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert len(stud[2004134]) == 3, 'stud was not expanded!'
assert stud[2004134][2] == 13, 'The sum is not correct!'

### Mengen

Eine Menge (engl. *set*) ist eine ungeordnete Sammlung von Elementen, in der jedes Element nur einmal enthalten sein darf. In Python gibt es zur Darstellung von Mengen zwei Basisdatentypen: `set` für eine veränderliche Menge sowie `frozenset` für eine unveränderliche Menge – set ist demnach mutabel, frozenset immutabel.

In [None]:
s = (4,4,4,4,3,3,3,2,2,1)
print(s)
s = set(s)
s

Mit der Funktion `set(seq)` kann man aus einer beliebigen Sequenz eine Menge erstellen.
Die Funktion `set()` ist darüber hinaus notwendig, um eine leere Menge zu Erzeugen.
Die geschweiften Klammern, mit denen eine Menge angelegt werden kann, wird auch für Dictionaries benutzt und die Zeichenfolge `{}` würde Python als leeres Dictionary interpretieren.

In [None]:
s = input ("Zeichenkette eingeben: ")
set(s)

Auf Mengen sind auch die mathematischen Mengenoperationen definiert.

Mit `s >= t`überprüft man, ob `t` eine Teilmenge von `s` ist.

Die Vereinigungsmenge von `s` und `t` bildet man mit `s | t`, die Schnittmenge mit `s & t`.

In [None]:
set("Hallo") & set("Welt")

**Aufgabe:** In der folgenden Code-Zelle wird eine Text-Datei (J.W. von Goethe - Faust I) eingelesen und zeilenweise verarbeitet.
Die Worte in den Zeilen werden nach Leerzeichen getrennt (`line.split()`), danach werden noch die Satzzeichen (`string.punctuation`) entfernt und alle Buchstaben zu Kleinbuchstaben gemacht (`w.lower()`).

Der Ausgangspunkt für die Aufgabe ist die Liste `faust`, die alle Worte des Goethe-Werks enthält.

1. Geben Sie die ersten 200 Worte des Textes über die Liste `faust` aus. Um die Lesbarkeit zu verbessern, können Sie aus einer Liste einen String machen. `' '.join(liste)` verbindet alle Elemente von `liste` mit einem Leerzeichen `' '`. Das Ergebnis können Sie mit `print` ausgeben.
2. Bestimmen Sie die Länge des Textes in der Anzahl der Wörter.
3. Bestimmen Sie die Anzahl der voneinander verschieden Wörter im Text. Jedes Wort soll also nur einmal gezählt werden.
4. Bestimmen Sie die Häufigkeit der Vorkommen aller Wörter im Text. Legen Sie dazu Dictionary an, dass die verschiedenen Wörter des Textes als Schlüssel und die Vorkommen der Wörter als Wert benutzt.
5. Bestimmen Sie die `n` (z.B. 10, 30, ...) häufigsten Wörter im Text.

In [None]:
import os, codecs, string
faust = []
with codecs.open('faust.txt','r', 'utf-8') as f:
    for line in f:
        for word in line.split():
            w = word.translate(str.maketrans('', '', string.punctuation))
            faust.append(w.lower())

1\. Geben Sie die ersten 200 Worte des Textes über die Liste `faust` aus. Um die Lesbarkeit zu verbessern, können Sie aus einer Liste einen String machen. `' '.join(liste)` verbindet alle Elemente von `liste` mit einem Leerzeichen `' '`. Das Ergebnis können Sie mit `print` ausgeben.

In [None]:
#1. enter 200 words in text
text = None
# YOUR CODE HERE
raise NotImplementedError()

In [None]:
assert type(text) is str, 'Words should be joined to form a string.'
assert len(text.split(' ')) == 200, '200 words should be separated by spaces.'

text

2\. Bestimmen Sie die Länge des Textes in der Anzahl der Wörter.

3\. Bestimmen Sie die Anzahl der voneinander verschieden Wörter im Text. Jedes Wort soll also nur einmal gezählt werden.

In [None]:
#2. Number of words in n_word
n_word = None
# YOUR CODE HERE
raise NotImplementedError()
print("Worte insgesamt", n_word)

#3. Number of unique words in n_uni
n_uni = None
# YOUR CODE HERE
raise NotImplementedError()
print("Verschiedene Worte:", n_uni)

In [None]:
assert n_word == 30632, 'Number of words is incorrect'
assert n_uni == 6304, 'Number of unique words is incorrect'

 4\. Bestimmen Sie die Häufigkeit der Vorkommen aller Wörter im Text. Legen Sie dazu Dictionary an, dass die verschiedenen Wörter des Textes als Schlüssel und die Vorkommen der Wörter als Wert benutzt.

In [None]:
#4. Word frequancy in fd
fd = {}
# YOUR CODE HERE
raise NotImplementedError()

fd

In [None]:
assert len(fd) == n_uni, 'fd should contain all unique words!'
assert fd['der'] == faust.count('der'), 'the frequancy is incorrect!'
assert fd['ihr'] == faust.count('ihr'), 'the frequancy is incorrect!'

5\. Bestimmen Sie die n (z.B. 10, 30, ...) häufigsten Wörter im Text.

In [None]:
#5. 20 most frequent words in fd20
fd20 = {}
# YOUR CODE HERE
raise NotImplementedError()
for n,w in enumerate(fd20.items()):
    print("Das %d. häufigste Wort mit %d Vorkommen ist '%s'" % (n+1,w[1],w[0]))

In [None]:
assert len(fd20) == 20, 'This dict should contain 20 elements'
assert list(fd20.items())[0] == ('und', 918),'incorrect!'
assert list(fd20.items())[15] == ('den', 277),'incorrect!'