### 4.3 Mengen

Mengen (*sets*) sind ungeordnete Kollektionen ohne Duplikate, die iterierbar und veränderbar sind. Damit bezeichnet man sie auch als *iterable* und *mutable*. Die Elemente einer Menge haben keine Reihenfolge, damit auch keine Indizes und zählen somit auch nicht zu den sequentiellen Datentypen.

Um Mengen unveränderbar (*immutable*) zu machen gibt es den Datentyp `frozenset`. 

Zum Erzeugen einer Menge verwendet man wie in der Mathematik geschweifte Klammern (alternativ mit dem Schlüsselwort `set(...)`)

In [None]:
# TODO Beispiel Menge


Übliche Operatoren aus der Mathematik: Schnittmenge `&`, Vereinigung `|` und Differenz `-`

In [None]:
# Mengen-Operatoren aus der Mathematik
m1 = set("Einstein")
m2 = set("Relativitaet")
print(m1 & m2)  # Schnittmenge
print(m1 | m2)  # Vereinigung
print(m1 - m2)  # Differenz

Methoden für weitere Operationen auf Mengen:

| Methoden|Beschreibung |
|:----|:----|
| `menge.add(e)`  | Fügt das Element e in die Menge menge als neues Element ein  |
| `menge.clear()`   | Entfernt alle elemente aus der Menge menge   |
| `menge.discard(e)`  | Das Element e wird aus der Menge menge entfernt.   |
| `menge.copy()`  | (Flache) Kopie der Menge menge   |
| `menge.difference(andereMenge)`  | = `menge - andereMenge`   |
| `menge.intersection(andereMenge)`  | = `menge & andereMenge`   |
| `menge.union(andereMenge)`   | = `menge \| andereMenge`  |

##### Mengenabstraktion (*set comprehension*)

Vergleich von Listen- und Mengenabstraktion am Algorithmus "[Sieb des Eratosthenes](https://de.wikipedia.org/wiki/Sieb_des_Eratosthenes#/media/Datei:Animation_Sieb_des_Eratosthenes_%C3%9Cberarbeitet.gif)" zur Ermittlung der Primzahlen von $2$ bis $n$.

In [None]:
# Via list comprehension
from math import sqrt
n = 75
sqrt_n = int(sqrt(n))
no_primes = [j for i in range(2, sqrt_n) for j in range(i*2, n, i)]
print(no_primes)
primes = [i for i in range(2, n) if i not in no_primes]
print(primes)

In [None]:
# Via set comprehension
from math import sqrt
n = 75
sqrt_n = int(sqrt(n))
no_primes = {j for i in range(2, sqrt_n) for j in range(i*2, n, i)}
print(no_primes)
primes = {i for i in range(2, n) if i not in no_primes}
print(primes)

### 4.4 Dictionary

Neben Listen sind *Dictionaries* eines der bedeutendsten Datenstrukturen in Python. Es handelt sich dabei um eine *ungeordnete Sammlung von Schlüssel-Wert-Paaren*. In den Programmiersprachen spricht man dann auch von einem *assoziativen Feld*. 

Einschub: Was ist ein *assoziatives Array (Feld)*?

> Ein assoziatives Array ist eine Datenstruktur, die – anders als ein gewöhnliches Feld – nichtnumerische (oder nicht fortlaufende) Schlüssel (zumeist Zeichenketten) verwendet, um die enthaltenen Elemente zu adressieren. Diese sind in keiner festgelegten Reihenfolge abgespeichert. Idealerweise werden die Schlüssel so gewählt, dass eine für die Programmierer nachvollziehbare Verbindung zwischen Schlüssel und Datenwert besteht.

Die Schlüssel (*keys*) dürfen nur unveränderliche (*immutable*) Datentypen sein. Die Dictionaries selbst sind *mutable*.

Die wichtigsten Methoden für Operationen auf Dictionaries:

| Methoden|Beschreibung |
|:----|:----|
| `d.keys()`  | Gibt die Schlüssel der Dictionaries d zurück  |
| `d.values()`   | Gibt die Werte des Dictionaries d zurück   |
| `d.items()`  | Gibt eine Liste mit Tupeln zurück. Jedes Tupel enthält ein Schlüssel-Wert-Paar aus dem Dictionary d  |
| `d.has_key(k)`  | Überprüft, ob der Schlüssel k im Dictionary d enthalten ist   |
| `del d[k]`  | Löscht das Schlüssel-Wert-Paar mit dem Schlüssel k aus dem Dictionary d  |
| `k in d`  | Überprüft, ob k ein Schlüssel des Dictionarys d ist   |


In [None]:
# Beispiele zu Dictionaries
# In {}-Klammern wie Mengen, einzelne Paare durch "," getrennt, ":" unterscheidet dict von set
waehrungen = {"Deutschland" : "Euro", "Indien" : "Indische Rupie", 
              "Grossbritannien" : "Pfund Sterling", "Japan" : "Yen", 
              "Frankreich" : "Euro"}

# TODO Zugriff auf ein Element über Schlüssel 


# TODO "Ist Schlüssel in Dictionary?"

# TODO gib Schlüssel aus

# dasselbe wie:

# TODO gib Werte aus
   
# TODO gib Paare aus



- Dictionary aus Listen erzeugen: die `zip`-Funktion

Die `zip()`-Funktion kann auf eine beliebige Anzahl an iterierbaren Objekten angewendet werden und gibt ein zip-Objekt zurück, bei dem es sich um einen Tupel-Iterator handelt. Zuerst liefert sie ein Tupel mit den ersten Elementen der Eingabeobjekte, dann die zweiten, dritten und stoppt, sobald eines der iterierbaren Objekte aufgebraucht ist.

In [None]:
# Beispiel mit Zahlen und Buchstaben
einige_buchstaben = ["a", "b", "c", "d", "e", "f"]
einige_zahlen = [5, 3, 7, 9, 11, 2]
print(zip(einige_buchstaben, einige_zahlen))
print(type(zip(einige_buchstaben, einige_zahlen)))
for t in zip(einige_buchstaben, einige_zahlen):
    print(t)



In [None]:
# Beispiel für unterschiedlich lange Eingabeobjekte
ort = ["Helgoland", "Kiel", "Berlin-Tegel"]
luftdruck = (1021.2, 1019.9, 1023.7, 1023.1, 1027.7)
for ort, ld in zip(ort, luftdruck):
    print(f"Der Luftdruck in {ort} beträgt: {ld:7.1f}")

In [None]:
# TODO Dictionary aus Listen, Beispiel Währungen
l = ["Deutschland", "Indien", "Großbritannien", "Japan", "Frankreich"]
w = [ "Euro", "Indische Rupie","Pfund Sterling", "Yen", "Euro" ]



### 4.5 Generatoren und Iteratoren

Neben Sequenzen (*sequentielle Datentypen*) und Mengen gibt es auch *Generatoren*. Im Gegensatz zu den ersten beiden werden Daten nicht explizit gespeichert, sondern erst bei Bedarf erzeugt. Generatoren werden daher auch als *virtuelle Kollektionen* bezeichnet. 

Die Vorteile sind:

- weniger Speicherplatz

- schneller

Betrachten Sie folgende Liste mit zehn Elementen:

In [None]:
s = [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Jedes Element ist im Arbeitsspeicher abgelegt und kann bei Bedarf abgerufen werden. Wenn es niemals abgerufen wird, ist es trotzdem da und beansprucht Speicherplatz. Abstrakt könnte man diese Liste auch wie folgt definieren:

> *Die Folge aller ganzen Quadratzahlen, die kleiner als 100 sind*

Damit ist die Sequenz exakt festgelegt, ohne ein einziges Element explizit zu erzeugen oder zu nennen. 

Generatoren entsprechen damit einer Konstruktionsvorschrift, mit der bei Bedarf jedes Element generiert werden kann. Sie können auf zweierlei Weise definiert werden: *Generatorausdrücke* oder *Generatorfunktionen*.

#### 4.5.1 Generatorausdrücke

Generatorausdrücke ähneln sehr der *list comprehension*. Statt eckigen verwenden Sie einfach *runde* Klammern. Ein Generatorausdrück für die obigen Liste könnte wie folgt aussehen:

In [None]:
# TODO Generatorausdruck für Liste


Generatorausdrücke werden auch gerne verwendet, um Mengen zu definieren und können direkt als Argument in die `set()`-Funktion übernommen werden:

In [None]:
# TODO Mengendefinition mit Generatorausdruck


#### 4.5.2 Generatorfunktionen


Generatorfunktionen sind Funktionen, die ein Generator-Objekt zurückgeben. Sie unterscheiden sich von normalen Funktionen durch die `yield`-Anweisung. Eine Generatorfunktion zur Erzeugung von Quadratzahlen von $0$ bis $n-1$ lautet daher:

In [None]:
# TODO Generatorfunktion


Folgendes passiert bei der Ausführung von `yield`:

- Ausdruck hinter `yield` wird *zurückgegeben* (wie bei `return`)
- aktuelle Funktionsausführung wird *unterbrochen*
- aktueller Zustand des zur Funktion gehörenden Prozesses wird *gemerkt*
- wenn das nächste Generator-Objekt verlangt wird, wird die Funktion *nach* dem `yield` *fortgesetzt*

&rarr; Man kann also die zu erzeugenden Elemente im Gegensatz zu Listen nicht in beliebiger Reihenfolge lesen, sondern nur vorne beginnend in der vorgegebenen Reihenfolge. Die Funktion `next()` liefert das nächste Element der vom Generator erzeugten Folge.

In [None]:
# TODO weiteres Beispiel zu Generatoren


In [None]:
# Erzeugen und Ausgabe der Generatorobjekte durch wiederholtes Ausführen dieser Zelle
next(gen_obj)

Das Besondere an Generatoren ist damit auch, dass man mit ihnen unendliche (virtuelle) Kollektionen erzeugen kann, wie z.B. eine unendliche Folge der Quadratezahlen:

In [None]:
def unendlicheQuadrate():
    i = 1
    while True:
        yield i*i
        i += 1

quad = unendlicheQuadrate()

In [None]:
next(quad)

Die `islice`-Methode aus dem Modul [`itertools`](https://docs.python.org/3/library/itertools.html#module-itertools):

In [None]:
import itertools
erstenFuenf = itertools.islice(unendlicheQuadrate(), 0, 5)      # liefert itertools.islice-Objekte
list(erstenFuenf)

#### 4.5.3 Iteratoren

Iteratoren sind spezielle Generatoren, die den Zugriff auf die Elemente einer Kollektion oder während einer Iteration kontrollieren, z.B. liefert eine Iterator zu einer Menge nach und nach alle Elemente der Menge. 

Beim Funktionsaufruf `next(iterator)` gibt der Iterator `iterator` einer Kollektion ein Element zurück. Die Standardfunktion `iter()` liefert zu einer Sequenz oder einem anderen iterierbaren Objekt einen Iterator. Man kann auch mehrere Iteratoren zu einer Sequenz erzeugen:


In [None]:
# TODO Iteratoren
l = [1, 2, 3, 4]


In [None]:
# TODO Aufruf Iterator 1


In [None]:
# TODO Aufruf Iterator 2


**Achtung**: *Iterator* vs. *Iterable* vs. *Iteration* 

#### 4.5.4 Anwendungen von Generatoren

Generell kann man sagen, dass bei Programmen mit sehr großen Datenmengen durch die Verwendung von Generatoren viel Speicherplatz gespart werden kann, da die Objekte *just in time* generiert werden. Auch einige Operationen für Sequenzen sind auf Generator-Objekte anwendbar (z.B. `min(), max(), in, not in`). Jedoch nur einmal, da nach Abruf der Elemente einer Kollektion diese "verbraucht" sind. 

In [None]:
# Beispiel 1 für Zufallszahlen
import random
zufall = (random.randint(0,100) for i in range(10))     # Generatorausdruck für zehn Zufallszahlen
print("1. Verwendung")
for i in zufall:
    print( i, end = " ")    # 1. Verwendung
print("\n2. Verwendung")
for i in zufall:
    print( i, end = " ")    # 2. Verwendung



In [None]:
# Beispiel 2 für Funktionswerte einer Parabel
parabel = (x**2 - 2*x + 3 for x in range (-10,10))
print(f"Minimum = {min(parabel)}") 
print(f"Maximum = {max(parabel)}")      # Fehler, da parabel leere Sequenz

In [None]:
# rekursive Funktion zur Berechnung der Summe 1 bis n
def rekSum(n):
    if n == 1:
        return n
    else:
        return n + rekSum(n-1)
    
rekSum(2973)
#rekSum(2974)       # geht schon nicht mehr 

In [None]:
# Beispiel 3: unendlicher Summen-Generator
def genSum(): 
    pass # TODO 

def ausgabeSumme(n, gen):
    counter = 0
    for x in gen:
        counter += 1
        if counter == n:
            print(x)
            break

g = genSum()
ausgabeSumme(10000, g)


### 4.6 Vertiefung: Rekursive Funktionen für Sequenzen

#### 4.6.1 Summe aller Elemente einer Liste

Aufgabe: die Summe der Elemente einer Liste von Zahlen berechnen

Lösungsidee:
- Eine leere Zahlenliste hat die Summe null.
- Ansonsten ist die Summe gleich der ersten Zahl in der Liste plus die Summe der restlichen Liste (Beispiel: `summe([1, 2, 3]) = 1 + summe([2, 3])`)

In [12]:
# TODO Rekursives Summieren einer Liste
def summe(liste):
    pass # TODO
    
summe([2, 4, 6, 8, 10])

#### 4.6.2 Rekursive Suche

**Bekannt**: `in`-Operator, um zu überprüfen, ob ein Element in einer Datenstruktur enthalten ist.

**Jetzt**: Suche in einer Sequenz `s` alle Elemente, die eine bestimmte Eigenschaft haben

*Grundidee für rekursiven Suchalgorithmus*:
- Wenn die Sequenz `s` nur aus einem Element besteht, prüfe, ob dieses eine Element den geforderten Eigenschaften entspricht
- Wenn die Sequenz `s` aus mehreren Element besteht, zerteile `s` in zwei etwa gleich große Teile `s1` und `s2` 



In der Informatik bezeichnet man diese algorithmische Idee auch als *teile und herrsche* (*divide and conquer*), nach dem berühmten Ausspruch des römischen Feldherrn Julius Caesar.

Beispiel mit Liste von Telefonnummern mit bestimmter Vorwahl:

In [None]:
# Rekursive Vorwahl-Suche
nummernliste = ['0223 788834', '0201 566722', '0224 66898', '0201 899933', '0208 33987'] 
def suche(num, vorwahl):
    if len(num) == 1:
        if num[0][:len(vorwahl)] == vorwahl:    # 1
            return num
        else:
            return []
        
    else:
        return suche(num[:len(num)//2], vorwahl) + suche(num[len(num)//2:], vorwahl)    # 2
    
print(suche(nummernliste, '0201'))

**Erklärung**:

- #1: Elementarer Fall: die Liste `num` besteht nur aus einem Element `num[0]`, welcher wiederrum aus einem String besteht. Der Slice `num[0][:len(vorwahl)]` wird mit der gesuchten Vorwahl verglichen.

- #2: Bei mehr als einem Element in der Liste `num`, wird diese aufgeteilt und es werden zwei Slices gebildet. Die Grenze ist der Index `len(num)/2`. Es folgt der rekursive Aufruf der Funktion auf beide Slices.