## Mengen
In manchen Fällen ist es sinnvoll mit Mengen zu arbeiten statt mit Listen. Wie in der Mathematik kann eine Menge keine doppelten Elemente enthalten, und die Elemente haben keine definierte Anordnung (außer für die Bildschirm-Ausgabe). Zur Erinnerung: Sowohl Listen als auch Dictionaries erlauben doppelte Einträge, wobei dies bei Dictionaries nicht für die Keys gilt.

In [None]:
# Anlegen einer leeren Menge:
empty_set = set()
print("type(empty_set): ",type(empty_set))

# Anlegen bereits initialisierter Mengen über geschweifte Klammern
A = {1, 2, 3}
B = {1, 2, 3, 4, 5, 2} # 2 ist absichtlich doppelt
print("type(B): ",type(B))
print(A)
print(B)
C = {}
print(type(C))  # also gibt es keinen alternativen Initialisator der leeren Menge

type(empty_set):  <class 'set'>
type(B):  <class 'set'>
{1, 2, 3}
{1, 2, 3, 4, 5}
<class 'dict'>


Alle gängigen Operationen auf Mengen (Inklusionstest, Vereinigung, Schnitt, Exklusion) stehen in Python bereits zur Verfügung:

In [None]:
A = {1, 2, 3}
B = {1, 2, 3, 4, 5, 2}

x = 2
print("2 ist ein Element von A: ", x in A)
print("6 ist ein Element von B: ", 6 in B)

2 ist ein Element von A:  True
6 ist ein Element von B:  False


In [None]:
A = {1, 2, 6}
B = {1, 2, 3, 4, 5, 2}
C = {1, 2}

# A vereinigt B:
print("A ∪ B =", A.union(B))
print("A ∪ B =", A | B)
# A geschnitten B
print("A ∩ B =", A.intersection(B))
print("A ∩ B =", A & B)
# A ohne B
print("A ∖ B =", A.difference(B))  
print("A ∖ B =", A - B)
print("B ∖ A =", B - A)
print("C ∖ B =", C-B) # die Ausgabe von "set()" entspricht einer leeren Menge

A ∪ B = {1, 2, 3, 4, 5, 6}
A ∪ B = {1, 2, 3, 4, 5, 6}
A ∩ B = {1, 2}
A ∩ B = {1, 2}
A ∖ B = {6}
A ∖ B = {6}
B ∖ A = {3, 4, 5}
C ∖ B = set()


In [None]:
A = set()
A.add(1)
A.add(2)
A.add(4)
A.add(2)
print(A)

A.discard(2)
print(A)

{1, 2, 4}
{1, 4}


### Beispiel: Punkte innerhalb eines bestimmten Radius finden

Wir betrachten eine gegebenen Menge von Zahlen $X = \{x_1, \dots, x_n\} \subset \mathbb R$. Gesucht sind alle Zahlen in dieser Menge, die einen Abstand kleiner als $\Delta$ von einem gegebenen $x_0 \in \mathbb R$ haben: Mathematisch formuliert müssen wir die Menge $Y = \{ x_i \in X\, |\, |x_i - x_0| < \Delta \}$ bestimmen.

In [None]:
import math

# Anlegen einer Menge mit Punkten
X = {0.7, 1.1, 2.1, 3.4, -5.1, 0.8, 2.7, 3.0}
delta = 1
x0 = 2

Y = set()
# Wir laufen über alle Elemente und prüfen den
# Abstand zu x0:
for x in X:   # damit ist auch geklärt, dass Mengen wie üblich iterierbar sind
    if math.fabs(x - x0) < delta:
        Y.add(x)

print(Y)

{1.1, 2.1, 2.7}


## Mini-Aufgaben zur Überprüfung des Verständnis: sets

Schreiben Sie ein Programm, das mit Hilfe von Mengen überprüft, ob in einem gegebenen String (der Einfachheit halber bestehend aus Kleinbuchstaben) alle 26 Buchstaben des Alphabets ohne Umlaute vorkommen. Überlegen Sie sich dazu, dass dies bereits möglich ist nur durch die Verwendung der beiden Befehle <code>add()</code> und <code>len()</code>. Erklären Sie, warum mit diesem Programm keinerlei Informationen gewinnbar sind, wie oft welcher Buchstabe vorkommt.

In [3]:
demo_string = "ldksfldsafnsdfsakdjgkfsajlfdlsakhfkbcxkgdskjdfslkdhflskd"
# demo_string = "abcdefghijklmnopqrstuvwxyz"
# demo_string = 'qwoejjvxlwek'

# Lösung
letters = set()

# strings sind iterierbar
for c in demo_string:
    letters.add(c)

# Ergebnis
if len(letters)==26:
    print("Alle Kleinbuchstaben kommen vor.")
else:
    print("Nur die folgenden Kleinbuchstaben kommen vor")
    print(letters)

Alle Kleinbuchstaben kommen vor.


Programmieren Sie das Beispiel noch einmal, mit Hilfe eines Dictionaries.

In [5]:
demo_string = "ldksfldsafnsdfsakdjgkfsajlfdlsakhfkbcxkgdskjdfslkdhflskd"
#demo_string = "abcdefghijklmnopqrstuvwxyz"


# Lösung
letters = dict()
for c in demo_string:
    letters[c] = ""
    
if len(letters)==26:
    print("Alle Kleinbuchstaben kommen vor.")
else:
    print("Nur die folgenden Kleinbuchstaben kommen vor")
    print(letters.keys())

# Alternativ können wir natürlich auch das Histogramm-Beispiel klonen,
# wir erhalten die Zusatzinformation, wie oft welcher Buchstabe vorkommt

letters_with_count = dict()
for c in demo_string:
    if c not in letters_with_count.keys():
        letters_with_count[c] = 1
    else: letters_with_count[c] += 1

print(letters_with_count)
if len(letters_with_count) == 26:
    print('Es kommen alle Buchstaben vor')
else: print('Es kommen nur folgende Buchstaben vor:', letters_with_count.keys())

Nur die folgenden Kleinbuchstaben kommen vor
dict_keys(['l', 'd', 'k', 's', 'f', 'a', 'n', 'j', 'g', 'h', 'b', 'c', 'x'])
{'l': 6, 'd': 9, 'k': 9, 's': 9, 'f': 8, 'a': 4, 'n': 1, 'j': 3, 'g': 2, 'h': 2, 'b': 1, 'c': 1, 'x': 1}
Es kommen nur folgende Buchstaben vor: dict_keys(['l', 'd', 'k', 's', 'f', 'a', 'n', 'j', 'g', 'h', 'b', 'c', 'x'])


Programmieren Sie das Beispiel noch einmal, mit Hilfe einer Liste.

In [None]:
demo_string = "ldksfldsafnsdfsakdjgkfsajlfdlsakhfkbcxkgdskjdfslkdhflskd"
#demo_string = "abcdefghijklmnopqrstuvwxyz"

# Lösung
letters = list()

for c in demo_string:
    if c not in letters:   # Vorschau auf Effizienzdiskussion: das erfordert einen Durchlauf durch die gesamte Liste, jedesmal!
        letters.append(c)

if len(letters)==26:
    print("Alle Kleinbuchstaben kommen vor.")
else:
    print("Nur die folgenden Kleinbuchstaben kommen vor")
    print(letters)
        

Nur die folgenden Kleinbuchstaben kommen vor
['l', 'd', 'k', 's', 'f', 'a', 'n', 'j', 'g', 'h', 'b', 'c', 'x']


Der erhoffte Erkenntnisgewinn ist, dass die Analyse einer Aufgabenstellung oft Hinweise liefert, welche Datenstruktur am besten geeignet ist für eine Aufgabe. Diese Beispiele zeigen, dass die Unterscheidung zwischen <code>list</code>, <code>dict</code> und <code>set</code>, d.h. die (Un-) Eindeutigkeit von Teilen der Datenstruktur, uns oft erheblich Arbeit ersparen kann, weil uns die Definition und damit die Garantie, die uns eine Datenstruktur gibt, bereits erheblich hilft.

## Set Comprehensions
Set Comprehensions funktionieren genau so wie List Comprehensions, nur dass sie in geschweifte statt eckige Klammern eingeschlossen werden. Der Syntax der Comprehension ist also immer gleich, und die Art der umschließenden Klammern legt fest, ob das Ergebnis der Comprehension eine Menge, eine Liste oder ein Dictionary sein soll.

### Beispiel: Anlegen von Mengen

In Kombination mit dem <code>if</code> Konstrukt können Elemente ausgeschlossen werden. Damit lassen sich beispielsweise die folgenden Mengen in Python sehr bequem anlegen:
\begin{align*}
  A :&= \{1,2,3,4,5,6,7,8,9,10\} \\
  B :&= \{x \in A \,|\, x < 5\} \\
  C :&= \{x \in A \,|\, x^2 < 31\} \\
  D :&= \{(i,j) \in A\times A\, |\, i,j\leq 3, i\leq j \}
\end{align*}


In [None]:
A = set(range(1,11))  # keine Comprehension, da mit range() einfacher
B = {i for i in A if i < 5}
C = {i for i in A if i*i < 31}
D = {(i,j) for i in A for j in A if i<=3 and j <= 3 and i <= j}
print("A =", A)
print("B =", B)
print("C =", C)
print("D =", D)

A = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
B = {1, 2, 3, 4}
C = {1, 2, 3, 4, 5}
D = {(1, 2), (1, 1), (2, 3), (3, 3), (2, 2), (1, 3)}


### Beispiel: Menge aller Punkte mit bestimmtem Abstand

Aus eine Menge von Punkten $X$ aus einem gegebenen Intervall suchen wir all diejenigen, die von einem gegebenen Punkt $x_0$ einen Abstand kürzer als $\Delta$ haben, d.h. wir müssen die folgende Menge bestimmen:

$$ Y := \{ x \in X\ |\ |x - x_0| \leq \Delta\} $$

In [None]:
import random
import math

# Wir legen zunächst 100 zufällige Zahlen im Intervall (0,1) an,
# mittels einer List Comprehension
X = [random.random() for i in range(100)]
x0 = 0.5
delta = 0.1

# Bestimmung der Menge Y über eine Set Comprehension
Y = {x for x in X if math.fabs(x - x0) <= delta}

print("In der Menge Y liegen", len(Y), "Elemente:")
for y in Y:
    print("|{:.10f} - x_0| = {:.10f}".format(y, math.fabs(y - x0)))

In der Menge Y liegen 17 Elemente:
|0.4888611556 - x_0| = 0.0111388444
|0.4116394472 - x_0| = 0.0883605528
|0.4446697311 - x_0| = 0.0553302689
|0.4050264560 - x_0| = 0.0949735440
|0.4006368929 - x_0| = 0.0993631071
|0.5422848758 - x_0| = 0.0422848758
|0.4920004043 - x_0| = 0.0079995957
|0.4399998051 - x_0| = 0.0600001949
|0.4875003395 - x_0| = 0.0124996605
|0.4289294490 - x_0| = 0.0710705510
|0.4900557599 - x_0| = 0.0099442401
|0.5099317104 - x_0| = 0.0099317104
|0.4324152555 - x_0| = 0.0675847445
|0.4113086605 - x_0| = 0.0886913395
|0.4694195362 - x_0| = 0.0305804638
|0.5337729315 - x_0| = 0.0337729315
|0.5238186860 - x_0| = 0.0238186860


### Comprehensions
Es sei $\mathbb N = \{1,2,\dots\}$, d.h. die natürlichen Zahlen ohne die Null. Legen Sie die folgenden Objekte in Python an:

* Menge $\{ (a,b) \in \mathbb N^2\, |\, a,b\in\mathbb N, \frac{a}{b} \in \mathbb N\backslash\{1\}, a \leq 10, b \leq 10\}$,  d.h. die Menge sollte zum Beispiel das Elemente $(2,1)$ enthalten, nicht aber $(2,2)$ oder $(2,3)$
* Menge $\{ (a,b,c,d) \in \mathbb N^4 |\, a^2 + b^2 + c^2 = d^2,\, a \leq 10, \,b \leq 10, \,c \leq 10, \,d \leq 10 \}$

**Hinweis** Für die zweite Teilaufgabe muss überprüft werden, ob $\frac{a}{b}$ eine natürliche Zahl ist.


In [7]:
# Lösung

A = {(a,b) for a in range(1,11) for b in range(1,11) if a!=b and a%b==0}
print(A)

N = set(range(1,11))
B = {(a,b,c,d) for a in N for b in N for c in N for d in N if a**2+b**2+c**2==d**2}
print(B)

{(6, 2), (10, 5), (7, 1), (2, 1), (8, 4), (8, 1), (3, 1), (6, 1), (9, 1), (9, 3), (10, 1), (5, 1), (4, 2), (8, 2), (6, 3), (4, 1), (10, 2)}
{(4, 2, 4, 6), (2, 4, 4, 6), (1, 2, 2, 3), (4, 4, 2, 6), (8, 1, 4, 9), (2, 1, 2, 3), (3, 6, 6, 9), (1, 4, 8, 9), (4, 7, 4, 9), (6, 3, 6, 9), (4, 8, 1, 9), (3, 2, 6, 7), (7, 4, 4, 9), (4, 1, 8, 9), (6, 2, 3, 7), (2, 2, 1, 3), (2, 3, 6, 7), (8, 4, 1, 9), (3, 6, 2, 7), (6, 6, 3, 9), (1, 8, 4, 9), (2, 6, 3, 7), (6, 3, 2, 7), (4, 4, 7, 9)}
