# Sets
Im letzten Notebook haben wir eine distinkte Liste von Vornamen erzeugt.
Wir können uns das Leben noch einfacher machen, wenn wir unsere Liste in einen neuen Datentyp umwandeln: `set`. Ein Set ist eine Menge im Sinne der Mengenlehre. In einer Menge darf jeder Wert nur einmal erscheinen.

Lesen wir zunächst noch einmal alle Name in die Liste `clean_names` ein:

In [None]:
with open('data/vornamen/names_short.txt', encoding='utf-8') as fh:
    clean_names = [line.rstrip() for line in fh.readlines()]

In [None]:
distinct_names = set(clean_names)
print('clean_names: {} Einträgen, distinct_names: {} Einträge'. format(len(clean_names), len(distinct_names)))   

`distinct_names` ist jetzt aber keine Liste mehr, sondern vom Typ `set`:

In [None]:
type(distinct_names)

Wir können ein Set einfach wieder in eine Liste zurückverwandeln: `distinct_names = list(set(clean_names))`, das ist aber vielfach nicht nötig, weil auch ein Set, obwohl es keine Sequenz ist, ähnliche Interaktionsmöglichkeiten bietet wie eine Sequenz, z.B. kann auch über ein Set mit `for ... in` iteriert werden: 

In [None]:
short_length_names = 0
medium_length_names = 0
long_length_names = 0

for name in distinct_names:
    if len(name) > 8:
        long_length_names += 1
    elif len(name) < 5:
        short_length_names += 1
    else:
        medium_length_names += 1
        
print('{} kurze Namen, {} mittellange und {} lange Namen'.format(
    short_length_names, medium_length_names, long_length_names))

## Mengenoperatoren
Auch wenn Sets praktisch sind, um mehrfach vorkommende Werte auf einen Wert zu reduzieren, liegt ihr eigentlicher Daseinszweck in den Mengenoperatoren. Ich verweise dazu auf das Skriptum bzw. die Folien im Kurs und zeige hier nur, wie einfach z.B. die Schnittmenge zweier Mengen ermittelt werden kann:

In [None]:
s1 = {'Anna', 'Otto', 'Franz', 'Willi'}
s2 = {'Hans', 'Franz', 'Anna'}
s1 & s2

Ebenso einfach kann die Vereinigungsmenge erzeugt werden:

In [None]:
s1 | s2

## Ein leeres Set anlegen und später befüllen

In [None]:
student_set = set()
print(len(student_set))
student_set.add('Anna')
student_set.add('Berta')
student_set.add('Anna')
print(len(student_set))

## Werte aus einem Set entfernen
Mit `remove()` lässt sich ein Wert wieder aus einem Set entfernen.

In [None]:
my_set = {5, 2, 4, 3}
print(my_set)
my_set.remove(3)
print(my_set)

## Vertiefende Literatur
Ich empfehle ausdrücklich, mindestens eine der folgenden Ressourcen zur Vertiefung zu lesen!

  * Python Tutorial: Kapitel 5.4
    (http://docs.python.org/3/tutorial/datastructures.html#sets).
  * Klein, Kurs: Mengen (http://python-kurs.eu/python3_sets_mengen.php).
  * Klein, Buch: Kapitel 7.
  * Weigend: Kapitel 7.6.
  * Pilgrim: Kapitel 2.5
    (http://getpython3.com/diveintopython3/native-datatypes.html#sets)

