![CT Logo](img/ct_logo_small.png)
# Vorlesung "Computational Thinking"
### Dictionaries, Funktionen
#### Prof. Dr.-Ing. Martin Hobelsberger, CT_3

### Lernziele dieser Einheit

* Datentyp: Dictionary
* Einführung in Funktionen
* Klasse der Iteratoren

#### Was Sie bisher schon Wissen/Können sollten
* Strukturiere Ein-/Ausgabe
* Variablen
* Datentypen (Arithmetische und Sequenzielle)
* Arithmetische Ausdrücke und Vergleiche
* Kontrollstrukturen (IF-Statement, For-/While-Schleife)
* Dateien lesen/schreiben
* Nützliche Funktionen (zip, enumerate, list comprehensions)

## Neue Datenstruktur: Dictionary (Map)
Bisher haben wir Datenstrukturen verwendet die in die Kategorie *Sequenz* fallen. Bei einer Sequenz werden Objekte anhand ihrer relativen Position gespeichert. Eine weitere, sehr nützliche, Datenstruktur ist das sogennante **Mapping**. Hier werden Objekte durch einen sogenannten *Schlüssel* (Key) gespeichert. Diese Objekte haben keine Ordnung sondern sind definiert durch einen Schlüssel. Man nennt diese Datenstruktur in Python [**Dictionary**](https://docs.python.org/3/tutorial/datastructures.html#dictionaries)

*Für alle mit Backround in einer anderen Programmiersprache: Dictionaries sind ähnlich zu hash tables*

### Dictionaries
Ein Dictionary ist eine Datenstruktur mit welcher *Schlüssel/Wert Paare* verwaltet werden. Dabei gilt:

* Ein Schlüssel ist **immer** einzigartig.
* Schlüssel müssen *immutable* sein. Schlüssel sind aufgebaut aus *Strings*, *Nummern* oder auch *Tuple*. Die (Schlüssel-)Tupel dürfen wiederum nur immutable Objekte enthalten (Strings, Nummern, Tuple). 
* Der Wert ist dem Schlüssel fest *zugeordnet* und kann **jede mögliche Datenstruktur** abbilden. 

``` python
myDict = {
    "key1": 'value1',
    "key2": ['value0', 'value1']
}
```

In [None]:
# Dictionary erstellen und ausgeben




In [None]:
# Dictionary erstellen


In [None]:
# Dictionary in Dictionary (Nesting)



#### Dictionaries haben wieder eine Reihe von Methoden
Built-in Methoden auf einem Dictionary

* `d.clear()` : löscht alle Elemente in dem Dictionary
* `d.copy()` : gibt eine Kopie des kompletten Dictionaries zurück
* `d.get(key)` : gibt den Wert des angefragten keys zurück
* `d.items()` : gibt eine Liste von alles key/value Paaren zurück
* `d.keys()` : gibt eine Liste von allen Schlüsseln zurück
* `d.pop(key)` : entfernt den Wert zum zugehörigen Schlüssel
* `d.update(key, value)` : aktualisiert das Schlüssel/Wert Paar
* `d.values()` : liefert eine Liste von alles Werten zurück

In [None]:
# Dictionary Methoden



In [None]:
# Unterschied von d.get('key4') zu d['key4']


In [None]:
# Arbeiten mit Dictionary 



In [None]:
# Arbeiten mit Dictionaries - Kopie != View



In [None]:
# Zusammenführen von Dictionaries ("Old Way vs. > 3.9 Way")




#### Beispiel: Pokemon (again)
Nachdem wir nun einige Methoden kennengelernt haben um Daten sequentiell anzuschauen und Abfragen zu stellen, wäre es nun auch schön diese Daten zu gruppieren und umzustrukturieren um vielleicht einen größeren Mehrwert aus einem Code-Segment zu haben. Die bisherig Struktur die wir zum ablegen kennengelernt haben sind entweder einfache Variablen oder ganze Listen.

**Problem**: Was ist, wenn wir nun gerne alle Pokemon Species nach den Kriterien
* *>* *100* (gefährlich)
* nicht gefählich

gruppieren möchten?

Nach aktuellem Stand müssten wir dann 2 Listen halten und diese einzeln ansprechen. Für solche **Gruppierungen eignet sich die Datenstruktur Dictionary**.

In [None]:
import pandas as pd
df = pd.read_csv('data/pokemon.csv', nrows=20)


#### Beispiel: USA Election

Die USA-Wahl ist diese Woche ein großes Thema weltweit. Aus diesem Grund möchten auch wir uns dem ganzen witmen und mit einem [Datensatz](https://www.kaggle.com/benhamner/2016-us-election) diesbezüglich arbeiten. *Der Datensatz ist von der Online-Community ***kaggle*** und beinhaltet Daten zu der **US-Wahl von 2016**.*

In [None]:
# Einlesen der Daten mit der pandas Bibliothek
import pandas as pd
df = pd.read_csv('data/uselection_2016.csv')
df[:10]


Wir wollen uns nun in dem **alten Datensatz** mit Kandidaten beschäftigen: *Donald Trump* und *Hillary Clinton* aufteilen und alle **votes** der Kandidaten in einer zugehörigen Liste ablegen. Danach möchten wir alle *votes* des jeweiligen Kandidaten addieren und die Differenz der beiden ausgeben (print).

In [None]:
# Definition eines leeren Dictionaries
d = {}

In [None]:
# Definition unserer zwei keys
DT = 'Donald Trump'
HC = 'Hillary Clinton'

In [None]:
# Iteration über alle Einträge und herausfiltern aller Votes der jeweiligen Kandidaten


Nun wurde der komplette Datensatz sequentiell bearbeitet und ein Dicitonary steht bereit, in dem **Votes** von Hillary Clinton und Donald Trump gruppiert vorgehalten sind.

In [None]:
# Berechnen der Summe


In [None]:
# Ausgabe der Differenz


Wie zu sehen ist es leider etwas unschön ein Dictionary mit einer Liste aktuell und die Liste auch noch unique zu halten. Trotzdem lohnt sich der Aufwand sehr, da die Zugriffsgeschwindigkeit dank des **einzigartigen** Schlüssels sehr schnell ist und somit Daten sehr schön gegliedert in einem Dictionary vorgehalten werden können.

## Methoden
Wir haben bisher schon eine Vielzahl an **Methoden** verwendet (String Methoden, Listen Methoden, Dictionary Methoden, ...). Im wesentlichen sind Methoden *in Objekte "eingebaute" Funktionen*. What?! Im Detail kommen wir noch einmal darauf zurück wenn wir uns mit dern Objektorientierten Programmierung beschäftigen. Für heute: Methoden führen bestimmte Aktionen zu einem Objekt aus und können zusätzlich Argumente übernehmen. Methoden sehen wie folgt aus:

`object.methode(argument)`

Beispiele:

In [None]:
# Methoden Beispiele

lst = list(range(11))
lst.append(10)
lst.count(10)

help(lst.count)

## Funktionen
Funktionen kennt man aus der Mathematik: `f(x) = 2x + 3`. Dies ist eine Funktion `f` mit dem Argument `x` welche `zwei mal x plus 3` "zurückgibt". Dies ist analog zu folgender Python Funktion:

```python
def f(x): 
    return 2*x + 3
```
In der Programmierung ist es möglich eigene Funktionen in einem Programm zu definieren und damit das Programm zu strukturieren. Funktionen "gruppieren" eine Anzahl von Anweisungen um diese mehrfach zu verwenden. Es können Parameter definiert werden die als Input für die Funktionen dienen. Im folgenden der Aufbau dieser Funktionen:

```python
def name_der_funktion(arg1,arg2):
    '''
    An dieser Stelle steht der sog. "docstring".
    Dieser wird ausgegeben wenn help() zur Funktion aufgerufen wird.
    '''
    # Code
    # Code
    # Rückgabewert
```
Der Name für `name_der_funktion` darf frei vergeben werden. Jedoch achtet man in der Programmierung stets auf **sprechende** Funktionsnamen.

In [None]:
# Beispiele für einfache Funktionen

# Einfaches Beispiel zu Funktionen!

def f(x: int): 
    return 2*x + 3

    

In [None]:
# Beispiele für einfache Funktionen



#### Rückgabewerte
Wenn wir Ergebnise zurückgeben wollen muss das Keyword `return` verwendet werden. 

In [None]:
# Weitere einfache Beispiele




In [None]:
# Beispiel mit Modulo



In [None]:
# Beispiel mit Modulo auf mehrere Werte



#### Mehrere Rückgabewerte mit Tuple
Zur Erinnerung: Ein **Tupel** ist eine Kommagetrennte Folge von Werten, welche mit *()* oder ohne geschrieben werden kann. Es können *x*-beliebig viele Werte hinter einander gereiht werden.

Das folgende **Beispiel** zeigt die Rückgabe eines **Tuples**.

### Variablen und Funktionen (Sichtbarkeit und Lebensdauer)
Jede Variable in einem Programm hat einen sogenannten Scope (die Sichtbarkeit der Variable für Anweisungen im Programm),  eine Lebensdauer (ab der Definition der Variablen) und sind einem Namensraum (sog. namespace) zugeordnet.

In [None]:
# Sichtbarkeit einer Variablen



Python folgt hier Regeln die den *Scope* definieren:
* Lokal: Definiert in einer Funktion und nicht als global deklariert
* Enclosed (eingeschlossen): Lokaler Scope innerhalb verschachtelter Funktionen
* Global: Definiert im "Top-Level" eines Moduls oder explizit als global deklariert
* "Built-In": Namen die vorab zugewiesen wurden (z.B.: range, open, ...)

In [None]:
# Global



## Übungen zu Funktionen und Dictionaries

<span style='color:blue '> **Übung 1:** </span>

Schreiben Sie eine Funktion `indexAt` welche die erste vorkommende Position eines gesuchten Charakters in einem String zurückgibt.

In [None]:
# Ihre Funktion

def indexAt():
    # Code
    return


In [None]:
# Aufruf Ihrer implementierten Funktion
text = 'May the force be with you!'
zeichen = 'f'
index = indexAt(string, char)
print(f'Der Buchstabe {zeichen} ist an Stelle {index} im Text: {text}')

<span style='color:blue '> **Übung 2:** </span>

Schreiben Sie eine Yoda-Funktion. --> Gibt einen übergebenen Satz mit umgekehrten Wörtern wieder zurück. 

`yoda('Ich bin bereit') --> 'bereit bin ich'`

*Tipp:* Sehen Sie sich die String-Methoden `.join() und .split()` genauer an. 

In [None]:
# Yoda Funktion

def yoda(text):
    return ' '.join(text.split()[::-1])

<span style='color:blue '> **Übung 3:** </span>
1. Schreiben Sie eine Funktion `bagofwords()` die für einen übergebenen String ein Dictionary mit "bag of words" zurückgibt. Dabei soll für jedes eindeutige Wort ein Schlüssel erzeugt werden. Als Eintrag zum Schlüssel die Häufigkeit des auftretens:

`{'Blaukraut':2, 'bleibt':2, 'Brautkleid':2, 'und':1}`

2. Erweitern Sie die Funktion um einen zweiten Parameter. Dieser Parameter ist eine Liste von Wörter welche nicht in die "bag of words" aufgenommen werden sollen (z.B.: bestimme/unbestimmte Artikel).

3. Erweitern Sie die Funktion so, dass Groß- und Kleinschreibung nicht relevant für das Ergebnis sind.

In [None]:
# Funktion bagofwords()


## `*args` und `**kwargs`
Willkürliche Zahl an Argumenten einer Funktion übergeben

In [None]:
#*args Beispiele




In [None]:
# **kwargs Beispiele (Keyworded Arguments)


### Generatoren und Iteratoren
Ein Iterator ist eine weitere Möglichkeit um Listen sequentiell zu durchlaufen. Der Ansatz hier ist, dass eine Möglichkeit gegeben ist, mit welcher über alle Möglichen Datentypen iteriert werden können.

Sprich, ob
* Listen
* Dictionaries / Maps
* Queue's
* ...

das mit einem Iterator per Definition bereitgestellte Interface ermöglicht es, alle Werte zu durchlaufen.

#### Vorteil
Durch die Abstraktionsebene des Iterators und somit der Entkoppplung von der zu durchlaufenden Daten-Darstellung ist ein Iterator im Normalfall **performanter** als eine typische For-Schleife.

Die Iterations-Routine ist in den Python-Interpreter ausgelagert und dieser arbeitet auf einer optimierten Implementierung. Die ganze Iteration wird deshalb durch eine maschinennahe C-Implementierung übernommen und folglich ist eine Geschwindikeitssteigerung durch den Ansatz vorhanden.


Um in Python einen Iterator zu benutzen sind eigentlich nur zwei Methoden wichtig:

* `iter()`
* `next()`

Mit *iter()* wird ein entsprechendes Iterator Objekt für die übergebene Datenstruktur erzeugt.

Mit *next()* kann immer das nächste Element abgefragt werden. Sollte es kein nächstes Element mehr geben wird `None` zurückgegeben. 

In [None]:
# Einfache Beispiele zu Iteratoren!

In [None]:
# Datensatz mit dem Modul Pandas einlesen

import pandas as pd
df = pd.read_csv('data/pokemon.csv', nrows=100)
df