**Fachprojekt Dokumentenanalyse** *WS 22/23* -- *Philipp Oberdiek, Gernot A. Fink* -- *Technische Universität Dortmund, Lehrstuhl XII, Mustererkennung in eingebetteten Systemen*
---
# Einführung in Python

In diesen Einführungsaufgaben sollen Sie sich mit den grundlegenden Eigenschaften und Funktionen von *Python* vertraut machen. Die Aufgaben sind dazu gedacht, Ihnen den Einstieg zu erleichtern.

### Imports
_________

Zuerst müssem wir die in dienem Skript benötigten Packages, Module, Klassen und Funktionen importieren. Der Python Interpreter durchsucht dazu alle Verzeichnisse im sogenannten `PYTHONPATH` (ist überlicherweise als Umgebungsvariable definiert). Da das Verzeichnis *patrec* mit dem *common* Package nicht darin steht, können wir dies auch im Code nachträglich dem Pfad hinzufügen. Anschließend können wir auch aus dem *common* Package importieren.

Zu den normalen Python Imports sind werden im Folgenden auch sogenannte [magic commands](https://ipython.readthedocs.io/en/stable/interactive/magics.html) aufgerugen. Wir laden die Erweiterung *autoreload* und setzen den Modus *2*. Dies benötigen wir, damit IPython (welches von Jupyter verwendet wird) die importieren Module bei jeder Codeausführung neu lädt. Dies ist wichtig, wenn man nachträglich den Code einer importieren Klasse oder Methode verändert. Somit kann diese direkt aufgerufen werden, ohne dass diese vorher explizit neu importiert werden muss.

In [6]:
%load_ext autoreload
%autoreload 2
import sys

# Uebergeordneten Ordner zum Pfad hinzufuegen, damit das common Package importiert werden kann
if '..' not in sys.path:
    sys.path.append('..')
import numpy as np
from common.python_intro_functions import RandomArrayGenerator

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


### I. Elementare Datenstrukturen
_________

Variablen sind dynamisch getypt.

In [7]:
# Int
variable = 1
print(type(variable))
    
# Float
variable = 1.0
print(type(variable))
    
# string
variable = '1.0'
print(type(variable))

<class 'int'>
<class 'float'>
<class 'str'>


### II. Datenstrukturen für Sequenzen
_______

#### Tuple

In [8]:
variable = (1, 1.0, '1.0')
print(type(variable))

<class 'tuple'>


Überprüfen Sie, ob sich Objekte mit den Werten **42** oder **23** in dem *tuple* `variable` befinden. Verwenden Sie dazu *if-elif-else* Abfragen mit den [konditionalen Ausdrücken](https://docs.python.org/3/library/stdtypes.html#boolean-operations-and-or-not) `or`, [`in` oder `not in`](https://docs.python.org/3/library/stdtypes.html#sequence-types-list-tuple-range).
Geben Sie das Ergebnis mit `print` auf der Konsole aus.

In [10]:
1.0 in variable

True

Wichtig: *string* und *tuple* sind nicht veränderbar (immutable). *tuple* eigenen sich somit sehr gut als Container zum übergeben/zurückgeben von Werten in/aus Funktionen.

In [11]:
try:
    variable[0] = 2
except TypeError as err:
    print('Damit haben wir gerechnet...')
    print(err)

Damit haben wir gerechnet...
'tuple' object does not support item assignment


Warum ist das ein Vorteil?

**Antwort:**

#### Listen

Im Gegensatz zu tuple ist der list Datentyp veränderbar (mutable).

In [12]:
# list
variable = [1, 1.0, '1.0'] 
print(type(variable))
variable[0] = 2
print(variable)

<class 'list'>
[2, 1.0, '1.0']


Machen Sie sich mit Zugriffsmethoden fuer list / tuple Objekte vertraut. Dazu verwenden wir eine etwas längere Liste.  
Mit [list](https://docs.python.org/3/library/functions.html#func-list)([range](https://docs.python.org/3/library/functions.html#range)()) kann eine fortlaufende Liste von int Objekten erzeugt werden.
        



In [13]:
test_list = list(range(10, 33, 2))
print(test_list)

[10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32]


Bestimmen Sie die Anzahl von Elementen in der Liste mit [`len`](https://docs.python.org/3/library/functions.html#len):

Geben Sie:

- das erste, letzte und vorletzte Element
- das erste, zweite und letzte Drittel 

mit Hilfe von [list slicing](https://docs.python.org/3/tutorial/introduction.html#lists) aus. Auf das letzte Element greifen Sie mit -1 zu.<br>
Achten Sie auf den Datentyp, den sie bei der Berechnung der Indexposition verwenden. Verwenden Sie [`int()`](https://docs.python.org/3/library/functions.html#int), [`float()`](https://docs.python.org/3/library/functions.html#float) für Typecasts.

Zugriff auf der erste, letze, letzte und vorletzte Element

In [16]:
print(test_list[0])
print(test_list[-1])
print(test_list[-4:])

10
32
[26, 28, 30, 32]


Zugriff auf die Drittel

### Schleifen

Wenn Sie mit einzelnen Elementen eines list / tuple Objekts arbeiten, können Sie eine [for Schleife](https://docs.python.org/3/tutorial/controlflow.html#for-statements) verwenden.<br>
Geben Sie die Elemente von test_list einzeln in einer for-Schleife aus.<br>
Wenn Sie zusätzlich mit dem Index eines Elements arbeiten wollen verwenden Sie [`enumerate()`](https://docs.python.org/3/library/functions.html#enumerate).

Geben Sie in der Schleife zu jedem Element noch dessen Index aus.

### III. Komplexere Operationen auf Sequenzen
_________

Kommen wir nun noch einmal zu dem initialen Beispiel zurueck.

In [None]:
test_list = [1, 1.0, '1.0']

Geben Sie nun den Inhalt des list Objekts in folgender Form in der Konsole aus: `[ <type: value>, ... ]`. Also konkret für unser Beispiel: `[ <int: 1>, <float: 1.0>, <string, 1.0> ]`. Verwenden Sie dazu eine for Schleife und die Methoden [`type(obj).__name__`](https://docs.python.org/3/library/functions.html#type) und [`str()`](https://docs.python.org/3/library/functions.html#func-str).
    
Konstruieren Sie einen string, den Sie am Ende ausgeben. Zwei strings lassen sich mit `+` konkatenieren. 
SEHR SCHLECHTER STIL (siehe unten).

In [20]:
[ f"<{type(ele).__name__}:{ele}>" for ele in test_list]

['<int:10>',
 '<int:12>',
 '<int:14>',
 '<int:16>',
 '<int:18>',
 '<int:20>',
 '<int:22>',
 '<int:24>',
 '<int:26>',
 '<int:28>',
 '<int:30>',
 '<int:32>']

Leider ist das Konkatenieren von strings mit `+` sehr ineffizient. Da strings nicht veränderbar sind (immutable), muss jedesmal neuer Speicher reserviert werden und der Inhalt des alten Speichers kopiert werden.  
Stattdessen verfügen strings über eine [`join()`](https://docs.python.org/3/library/string.html#string.join) Funktion. Dieser übergibt man die zu konkatenierenden strings als Sequenz (z.B. tuple oder list).  
Da wir unsere Datenstruktur iterativ aufbauen wollen und tuple nach der Erzeugung nicht veränderbar sind, verwenden wir eine [Liste](https://docs.python.org/3/tutorial/introduction.html#lists "Python List tutorial").

Ein einfache und effiziente Methode strings zu formatieren bietet der [%-Operator](https://docs.python.org/3/library/stdtypes.html#old-string-formatting) für strings. Beispeil:  
`type_val_str = '<%s, %s>' % (obj_type.__name__, obj)`

Alternativ können strings auch mit der [`format()`](https://docs.python.org/3/tutorial/inputoutput.html#the-string-format-method) Funktion formatiert werden. Beispiel:  
`type_val_str = '<{}: {}>'.format(obj_type.__name__, obj)`

Auf diese Weise lässt sich der `+` Operator zur Konkatenation von strings komplett vermeiden.

### IV. List Comprehensions
_________

Eine effiziente und sehr mächtige Methode zum Generieren von Listen sind [list comprehensions](https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions).

Erstellen Sie gemäß des vorherigen Beispiels eine Liste mit Typenamen für die Elemente in *test_list*. 

Verwenden Sie dann die [`zip()`](https://docs.python.org/3/library/functions.html#zip) Methode, um eine Liste von tuple Ojekten der Form `[(type_name,obj),...]` zu erhalten.

In [23]:
new_list = [ f"<{type(ele).__name__}:{ele}>" for ele in test_list]
print(list(zip(new_list)))

[('<int:10>',), ('<int:12>',), ('<int:14>',), ('<int:16>',), ('<int:18>',), ('<int:20>',), ('<int:22>',), ('<int:24>',), ('<int:26>',), ('<int:28>',), ('<int:30>',), ('<int:32>',)]


Verwenden Sie diese Liste mit einer list comprehension, um wieder eine Liste von strings der Form 
`<obj_type_name, obj>` zu erzeugen. Das Ergebnis können Sie dann wieder mit `string.join()` ausgeben.

### V. Dictionaries
_________

Für die folgenden Aufgaben benötigen wir eine Klasse welche uns Zufallszahlen erzeugt. Dazu haben wir zuvor die Klasse `RandomArrayGenerator` aus dem Modul [common.python_intro_functions](../common/python_intro_functions.py) importiert. Schauen Sie sich bei der Gelegenheit [objektorientierte Konzepte](https://docs.python.org/3/tutorial/classes.html) in Python an. Schauen Sie sich dabei auch [Default-Argumente](https://docs.python.org/3/tutorial/controlflow.html#default-argument-values) an.

Nun schauen wir uns den [dict](https://docs.python.org/3/tutorial/datastructures.html#dictionaries) Datentyp an. Dabei handelt es sich um Hashmaps, die von einem Schlüssel Objekt auf ein Wert Objekt abbilden.

Gegeben sei die folgende zufällig erzeugte Liste. Beim Funktionsaufruf wurden [Keyword-Argumente](https://docs.python.org/3/tutorial/controlflow.html#keyword-arguments) verwendet.

In [35]:
rand_arr_gen = RandomArrayGenerator()
rand_arr = rand_arr_gen.rand_gauss(arr_shape=(20,), mean=20, std_deviation=5)
rand_list = list(rand_arr)
rand_list

[14.477531425834911,
 20.127775577571306,
 19.54430703981003,
 19.213172900902673,
 25.174348142607236,
 28.27389147810107,
 15.280323080154087,
 19.630114631383478,
 19.57765788136243,
 23.36301612812457,
 7.925492458050851,
 22.74892524234474,
 29.85266109057342,
 11.835920782850598,
 16.41531575572247,
 23.920144663557142,
 20.147811647545616,
 23.58894887037309,
 13.964415202433216,
 27.349405482267656]

Verwenden Sie nun eine list comprehension, um die Elemente der Liste rand_list ganzzahlig zu [runden](https://docs.python.org/3/library/functions.html#round) und 
zu einem [int zu konvertieren](https://docs.python.org/3/library/functions.html#int).

In [38]:
rounded_list = [round(num) for num in rand_list]
rounded_list_types = [type(num) for num in rounded_list]
print(rounded_list_types)

[<class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>, <class 'int'>]


Verwenden Sie dann ein dict Object, um zu zählen wie oft jeder int in der Liste auftritt.
Als Schlüssel verwenden Sie dabei den int, als Wert die entsprechende Anzahl.
Sie bestimmen also ein Histogramm, das die empirische Verteilung der Daten darstellt.

In [39]:
hist = {}
print(type(hist))

<class 'dict'>


In [42]:
for num in rounded_list:
	if hist.get(num , None):
		hist[num] += 1
	else:
		hist[num] = 1
print(hist)

{14: 6, 20: 15, 19: 3, 25: 3, 28: 3, 15: 3, 23: 6, 8: 3, 30: 3, 12: 3, 16: 3, 24: 6, 27: 3}


Geben Sie anschließend das dict Objekt nach Schlüssel sortiert in der Konsole aus. 
Verwenden Sie die [`sorted()`](https://docs.python.org/3/howto/sorting.html#sortinghowto) Methode.

In [44]:
print(sorted(hist))

[8, 12, 14, 15, 16, 19, 20, 23, 24, 25, 27, 28, 30]


**Optional:** Sehen Sie sich die Klasse [`collections.defaultdict`](https://docs.python.org/3/library/collections.html#defaultdict-objects) an. Wie kann der Code für die Histogrammberechnung durch die Verwendung eines defaultdicts vereinfacht werden?

In [53]:
from collections import defaultdict
default_d = defaultdict(int)
for num in rounded_list:
	default_d[num] += 1
print(default_d.items())


dict_items([(14, 2), (20, 5), (19, 1), (25, 1), (28, 1), (15, 1), (23, 2), (8, 1), (30, 1), (12, 1), (16, 1), (24, 2), (27, 1)])
