**Seminar 'Einführung in die prozedurale und objektorientierte Programmierung mit Python'**

![Figure progr](https://www.dh-lehre.gwi.uni-muenchen.de/wp-content/uploads/img/python1819/icons8-buch-48.png)

# Thema 4: Schleifen & Stapelverarbeitung

> Diese Stunde beschäftigt sich mit einem der mächtigsten Programmierkonzepte: den Schleifen. Schleifen zählen wie die Konditionale zu den **Kontrollstrukturen** von Python. Sie ermöglichen es, einen Programmcode beliebig oft auszuführen und auf diese Weise z.B. große Datenmengen seqeuentiell zu verarbeiten. Schleifen sind für die Textlinguistik absolut unerlässlich. Zusätzlich lernen Sie, wie Sie mehrere Dateien in einem Ordner automatisch der Reihe nach als sogenannten Stapel verarbeiten.

## Schleifen

Mithilfe von Schleifen ist es möglich, bestimmte Programmoperationen immer wieder neu auszuführen, um so zum Beispiel große Textmengen nach bestimmten Kriterien auszuwerten und in große Protokoll- & Annotationsdateien zu schreiben. Python kennt zwei Schleifentypen, die im Folgenden genauer vorgestellt werden sollen: `for`-Schleifen und `while`-Schleifen.

### for-Schleife

`for`-Schleifen bestehen wie Konditionale aus zwei Teilen: einem **Schleifenkopf** und einem **Schleifenrumpf**. Im Schleifenrumpf steht der Code, der mithilfe der Schleife wiederholt ausgeführt werden soll. Im Schleifenkopf befinden sich die sogenannten *Laufzeitbedingungen* der Schleife. In Python ist dies bei der `for`-Schleife ein Test auf Enthaltensein eines Elementes in einer Sequenz. Die Syntax für den Schleifenkopf lautet:

```
for Iterierende_Variable in Sequenz:
	Code im Schleifenrumpf
```

Wie auch bei der `if`-,`else`- oder `elif`-Anweisung wird auch hier der Schleifenrumpf stets eingerückt.

Als **Sequenzen** gelten alle zusammengesetzten Datentypen (Listen, Tupel, Mengen und Dictionaries) und auch Strings. Deshalb werden diese Datentypen auch als *sequenzielle Datentypen* bezeichnet. Wird eine solche Sequenz in den Schleifenkopf einer `for`-Schleife geschrieben, wird sie von Anfang bis Ende durchlaufen. Bei jedem Schleifendurchlauf wird das aktuelle Element aus der Liste durch die **iterierende Variable** angesprochen:

In [1]:
#Definition einer Liste:
liste = ["Das", "ist", "die", "Liste"]

for wort in liste: #Durchlaufen der Liste "liste" bis zum Ende, die iterierende Variable hat den Variablennamen "wort".
    print(wort)#Ausgabe des jeweils aktuellen Listenelements (Wert in der Variable "wort" pro Schleifendurchlauf).
    print("...")

Das
...
ist
...
die
...
Liste
...


Wenn mittles einer `for`-Schleife über einen **String** iteriert wird ist das aktuelle Element jedes Schleifendurchlaufs ein Zeichen aus der Zeichenkette:

In [3]:
satz = "Hallo Welt"

for buchstabe in satz:
    print(buchstabe)
    print("bla bla")
    
satztwo = ["hallo Welt"]

for x in satztwo:
    print(x)
    print("po")

H
bla bla
a
bla bla
l
bla bla
l
bla bla
o
bla bla
 
bla bla
W
bla bla
e
bla bla
l
bla bla
t
bla bla
hallo Welt
po


**Tupel** und **Mengen** lassen sich ebenfalls mit einer `for`-Schleife verarbeiten:

In [6]:
tupel = ('a','b','c')

for elem in tupel:
    print(elem)
    
print('....')
menge = {1,2,3,4}

for elem in menge:
    print(elem)
    print("lala")
    
print("lolo")

a
b
c
....
1
lala
2
lala
3
lala
4
lala
lolo


Auch **Dictionaries** können mit einer `for`-Schleife durchlaufen werden. Die iterierende Variable wird jedoch wieder mit den **Schlüsseln** des Dictionaries besetzt und nicht mit dessen Werten:

In [16]:
tiere = {"Hund":"Hasso","Elefant":"Stampfi","Biene":"Willy"}

#Iteration über die Schlüssel des Dictionaries:
for tier in tiere:
    print (tier)

Hund
Elefant
Biene


Um bei der Iteration über die Schlüssel die einzelnen **Werte** des Dictionaries im Schleifenkörper auszugeben, kann wie üblich der **Index-Operator** benutzt werden. Somit wird das Dicitionary also nacheinander nach jedem Wert eines Schlüssels abgefragt:

In [17]:
#Zugriff auf die Werte des Dictionaries über Index:
for x in tiere:
    print (tiere[x])

Hasso
Stampfi
Willy


#### Spezielle Methoden beim Iterieren über Dictionaries
Unter Verwendung der `values()`-Methode kann man **direkt über die Werte** eines Dictionaries iterieren:

In [19]:
#Iteration über die Werte des Dictionaries:
for a in tiere.values():
    print(a)

Hasso
Stampfi
Willy


Mit der `items()`-Methode kann **über die Schlüssel-Werte-Paare** eines Dictionaries iteriert werden:

In [13]:
tiere = {"Hund":"Hasso","Elefant":"Stampfi","Biene":"Willy","Reh":"Bambi","Kater":"Garfield"}
#Iteration über Schlüssel-Wert-Paare des Dictionaries:
for paar in tiere.items():
    print (paar)

('Hund', 'Hasso')
('Elefant', 'Stampfi')
('Biene', 'Willy')
('Reh', 'Bambi')
('Kater', 'Garfield')


Die Elemente der von der `items()`-Funktion generierten Schlüssel-Wert-Tupel können innerhalb der Schleife über den **Tupelindex** oder über **Schleifenvariablen** angesprochen werden:

In [24]:
#Zugriff auf Elemente der Schlüssel-Wert-Paar-Tupel mit Tupel-Index:    
for paar in tiere.items():
    print (paar[0], ":", paar[1])
    print("\n")

print("\n")

#Zugriff auf Elemente der Schlüssel-Wert-Paar-Tupel mit Schleifenvariablen:    
for b, c in tiere.items():
    print (b, ":", c)
    print("\n")

Hund : Hasso


Elefant : Stampfi


Biene : Willy




Hund : Hasso


Elefant : Stampfi


Biene : Willy




### Start- & Endwert beim Schleifendurchlauf: Die range()-Funktion  

Ähnlich wie in vielen anderen Programmiersprachen kann auch in Python eine Zahlensequenz definiert werden, anhand derer eine Sequenz durchlaufen wird. Zahlensequenzen können mithilfe der Funktion `range()` erzeugt werden:

`range(Startwert, Endwert-1, Schrittgrösse)`

Der **Endwert** der Range liegt immer 1 unter dem angegebenen Wert. Startwert und Schrittgröße sind optionale Argumente:
* Wird der **Startwert** nicht angegeben, so beginnt die Range automatisch bei 0.
* Wird die **Schrittgrösse** nicht angegeben, so liegt diese automatisch bei +1.

In [25]:
#Definition einer Liste:
liste = ["Das", "ist", "die", "Liste"]

print("Nur Startwert")
for zahl in range(3):
    print("range(3):", liste[zahl])

print("\nStartwert und Endwert")
for zahl in range(1, 3):
    print("range(1, 3):", liste[zahl])

print("\nStartwert, Endwert und Schrittgröße")
for zahl in range(0, 4, +2):
    print("range(0, 2, +2):", liste[zahl])

Nur Startwert
range(3): Das
range(3): ist
range(3): die

Startwert und Endwert
range(1, 3): ist
range(1, 3): die

Startwert, Endwert und Schrittgröße
range(0, 3, +2): Das
range(0, 3, +2): die


Um die Ausgabe einer Schleife in eine Datei zu speichern, kann folgendes Beispielskript verwendet werden. Dies ist oft sinnvoll, wenn sehr viele Ergebnisse zu erwarten sind:

In [26]:
###SCRIPT: Gerade und ungerade Zahlen###
#Importieren der benoetigten Module am Skriptanfang:


maximum = int(input("Bis wohin soll gezaehlt werden? "))+1

#Das Setzen des Pointers sollte ausserhalb der Schleife erfolgen:
r_pointer = open("pythontext_schleife.txt", "w", encoding="utf8")

for zahl in range(1, maximum, +1):

    if zahl%2 == 0:	#Modulo: Wenn Zahl gerade dann ist der Rest der Division 0.
        r_pointer.write("Die Zahl " + str(zahl) + " ist gerade.\n")
    else:
        r_pointer.write("Die Zahl " + str(zahl) + " ist ungerade.\n")

#Das Schliessen des Pointers sollte ausserhalb der Schleife erfolgen:
r_pointer.close()	#Schliessen
#Report des Ergebnisses:
print("Zahlen bis", maximum-1, "erfolgreich geschrieben.")

Bis wohin soll gezaehlt werden? 50
Zahlen bis 50 erfolgreich geschrieben.


### Verschachtelung von Schleifen (Nesting)

Analog zur Verschachtelung von Konditionalen können auch Schleifen innerhalb von Schleifen ausgführt werden (Nesting von Schleifen). Diese Verwendung ist für die Formatierung von Text in der Korpuslinguistik Standard:

In [35]:
# Erzeugung einer zweidimensionalen Liste
text = [
    [
        "Das", 
        "ist", 
        "der", 
        "erste",
        "."
    ],
    [
        "Und", 
        "das", 
        "hier",
        "der", 
        "Zweite", 
        "!"
    ],
    [
        "Dann", 
        "das", 
        "dritte", 
        "!"
    ]
]

# Setzen zweier Counter
counter_satz = 1
counter_wort = 1

# Konstruktion der äußeren Schleife
for x in text:  # Verarbeitung auf Satzebene
    for y in x:  # Verarbeitung auf Wortebene
        print("SatzNr:", counter_satz, "WortNr:", counter_wort, "Wort:", y)
        counter_wort += 1  # Hochsetzen des Counters für Wort
    counter_satz += 1  # Hochsetzen des Counters für Satz
    counter_wort = 1   # Zurücksetzen des Wort-Counters für den nächsten Satz


SatzNr: 1 WortNr: 1 Wort: Das
SatzNr: 1 WortNr: 2 Wort: ist
SatzNr: 1 WortNr: 3 Wort: der
SatzNr: 1 WortNr: 4 Wort: erste
SatzNr: 1 WortNr: 5 Wort: .
SatzNr: 2 WortNr: 1 Wort: Und
SatzNr: 2 WortNr: 2 Wort: das
SatzNr: 2 WortNr: 3 Wort: hier
SatzNr: 2 WortNr: 4 Wort: der
SatzNr: 2 WortNr: 5 Wort: Zweite
SatzNr: 2 WortNr: 6 Wort: !
SatzNr: 3 WortNr: 1 Wort: Dann
SatzNr: 3 WortNr: 2 Wort: der
SatzNr: 3 WortNr: 3 Wort: dritte
SatzNr: 3 WortNr: 4 Wort: !


### while-Schleife

Auch `while`-Schleifen bestehen aus einem Schleifenkopf und einem Schleifenrumpf. Der Unterschied zur `for`-Schleife liegt  in den Laufzeitbedingungen, die bei `while`-Schleifen alle Arten von booleschen Ausdrücken darstellen. Die Schleife läuft, bis die Bedingung im Schleifenkopf falsch wird. 

Im folgenden Beispiel wird die Wörterliste durchlaufen, so lange der Schleifeninhalt nicht das Wort *'die'* enthält:

In [37]:
#Definition einer Liste:
liste = ["Das", "ist", "o", "R", "die", "Liste"]

n = 0 #Setzen eines Counters fuer den Listenindex
while liste[n] != "die": #Bedingung: Aktuelles Listenitem ungleich 'die'
    print(liste[n])
    n = n+1 #Hochsetzen des Listenindex
    

Das
ist
o
R


`while`- und `for`-Schleifen können mit einem `else`-Statement verbunden werden. Das `else`-Statement wird ausgeführt, wenn die Schleife verlassen wird:

In [1]:
#Definition einer Liste:
liste = ["Das", "ist", "die", "Liste"]

n = 0 #Setzen eines Counters fuer den Listenindex
while liste[n] != "die": #Bedingung: Aktuelles Listenitem ungleich 'die'
    print(liste[n])
    n = n+1 #Hochsetzen des Listenindex
else:
    print("Das gesuchte Wort war in der Liste. Sie wird ab Position", n, "nicht mehr durchsucht.")

Das
ist
Das gesuchte Wort war in der Liste. Sie wird ab Position 2 nicht mehr durchsucht.


Um eine potentiell endlose Schleife zu konstruieren, können Sie Bedingungen im Schleifenkopf einsetzen, die immer wahr bleiben:

In [None]:
## Eine endlose Schleife mit Tautologie:
#while 1 == 1:
#    print("Das endet nie.")

## Einfache Schreibweise fuer endlose Schleifen:
#while True:
    #print("Das endet nie.")

Vermeiden Sie die Konstruktion endloser Schleifen ohne weitere Kontrollmechanismen! Endlosschleifen werden laufen, bis gewisse Sicherheitsprotokolle von Python den Prozess beenden, oder bis Ihr Computer abstürzt. Editoren wie PyCharm bietet Ihnen die Möglichkeit, endlose Schleifen abzubrechen.

### Schleifenkontrolle: break & continue

Der Programmablauf innerhalb einer Schleife lässt sich durch zwei Statements kontrollieren, dem `break`- und dem `continue`-Statement. Beide Statements werden in der Regel im Rahmen von Konditionalen eingesetzt:

* `break`: beendet die Schleife unmittelbar am Punkt des `break`-Statements. Es werden keine weiteren Schleifendurchläufe ausgeführt, das Script wird nach dem Schleifenrumpf fortgesetzt.
* `continue`: beendet den aktuellen Schleifendurchlauf am Punkt des `continue`-Statements. Weiterer Code im Schleifenrumpf wird nicht mehr ausgeführt, der nächste Schleifendurchlauf wird aber gestartet und läuft normal.

Im folgenden Skript wird das `continue`-Statement eingesetzt, um aus einer Tokenliste leere Zeilen zu entfernen. Dazu wird zunächst die Datei mit der Tokenliste aufgerufen und der Inhalt in eine Liste gespeichert. Die Liste wird mit einer `for`-Schleife durchlaufen und die einzelnen Tokens in eine neue Datei geschrieben. Wenn es sich um eine leere Zeile handelt, die lediglich aus einem Zeilenumbruch besteht, wird der Schreibprozess übersprungen und zum nächsten Token gegangen. Da alle Schreibprozesse mit leeren Zeilen übersprungen wurden, enthält die resultierende Datei keine Leerzeilen mehr:

In [2]:
###SCRIPT: Entfernung von Leerzeilen aus Tokenliste###
#Aktive Module:

#Oeffnen der Datei
r_pointer = open("./Seminar/schleife_break_cont.txt", "r", encoding="utf8") #Oeffnen
textinhalt = r_pointer.readlines()	#Auslesen
r_pointer.close()

#Schreiben der bereinigten Datei
w_pointer = open("./Seminar/schleife_break_cont.txt", "w", encoding="utf8") #Oeffnen

#Setzen zweier Counter fuer die Schleife:
counter_zeile = 0 #IDs fuer die einzelnen Worttokens
counter_cont = 0 #Zaehlt entfernte Leerzeilen

for zeile in textinhalt:

    counter_zeile = counter_zeile+1 #Inkrementieren des ID-Counters

    if zeile == "\n": #Wenn eine Zeile nur aus einem Zeilenumbruch \n besteht:
        counter_cont = counter_cont+1
        continue #Springen zum naechsten Schleifendurchlauf
#ANMERKUNG: nach dem continue-Statement wird der Code nicht weiter ausgefuehrt. Der Write-Vorgang wird im aktuellen Durchlauf nicht gestartet.
    print(str(counter_zeile) + "\t" + zeile+"\n")
    w_pointer.write(str(counter_zeile) + "\t" + zeile)

w_pointer.close() #Schliessen

#Zusammenfassung des Skriptes: Entfernte Leerzeilen.
print("Entfernte Leerzeilen:", counter_cont)

#Ausgabe des Dateiinhalts:
print("\nDateiinhalt:")
r_pointer = open("./Seminar/schleife_break_cont.txt", "r", encoding="utf8")
dateiinhalt = r_pointer.read()
print(dateiinhalt)
r_pointer.close() #Schliessen

FileNotFoundError: [Errno 2] No such file or directory: './Seminar/schleife_break_cont.txt'

---
In diesem kurzen Skript sehen Sie die Funktionsweise des `break`-Statements. Es dient dazu, Schleifen zu verlassen:

In [3]:
###SCRIPT: Wiederholte Eingabe###
while True: #Im Grunde eine Endlosschleife, da aber in jedem Durchlauf eine Eingabe erwartet wird unproblematisch.
    eingabewort = input("Geben Sie bitte das Wort 'Haus' ein: ")
    if eingabewort == "Haus":
        break
    print("Sie haben ein falsches Wort eingegeben!")

print("Ihre Eingabe war korrekt.")

Geben Sie bitte das Wort 'Haus' ein: dsd
Sie haben ein falsches Wort eingegeben!
Geben Sie bitte das Wort 'Haus' ein: Haus
Ihre Eingabe war korrekt.


In [None]:
# Beispiel: Passworteingabe

passwort = "geheim123"
try_counter = 3

while True:
    passwortversuch = input("Geben Sie Ihr Passwort ein: ")
    try_counter = try_counter-1
    if try_counter >= 0:
        if passwortversuch == passwort:
            print(" .... login .... ")
            break
        print("Falsches Passwort, Sie haben noch", try_counter, "Versuche.\nBitte nochmal eingeben: ")
        
    else:
        print("ihr Computer wird jetzt zerstört !!!!!!!!!!!")
        break



## Stapelverarbeitung (Verarbeitung mehrerer Dateien)

Häufig werden Sie nicht nur eine Textdatei gleicher Formatierung einlesen, sondern Dutzende oder gar Hunderte. Um die Dateien einzulesen, verwenden Sie das Modul `glob`, welches Ihnen eine Liste mit allen Dateinamen eines Ordners liefert, auf den das Suchmuster in der globalen Suchfunktion passt:

`glob(SUCHMUSTER)`

Im Folgenden Beispiel wird eine Liste mit allen Dateinamen im aktuellen Verzeichnis des Skriptes erstellt. Die Dateien selbst werden mithilfe eines Suchmusters ermittelt, bei dem vor der Dateiendung `.txt` der Platzhalter `*` für einen beliebigen Dateinamen steht:

In [None]:
#Importieren des Modules glob und Zuweisung einer Abkürzung:
import glob as g

#Erstellung der Dateiliste, Verwendung von * als Platzhalter:
dateiliste = g.glob("*.txt")

print(dateiliste)
#AUSGABE: Ausgabe sind alle .txt-Dateien im Verzeichnis.