**Seminar 'Einführung in die prozedurale und objektorientierte Programmierung mit Python'**

![Figure progr](https://www.dh-lehre.gwi.uni-muenchen.de/wp-content/uploads/img/python1819/icons8-buch-48.png)

# Thema 5: Stringmethoden

> Diese Sitzung beschäftigt sich mit der systematischen Verarbeitung von Texten. Stringmethoden sind die wichtigsten Operatoren, wenn es um die Verarbeitung von Texten geht.

## Wichtige Stringmethoden

In diesem Kapitel sollen einige Stringoperationen gezeigt werden, die eine zentrale Bedeutung bei der Verarbeitung von Texten aufweisen. Mithilfe dieser Stringoperationen können Texte systematisch zerlegt, Teilstrings gesucht und ersetzt oder auch entfernt werden. Für die Formatierung eines Fließtextes - beispielsweise in ein brauchbares Datenbankformat - sind folgende String-Methoden unerlässlich.

**Anmerkung:** Die Angabe der Argumente in eckigen Klammern ([ ]) bedeutet, dass die Übergabe von Argumenten an dieser Stelle optional ist. Manche Stringmethoden können somit auch ohne Argumente aufgerufen werden.


### **Methoden zum Trennen von Strings**

 | Methode/Beispiel | Beschreibung | 
 | --- | --- | 
 |`s.split([sep, maxsplit])` | Teilt den inhalt der Variablen `s` beim Vorkommen von `sep`. Die Suche beginnt am String-Anfang. Wenn Sie keine Zeichen als Argument angeben, erfolgt die Zerlegung am Leerzeichen. Sie können als zweites Argument `maxsplit` eine Zahl übergeben die festlegt, wie häufig die Zerlegung maximal stattfinden soll. |
 |`s.rsplit([sep, maxsplit])` | Teilt den Inhalt der Variablen `s` beim Vorkommen von `sep`. Die Suche beginnt am String-Ende. Es gelten die selben Bedingungen wie bei `s.split()`. |
 |`s.splitlines([keepends])` | Teilt den Inhalt der Variablen `s` beim Vorkommen von Zeilenvorschüben (`"\n"`). Sollen die trennenden Zeilenvorschübe an den Enden der Zeilen erhalten bleiben, muss für den optionalen Parameter `keepends` der Wert `True` übergeben werden. |

---
#### .split([sep, maxsplit])

In [None]:
s = "Hallo, das ist ein Text, den wir trennen wollen."

# Beispiel 1:
s_new1 = s.split() # Zerlegung am Leerzeichen
print(s_new1)

# Beispiel 2:
s_new2 = s.split(", ") # Zerlegung an Kommata, .split mit Argument 1
print(s_new2)

# Beispiel 3:
s_new3 = s.split(", ", 1) # Zerlegung am Komma, .split mit Argument 1 & 2
print(s_new3)

# Beispiel 4:
s_new3 = s.split(maxsplit = 1) # Zerlegung am Leerzeichen, .split mit Argument 2
print(s_new3)

---
#### .rsplit([sep, maxsplit])

In [None]:
s = "Hallo, das ist ein Text, den wir trennen wollen."

# Beispiel 1:
s_new1 = s.rsplit() # Zerlegung am Leerzeichen
print(s_new1)

# Beispiel 2:
s_new2 = s.rsplit(", ") # Zerlegung an Kommata, .split mit Argument 1
print(s_new2)

# Beispiel 3:
s_new3 = s.rsplit(", ", 1) # Zerlegung am Komma, .rsplit mit Argument 1 & 2
print(s_new3)

# Beispiel 4:
s_new3 = s.rsplit(maxsplit = 1) # Zerlegung am Leerzeichen, .split mit Argument 2
print(s_new3)

---
#### .splitlines([keepends])

In [None]:
s = "Hallo\nDas ist ein Text\nBitte behalte meine Newlines\n"

# Beispiel 1:
s_new1 = s.splitlines() # Zerlegung an \n
print(s_new1)

# Beispiel 2:
s_new2 = s.splitlines(True) # Zerlegung an \n ; \n wird behalten
print(s_new2)

---
### Methoden zum Finden von Teilstrings

| Methode/Beispiel | Beschreibung | 
| --- | --- |
|`s.find(sub, [start, end])` | Sucht den (Teil)string `sub` im string `s`. Die Suche Beginnt am String-Anfang. Mit der Übergabe der optionalen Parameter `start` und `end` lässt sich die Suche eingrenzen und es wird nur der Teilstring `s[start:end]` betrachtet (das Element `s[end]` ist hierbei in der Betrachtung nicht mehr enthalten).|
|`s.rfind(sub, [start, end])` | Sucht den (Teil)string `sub` im string `s`. Die Suche Beginnt am String-Ende. Es gelten die selben Bedingungen wie bei `s.find()`.|
|`s.count(sub, [start, end])` | Zählt die Vorkommen von `sub` im string `s`.|

---
#### .find(sub, [start, end])

In [None]:
s = "Hallo ich bin ein Text! Finde das 'e'!"

# Beispiel 1:
ergebnis = s.find("e")
print(s.find("e")) # Ausgabe der Position des zuerst gefundenen 'e', von vorne gesucht

#Beispiel 2:
print(s.find("e", 15, 30)) # Ausgabe der Position des zuerst gefundenen 'e', gesucht wird von Position 15 bis 29.

---
#### .rfind(sub, [start, end])

In [None]:
s = "Hallo ich bin ein Text! Finde das 'e'!"

# Beispiel 1:
print(s.rfind("e")) # Ausgabe der Position des zuerst gefundenen 'e', von hinten gesucht

# Beispiel 2:
print(s.rfind("e", 15, 30)) # Ausgabe der Position des zuerst gefundenen 'e', gesucht wird von Position 29 bis 15.

---
#### .count(sub, [start, end])

In [None]:
s = "Hallo ich bin ein Text mit extreeeeeeem vielen e! Finde alle 'e'!"

# Beispiel 1:
print(s.count("e")) # Ausgabe der Anzahl aller 'e'

# Beispiel 2:
print(s.count("e", 26, 40)) # Ausgabe der Anzahl aller 'e', gezählt wird von Position 26 bis 39

---
### Methoden zum Ersetzen von Teil-Strings

| Methode/Beispiel | Beschreibung | 
 | --- | --- |
 | `s.replace(old, new, [count])` | Ersetzt die Vorkommen von `old` in `s` durch `new`. Mit der Übergabe des optionalen Parameters `count` lässt sich die maximale Ersetzungszahl festlegen.|
 |`s.lower()` | Ersetzt alle Großbuchstaben in `s` durch entsprechende Kleinbuchstaben.|
 |`s.upper()` | Ersetzt alle Kleinbuchstaben in `s` durch entsprechende Großbuchstaben.|
 

---
#### .replace(old, new, [count])

In [None]:
s = "Halo, ich bin ein Text. Ich wil zwei l!"

# Beispiel 1:
s_new1 = s.replace("l", "ll") # Ersetzen aller 'l' durch 'll'
print(s_new1)

# Beispiel 2:
s_new2 = s.replace("l", "ll", 2) # Ersetzen der ersten beiden 'l' durch 'll'
print(s_new2)

---
#### .lower() *und* s.upper()

In [None]:
s = "Hallo, ich bin ein Beispieltext."

# Beispiel .lower():
print(s.lower())

# Beispiel .upper():
print(s.upper())

---
### Methoden zum Entfernen bestimmter Zeichen am String-Anfang und String-Ende

| Methode/Beispiel | Beschreibung | 
 | --- | --- | 
 | `s.strip([chars])` | Entfernt Zeichen `chars` am Anfang und am Ende von `s`. Werden keine Zeichen als Argument angegeben, werden alle Whitespaces (Leerzeichen, Newlines, Tabulatoren, ...) entfernt.| 
 | `s.lstrip([chars])` | Entfernt Zeichen `chars` am linken Ende von `s`. Es gelten die selben Bedingungen wie bei `s.strip()`| 
 | `s.rstrip([chars])` | Entfernt Zeichen `chars` am rechten Ende von `s`. Es gelten die selben Bedingungen wie bei `s.strip()`|


---
#### .strip([chars])

In [None]:
s = "000Das ist ein Text mit Formatierungsproblemen.0\n\t"

# Vergleichen Sie die Outputs:
# print(s)
# repr(): Möglichkeit, die vollständige Stringrepräsentation eines Objekts auf die Konsole auszugeben
# print(repr(s)) # so sieht man beispielsweise auch Tabulatorenzeichen oder Newlines als Stringzeichen im String

# Beispiel 1:
s_new1 = s.strip() # .strip ohne Argument: Entfernung \n und \t
print(s_new1)

#  Beispiel 2:
s_new2 = s_new1.strip("0") # Entfernung der 0 an beiden Enden in s_new1
print(s_new2)

# Beispiel 3:
s_new3 = s.strip("0") # Nur wenn das zu "stripende" Zeichen außen am Wortrand steht, kann es entfernt werden
print(s_new3)

---
#### .lstrip([chars])

In [None]:
s = "000Das ist ein Text mit Formatierungsproblemen.0\n"

# Beispiel 1:
s_new1 = s.lstrip() # .strip ohne Argument: Entfernung von \n auf der linken Seite des strings
print(s_new1)

#  Beispiel 2:
s_new2 = s_new1.lstrip("0") #Entfernung der 0 auf der linken Seite des strings
print(s_new2)

---
#### .rstrip([chars])

In [None]:
s = "000Das ist ein Text mit Formatierungsproblemen.0\n"

# Beispiel 1:
s_new1 = s.rstrip() # .strip ohne Argument: Entfernung von \n auf der rechten Seite des strings
print(s_new1)

#  Beispiel 2:
s_new2 = s_new1.rstrip("0") #Entfernung der 0 auf der rechten Seite des strings
print(s_new2)

### Methode zur Verkettung von Elementen in sequenziellen Datentypen zu einem String

| Methode/Beispiel | Beschreibung | 
 | --- | --- |
 |`s.join(seq)` | Verkettet die Elemente der Sequenz `seq` zu einem neuen String, wobei `s` als Trennzeichen dient. Der Parameter `seq` ist hierbei ein beliebiges iterierbares Objekt, dessen Elemente alle Strings sein müssen.|
 

---
#### .join(seq)

In [None]:
##### Beispiel 1:
liste = ["Max", "Lara", "Tobias", "Horst", "Sepp"]
string = ", ".join(liste) # Verkettung aller Listenelemente zu einem neuen String mit dem Trennzeichen ", "
print(string)

##### Beispiel 2:
text  = "Hallo"
buchstaben = " - ".join(text) # Verkettung der Elemente des Strings "Hallo" zu einem neuen String mit dem Trennzeichen " - "
print(buchstaben)

##### Beispiel 3:
liste = ["www", ".", "lmu-muenchen", ".", "de"]
website = "".join(liste) # Verkettung aller Listenelemente zu einem neuen String mit leerem Trennzeichen
print(website)

---
### Formatierung von Strings: Die `.format()`-Methode

Die Konkatenation von Strings und Variablen kann mithilfe der `format()`-Methode erleichtert werden. Hierzu wird die Methode auf einen beliebigen String angewendet, im String fungiert die Zeichenkombination `{}` als Platzhalter. Für jeden Platzhalter wird der Methode ein Argument übergeben, welches in der Platzhalterreihenfolge in den String eingebaut wird:

`"... {x} ... {y} ... {z} ...".format(x,y,z)`

Im Folgenden ein Beispiel:

In [None]:
ph_1 = "Peter Huber"
ph_2 = "Goethestraße 3b"
ph_3 = "80939 München" 

print("Herr {} wohnt in der {} in {}".format(ph_1, ph_2, ph_3))
print("Herr {name} wohnt in der {strasse} in {ort}".format(name = "Franz Huber", strasse = ph_2, ort = ph_3))


### Beispiel: Zerlegung und Tokenisierung eines Fließtextes

Der folgende Text wird schrittweise allein mithilfe der `replace()`, `strip()` und `split()`-Methoden in einen tokenisierten Fließtext umgewandelt. Damit die doppelten Hochkommata `"` nicht als Funktionszeichen berücksichtigt werden, kommen zur Maskierung des Strings einfache Hochkommata `'` zum Einsatz. Der Text lautet:

> "Die Zauberformel lautet: Wechselseitiges Wohlwollen", sagt der Philosoph und Bestseller-Autor Wilhelm Schmid ("Gelassenheit"). "Ich muss nur selber wissen, was ich will, dann kann ich auch dem Anderen wohlwollen." Für Schmid, "seit 35 Jahren mit Freuden mit ein und derselben Frau zusammen", macht bereits die bloße Kontinuität einer Beziehung Sinn. - **SZ** *'Mach\`s wie die Queen'*

In [None]:
text_sz = '"Die Zauberformel lautet: Wechselseitiges Wohlwollen", sagt der Philosoph und Bestseller-Autor Wilhelm Schmid ("Gelassenheit"). "Ich muss nur selber wissen, was ich will, dann kann ich auch dem Anderen wohlwollen." Für Schmid, "seit 35 Jahren mit Freuden mit ein und derselben Frau zusammen", macht bereits die bloße Kontinuität einer Beziehung Sinn.'

text_sz_format = text_sz.replace('"', ' " ')
text_sz_format = text_sz_format.replace('(', '( ')
text_sz_format = text_sz_format.replace(')', ' )')
text_sz_format = text_sz_format.replace(':', ' :')
text_sz_format = text_sz_format.replace('.', ' .')
text_sz_format = text_sz_format.replace(',', ' ,')
text_sz_format = text_sz_format.replace('  ', ' ') # Entfernung doppelter Leerzeichen aus dem Text
text_sz_format = text_sz_format.strip()
text_sz_format = text_sz_format.split(" ")

print(text_sz_format)

### Übungsaufgabe:
Die Datei `Der_gestiefelte_Kater.txt` Enthält das entsprechende Märchen der Gebrüder Grimm. Leider wurde die Textdatei aber manipuliert, sodass es erst nach einer Bereinigung des Textes möglich ist, das komplette Märchen per `print()`Befehl in seiner Originalform auszugeben.
Schreiben Sie ein Programm, welches
- die Datei `Der_gestiefelte_Kater.txt` einliest,
- zählt, wie oft das Wort `NERVIGERSTRINGTOREPLACE⎵` im Text vorkommt, und dieses ersetzt,
- den nun teilbereinigten Text in Wörter zerlegt (*Tip: An dieser Stelle schon überlegen, ob für die Print-Ausgabe später Absätze benötigt werden!*), 
- von den betroffenen Wörtern nun den Substring `123` entfernt (*Tip: Hier muss eine Schleife benutzt werden, welche über die Wörter iteriert!*),
- den nun bereinigten Text mit Leerzeichen aneinandergereiht ausgibt
- und unter die Ausgabe des kompletten Textes per `format()`-Methode folgende Bemerkung mit den Informationen über das heutige Datum und deinen Namen schreibt:`Dieser Text wurde am ... bearbeitet von ...`.


In [None]:
# Lösungsvorschlag:

r_pointer = open("./seminar-material/05-material-seminar/Der_gestiefelte_Kater.txt", "r", encoding="utf-8") # Textdatei öffnen
Der_gestiefelte_Kater = r_pointer.read() # Textdatei als Ganzes einlesen
r_pointer.close() # Textdatei schließen

print("So oft kommr NERVIGERSTRINGTOREPLACE vor:" , Der_gestiefelte_Kater.count("NERVIGERSTRINGTOREPLACE "))
Der_gestiefelte_Kater = Der_gestiefelte_Kater.replace("NERVIGERSTRINGTOREPLACE ", "")
Der_gestiefelte_Kater = Der_gestiefelte_Kater.replace("NERVIGERSTRINGTOREPLACE", "")

Der_gestiefelte_Kater_Zeilen = Der_gestiefelte_Kater.splitlines() # Absätze des ganzen Textes voneinander trennen
Der_gestiefelte_Kater_Final = [] # Leere Liste erstellen, in die nachher die einzelnen bereinigten Wörter eingefüllt werden

for zeile in Der_gestiefelte_Kater_Zeilen: # Absatzweise den Text bearbeiten ...
    wörter_pro_zeile = zeile.split() # ... und in jeder Zeile die Wörter voneinander trennen.
    
    for wort in wörter_pro_zeile: # jedes Wort inerhalb einer Zeile bereinigen ...
        wort = wort.strip("\ufeff123") 
        wort = wort.strip("123")
        Der_gestiefelte_Kater_Final.append(wort) # ... und in die finale Liste einfüllen
    
    Der_gestiefelte_Kater_Final.append("\n") # nachdem ein Absatz fertig bearbeitet ist, wird ein "\n" in die finale Liste eingefüllt, um die Absätze später wieder erzeugen zu können.
    
datum = "25.11.2021" # Befüllen der Variablen für den .format-print
autor = "Veronika Gacia"

Der_gestiefelte_Kater_Final = " ".join(Der_gestiefelte_Kater_Final) #Alle Elemente der finalen Liste mit Leerzeichen aneinanderreihen
print(Der_gestiefelte_Kater_Final)
print("Dieser Text wurde am {} bearbeitet von {}.".format(datum, autor)) # .format-print